wikipedia-corpus

Here are 30 public repositories matching this topic...

ayushidalmia / Wikipedia-Search-Engine

Involves building a search engine on the Wikipedia Data Dump using the data dump of 2013 of size 43 GB. The search results returns in real time.

python search-engine information-retrieval wikipedia-corpus

Updated May 23, 2014
Python

howl-anderson / chinese-wikipedia-corpus-creator

Sponsor

Star

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

kohjiaxuan / Wikipedia-Article-Scraper

Star

A complete Python text analytics package that allows users to search for a Wikipedia article, scrape it, conduct basic text analytics and integrate it to a data pipeline without writing excessive code.

wikipedia wikipedia-api text-analytics wikipedia-article wikipedia-search wikipedia-corpus wikipedia-scraper

Updated Dec 8, 2022
Python

todd-cook / ML-You-Can-Use

Star

Practical ML and NLP with examples.

Updated May 1, 2023
Jupyter Notebook

uma-pi1 / OPIEC

Star

Reading the data from OPIEC - an Open Information Extraction corpus

nlp natural-language-processing wiki wikipedia corpus information-extraction dataset corpora corpus-data nlp-resources wikipedia-dump corpus-tools natural-language-understanding open-information-extraction dataset-interface wikipedia-corpus corpus-processing nlp-datasets

Updated Jun 12, 2019
Java

uma-pi1 / OPIEC-pipeline

Star

Updated Feb 26, 2022
Java

macbre / mediawiki-dump

Star

Python package for working with MediaWiki XML content dumps

python wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus xml-dump mediawiki-dump

Updated Jul 15, 2024
Python

GermanT5 / wikipedia2corpus

Star

Wikipedia text corpus for self-supervised NLP model training

nlp machine-learning wikipedia corpus wikipedia-corpus german-nlp somajo

Updated Jul 17, 2022
Python

OlehOnyshchak / pyWikiMM

Star

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

krishnadwypayan / SearchEngine

Star

java search-engine information-retrieval wikipedia information-extraction wikipedia-page wikipedia-corpus

Updated Sep 15, 2018
Java

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

ArisPan / wiki-query

Star

A desktop application that searches through a set of Wikipedia articles using Apache Lucene.

lucene search-interface results-viewer wikipedia-search search-highlighting wikipedia-corpus desktop-search apache-lucene

Updated Apr 15, 2021
Java

ksipos / polysemy-assessment

Star

Code and data for the paper 'Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings'

nlp machine-learning deep-learning rankings wordnet wsd ontonotes wikipedia-corpus elmo spark-pyspark pyramid-match-kernels contextual-embeddings polysemy senses unigrams polysemy-quantification multiresolution-grids wordnet-domains

Updated May 13, 2020
Shell

Affenmilchmann / lingwiki

Star

(Ongoing module in development) Getting Wikipedia articles parsed content. Created for getting text corpuses data fast and easy. But can be freely used for other purpuses too

parser wikipedia multithreading linguistics corpus-linguistics corpus-data corpus-tools article-extractor wikipedia-corpus