wikipedia-corpus

Here are 30 public repositories matching this topic...

ayushidalmia / Wikipedia-Search-Engine

Involves building a search engine on the Wikipedia Data Dump using the data dump of 2013 of size 43 GB. The search results returns in real time.

python search-engine information-retrieval wikipedia-corpus

Updated May 23, 2014
Python

kylemin / DeViSE

Star

Implementation of DeViSE, including wordnet word2vec using gensim library (NIPS 2013)

word2vec wordnet gensim nips wikipedia-corpus nips2013

Updated Jun 30, 2017
MATLAB

jksware / ai-spanish-wikipedia-clustering

Star

Clustering of Spanish Wikipedia articles.

clustering numpy opencl sklearn nltk scipy gpu-acceleration gpu-computing wikipedia-corpus spanish-wikipedia

Updated Aug 21, 2017
Python

moodser / splitter-transliteration

Star

Python script to split the text generated by 'wikipedia parallel title extractor' into separate text files (separate file for each language)

machine-translation transliteration machine-translation-data-processing wikipedia-corpus machine-tranliteration

Updated Aug 16, 2018
Python

krishnadwypayan / SearchEngine

Star

java search-engine information-retrieval wikipedia information-extraction wikipedia-page wikipedia-corpus

Updated Sep 15, 2018
Java

bashkirtsevich-llc / wiki-dump-parser

Star

Wiki dump parser (jupyter)

python parser tutorial jupyter wiki wikipedia xml jupyter-notebook tutorials python3 xml-parser wikia jupyter-notebooks demos wikipedia-dump bz2 tutorial-code wiktionary wikipedia-corpus

Updated Sep 23, 2018
Jupyter Notebook

uma-pi1 / OPIEC

Star

Reading the data from OPIEC - an Open Information Extraction corpus

nlp natural-language-processing wiki wikipedia corpus information-extraction dataset corpora corpus-data nlp-resources wikipedia-dump corpus-tools natural-language-understanding open-information-extraction dataset-interface wikipedia-corpus corpus-processing nlp-datasets

Updated Jun 12, 2019
Java

rajatyadav1994 / Wise--WikiPedia-Search-Engine

Star

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

ksipos / polysemy-assessment

Star

Code and data for the paper 'Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings'

nlp machine-learning deep-learning rankings wordnet wsd ontonotes wikipedia-corpus elmo spark-pyspark pyramid-match-kernels contextual-embeddings polysemy senses unigrams polysemy-quantification multiresolution-grids wordnet-domains

Updated May 13, 2020
Shell

vikash212000yadav / Basic-Chatbot

Star

Interactive chatbot using python :)

python chatbot jupyter-notebook nltk wikipedia-corpus

Updated Jun 19, 2020
Jupyter Notebook

wolfgarbe / WikipediaExport

Star

Convert Wikipedia XML dump files to JSON or Text files

wikipedia wikipedia-api wikipedia-page wikipedia-dump wikipedia-search wikipedia-corpus wikipedia-entries

Updated Sep 23, 2020
C#

afuschetto / wiki-extractor

Star

Command line tool to extract plain text from Wikipedia database dumps

wikipedia wikipedia-dump wikipedia-corpus

Updated Feb 25, 2021
Python

ArisPan / wiki-query

Star

A desktop application that searches through a set of Wikipedia articles using Apache Lucene.

lucene search-interface results-viewer wikipedia-search search-highlighting wikipedia-corpus desktop-search apache-lucene

Updated Apr 15, 2021
Java

howl-anderson / chinese-wikipedia-corpus-creator

Sponsor

Star

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

Triansh / Wiki-Searcher

Star

A search engine trained from a corpus of wikipedia articles to provide efficient query results.

search-engine information-retrieval wikipedia-corpus

Updated Oct 15, 2021
Python

uma-pi1 / OPIEC-pipeline

Star

Updated Feb 26, 2022
Java

IDS-Mannheim / Wikipedia-Corpus-Builder

Star

Builds Wikipedia corpora in I5 (a TEI-based format)

wikipedia xml tei corpus-builder wikipedia-corpus

Updated Jun 21, 2022
Java

GermanT5 / wikipedia2corpus

Star

Wikipedia text corpus for self-supervised NLP model training

nlp machine-learning wikipedia corpus wikipedia-corpus german-nlp somajo

Updated Jul 17, 2022
Python

macbre / faroese-corpus

Star

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

Improve this page

Add a description, image, and links to the wikipedia-corpus topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-corpus topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wikipedia-corpus

Here are 30 public repositories matching this topic...

ayushidalmia / Wikipedia-Search-Engine

kylemin / DeViSE

jksware / ai-spanish-wikipedia-clustering

moodser / splitter-transliteration

krishnadwypayan / SearchEngine

bashkirtsevich-llc / wiki-dump-parser

uma-pi1 / OPIEC

rajatyadav1994 / Wise--WikiPedia-Search-Engine

quqixun / ReadWiki-ZH

ksipos / polysemy-assessment

vikash212000yadav / Basic-Chatbot

wolfgarbe / WikipediaExport

afuschetto / wiki-extractor

ArisPan / wiki-query

howl-anderson / chinese-wikipedia-corpus-creator

Triansh / Wiki-Searcher

uma-pi1 / OPIEC-pipeline

IDS-Mannheim / Wikipedia-Corpus-Builder

GermanT5 / wikipedia2corpus

macbre / faroese-corpus

Improve this page

Add this topic to your repo