wikipedia-corpus

Here are 30 public repositories matching this topic...

Affenmilchmann / lingwiki

(Ongoing module in development) Getting Wikipedia articles parsed content. Created for getting text corpuses data fast and easy. But can be freely used for other purpuses too

parser wikipedia multithreading linguistics corpus-linguistics corpus-data corpus-tools article-extractor wikipedia-corpus

Updated Jan 3, 2023
Python

macbre / faroese-corpus

Star

Some Faroese language statistics taken from fo.wikipedia.org content dump

linguistics corpus-linguistics python3-script wikipedia-dump wikipedia-corpus linguistic-analysis faroe faroese faroese-language

Updated Dec 8, 2022
Python

IDS-Mannheim / Wikipedia-Corpus-Builder

Star

Builds Wikipedia corpora in I5 (a TEI-based format)

wikipedia xml tei corpus-builder wikipedia-corpus

Updated Jun 21, 2022
Java

rajatyadav1994 / Wise--WikiPedia-Search-Engine

Star

A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

search-engine wikipedia-dump wikipedia-corpus infomation-retrieval

Updated Nov 2, 2019
Python

jksware / ai-spanish-wikipedia-clustering

Star

Clustering of Spanish Wikipedia articles.

clustering numpy opencl sklearn nltk scipy gpu-acceleration gpu-computing wikipedia-corpus spanish-wikipedia

Updated Aug 21, 2017
Python

Triansh / Wiki-Searcher

Star

A search engine trained from a corpus of wikipedia articles to provide efficient query results.

search-engine information-retrieval wikipedia-corpus

Updated Oct 15, 2021
Python

PJ-Duo / wiki-corpus

Star

Create a wiki corpus using a wiki dump file for Natural Language Processing

corpus corpus-data corpus-tools wikipedia-corpus nlp-corpus wiki-corpus

Updated Mar 11, 2023
Python

etcetra7n / wikibot

Sponsor

Star

RNN model trained from wikipedia corpus

python ai jupyter-notebook text-generation rnn wikipedia-corpus text-completion generative-ai

Updated Jun 22, 2024
Jupyter Notebook

moodser / splitter-transliteration

Star

Python script to split the text generated by 'wikipedia parallel title extractor' into separate text files (separate file for each language)

machine-translation transliteration machine-translation-data-processing wikipedia-corpus machine-tranliteration

Updated Aug 16, 2018
Python

afuschetto / wiki-extractor

Star

Command line tool to extract plain text from Wikipedia database dumps

wikipedia wikipedia-dump wikipedia-corpus

Updated Feb 25, 2021
Python

krishnadwypayan / SearchEngine

Star

java search-engine information-retrieval wikipedia information-extraction wikipedia-page wikipedia-corpus

Updated Sep 15, 2018
Java

bashkirtsevich-llc / wiki-dump-parser

Star

Wiki dump parser (jupyter)

python parser tutorial jupyter wiki wikipedia xml jupyter-notebook tutorials python3 xml-parser wikia jupyter-notebooks demos wikipedia-dump bz2 tutorial-code wiktionary wikipedia-corpus

Updated Sep 23, 2018
Jupyter Notebook

vikash212000yadav / Basic-Chatbot

Star

Interactive chatbot using python :)

python chatbot jupyter-notebook nltk wikipedia-corpus

Updated Jun 19, 2020
Jupyter Notebook

OmerCohen71 / IR-Wikipedia-Search-Engine

Star

IR search Engine for Wikipedia app

university-project wikipedia-corpus ir-engine

Updated Jan 16, 2023
Jupyter Notebook

ArisPan / wiki-query

Star

A desktop application that searches through a set of Wikipedia articles using Apache Lucene.

lucene search-interface results-viewer wikipedia-search search-highlighting wikipedia-corpus desktop-search apache-lucene

Updated Apr 15, 2021
Java

ksipos / polysemy-assessment

Star

Code and data for the paper 'Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings'

nlp machine-learning deep-learning rankings wordnet wsd ontonotes wikipedia-corpus elmo spark-pyspark pyramid-match-kernels contextual-embeddings polysemy senses unigrams polysemy-quantification multiresolution-grids wordnet-domains

Updated May 13, 2020
Shell

TomerAberbach / wikipedia-ngrams

Sponsor

Star

📚 A Kotlin project which extracts ngram counts from Wikipedia data dumps.

kotlin nlp cli wikipedia ngram ngrams wikipedia-dump wikipedia-corpus wikiextractor wikipedia-data-dump extracts-ngram-counts wikipedia-ngrams

Updated Jul 3, 2023
Kotlin

LeviMatheus / tcc-readability-score-level

Star

Repositório para disponibilização de bases de dados do Wikipedia e Simple Wikipedia pré-processadas, além de scripts de pré-processamento e geração de bases em Python.

python database wikipedia python3 weka readability corpus-data corpus-tools ingles wikipedia-corpus corpus-processing portuguese-brazilian base-de-dados legibilidade

Updated Jan 19, 2023

quqixun / ReadWiki-ZH

Star

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

kylemin / DeViSE

Star

Implementation of DeViSE, including wordnet word2vec using gensim library (NIPS 2013)

word2vec wordnet gensim nips wikipedia-corpus nips2013

Updated Jun 30, 2017
MATLAB

Improve this page

Add a description, image, and links to the wikipedia-corpus topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-corpus topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wikipedia-corpus

Here are 30 public repositories matching this topic...

Affenmilchmann / lingwiki

macbre / faroese-corpus

IDS-Mannheim / Wikipedia-Corpus-Builder

rajatyadav1994 / Wise--WikiPedia-Search-Engine

jksware / ai-spanish-wikipedia-clustering

Triansh / Wiki-Searcher

PJ-Duo / wiki-corpus

etcetra7n / wikibot

moodser / splitter-transliteration

afuschetto / wiki-extractor

krishnadwypayan / SearchEngine

bashkirtsevich-llc / wiki-dump-parser

vikash212000yadav / Basic-Chatbot

OmerCohen71 / IR-Wikipedia-Search-Engine

ArisPan / wiki-query

ksipos / polysemy-assessment

TomerAberbach / wikipedia-ngrams

LeviMatheus / tcc-readability-score-level

quqixun / ReadWiki-ZH

kylemin / DeViSE

Improve this page

Add this topic to your repo