Russian RoBERTa

Training a Rossian RoBERTA model using:

Reqiurements

Train a tokenizer model and split data on train/valid/test (change paths if needed):

$ python3 ./scripts/run_pretraining.py

$ ./scripts/run_encoding.sh

$ ./scripts/run_train_16.sh

A model trained on russian Wiki + Taiga corpus:

F1 score on Sber SQuAD dataset: 78.60

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
fairseq		fairseq
fairseq_patch		fairseq_patch
img		img
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
multiprocessing_bpe_encoder.py		multiprocessing_bpe_encoder.py
preprocess.py		preprocess.py
train.py		train.py