Pre-train RoBERTa from Scratch for Georgian Language

Temur · July 6, 2021, 4:24pm

Pre-train RoBERTa from Scratch for Georgian Language

Currently, there are no open-source language models for the Georgian language. I have not so large dataset which I want to use for pre-training RoBERTa for the Georgian language from scratch.

2. Language

The model will be trained in Georgian Language

3. Model

RoBERTa

4. Datasets

wikipedia dump
Common Crawl dump
random web scraps

5. Training scripts

There are already Flax scripts to pre-train RoBERTa that we can easily use:

transformers/examples/flax/language-modeling at master · huggingface/transformers · GitHub)

patrickvonplaten · July 7, 2021, 10:34am

cool defined it!

Topic		Replies	Views
PreTrain RoBERTa from scratch in Portuguese Flax/JAX Projects	16	2421	October 4, 2021
PreTrain RoBERTa for Kannada Flax/JAX Projects	3	408	July 2, 2021
Pretrain RoBERTa-large from scratch in Swedish Flax/JAX Projects	2	1064	July 5, 2021
Pretrain RoBERTa-large from scratch in Finnish Flax/JAX Projects	1	352	June 29, 2021
PreTrain RoBERTa from scratch in Marathi Flax/JAX Projects	7	921	July 7, 2021

Pre-train RoBERTa from Scratch for Georgian Language

Pre-train RoBERTa from Scratch for Georgian Language

2. Language

3. Model

4. Datasets

5. Training scripts

Related topics