Pre-training datasets for base and roberta

LinJiangxian · May 12, 2022, 3:24am

I find that the pre-training datasets for bert-base-uncased, roberta-base, roberta large… is same. wikipedia 19.3k and bookcorpus 8.4k. This is not consistent with the datasets described in paper. Is this an error? If it is, you may revise it.

Topic		Replies	Views
Further pre-train roberta model Beginners	1	1391	July 14, 2020
Request for Further Information on Datasets Beginners	0	281	November 26, 2020
Streaming Dataset Roberta 🤗Datasets	1	604	December 7, 2021
Training BERT from scratch with Wikipedia + Book Corpus Dataset 🤗Transformers	1	4690	January 22, 2021
BERT pre-training run_mlm_flax.py questions Beginners	0	257	November 3, 2021

Pre-training datasets for base and roberta

Related topics