For MLM task, TextDataset or LineByLineTextDataset which one is better?

wyldecat · February 3, 2022, 4:57am

I’m trying to train T5 with unsupervised denoising training method.
I found TextDataset and LineByLineTextDataset in Transformers library while I looking for a dataset to use.
Which one is better in terms of accuracy? or which one is more commonly used?

Rong-Tao · December 8, 2023, 12:21pm

I think LineByLineTextDataset will be deprecated soon

Topic		Replies	Views
Pre-Training From Scratch 🤗Transformers	0	1003	October 6, 2021
Sentence Order Prediction - Dataset Creation 🤗Datasets	1	679	October 21, 2021
How to force LineByLineTextDataset split text corpus by words rather than symbols Beginners	0	652	August 27, 2021
Guidance Needed on Choosing the Right Dataset Format for Transformer Model Training 🤗Datasets	1	1781	December 8, 2023
Which transfomer for numeric dataset Beginners	0	284	June 4, 2023

For MLM task, TextDataset or LineByLineTextDataset which one is better?

Related topics