Speeding up Tokenization on large text corpus

Jaidev · September 26, 2022, 5:39am

I have a similar issue, using a pretrained WordPiece tokenizer on a large corpus of text takes several hours. I’m doing:

tokenizer = AutoTokenizer.from_pretrained(“distilbert-base-uncased”)
train_tokenized_encodings = tokenizer(df[df.split==‘train’].text.tolist(), truncation=True, padding=True, max_length=MAX_LENGTH)

Any suggestions for speed up?

Is there a way to parallelize this? (Or does the above automatically use multiple workers?)

Topic		Replies	Views
Fastest way to tokenize millions of examples? 🤗Tokenizers	4	2868	March 8, 2024
Speed up tokenizer training 🤗Tokenizers	5	1201	September 17, 2024
Fine-tuned BERT tokenizer taking too long to load 🤗Tokenizers	1	3430	August 23, 2022
Running train_new_from_iterator to train a tokenizer is very slow 🤗Tokenizers	1	416	April 13, 2024
Speed issues using tokenizer.train_new_from_iterator on ~50GB dataset 🤗Transformers	7	2231	November 11, 2024

Speeding up Tokenization on large text corpus

Related topics