Tokenized sequence lengths

jbmaxwell · February 25, 2022, 2:05am

Digging in further, it looks like the difference must be between BPE and ByteLevelBPETokenizer (i.e., RoBERTa’s tokenizer). With the former, I get the 4000 item vocab I want, but the latter only gives me a 1300 item vocab (despite indicating 4000 in the vocab_size).

So to get what I’m after, I have to either;

figure out how to get the BPE version into a tokenizer that plays nice with transformers OR
figure out how to get the ByteLevelBPETokenizer to learn a 4000 item vocab

Topic		Replies	Views
Tokenizer taking extremely long time to train 🤗Tokenizers	1	977	March 19, 2025
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3802	July 17, 2020
Trained tokenizer API as PretrainedTokenizer 🤗Tokenizers	1	524	October 25, 2022
Byte Level Tokenizer While Training 🤗Tokenizers	0	59	December 14, 2024
Build a RoBERTa tokenizer from scratch 🤗Tokenizers	5	3353	December 12, 2020

Tokenized sequence lengths

Related topics