Tokenized sequence lengths

jbmaxwell · March 10, 2022, 7:12pm

btw, Huggingface people, I’m still wondering if there’s any way to force a larger vocabulary during training? Presumably this would just be more “merging”, no? Shouldn’t there be a parameter to force a larger vocab if you want it?

EDIT: I notice I was apparently getting the 4000 word vocab when I posted this, but that’s not the case now… I request vocab_size=4000 and I get 2026. Hmm…

Topic		Replies	Views
Tokenizer taking extremely long time to train 🤗Tokenizers	1	1003	March 19, 2025
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3975	July 17, 2020
Trained tokenizer API as PretrainedTokenizer 🤗Tokenizers	1	537	October 25, 2022
Byte Level Tokenizer While Training 🤗Tokenizers	0	79	December 14, 2024
Build a RoBERTa tokenizer from scratch 🤗Tokenizers	5	3391	December 12, 2020

Tokenized sequence lengths

Related topics