Tokenized sequence lengths

jbmaxwell · February 25, 2022, 12:07am

Or, alternately, does anyone know why:

tokenizer = Tokenizer(BPE.from_file('./tokenizer/roberta_tokenizer/vocab.json', './tokenizer/roberta_tokenizer/merges.txt'))
print("vocab_size: ", tokenizer.model.vocab)

Fails with an error that 'tokenizers.models.BPE' object has no attribute 'vocab'. According to the docs, it should have: Input sequences — tokenizers documentation

According to tokenizers.__version__ I’m running 0.11.0. These docs are for 0.10.0—is vocab removed in 0.11.0? Or is something just borked in my install?

UPDATE: I gave 0.10.1 a try, just for kicks, but same error.

Topic		Replies	Views
Tokenizer taking extremely long time to train 🤗Tokenizers	1	983	March 19, 2025
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3836	July 17, 2020
Trained tokenizer API as PretrainedTokenizer 🤗Tokenizers	1	526	October 25, 2022
Byte Level Tokenizer While Training 🤗Tokenizers	0	63	December 14, 2024
Build a RoBERTa tokenizer from scratch 🤗Tokenizers	5	3355	December 12, 2020

Tokenized sequence lengths

Related topics