Load tokenizer from file : Exception: data did not match any variant of untagged enum ModelWrapper

gundeep · July 12, 2023, 4:48pm

I had to retrain the tokenizer to make it work. During the retraining, I had to initialize the tokenizer with a pre_tokenizer;

tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = Whitespace() # this is the line I was missing which caused the error
trainer = trainers.BpeTrainer(
    vocab_size=10_000,
    min_frequency=5
)
tokenizer.train(['./input.txt'], trainer)
tokenizer.save('./bpe_tokenizer.json')
tokenizer1 = Tokenizer.from_file('./bpe_tokenizer.json')
tokenizer2 = PreTrainedTokenizerFast(tokenizer_file='./bpe_tokenizer.json')

Topic		Replies	Views
Unable to load saved tokenizer 🤗Tokenizers	0	274	May 14, 2024
Loading BPE modeled Tokenizer results in empty tokenizer 🤗Tokenizers	0	329	April 15, 2024
Trained a tokenizer from scratch but problem when loading 🤗Transformers	0	479	October 8, 2023
HuggingFace BPE Trainer Error - Training Tokenizer 🤗Tokenizers	1	2997	July 14, 2022
TypeError when loading tokenizer with from_pretrained method for bart-large-mnli model 🤗Tokenizers	1	1119	July 8, 2021

Load tokenizer from file : Exception: data did not match any variant of untagged enum ModelWrapper

Related topics