Adding tokens, but tokenizer doesn't use them

WonderYear1905 · March 25, 2024, 11:18am

Hi, Im trying to add tokens to a pretrained tokenizer.
First I initialized the tokenizer:

tokenizer = AutoTokenizer.from_pretrained(“mistralai/Mistral-7B-Instruct-v0.2”)

Next I created a training iterator and trained a new tokenizer:

training_corpus = get_training_corpus()
new_tokenizer = tokenizer.train_new_from_iterator(training_corpus,vocab_size=10000)#,10000)

Taking the diff:

tokens_to_add = list(set(new_tokenizer.vocab.keys())- set(tokenizer.vocab.keys()))
output = tokenizer.add_tokens(tokens_to_add)

tokenizer is updated, I can see its now in the correct size (i.e original size=32000+ added tokens), I can also see the new token under added_tokens_decoder and added_tokens_encoder. Everything seems great.

But, when Im trying to tokenize my input data:

tokenizer.tokenize(x, return_tensors=“pt”)

The tokenizer just doesnt use the new tokens.
Any idea what Im doing wrong?!

Thanks!

Butanium · August 14, 2024, 11:57am

Just experienceed the same issue with llama2-7b, did you find a solution to that?

In my case adding normalized=False fixed the issue I had on my single example.

Topic		Replies	Views
Tokenizer tend to choose added tokens first rather than token in vocab 🤗Tokenizers	1	547	November 30, 2023
How to properly add news tokens to tokenizer vocab? Beginners	0	159	May 14, 2024
Extending the tokenizer affects model generation Intermediate	3	183	December 19, 2024
Can't load pre-trained tokenizer with additional new tokens 🤗Transformers	3	4435	August 10, 2021
Huggingface tokenizer not working properly when defined in a function / different program Beginners	0	356	May 29, 2023

Adding tokens, but tokenizer doesn't use them

Related topics