Reused tokenizer returns unk

EmnaBou · September 19, 2022, 8:40pm

Hello
I’m training a tokenizer from an old one (Bert based)
the new tokenizer returns [UNK] for words already exist in vocabulary and run correctly with the old tokenizer

from transformers import AutoTokenizer

old_tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic")

tokens = old_tokenizer.tokenize('مع')
tokens

returns [‘مع’]
while with the new tokenizer

new_tokenizer= old_tokenizer.train_new_from_iterator(training_corpus, 10)
tokens = new_tokenizer.tokenize('مع')
tokens

returns [‘[UNK]’]

Can any one help me please !

KashMkj18 · March 14, 2024, 9:41pm

I am also facing similar issue. Were you able to sort it our ?

Topic		Replies	Views
Train a new tokenizer from scratch 🤗Transformers	4	1711	November 10, 2020
Why does PreTrainedTokenizerFast return a list instead of tokenizers.Encoding instance? Beginners	1	316	February 6, 2023
Tokenizer from own vocab 🤗Tokenizers	0	456	July 11, 2022
BertTokenizer.decode not understanding new vocabulary 🤗Tokenizers	0	349	December 1, 2023
Do you need to use the associated tokenizer Beginners	2	569	June 6, 2022

Reused tokenizer returns unk

Related topics