OPT special tokens

aljazpotocnik · March 25, 2024, 8:56am

Hello,

I can’t understand something about OPT tokenizer and its special tokens. I came across <unk> token in opt vocabulary. But when encoding it with opt_tokenizer it doesn’t find it as a single token but three tokens: <, unk, >. How does this make sense?

Below is some code to reproduce my findings:

opt_tokenizer = AutoTokenizer.from_pretrained("facebook/opt-1.3b")

print('<unk>' in opt_tokenizer.get_vocab())

ids = opt_tokenizer.encode("<unk>", add_special_tokens=False)

print(opt_tokenizer.convert_ids_to_tokens(ids))

Another funny thing is that <unk> token isn’t present in opt_tokenizer.special_tokens_map:

print(opt_tokenizer.special_tokens_map)

{‘bos_token’: ‘</s>’,
‘eos_token’: ‘</s>’,
‘unk_token’: ‘</s>’,
‘pad_token’: ‘<pad>’}

Best,
AP

Topic		Replies	Views
SentencePiece tokenizer encodes to unknown token 🤗Tokenizers	0	883	August 2, 2023
Leaving unknown words untokenized like in OpenMNT 🤗Tokenizers	0	254	October 18, 2023
Error with <\|endoftext\|> in Tokenizer GPT2 🤗Tokenizers	2	7485	December 16, 2020
Unk_token not set after training a BPETokenizer tokenizer 🤗Tokenizers	1	604	November 1, 2023
Reused tokenizer returns unk 🤗Tokenizers	1	519	March 14, 2024

OPT special tokens

Related topics