Issue with XLM-RoBERTa tokenizer

ozanarmagan · May 1, 2023, 2:57pm

Hi;

I have a problem with encoding with XLM-RoBERTa sentencepiece tokenizer. Why is the hugging face encoding 1 greater compared to the google sentencepiece encoding?

Example

## Hugging Face:
tokenizer_xlmroberta.encode("I don't understand why",add_special_tokens=False)

Output: [87, 2301, 25, 18, 28219, 15400]

## Sentencepiece:
tokenizer_xlmroberta_.encode_as_ids("I don't understand why")

Output: [86, 2300, 24, 17, 28218, 15399]

stryptsTester99 · August 15, 2024, 7:11pm

Hey
I am having the same issue, have you found any solution?
Kind regards

Topic		Replies	Views
What is based model of XLM-RoBERTa Tokenizer? SenetencePiece? XLNetTokenizer 🤗Tokenizers	0	33	September 12, 2024
How to instantiate a XLMRobertaTokenizer object using a locally trained SentencePiece tokenizer 🤗Tokenizers	0	294	May 14, 2023
SentencePiece tokenizer Beginners	2	137	February 22, 2025
SentencePieceProcessor encoding differs from AutoTokenizer, how can that be? Beginners	0	863	December 12, 2023
Tokenizer decoding using BERT, RoBERTa, XLNet, GPT2 Beginners	7	8461	September 21, 2020

Issue with XLM-RoBERTa tokenizer

Related topics