Issue with tokenizer.tokenize

xiakun · November 4, 2020, 1:37pm

when I test tokenizer.tokenize(‘how do you do’) （RobertaTokenizer in pytorch_transformers.tokenization_roberta.py ）, it returns [‘how’, ‘Ġ’, ‘do’, ‘Ġ’, ‘you’, ‘Ġ’, ‘do’], wants to know where is the wrong

Karthik12 · November 5, 2020, 8:19am

There is some discussion in this therad and this. Perhaps it helps?

facehugger2020 · November 16, 2020, 7:21pm

See also this post in the forum.

facehugger2020 · November 16, 2020, 7:23pm

where is the wrong

That’s a new one. I haven’t seen that expression before. LOL

Topic		Replies	Views
Tokenizer decoding using BERT, RoBERTa, XLNet, GPT2 Beginners	7	8431	September 21, 2020
RobertaTokenizer decode and tokenize do not have the same output 🤗Tokenizers	0	247	October 24, 2023
Using roberta for token-classification, strange characters Models	0	267	July 10, 2023
RoBERTa Tokenizer Java Implementation 🤗Tokenizers	1	2508	November 29, 2022
Training RoBERTa from scratch: error? 🤗Transformers	0	588	August 26, 2021

Issue with tokenizer.tokenize

Related topics