Question About XLNetTokenizer

self-attention · October 21, 2022, 8:31am

Hi, everyone, i am trying to use XLNet for text classification, and i found something different from bert.

my code as

sentence = ['我爱Huggingface','今天天气很好','啊啦伯']
tokenizer = XLNetTokenizer.from_pretrained('../../pretrained/chinese-xlnet-base')
tokenizer_d = tokenizer(sentence,max_length=10,padding='max_length',truncation=True)
print(tokenizer.tokenize('啊啦伯'))
print(tokenizer_d['input_ids'])

my question is : why XLNetTokenizer has no convert_tokens_to_ids method?

transformers version is 4.18.0

mapama247 · October 21, 2022, 9:56am

If you want to see the tokens rather than the ids, you can also use the decode() method. Something like this:

for tokens in tokenizer_d['input_ids']:
    print([tokenizer.decode(token) for token in tokens])

Which in your case would return:

[‘<pad>’, ‘我’, ‘爱’, ‘Hu’, ‘gg’, ‘ing’, ‘f’, ‘ace’, ‘<sep>’, ‘<cls>’]
[‘<pad>’, ‘<pad>’, ‘<pad>’, ‘<pad>’, ‘’, ‘今天’, ‘天气’, ‘很好’, ‘<sep>’, ‘<cls>’]
[‘<pad>’, ‘<pad>’, ‘<pad>’, ‘<pad>’, ‘’, ‘啊’, ‘啦’, ‘伯’, ‘<sep>’, ‘<cls>’]

Topic		Replies	Views
Difference between tokenizer and convert_tokens_to_ids 🤗Tokenizers	0	300	May 12, 2024
Tokenizer decoding using BERT, RoBERTa, XLNet, GPT2 Beginners	7	8431	September 21, 2020
Training Transformer XL from scratch Beginners	0	892	May 22, 2021
How can I check the implementation of tokenizer.decode() 🤗Transformers	6	57	September 30, 2024
How to return custom `token_type_ids` or other values from a tokenizer? 🤗Tokenizers	0	675	May 3, 2023

Question About XLNetTokenizer

Related topics