WordPiece tokenizer doesn't work for long sequences

dotan1111 · December 7, 2022, 12:08pm

I’m trying to train a WordPiece (WPC) tokenizer from HuggingFace on long sequences. I know the tokenizer is created successfully by looking at the saved file. When I’m trying to encode a new sequences, the tokenizer return only unknow tokens. Once shortening the sequence, the tokenizer return a valid tokens. When encoding the same sequences with a different type of tokenizer (Unigram or BPE) the tokenizers returns valid results. I’m not getting any errors or warning from the library.

lkurlandski · March 28, 2024, 1:58pm

I have encountered the exact same issue with tokenizers==0.14.1.

Topic		Replies	Views
Help with Tokenizer Word Length Limit Intermediate	2	1630	July 16, 2023
Training unigram on long sequences 🤗Tokenizers	4	1279	June 23, 2022
Tokenized sequence lengths 🤗Tokenizers	6	2039	March 10, 2022
SentencePiece tokenizer encodes to unknown token 🤗Tokenizers	0	884	August 2, 2023
WordPiece issue - behaves like WordLevel Beginners	0	332	March 22, 2022

WordPiece tokenizer doesn't work for long sequences

Related topics