WordPiece issue - behaves like WordLevel

YoelShoshan · March 22, 2022, 8:57pm

I don’t know what I’m doing incorrectly, but for some reason, WordPiece behaves like a WordLevel tokenizer.

Note - I do not want to train WordPiece, I have a prebuilt dictionary which I want to use.

Please see a minimalistic code script that reproduces the issue:

from tokenizers import Tokenizer, Regex
from tokenizers.models import WordPiece
from tokenizers.pre_tokenizers import Split 

samples = ['abc','def','abcdef']

model = WordPiece({'abc':10, 'def':20, '<UNK>':100}, unk_token='<UNK>', max_input_chars_per_word = 9999)
tokenizer = Tokenizer(model)

tokenizer.pre_tokenizer = Split(Regex('.*'), behavior='merged_with_previous')

for s in samples:
    print('for input=',s)
    print('standalone pre tekonizer:',tokenizer.pre_tokenizer.pre_tokenize_str(s))
    print('tokenizer output:', tokenizer.encode(s).tokens)
    print('----------------')

Which outputs:

for input= abc
standalone pre tekonizer: [('abc', (0, 3))]
tokenizer output: ['abc']
----------------
for input= def
standalone pre tekonizer: [('def', (0, 3))]
tokenizer output: ['def']
----------------
for input= abcdef
standalone pre tekonizer: [('abcdef', (0, 6))]
tokenizer output: ['<UNK>']

I expect the last output to be:
tokenizer output: [‘abc’, ‘def’]

Any idea what am I doing wrong?
Any help will be highly appreciated

Topic		Replies	Views
Why does PreTrainedTokenizerFast return a list instead of tokenizers.Encoding instance? Beginners	1	316	February 6, 2023
WordLevel error: Missing [UNK] token from the vocabulary 🤗Tokenizers	4	3299	October 27, 2022
Transformers: WordLevel tokenizer produces strange vocabulary Beginners	1	283	August 30, 2021
Tokenization compared to sentencepiece 🤗Tokenizers	0	89	September 11, 2024
SentencePieceProcessor encoding differs from AutoTokenizer, how can that be? Beginners	0	858	December 12, 2023

WordPiece issue - behaves like WordLevel

Related topics