BOS tokens for mBERT tokenizer

rahular · April 13, 2021, 2:49pm

Default mBERT tokenizes a sentence as ['[CLS]', 'This', 'is', 'a', 'sample', 'sentence', '[SEP]']. I want to change this behaviour and add a language specific token after the CLS token like this: ['[CLS]', '__en__', 'This', 'is', 'a', 'sample', 'sentence', '[SEP]']

I know TemplateProcessing can be used to achieve this if the language token doesn’t change

from tokenizers.processors import TemplateProcessing
tokenizer._tokenizer.post_processor = TemplateProcessing(
    single=f"{_lang_token} $A [SEP]",
    pair=f"{_lang_token} $A [SEP] $B:1 [SEP]:1",
    special_tokens=[("[SEP]", tokenizer.convert_tokens_to_ids("[SEP]")), 
                    (_lang_token, tokenizer.convert_tokens_to_ids(_lang_token))],
)

But in my case, the language token changes with every batch. What is the best way to add these tokens? Creating TemplateProcessing objects every time seems inefficient.

rahular · April 14, 2021, 10:13am

@sgugger any suggestions?

Topic		Replies	Views
Adding a special language token to MBART 🤗Tokenizers	0	579	November 12, 2022
GPT2Tokenizer not putting bos/eos token Intermediate	3	5478	March 31, 2024
Add BOS and EOS when encoding a sentence 🤗Tokenizers	2	14617	August 22, 2022
Question about Multilingual Tokenizers expected behaviours Beginners	0	326	July 13, 2022
Trained a tokenizer from scratch but problem when loading 🤗Transformers	0	478	October 8, 2023

BOS tokens for mBERT tokenizer

Related topics