Translate from one tokenizer to another

broadwayj · April 15, 2024, 9:03am

I got tokens encoded with one tokenizer which I want to yield to the LM with another tokenizer. problem seems natural so may be there exist some convenient and unified solution to do so? Here’s what I use rn

def translate_to_other_tokenizer(ids, tokenizer_from, tokenizer_to):
    text = tokenizer_from.batch_decode(
        ids,
        skip_special_tokens=True,
        clean_up_tokenization_spaces=True
    )

    output = tokenizer_to(
        text,
        truncation=False,
        padding=True,
        return_attention_mask=True,
        return_special_tokens_mask=True,
        return_tensors='pt',
    )

    return text, output

Topic		Replies	Views
How to tokenize input if I plan to train a Machine Translation model. I'm having difficulties with text_pair argument of Tokenizer() Beginners	4	1927	November 4, 2021
Employing Different Tokenizers in a Translation Model Models	0	216	July 27, 2023
Translating multiple languages to English (Tensorflow) - repost 🤗Transformers	1	750	December 20, 2021
Train a new tokenizer from scratch 🤗Transformers	4	1712	November 10, 2020
Difference between tokenizer and convert_tokens_to_ids 🤗Tokenizers	0	301	May 12, 2024

Translate from one tokenizer to another

Related topics