Fast tokenizer for marianMTModel

Matthieu · September 26, 2022, 3:58pm

Hi,

I use Helsinki-NLP/opus-mt-fr-en model for translation from french to english.

When I load the tokenizer, I see that the tokenizer isn’t fast even if I use the use_fast=True flag:
tokenizer = AutoTokenizer.from_pretrained(Helsinki-NLP/opus-mt-fr-en, use_fast=True)

PreTrainedTokenizer(name_or_path='Helsinki-NLP/opus-mt-fr-en', vocab_size=59514, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '<pad>'})

Doesn’t it exist fast tokenizer for MarianMTModel?

sgugger · September 26, 2022, 5:06pm

No, there is no fast tokenizer for Marian models.

Topic		Replies	Views
What is required to create a fast tokenizer? For example for a Marian model 🤗Tokenizers	0	315	March 16, 2023
Speeding up the inference for marian MT 🤗Transformers	4	2756	April 8, 2024
Boosting the speed of a translation model Helsinki-NLP/opus-mt-en-ar 🤗Transformers	0	734	October 2, 2023
Issue with using a save_pretrained model (MarianMT) 🤗Transformers	1	447	April 5, 2023
Adding New Tokens to MarianMT Model 🤗Tokenizers	8	758	February 4, 2024

Fast tokenizer for marianMTModel

Related topics