Increase the speed of the Mbart model

Jour · December 10, 2021, 4:58pm

Hello, I want to use Mbart for translation tasks, but the translation is too slow, in fact it takes 1min and more for 2000 characters when I would need a translation in a few seconds. Is there any way to increase the speed of this model? threading, sharding etc…

my current code:

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
import time

article = "Hello world."

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

time1 = time.time()

tokenizer.src_lang = "en_XX"
encoded_hi = tokenizer(article, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi, forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"])

print(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))
print(time.time()-time1)

Capture d’écran du 2021-12-10 17-57-24
for 2 words, the translation takes 2.5 seconds. I can’t use a gpu.

Altabus · September 28, 2023, 5:57am

Hi, I’m struggling with the same problem, were you able to find a solution?

Topic		Replies	Views
MBART50 .generate() is very slow Beginners	0	660	July 21, 2021
How to Improve inference time of facebook/mbart many to many model? 🤗Transformers	5	1886	October 4, 2022
Translation takes too long - from fine-tuned mbart-large-50 model Beginners	0	407	September 7, 2021
Issue with MBart50 translation Beginners	2	622	February 24, 2021
Slow inference while performing translation Intermediate	0	604	June 10, 2022

Increase the speed of the Mbart model

Related topics