Marian: Language Discovery questions

sshleifer · September 14, 2020, 3:20pm

Backtranslation Snippet


from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
mname_fwd = 'Helsinki-NLP/opus-mt-en-ceb'  #ceb=cebuano https://en.wikipedia.org/wiki/Cebuano_language
mname_bwd = 'Helsinki-NLP/opus-mt-ceb-en'
src_text = ['I am a small frog with tiny legs.']
torch_device = 'cuda' if torch.cuda.is_available() else 'cpu'
fwd = AutoModelForSeq2SeqLM.from_pretrained(mname_fwd).to(torch_device)
fwd_tok = AutoTokenizer.from_pretrained(mname_fwd)
bwd_tok = AutoTokenizer.from_pretrained(mname_bwd)
bwd = AutoModelForSeq2SeqLM.from_pretrained(mname_bwd).to(torch_device)
if torch_device == 'cuda':
    fwd = fwd.half()
    bwd = bwd.half()

fwd_batch = fwd_tok(src_text, return_tensors='pt').to(torch_device)
translated = fwd.generate(**fwd_batch, num_beams=2)
translated_txt = fwd_tok.batch_decode(translated, skip_special_tokens=True)
bwd_batch = bwd_tok(translated_txt, return_tensors='pt').to(torch_device)
backtranslated = bwd.generate(**bwd_batch, num_beams=2)
result = bwd_tok.batch_decode(backtranslated, skip_special_tokens=True)
# ['I am a small toad with small feet.']

Topic		Replies	Views
BCP-47 or at least ISO 639-3 support in Model Hub tags Languages at Hugging Face	2	1033	June 12, 2022
Nahuatl: Fine-Tuning Wav2Vec Languages at Hugging Face	11	1095	May 3, 2021
[new model] FSMT has been released + 9 models ported 🤗Transformers	3	1146	September 25, 2020
To be in the club, to be in the model hub Languages at Hugging Face	1	770	June 24, 2021
Facebook mbart multilingual translation Beginners	0	499	February 1, 2023

Marian: Language Discovery questions

Backtranslation Snippet

Related topics