Warm-starting encoder-decoder models using EncoderDecoderModel always giving an empty string after fine-tuning

ka05ar · March 25, 2024, 1:10pm

System Info

I am trying to train a seq2seq model using EncoderDecoderModel class and found this blog very helpful. Thanks to @patrickvonplaten for his excellent explanation. Following this blog I fine-tuned a seq2seq model where I used a BERT ([BanglaBERT] an Electra) model as encoder and [XGLM] as decoder using [BanglaParaphrase] data. But after fine-tuning the model always generates an empty string or garbage output. Now I do not understand where the problem is. Can anyone please help me find the bug in the code.

Thanks.

Expected behavior

Input-output for my code:
{‘target’: ‘সিপিও আহত থাকায় যুদ্ধ পরিচালনার দায়িত্ব এসে পড়েছিল সেম্প্রোনিয়াসের কাঁধে।’,
‘pred_target’: ‘’}

which should be something like this (should give the paraphrased sentence according to the input sentence in Bangla):
{‘target’: ‘সিপিও আহত থাকায় যুদ্ধ পরিচালনার দায়িত্ব এসে পড়েছিল সেম্প্রোনিয়াসের কাঁধে।’,
‘pred_target’: ‘সিপিও কর্তৃক আহত হয়ে সেমপ্রোনিয়াসের কাঁধে যুদ্ধ পরিচালনার দায়িত্ব আসে।’}

Topic		Replies	Views
Encoder Decoder Model gives same generation results after finetuning 🤗Transformers	2	667	August 4, 2022
EncoderDecoder LM output is perfect ... except that the ending is missing or duplicated Intermediate	0	343	May 6, 2021
Encoder-Decoder model only generates bos_token's [<s><s><s>] Models	17	3186	December 6, 2022
Training issue of a Transformer based Encoder-Decoder model based on pre-trained BanglaBERT Models	1	747	May 12, 2022
How to train a translation model from scratch Beginners	9	12839	March 1, 2022

Warm-starting encoder-decoder models using EncoderDecoderModel always giving an empty string after fine-tuning

System Info

Expected behavior

Related topics