Encoder Decoder Model gives same generation results after finetuning

tqnwhz · August 1, 2022, 3:05pm

I make some tries and get some results. It is indeed caused the model-side code.
First, I replace the MLC task with a simple auto-encoding task, namely that feed the model same inputs and outputs. Besides, I tie word embeddings between encoder and decoder. These do not solves the problem.
Next, I replace the seq2seq model with a simple prefix-LM(RobertaForCausalLM), fed with same auto-encoding results. And as I guessed before, the problem vanished. All things work well now.
I believe there exists some bug in my code or transformers library.

Topic		Replies	Views
Encoder-Decoder model only generates bos_token's [<s><s><s>] Models	17	3176	December 6, 2022
Issue with finetuning a seq-to-seq model 🤗Transformers	30	3962	August 11, 2022
Warm-starting encoder-decoder models using EncoderDecoderModel always giving an empty string after fine-tuning 🤗Transformers	0	118	March 25, 2024
EncoderDecoderModel loaded from pre-trained checkpoints fails when calling generate 🤗Transformers	5	608	June 20, 2024
Model.generate generates same output for different inputs 🤗Transformers	1	623	November 13, 2023

Encoder Decoder Model gives same generation results after finetuning

Related topics