Using Seq2SeqTrainer for decoders?

guymorlan · December 25, 2024, 8:10am

I have a case where I can’t use SFTTrainer because:

My data is pretokenized
I need to use predict_with_generate to get validation set evals during training

The regular Trainer can handle pretokenized data but doesn’t have predict_with_generate.
Can I use Seq2SeqTrainer or does that only make sense for encoder-decoder models?

I’m fine tuning a 7B LLM with Qlora.

Thanks!

Topic		Replies	Views
Trainer vs seq2seqtrainer 🤗Transformers	4	15466	November 15, 2024
Evaluate model at saved checkpoint 🤗Transformers	0	1300	June 22, 2021
What does the output of Seq2SeqTrainer predict.predictions refer to and how to get generated summaries Beginners	4	1298	October 19, 2023
Trainer.evaluate() with text generation Beginners	5	3555	December 31, 2021
[Urgent] trainer.predict() and model.generate creates totally different predictions 🤗Transformers	4	6929	February 1, 2021

Using Seq2SeqTrainer for decoders?

Related topics