Running model.generate() in deep speed training

lingy · November 19, 2023, 3:46am

Hi all,

I am trying to build a customized trainer evaluation loop using trainer library, however, I encounter some problem because my evaluation metric depends on string comparasion instead of logit loss. However, it seems that that model(input_ids) followed by finding max probability for each position gives a very different output from model.generate(). But model.generate() cannot be triggered since it’s wrapped with deepspeed during evaluation.

May I ask is it possible to replicate model.generate() behavior using a wrapped model? Or is there any solution that I missed out.

terjenf · June 6, 2024, 2:12am

Did you find a solution for this?

Xkev · July 25, 2024, 3:44am

I also encounter this issue. Is there any solution for this?

Topic		Replies	Views
Trainer.evaluate() with text generation Beginners	5	3533	December 31, 2021
Multi-GPU sharded eval with Trainer and generate method during training DeepSpeed	1	763	May 25, 2023
Use decoder_input_ids with deepspeed DeepSpeed	0	270	May 9, 2023
How does generation work with compute_metrics Intermediate	0	370	December 9, 2023
Evaluate model at saved checkpoint 🤗Transformers	0	1295	June 22, 2021

Running model.generate() in deep speed training

Related topics