How to make T5 model know when to stop generating during inference?

tahmid1234 · September 29, 2025, 9:48pm

Hi,

I have a T5 model pretrained on biological sequences and finetuned for translation from Language A to Language B and vice versa. Each character in Language A is mapped to n letters in Language B. Language B has defined start and end characters, but Language A does not.

The issue is that during inference, the model often generates sequences that are much longer than the reference sequence. Occasionally, it generates sequences that are too short. I have attached the code related to fine-tuning and sequence generation.
Is there a way to ensure that the model learns when to stop generating?

Finetuning →

training_args = Seq2SeqTrainingArguments(output_dir=f"./finetuning/model/{args.output_dir}“,
predict_with_generate=True,
num_train_epochs=args.e,               # Number of epochs (epoch-based evaluation)
per_device_train_batch_size=args.batch_size,
per_device_eval_batch_size=args.batch_size,
weight_decay=0.01,
eval_strategy=“epoch”,      # Evaluate after each epoch
save_strategy=“epoch”,            # Save best model based on evaluation
load_best_model_at_end=True,      # Load best model after 
trainingmetric_for_best_model=“eval_loss”,       # Choose metric to decide best 
modelsave_total_limit=2,               # Keep only 2 best 
checkpointsreport_to=,logging_dir=”./finetuning/logs/"+args.output_dir, 
gradient_checkpointing=True,
bf16=True,
logging_strategy=“epoch”,
gradient_accumulation_steps=2,
greater_is_better=False,
    ) 

trainer = Seq2SeqTrainer(             
model=model,             
 args=training_args,              
train_dataset=train_dataset,             
 eval_dataset=val_dataset,             
tokenizer=tokenizer,             
 data_collator=collator,             
callbacks=[EarlyStoppingCallback(early_stopping_patience=15)]) 
trainer.train()

outputs = model.generate(
input_ids=input_ids,
attention_mask=attention_mask,
max_new_tokens=220,
early_stopping = False,
num_beams=6,
num_beam_groups = 2,
repetition_penalty = 1.5,
length_penalty=0.8,
diversity_penalty = 0.5,
)

John6666 · September 29, 2025, 11:36pm

It seems to have a slight quirk.

tahmid1234 · October 1, 2025, 6:03pm

Perfect. Thanks a lot for explaining so well. It worked. May God grant all your wishes.

Topic		Replies	Views
T5 decoder predicting tokens even after hitting end of sequence token, i.e </s> 🤗Transformers	4	338	February 26, 2024
Stopping `model.generate()` based on custom token Intermediate	2	4440	October 18, 2021
T5 Generates very short summaries 🤗Transformers	22	5620	September 11, 2020
[Urgent] trainer.predict() and model.generate creates totally different predictions 🤗Transformers	4	6952	February 1, 2021
Model.generate generates way too long outputs 🤗Transformers	0	314	September 9, 2023

How to make T5 model know when to stop generating during inference?

Related topics