LongT5 fine-tunning

nbroad · September 28, 2022, 9:02pm

tldr: t5 was trained with bf16 and you fine tuned in fp16. bf16 has a much larger range than fp16 so those large values (bf16) turned into nan (fp16)

Topic		Replies	Views
Finetuning T5 for Summarisation - Poor results Intermediate	1	528	April 28, 2024
Flan-T5 finetuning, predictions too short? Beginners	0	315	April 17, 2023
Finetuning T5 series models with my own data Models	0	140	May 16, 2024
Errors when fine-tuning T5 Beginners	7	6469	January 3, 2022
Finetuning T5 with Input Embeddings 🤗Transformers	0	29	July 24, 2024