Trainer using Checkpoint makes TPU crash

sgugger · October 15, 2021, 12:15pm

You might need more RAM to be able to resume from a checkpoint. The core of the issue is that the optimizer state is loaded on each TPU before being transferred to the XLA device (it can’t be directly loaded on the XLA device sadly) but since you have 8 processes loading it, it’s loaded 8 times on CPU.

Topic		Replies	Views
TPU Memory problem when saving model checkpoint Beginners	0	556	April 7, 2022
Training of GPT hang during Checkpoint stage 🤗Transformers	0	138	January 23, 2024
Saving optimizer 🤗Accelerate	19	6701	May 18, 2023
Cannot resume trainer from checkpoint 🤗Transformers	2	1392	May 5, 2023
Out of memory when fine-tuning bert on tpu 🤗Transformers	0	606	December 2, 2021

Trainer using Checkpoint makes TPU crash

Related topics