Huggingface --resume_from_checkpoint feature with deepspeed

sbmaruf · November 11, 2021, 2:09pm

This is an appreciation post for the feature --resume_from_checkpoint which actually works with deepspeed and do iterate data up-to certain iteration to mimic the same experiment.
Even we can sync loss in wandb.

A big thumbs up for @sgugger.

Topic		Replies	Views
Checkpoint missing Optimizer.pt? How to Resume? 🤗Transformers	7	5575	May 18, 2021
[Solved] Cannot restart training from deepspeed checkpoint Intermediate	3	2741	December 28, 2023
Eval Loss spike Seq2seq Trainer Resume from Checkpoint 🤗Transformers	0	526	June 22, 2021
Checkpoint breaks with deepspeed 🤗Transformers	6	3476	March 20, 2021
Resume_from_checkpoint does not configure learning rate scheduler correctly DeepSpeed	3	982	November 28, 2023

Huggingface --resume_from_checkpoint feature with deepspeed

Related topics