Corrupted deepspeed checkpoint

abilek · March 12, 2025, 5:46pm

Hello. I configured my training run to use deepspeed zero stage2 with the huggingface trainer with the following settings:

DEEPSPEED_CONFIG = {
    "optimizer": {
        "type": "AdamW",
        "params": {"lr": "auto", "betas": "auto", "eps": "auto", "weight_decay": "auto"},
    },
    "scheduler": {
        "type": "WarmupLR",
        "params": {"warmup_min_lr": "auto", "warmup_max_lr": "auto", "warmup_num_steps": "auto"},
    },
    "zero_optimization": {
        "stage": 2,
        "offload_optimizer": {"device": "cpu", "pin_memory": True},
        "allgather_partitions": True,
        "allgather_bucket_size": 2e8,
        "overlap_comm": False,
        "reduce_scatter": True,
        "reduce_bucket_size": 2e8,
        "contiguous_gradients": True,
    },
    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
}

During training I use the trainer to create checkpoints and Sagemaker checkpointing configuration in the Huggingface estimator to create checkpoints and upload to s3.
I then create zero_to_fp32.py (from the deepspeed checkpoint) to create a pytorch_model.bin file.
When I try to load that pytorch_model.bin to resume training, I get the following error:

RuntimeError: linalg.vector_norm: Expected a floating point or complex tensor as input. Got Long

When I load the pytorch_model.bin model to perform an evaluation, I also notice that loss values on the same Dev dataset as training are near infinite compared to the small loss values observed at the same step in training.

The training behavior is as expected. Losses reported during training at different steps are L2 losses and normal for the problem. The underlying transformer model is a Falcom model with a custom configuration.

Has anyone observed similar problems trying to resume training or run inference from deepspeed checkpoints?

John6666 · March 13, 2025, 6:46am

It seems like a troublesome problem…
In some cases, it seems that you can avoid it by omitting the torch_dtype specification when loading.

github.com/deepspeedai/DeepSpeed

[BUG] Zero2 offload overflow

opened 06:29AM - 08 Mar 24 UTC

nickyoungforu

bug training

**Describe the bug** I have been able to run my model successfully in Zero Stag…e 3 without any problems. However, when I attempt to run the same model in Zero Stage 2, I encounter an error: 10.223.17.15: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.223.13.141: Traceback (most recent call last): 10.78.107.139: self._take_model_step(lr_kwargs) 10.67.196.141: self.deepspeed_engine_wrapped.backward(loss, **kwargs) 10.78.121.13: 10.223.17.15: main() 10.223.13.141: File "train.py", line 706, in <module> 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.67.196.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/accelerate/utils/deepspeed.py", line 176, in backward 10.78.121.13: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.223.17.15: File "train.py", line 587, in main 10.67.196.141: self._take_model_step(lr_kwargs) 10.78.107.139: self.deepspeed_engine_wrapped.backward(loss, **kwargs) 10.223.13.141: scaled_global_grad_norm = self.scaled_global_norm() 10.78.121.13: self._take_model_step(lr_kwargs) 10.223.17.15: return torch.norm(torch.stack(norm_groups), p=norm_type) 10.67.196.141: self.optimizer.step() 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/accelerate/utils/deepspeed.py", line 176, in backward 10.223.13.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1789, in scaled_global_norm 10.223.13.141: self.optimizer.step() 10.78.121.13: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.223.17.15: File "/opt/conda/envs/progen/lib/python3.8/site-packages/torch/functional.py", line 1626, in norm 10.78.107.139: self.optimizer.step()self.optimizer.step() 10.67.196.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.223.13.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.223.17.15: self._take_model_step(lr_kwargs) 10.78.107.139: 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.67.196.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.78.121.13: self.optimizer.step()Traceback (most recent call last): 10.223.13.141: main() 10.223.17.15: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.67.196.141: main() 10.223.17.15: accelerator.backward(loss) 10.78.107.139: self.engine.step() 10.223.13.141: File "train.py", line 587, in main 10.78.121.13: 10.67.196.141: File "train.py", line 587, in main 10.223.17.15: File "/opt/conda/envs/progen/lib/python3.8/site-packages/accelerate/accelerator.py", line 1960, in backward 10.223.17.15: main() 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2169, in step 10.223.13.141: self.optimizer.step()self._take_model_step(lr_kwargs) 10.78.121.13: self.optimizer.step() File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.78.121.13: 10.67.196.141: self.engine.step() 10.223.17.15: File "train.py", line 587, in main 10.78.107.139: self._take_model_step(lr_kwargs) 10.223.13.141: 10.78.121.13: File "train.py", line 706, in <module> 10.67.196.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2169, in step 10.223.17.15: scaled_global_grad_norm = self.scaled_global_norm() 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.223.13.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.78.121.13: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.223.13.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.78.107.139: main() 10.67.196.141: scaled_global_grad_norm = self.scaled_global_norm() 10.223.17.15: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1789, in scaled_global_norm 10.78.121.13: main() 10.223.13.141: self._take_model_step(lr_kwargs) 10.78.107.139: File "train.py", line 587, in main 10.67.196.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1789, in scaled_global_norm 10.223.17.15: return torch.linalg.vector_norm(input, _p, _dim, keepdim, dtype=dtype) 10.78.121.13: self.optimizer.step() 10.223.13.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/engine.py", line 2075, in _take_model_step 10.78.107.139: Traceback (most recent call last): 10.223.13.141: accelerator.backward(loss) 10.223.17.15: RuntimeError: linalg.vector_norm: Expected a floating point or complex tensor as input. Got Long 10.78.121.13: File "train.py", line 587, in main 10.223.17.15: self.optimizer.step() 10.67.196.141: scaled_global_grad_norm = self.scaled_global_norm() 10.78.107.139: scaled_global_grad_norm = self.scaled_global_norm() 10.223.13.141: self._take_model_step(lr_kwargs) 10.78.121.13: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.78.121.13: self.optimizer.step() 10.78.107.139: File "train.py", line 706, in <module> 10.223.17.15: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.223.13.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/accelerate/accelerator.py", line 1960, in backward 10.67.196.141: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1789, in scaled_global_norm 10.78.121.13: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1842, in step 10.78.107.139: File "/opt/conda/envs/progen/lib/python3.8/site-packages/deepspeed/runtime/zero/stage_1_and_2.py", line 1789, in scaled_global_norm **To Reproduce** I am using a cluster of 6 machines, each equipped with 40GB A100 GPUs. launch cmd: accelerate launch --config_file config/yaml/zero.yaml train.py --with_tracking --report_to tensorboard --output_dir tblog --project_name test --checkpointing_steps epoch --per_device_train_batch_size 8 --num_train_epochs 50 --learning_rate 5e-5 --seed 42 --precision bf16 Here is my yaml: compute_environment: LOCAL_MACHINE deepspeed_config: deepspeed_config_file: ./config/zero/zero_stage2_bf16.json deepspeed_multinode_launcher: pdsh deepspeed_hostfile: ./config/yaml/hostfile zero3_init_flag: true distributed_type: DEEPSPEED fsdp_config: {} machine_rank: 0 main_process_ip: 10.223.17.15 main_process_port: 36769 main_training_function: main num_machines: 6 num_processes: 48 use_cpu: false zero_stage2_bf16.json: { "bf16": { "enabled": true }, "optimizer": { "type": "AdamW", "params": { "lr": "auto", "weight_decay": "auto", "torch_adam": true, "adam_w_mode": true } }, "scheduler": { "type": "WarmupDecayLR", "params": { "warmup_min_lr": "auto", "warmup_max_lr": "auto", "warmup_num_steps": "auto", "total_num_steps": 533770 } }, "zero_optimization": { "stage": 2, "offload_optimizer": { "device": "cpu", "pin_memory": true }, "offload_param": { "device": "cpu", "pin_memory": true }, "allgather_partitions": true, "allgather_bucket_size": 2e8, "overlap_comm": true, "reduce_scatter": true, "reduce_bucket_size": "auto", "contiguous_gradients": true }, "gradient_accumulation_steps": 1, "gradient_clipping": "auto", "steps_per_print": 2000, "train_batch_size": "auto", "train_micro_batch_size_per_gpu": "auto", "wall_clock_breakdown": false }

github.com/pytorch/pytorch

Setting a `complex` tensor to `linalg.norm()` returns a `float` tensor

opened 06:51PM - 23 Sep 24 UTC

hyperkai

triaged module: linear algebra

### 🐛 Describe the bug Setting an `int` tensor to [linalg.norm()](https://pytor…ch.org/docs/stable/generated/torch.linalg.norm.html) gets the error message as shown below: ```python import torch from torch import linalg my_tensor = torch.tensor([8, -3, 0, 1]) linalg.norm(input=my_tensor) # Error ``` > RuntimeError: linalg.vector_norm: Expected a floating point or complex tensor as input. Got Long But, setting a `complex` tensor to `linalg.norm()` returns a `float` tensor as shown below: ```python import torch from torch import linalg my_tensor = torch.tensor([8.+0.j, -3.+0.j, 0.+0.j, 1.+0.j]) linalg.norm(input=my_tensor) # tensor(8.6023) linalg.norm(input=my_tensor).dtype # torch.float32 ``` So, I set `dtype=torch.complex64` to `linalg.norm()` but it still returns a `float` tensor as shown below: ```python import torch from torch import linalg my_tensor = torch.tensor([8.+0.j, -3.+0.j, 0.+0.j, 1.+0.j]) # ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ linalg.norm(input=my_tensor, dtype=torch.complex64) # tensor(8.6023) linalg.norm(input=my_tensor, dtype=torch.complex64).dtype # torch.float32 ``` ### Versions ```python import torch torch.__version__ # '2.3.0' ``` cc @jianyuh @nikitaved @pearu @mruberry @walterddr @xwang233 @Lezcano

Topic		Replies	Views
[Solved] Cannot restart training from deepspeed checkpoint Intermediate	3	2663	December 28, 2023
Avoid saving deepspeed optimizer and model states at checkpoints Beginners	2	389	February 19, 2025
AutoTrain Error DeepSpeed Zero-3 DeepSpeed	1	259	August 21, 2024
[Deepspeed] ZeRO-Infinity integration released and config changes DeepSpeed	2	2295	April 28, 2021
Basics for Multi GPU Training with Huggingface Trainer 🤗Transformers	0	2677	June 14, 2023

Corrupted deepspeed checkpoint

Related topics