Load_best_model_at_end doesn't work?

Ice90 · July 28, 2024, 9:42pm

I am using trainer to finetune llava model. I want to save the best model during training based on the specific metric, however I found it loads the model at the end of training instead of the best one during the training. Here’s my relevant hyperparameters:

trainer.train()
trainer.evaluate(eval_dataset)

deepspeed llava/train/train_xformers.py \
    --bf16 False  \
    --fp16 True   \
    --num_train_epochs 10   \
    --per_device_train_batch_size 16  \
    --per_device_eval_batch_size 4  \
    --gradient_accumulation_steps 1  \
    --evaluation_strategy "steps"  \
    --eval_steps 10  \
    --save_steps 10 \
    --save_strategy "steps"    \
    --greater_is_better True \
    --load_best_model_at_end True \
    --metric_for_best_model eval_roc_auc \
    --learning_rate 0.000005   \
    --weight_decay 0.0000   \
    --warmup_ratio 0.03  \
    --lr_scheduler_type "cosine"  \
    --logging_steps 1  \
    --tf32 False  \
    --model_max_length 2048  \
    --gradient_checkpointing True  \
    --dataloader_num_workers 4   \
    --save_total_limit 1 \
    --lazy_preprocess True  \
    --report_to wandb

Thanks for your help in advance.

fabikru · March 25, 2025, 12:46pm

I have the same issue. Did anybody find a solution for this yet?

Topic		Replies	Views
Unexpected behavior of load_best_model_at_end in Trainer (or am I doing it wrong?) 🤗Transformers	2	54	March 25, 2025
What does load_best_model_at_end=True and evaluation_strategy="no" mean? Beginners	0	1282	July 29, 2023
Why i can't use EarlyStoppingCallback and load_best_model_at_end=False 🤗Transformers	0	712	August 8, 2023
How to load metrics in HF Trainer for the best model when `load_best_model_at_end=true`? 🤗Transformers	0	738	November 4, 2021
Trainer "load_best_model_at_end" doesn't load the best model Intermediate	0	2553	February 21, 2023

Load_best_model_at_end doesn't work?

Related topics