Transformer's trainer runtime error

kein1127 · December 5, 2024, 9:14am

I performed fine tuning flan-t5-base model using peft.

here is my peft config code

peft_model = get_peft_model(original_model, 
                            lora_config).to('cuda')

output_dir = f'/kaggle/working/peft-dialogue-summary-lora-training-{str(int(time.time()))}'

peft_training_args = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=8,
    gradient_accumulation_steps=4,
    learning_rate=1e-3, # Higher learning rate than full fine-tuning.
    num_train_epochs=1,
    save_strategy="epoch",
    logging_steps=15,
     
)
    
peft_trainer = Trainer(
    model=peft_model,
    args=peft_training_args,
    train_dataset=tokenized_datasets["train"],
)

original_model is google/flan-t5-base
And during perf_trainer.train() error happened.
Some tensors share memory, this will lead to duplicate memory on disk and potential differences when loading them again.

Please help me!

John6666 · December 5, 2024, 10:23am

Possibly same error.

Topic		Replies	Views
Transformer's Trainer Memory shared Error 🤗Transformers	3	644	December 5, 2024
Using trainer to fine-tune the model gives an error. Seeking solution! Beginners	1	106	December 3, 2024
Error when fine-tuning on multi-gpu 🤗Transformers	1	580	February 17, 2025
Trouble running SFT with PEFT model Beginners	2	1018	March 19, 2024
Mmed_Llama_3_8b_retraining Models	1	103	August 21, 2024

Transformer's trainer runtime error

Related topics