Multi-GPU eval in PyTorch training loop with generate method

VictorAtPL · January 9, 2022, 4:15pm

Hi,

Thank you for your work. I really like the idea behind Transformers and Accelerate libraries.

I am experimenting with TrOCR fine-tuning and currently I train it on multi-gpu, but evaluate on single-gpu using following code:

   if accelerator.is_main_process:
     unwrapped_model = accelerator.unwrap_model(model).to(accelerator.device)
     unwrapped_model.eval()
    
     valid_cer = 0.0
     with torch.no_grad():
       for batch in tqdm(eval_dataloader):
         outputs = unwrapped_model.generate(batch["pixel_values"].to(accelerator.device))
         cer = compute_cer(pred_ids=outputs, label_ids=batch["labels"])
         valid_cer += cer 

     accelerator.print("Validation CER:", valid_cer / len(eval_dataloader))

Is it possible to use generate method on a parallelized model?

smangrul · August 30, 2022, 4:16am

Hello, yes, you can use generate method in a multi-gpu setting. Refer to the official example script transformers/run_translation_no_trainer.py at main · huggingface/transformers (github.com).

Topic		Replies	Views
Multi-GPU sharded eval with Trainer and generate method during training DeepSpeed	1	761	May 25, 2023
Model.generate() OOM on 1 of 2 GPUs? 🤗Transformers	4	1685	March 4, 2022
Model is not properly moved to GPU memory with torch.no_grad() Beginners	5	4790	August 24, 2022
Trainer.evaluate() with text generation Beginners	5	3527	December 31, 2021
How to use specified GPUs with Accelerator to train the model? Beginners	15	29383	August 23, 2024

Multi-GPU eval in PyTorch training loop with generate method

Related topics