Finetuning and single-GPU utilization

shahjaidev · August 19, 2021, 2:10pm

Hi all!
I have a question related to fine-tuning:
Is fine-tuning a pre-trained transformer model a easier model an ‘easier’ task than training a transformer from scratch (BERT, GPT-2) in terms of GPU needs and GPU memory usage?

To clarify further, I’ve read how to train most transformer models, one would require multi-GPU training. However, is it possible to fine-tune some of these models on a single-GPU?
Why is this the case? Is it because the computational graph during backpropagation is smaller when a lot of the parameters are frozen?

Topic		Replies	Views
Seeking Advice on Optimizing Hardware Resources for Model Training Beginners	3	148	August 4, 2024
Is Transformers using GPU by default? Beginners	6	154344	December 11, 2023
Model Parallelism, how to parallelize transformer? Beginners	3	12703	June 18, 2021
Does Trainer prefetch data? Beginners	3	2309	February 13, 2023
Transformer generate function got low GPU utilization 🤗Transformers	1	829	December 18, 2022

Finetuning and single-GPU utilization

Related topics