Training speed vs Megatron

xianf · November 29, 2023, 11:17am

I try to pretrain a language model so I made some speed tests about transformers and Megatron. I found if I pre-tokenize the data and use flash-attention, the training speed is on par with Megatron in one node with 8 GPU.
Is this correct? As I know, transformers is slower than Megatron, especially for pretrain from scratch.

Topic		Replies	Views
Does Trainer prefetch data? Beginners	3	2319	February 13, 2023
Different Inference Speed for same size models Models	0	389	August 29, 2021
Finetuning and single-GPU utilization 🤗Transformers	0	489	August 19, 2021
[Help] GPU with query answering 🤗Transformers	0	328	November 25, 2020
What is Transformers doing? Why it's so slow? 🤗Transformers	0	999	June 16, 2023

Training speed vs Megatron

Related topics