Model Parallelism, how to parallelize transformer?

valgi0 · June 18, 2021, 8:38am

thank you for the answer
I am sorry to answer after so much time but I was pretty busy.
However, I checked accelerate and it performs only data parallelism. Am I right?

I found out some models as T5, GPT2 have parallelize() method to split encoder and decoder on different devices. But that has serious limits, you need a balanced encoder decoder for examples.

I would like do the same but with BERT, I tried to manually distribute encoder layers on the two different gpus. It seems to work but it lacks of optimization and it does not work with Trainer and other tools any more.

I dont know, if you have any other ideas come forward
Thank you

Topic		Replies	Views
Model parallel with deepspeed integration Beginners	0	652	September 14, 2021
Parallelize model call for TFBertModel 🤗Transformers	3	1037	January 7, 2021
Transformer model parallel does not work with Pytorch DDP for multi-node training 🤗Transformers	0	525	September 1, 2022
Manual pipeline parallelization with DeepSpeed DeepSpeed	0	785	January 7, 2023
Trainer API for Model Parallelism on Multiple GPUs 🤗Transformers	5	4287	September 10, 2024

Model Parallelism, how to parallelize transformer?

Related topics