Model Parallelism, how to parallelize transformer?

lewtun · June 18, 2021, 1:44pm

ah i misunderstood your original question - from what i understand deepspeed supports model parallelism of the sort you describe: Feature Overview - DeepSpeed

there’s also a dedicated page for the deepspeed integration in transformers which might help: DeepSpeed Integration — transformers 4.7.0 documentation

i know stas was able to fine-tune T5 on a single gpu this way, so unless you have a very specific reason to want to parallelise BERT, this approach might be the best

hth!

Topic		Replies	Views
Model parallel with deepspeed integration Beginners	0	645	September 14, 2021
Trainer API for Model Parallelism on Multiple GPUs 🤗Transformers	5	4234	September 10, 2024
Tensor parallelism for customized model 🤗Accelerate	0	239	September 2, 2024
How to train my model on multiple GPU 🤗Transformers	2	2055	March 6, 2024
Parallelize model call for TFBertModel 🤗Transformers	3	1033	January 7, 2021

Model Parallelism, how to parallelize transformer?

Related topics