Data Parallelism for multi-GPUs Inference

Giulietta · October 26, 2022, 10:02am

Hi everyone,

I need to do inference on huge size of data and I would like to send the pre-trained HF model to multiple GPUs. Therefore my problem is a data parallel rather than a model parallel. I have seen that DP cannot support model.generate() method. Please, do you have any suggestion about Inference on multi-GPU?

Thanks a lot!

Topic		Replies	Views
Multi-GPU LLM inference data parallelism (llama) Beginners	1	14272	October 25, 2023
Multiple gpu not properly parallelized during model.generate() 🤗Transformers	4	1629	October 9, 2022
Using model.generate() in parrellel / faster? Beginners	0	365	October 11, 2023
How to generate on multiple GPU's Intermediate	3	1856	August 30, 2022
Inferences with DataParallel Beginners	3	5000	March 15, 2024

Data Parallelism for multi-GPUs Inference

Related topics