I have a question about multi-GPU inference

gaoxt1983 · March 9, 2023, 1:51am

In the inference tutorial: Getting Started with DeepSpeed for Inferencing Transformer based Models - DeepSpeed , for this example:

# Filename: gpt-neo-2.7b-generation.py
import os
import deepspeed
import torch
from transformers import pipeline

local_rank = int(os.getenv('LOCAL_RANK', '0'))
world_size = int(os.getenv('WORLD_SIZE', '1'))
generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B',
                     device=local_rank)



generator.model = deepspeed.init_inference(generator.model,
                                           mp_size=world_size,
                                           dtype=torch.float,
                                           replace_with_kernel_inject=True)

string = generator("DeepSpeed is", do_sample=True, min_length=50)
if not torch.distributed.is_initialized() or torch.distributed.get_rank() == 0:
    print(string)

I want to know:

if I’m using deepspeed --num_gpus 2 gpt-neo-2.7b-generation.py, the “generator” statement runs once or twice?
should I do something necessary for different rank of machine?

Topic		Replies	Views
Infrence time increase when using multi-GPU DeepSpeed	1	882	November 28, 2023
Setup for Deepspeed Multi GPU Training DeepSpeed	2	8073	December 7, 2022
Eval freezes on local multi GPU Deepspeed run DeepSpeed	4	2920	April 28, 2021
Multiple gpu not properly parallelized during model.generate() 🤗Transformers	4	1653	October 9, 2022
Gpt-neo inference with Deepspeed: IndexError: Dimension out of range Beginners	0	484	August 10, 2021

I have a question about multi-GPU inference

Related topics