Running out of memory at inference

yulgm · June 26, 2022, 1:54am

Hi,

I finetuned a paraphraser model, based on https://huggingface.co/tuner007/pegasus_paraphrase

However when I’m trying to make predictions, I get CUDA out of memory. I’m using the same server I used to train the model, so I should be ok.

I’m trying to make prediction on a list of sentences. The list is about 150 sentences long. So I’m assuming it is running out of memory because it needs batching?

Is there a way to specify batch size at inference?

I’m using this function to generate output:

def get_responses(input_text_list, num_return_sequences):

    batch = tokenizer(
        input_text_list, 
        truncation=True,
        padding='longest',
        max_length=60, 
        return_tensors="pt"
        ).to(device)

    translated = model.generate(
        **batch, 
        max_length=60, 
        num_beams=num_return_sequences, #use same as number of sequences for variety
        num_return_sequences=num_return_sequences, 
        temperature=1.5)

    #generates the full output list of all results
    output_list = tokenizer.batch_decode(translated, skip_special_tokens=True)

 
    return output_list

Is there a proper way to split the list into smaller batches? Or do I have to write separate code to break list of incoming values into batches?

Topic		Replies	Views
RuntimeError: CUDA out of memory even with simple inference Beginners	1	5401	January 16, 2022
CUDA out of memory for Longformer Beginners	6	1275	October 22, 2021
CUDA out of memory error while predicting (evaluation) 🤗Transformers	1	1456	March 22, 2024
Why is the tensor produced by inference so big? Beginners	2	441	April 17, 2023
Bert NextSentence memory leak Beginners	4	1569	May 29, 2021

Running out of memory at inference

Related topics