OOM while generating last hidden states for entire dataset

kabrav · April 9, 2023, 8:56am

I am trying to store hidden states for the entire test set of xsum using PegasusForConditionalGeneration. I am able to do this for a couple of examples, but am unable to do so with a dataloader.

After the initial setup

def tokenization(example):
    return tokenizer(example["document"], truncation=True, padding="longest", return_tensors="pt")
dataset_test = dataset["test"].map(tokenization, batched=True)

dataset_test = dataset_test.remove_columns(['document','summary','id'])

...

dataloader_test = DataLoader(dataset_test, batch_size=1)
outputs = []
with torch.no_grad() :
    for batch in dataloader_test:
        output = model.generate(**batch, output_hidden_states=True, output_scores=True, return_dict_in_generate=True)
        outputs.append(output)

This gives an OOM on GPU on the first model.generate itself, even after using things like gc.collect() and torch.cuda.empty_cache().

shahad-mahmud · April 10, 2023, 6:31am

What is the maximum length of the texts? Can you try limiting the length to a shorted sequence?

Topic		Replies	Views
Model.generate() OOM on 1 of 2 GPUs? 🤗Transformers	4	1685	March 4, 2022
The hidden_states when i use model.generate 🤗Transformers	4	1898	March 28, 2025
`load_dataset` results in OOM 🤗Datasets	0	177	June 25, 2024
Oscillating VRAM when generating Intermediate	0	28	November 25, 2024
GPU OOM when training Beginners	2	3230	October 20, 2021

OOM while generating last hidden states for entire dataset

Related topics