Continuous execution lead to decreasing inference time

allenwang37 October 28, 2024, 8:55am 1

for i in range(50):
model.generate()
I found the inference time is decreasing. I guess it is relative to cuda cache or something. I want to know what factors influenced this result？

1 Like

Topic		Replies	Views
When I try to inference on multiple GPUs using multiple processes, the time for model. generate() becomes very long 🤗Transformers	0	474	June 12, 2023
GPU inference slows down if done in a loop 🤗Transformers	1	1569	July 20, 2020
Concurrent inference on a single GPU Beginners	3	2504	November 28, 2021
Different Inference Speed for same size models Models	0	389	August 29, 2021
Data Parallelism for multi-GPUs Inference Intermediate	0	548	October 26, 2022

Continuous execution lead to decreasing inference time

Related topics