Slow speed with large context

owaisorakzai · July 24, 2024, 2:19pm

Hello everyone. I am using ibm granite 20b model for code generation task, its working pretty good but when I make my prompt and examples in prompt longer, it gets very slow… Can anyone tell how can I make it faster with longer prompts. I have already applied quantization etc

Topic		Replies	Views
Inference slows down after restrictions 🤗Transformers	0	204	March 22, 2021
Optimize response time of model output 🤗Transformers	0	680	December 23, 2021
Speeding up GPT2 generation Beginners	3	4818	October 29, 2020
Strange answer from api 🤗Transformers	0	628	January 10, 2022
Handle long generation in text generation pipeline 🤗Transformers	0	511	June 16, 2023

Slow speed with large context

Related topics