Best practices for improving text generation speed?

ivnle · April 30, 2022, 9:59pm

Aside from buying a faster/larger GPU, are there any best practices for increasing text generation speed? Specifically, I’d like to use GPT-2 (of various sizes) to generate a large set of text (5,000 examples, 1,000 BPE tokens each).

My initial research shows there are a few options:
(a) DeepSpeed for inference
(b) batched generation
(c) fp16 inference. Although I’m not sure how to do this outside of Trainer. I could call model.half() but it’s not clear to me if that’s the right way to go about this.

Any advice is appreciated!

Topic		Replies	Views
Speeding up GPT2 generation Beginners	3	4829	October 29, 2020
Generate text on multiple GPU 🤗Transformers	2	1319	May 10, 2021
Model.generate() is extremely slow while using beam search 🤗Transformers	2	5462	July 24, 2022
Recommended way to perform batch inference for generation 🤗Transformers	0	2551	March 6, 2021
Does using FP16 help accelerate generation? (HuggingFace BART) 🤗Transformers	2	5766	September 30, 2020

Best practices for improving text generation speed?

Related topics