How to make single-input inference faster? Create my own pipeline?

Narsil · August 24, 2021, 3:11pm

Sorry for using my alt.

What I mean, is you need to check that you are using your GPU at 100% (nvidia-smi -l 1)

Could you instrument your function by printing times at each step, the result of the slowdown might come out clearer.

Topic		Replies	Views
Make bert inference faster 🤗Transformers	6	11204	September 16, 2021
Model inference on tokenized dataset 🤗Datasets	2	6404	March 22, 2023
Inference speed between pipelines and Heads 🤗Transformers	0	325	April 3, 2023
Speeding up electra inference, multilabel classification 🤗Transformers	0	387	June 9, 2022
Auto Model for Sequence Classification take more than 20 minutes to classify a single sequence 🤗Transformers	3	288	March 7, 2024