Using model.generate() in parrellel / faster?

jared312 · October 11, 2023, 3:45am

Hey all,
I have fine tuned a llama model and have loaded it into a model object with AutoPeftModelForCausalLM.

I now want to used this model for inference on a lot of queries. Currently I am looping (yes for looping) through each query and calling mymodel.generate, then tokenizer.decode to get each response.

Is there a smarter way I can do this in huggingface? Can you generate in parrellel or batches? I have 4 GPUs avaliable to me.

Thanks
Jared

Topic		Replies	Views
How to parallelize model.generate? 🤗Transformers	1	825	September 7, 2022
Data Parallelism for multi-GPUs Inference Intermediate	0	562	October 26, 2022
Multiple gpu not properly parallelized during model.generate() 🤗Transformers	4	1653	October 9, 2022
Generate text on multiple GPU 🤗Transformers	2	1309	May 10, 2021
Model.generate() is extremely slow while using beam search 🤗Transformers	2	5451	July 24, 2022

Using model.generate() in parrellel / faster?

Related topics