Runtime of XLM-R model is too high

Komal5 · February 25, 2022, 7:41am

I have finetuned XLM-RoBERTa on text classification dataset. I am finetuning model on Tensorflow-keras. I have finetuning model on google colab gpu and testing model on google colab cpu. I have used below methods to save, load and run the model.

model.save_weights("/content/drive/MyDrive/trained_model/tf_model.h5")

loaded_model = TFRobertaForSequenceClassification. from_pretrained(’/content/drive/MyDrive/trained_model’)

model.predict((encoded_dict[‘input_ids’], encoded_dict[‘attention_mask’]))

This works well but the inference time for a single document is 3.6 seconds which is too high. How can I make model run faster?

Topic		Replies	Views
XLM-Roberta for many-topic classification Beginners	1	1168	December 31, 2021
Fine-Tune Xlm-roberta-large-xnli 🤗Transformers	1	1922	December 28, 2021
Train large models on large datasets by parts Beginners	0	219	April 24, 2021
Xlm-roberta-base predicting always same class, other models don't Intermediate	2	1103	June 7, 2023
Saved fine-tuned model doesn't work after loading it 🤗Transformers	2	1061	November 18, 2022

Runtime of XLM-R model is too high

Related topics