How to deploy a T5 model to AWS SageMaker for fast inference?

OlivierCR · November 17, 2021, 10:43pm

for large DL models such as transformers, inference on CPU is slower than on GPU. And T5 is much bigger than the distillbert used in the demo. 700ms is actually not that bad for a CPU transformer try replacing m5.xlarge by g4dn.xlarge to reduce latency.

Topic		Replies	Views
Deploying open llm - google/flan-t5-large model on AWS inferentia2 Amazon SageMaker	0	441	September 14, 2023
Deploying T5-style models via Sagemaker Endpoint: 'T5LayerFF' object has no attribute 'config' Amazon SageMaker	5	1466	November 7, 2022
Help for inference.py code Amazon SageMaker	10	4003	March 8, 2022
Inference Hyperparameters Amazon SageMaker	29	4841	October 8, 2021
Deploying Open AI's whisper on Sagemaker Amazon SageMaker	54	16229	April 12, 2024

How to deploy a T5 model to AWS SageMaker for fast inference?

Related topics