Sagemaker Serverless Inference

philschmid · January 25, 2022, 12:49pm

Hello,

There is no fix yet for it but there is a workaround. You can set an environment variable MMS_DEFAULT_WORKERS_PER_MODEL=1 when creating the endpoint.
Since Serverless Inference is powered by AWS Lambda and AWS Lambda doesn’t have GPU support yet Serverless Inference won’t have it as well. And i assume it will get GPU support when AWS Lambda has GPU support.

Topic		Replies	Views
Sagemaker serverless endpoint deployment error (Image size greater than support size)) Amazon SageMaker	3	1258	July 21, 2023
Inference failed for FLAN-UL2(20B) on SageMaker Amazon SageMaker	6	2196	April 4, 2023
Error: Could Not Load Model Amazon SageMaker	7	6719	March 11, 2022
Inference error for FLAN-UL2 on AWS SageMaker Amazon SageMaker	1	966	April 3, 2023
Serveless memory problem when deploy Wav2Vec2 with custom inference code Amazon SageMaker	23	4030	May 27, 2022