Creating Sagemaker Endpoint for 2 models (Segment Anything & YOLOv8) and Invoking it

majidiqbal8212 · January 6, 2024, 2:51pm

We have created a SageMaker Endpoint to deploy 2 PyTorch models and invoke them. Endpoint is created successfully and it is Real-Time. We receive error when we invoke this endpoint. The errors include Backend Worker died or Backend worker error etc. We are using “ml.g4dn.2xlarge” instance alongwith following parameters:

framework_version="2.0.1"py_version=“py310”

Some notable errors after running multiple times in our CloudWatch are:

2024-01-06T11:57:59,036 [INFO ] W-9000-model_1.0-stdout MODEL_LOG - File “/opt/conda/lib/python3.10/site-packages/ts/model_service_worker.py”, line 184, in handle_connection

2024-01-06T11:57:59,036 [WARN ] W-9000-model_1.0 org.pytorch.serve.wlm.BatchAggregator - Load model failed: model, error: Worker died.

2024-01-06T11:58:00,960 [ERROR] W-9000-model_1.0 org.pytorch.serve.wlm.WorkerThread - Backend worker error 2024-01-06T11:58:03,486 [ERROR] epollEventLoopGroup-5-2

org.pytorch.serve.wlm.WorkerThread - Unknown exception 2024-01-06T13:46:02,364 [ERROR] W-9000-model_1.0 org.pytorch.serve.wlm.WorkerThread - Backend worker error

We have set many logs in our inference.py file but seems like the Invoking process stops even before running the Inference file as Backend worker dies. The 2 models we are using are:

sam_vit_l_0b3195.pth (Segment Anything model)
yolov8n.pt

Topic		Replies	Views
503 No worker is available when calling single huggingface endpoint Amazon SageMaker	11	4303	April 7, 2022
Modelerror when deploying openchat3.5 Amazon SageMaker	0	223	April 2, 2024
Cannot invoke sagemaker endpoint, keep getting OS error Amazon SageMaker	3	2827	February 2, 2024
Error: Could Not Load Model Amazon SageMaker	7	6633	March 11, 2022
Workers crashing in HF Inferentia inference Amazon SageMaker	3	2370	September 8, 2022

Creating Sagemaker Endpoint for 2 models (Segment Anything & YOLOv8) and Invoking it

Related topics