Slow inference using most recent docker image

philschmid · December 7, 2021, 5:44pm

From your code

ojturner:

 huggingface_model = HuggingFaceModel(
    role="-",
    model_data="-",
    entry_point="-",
    source_dir="-",
    code_location="-",
    transformers_version='4.12.3',
    pytorch_version='1.9.1',
    py_version='py38',
)

it looks like you are using a custom inference.py script is that correct? could you provide? Have you tested the latency and overhead using the “zero-code” deployment, without providing inference.py.

Could you also share more information about which model/model-architecture/task you are using?

Topic		Replies	Views
Help for inference.py code Amazon SageMaker	10	4043	March 8, 2022
Transformers 4.6.0 on SageMaker? Amazon SageMaker	14	4641	September 9, 2022
How to deploy a T5 model to AWS SageMaker for fast inference? Amazon SageMaker	13	5866	February 28, 2022
Transformers 4.9.0 on SageMaker Amazon SageMaker	12	2000	March 25, 2022
Transformer Version train vs. Sagemaker Amazon SageMaker	1	321	September 14, 2021

Slow inference using most recent docker image

Related topics