How to deploy quantized Mixtral 8x7b from Sagemaker?

Soraheart1988 · December 21, 2023, 1:08am

Please advise how to deploy 4bits or 8bits Mixtral 8x7 Model in sagemaker.
I tried the following code but the deployment progress bar doesnt show up.

model_data = ‘s3://path/to/model.tar.gz’

pytorch_model = PyTorchModel(
model_data=model_data,
role=role,
source_dir =‘code’,
framework_version=“1.12.1”,
entry_point=“inference.py”,
py_version =‘py38’,
model_server_workers=1
)

predictor = pytorch_model.deploy(initial_instance_count=1,
instance_type=“ml.g4dn.12xlarge”,
endpoint_name = ‘test-mistral8x7b’,
serializer=CSVSerializer(),
deserializer=JSONDeserializer()
)

the code folder contains inference.py & requirements.txt

This is the inference code

from transformers import AutoModelForCausalLM, AutoTokenizer

def model_fn(model_dir):

  tokenizer = AutoTokenizer.from_pretrained(model_dir)
  model = AutoModelForCausalLM.from_pretrained(model_dir, load_in_4bit=True)
  return model, tokenizer

def predict_fn(data, model_and_tokenizer):

  text = data.pop("text", data)
  # unpack model and tokenizer
  model, tokenizer = model_and_tokenizer
  inputs = tokenizer(text, return_tensors="pt").to(0)
  outputs = model.generate(**inputs, max_new_tokens=20)
  return tokenizer.decode(outputs[0], skip_special_tokens=True)

The model.tar.tz is downloaded from and uploaded to the s3

Topic		Replies	Views
Deploying Mixtral8x7B on AWS Sagemaker from S3 Amazon SageMaker	2	480	June 11, 2024
QLoRA trained Mixtral 8x7B deployment error on Sagemaker using text generation inference image Amazon SageMaker	0	305	April 10, 2024
Unable to deploy fine tuned Mistral Amazon SageMaker	0	268	May 6, 2024
Issue in deploying quantized meta-llama/Llama-3.1-8B-Instruct in aws sagemaker Intermediate	0	70	October 10, 2024
Endpoint Deployment Amazon SageMaker	1	1108	September 20, 2021

How to deploy quantized Mixtral 8x7b from Sagemaker?

Related topics