I used a standard LORA adapter training pipeline to train the deepseek-ai/DeepSeek-R1-Distill-Llama-8B model. I then stored the model on the huggingface hub using the model.push_to_hub_merged() method. I then wanted to use huggingface inference endpoints to load the model and I kept getting an error. I shall link my model as well as the error I am getting, any help would be appreciated, thanks!
Name of model - bhaskars113/DeepSeek-R1-Entity-8B-V1.1
Error:
Apr 02, 16:20:29 WARN
๐จ๐จBREAKING CHANGE in 2.0๐จ๐จ: Safetensors conversion is disabled without `--trust-remote-code` because Pickle files are unsafe and can essentially contain remote code execution!Please check for more information here: https://huggingface.co/docs/text-generation-inference/basic_tutorials/safety
Apr 02, 16:20:29 WARN
No safetensors weights found for model /repository at revision None. Converting PyTorch weights to safetensors.
Apr 02, 16:20:37 ERROR
: DownloadError
Apr 02, 16:20:37 INFO
{"timestamp":"2025-04-02T10:50:37.264752Z","level":"ERROR","fields":{"message":"Download encountered an error: \n2025-04-02 10:50:27.692 | | text_generation_server.utils.import_utils:<module>:76 - Detected system cuda\nโญโโโโโโโโโโโโโโโโโโโโโ Traceback (most recent call last) โโโโโโโโโโโโโโโโโโโโโโโฎ\nโ /usr/src/server/text_generation_server/cli.py:335 in download_weights โ\nโ โ\nโ 332 โ โ except Exception: โ\nโ 333 โ โ โ discard_names = [] โ\nโ 334 โ โ # Convert pytorch weights to safetensors โ\nโ โฑ 335 โ โ utils.convert_files(local_pt_files, local_st_files, discard_na โ\nโ 336 โ\nโ 337 โ\nโ 338 @app.command() โ\nโ โ\nโ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ\nโ โ architecture = 'LlamaForCausalLM' โ โ\nโ โ auto_convert = True โ โ\nโ โ base_model_id = None โ โ\nโ โ config = { โ โ\nโ โ โ 'architectures': ['LlamaForCausalLM'], โ โ\nโ โ โ 'attention_bias': False, โ โ\nโ โ โ 'attention_dropout': 0.0, โ โ\nโ โ โ 'bos_token_id': 128000, โ โ\nโ โ โ 'eos_token_id': 128001, โ โ\nโ โ โ 'head_dim': 128, โ โ\nโ โ โ 'hidden_act': 'silu', โ โ\nโ โ โ 'hidden_size': 4096, โ โ\nโ โ โ 'initializer_range': 0.02, โ โ\nโ โ โ 'intermediate_size': 14336, โ โ\nโ โ โ ... +18 โ โ\nโ โ } โ โ\nโ โ config_filename = '/repository/config.json' โ โ\nโ โ discard_names = ['lm_head.weight'] โ โ\nโ โ extension = '.safetensors' โ โ\nโ โ f = <_io.TextIOWrapper name='/repository/config.json' โ โ\nโ โ mode='r' encoding='utf-8'> โ โ\nโ โ is_local_model = True โ โ\nโ โ json = <module 'json' from โ โ\nโ โ '/root/.local/share/uv/python/cpython-3.11.11-linuxโฆ โ โ\nโ โ json_output = True โ โ\nโ โ local_pt_files = [ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00001-of-00007โฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00002-of-00007โฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00003-of-00007โฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00004-of-00007โฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00005-of-00007โฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00006-of-00007โฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00007-of-00007โฆ โ โ\nโ โ ] โ โ\nโ โ local_st_files = [ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00001-of-00007.safetenโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00002-of-00007.safetenโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00003-of-00007.safetenโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00004-of-00007.safetenโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00005-of-00007.safetenโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00006-of-00007.safetenโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00007-of-00007.safetenโฆ โ โ\nโ โ ] โ โ\nโ โ logger_level = 'INFO' โ โ\nโ โ merge_lora = True โ โ\nโ โ model_id = '/repository' โ โ\nโ โ revision = None โ โ\nโ โ transformers = <module 'transformers' from โ โ\nโ โ '/usr/src/.venv/lib/python3.11/site-packages/transfโฆ โ โ\nโ โ trust_remote_code = False โ โ\nโ โ utils = <module 'text_generation_server.utils' from โ โ\nโ โ '/usr/src/server/text_generation_server/utils/__iniโฆ โ โ\nโ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ\nโ โ\nโ /usr/src/server/text_generation_server/utils/convert.py:112 in convert_files โ\nโ โ\nโ 109 โ โ โ continue โ\nโ 110 โ โ โ\nโ 111 โ โ start = datetime.datetime.now() โ\nโ โฑ 112 โ โ convert_file(pt_file, sf_file, discard_names) โ\nโ 113 โ โ elapsed = datetime.datetime.now() - start โ\nโ 114 โ โ logger.info(f\"Convert: [{i + 1}/{N}] -- Took: {elapsed}\") โ\nโ 115 โ\nโ โ\nโ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ\nโ โ discard_names = ['lm_head.weight'] โ โ\nโ โ i = 0 โ โ\nโ โ N = 7 โ โ\nโ โ pt_file = PosixPath('/repository/pytorch_model-00001-of-00007.binโฆ โ โ\nโ โ pt_files = [ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00001-of-00007.binโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00002-of-00007.binโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00003-of-00007.binโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00004-of-00007.binโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00005-of-00007.binโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00006-of-00007.binโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/pytorch_model-00007-of-00007.binโฆ โ โ\nโ โ ] โ โ\nโ โ sf_file = PosixPath('/repository/model-00001-of-00007.safetensorsโฆ โ โ\nโ โ sf_files = [ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00001-of-00007.safetensorsโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00002-of-00007.safetensorsโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00003-of-00007.safetensorsโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00004-of-00007.safetensorsโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00005-of-00007.safetensorsโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00006-of-00007.safetensorsโฆ โ โ\nโ โ โ โ โ\nโ โ PosixPath('/repository/model-00007-of-00007.safetensorsโฆ โ โ\nโ โ ] โ โ\nโ โ start = datetime.datetime(2025, 4, 2, 10, 50, 29, 649491) โ โ\nโ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ\nโ โ\nโ /usr/src/server/text_generation_server/utils/convert.py:93 in convert_file โ\nโ โ\nโ 90 โ โ pt_tensor = loaded[k] โ\nโ 91 โ โ sf_tensor = reloaded[k] โ\nโ 92 โ โ if not torch.equal(pt_tensor, sf_tensor): โ\nโ โฑ 93 โ โ โ raise RuntimeError(f\"The output tensors do not match for k โ\nโ 94 โ\nโ 95 โ\nโ 96 def convert_files(pt_files: List[Path], sf_files: List[Path], discard_ โ\nโ โ\nโ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ\nโ โ dirname = '/repository' โ โ\nโ โ discard_names = ['lm_head.weight'] โ โ\nโ โ k = 'model.layers.1.self_attn.k_proj.weight' โ โ\nโ โ loaded = { โ โ\nโ โ โ 'model.embed_tokens.weight': tensor([[-0.0008, โ โ\nโ โ 0.0095, -0.0044, ..., 0.0049, -0.0009, 0.0005], โ โ\nโ โ โ โ [-0.0019, 0.0016, -0.0009, ..., 0.0016, โ โ\nโ โ -0.0029, 0.0006], โ โ\nโ โ โ โ [ 0.0050, -0.0173, 0.0038, ..., 0.0061, โ โ\nโ โ 0.0063, 0.0066], โ โ\nโ โ โ โ ..., โ โ\nโ โ โ โ [ 0.0000, 0.0000, 0.0000, ..., 0.0000, โ โ\nโ โ -0.0000, -0.0000], โ โ\nโ โ โ โ [ 0.0000, -0.0000, -0.0000, ..., 0.0000, โ โ\nโ โ 0.0000, -0.0000], โ โ\nโ โ โ โ [-0.0000, -0.0000, 0.0000, ..., 0.0000, โ โ\nโ โ -0.0000, -0.0000]], โ โ\nโ โ โ dtype=torch.float16), โ โ\nโ โ โ 'model.layers.0.self_attn.q_proj.weight': โ โ\nโ โ tensor([[-0.0303, -0.0229, 0.0315, ..., 0.0450, โ โ\nโ โ -0.0190, 0.0166], โ โ\nโ โ โ โ [-0.0358, -0.0204, -0.0146, ..., -0.0294, โ โ\nโ โ 0.0561, -0.0159], โ โ\nโ โ โ โ [-0.0416, -0.0110, -0.0236, ..., -0.0320, โ โ\nโ โ -0.0151, 0.0200], โ โ\nโ โ โ โ ..., โ โ\nโ โ โ โ [ 0.0000, 0.0000, 0.0000, ..., 0.0000, โ โ\nโ โ 0.0000, 0.0000
Apr 02, 16:20:58 INFO
Args {
model_id: "/repository",
revision: None,
validation_workers: 2,
sharded: None,
num_shard: None,
quantize: None,
speculate: None,
dtype: None,
kv_cache_dtype: None,
trust_remote_code: false,
max_concurrent_requests: 128,
max_best_of: 2,
max_stop_sequences: 4,
max_top_n_tokens: 5,
max_input_tokens: None,
max_input_length: None,
max_total_tokens: None,
waiting_served_ratio: 0.3,
max_batch_prefill_tokens: None,
max_batch_total_tokens: None,
max_waiting_tokens: 20,
max_batch_size: None,
cuda_graphs: None,
hostname: "r-113industries-deepseek-r1-entity-8b-v1-1-sih-csfvdr-c1edc-v8y",
port: 80,
shard_uds_path: "/tmp/text-generation-server",
master_addr: "localhost",
master_port: 29500,
huggingface_hub_cache: Some(
"/repository/cache",
),
weights_cache_override: None,
disable_custom_kernels: false,
cuda_memory_fraction: 1.0,
rope_scaling: None,
rope_factor: None,
json_output: true,
otlp_endpoint: None,
otlp_service_name: "text-generation-inference.router",
cors_allow_origin: [],
api_key: None,
watermark_gamma: None,
watermark_delta: None,
ngrok: false,
ngrok_authtoken: None,
ngrok_edge: None,
tokenizer_config_path: None,
disable_grammar_support: false,
env: false,
max_client_batch_size: 4,
lora_adapters: None,
usage_stats: On,
payload_limit: 2000000,
enable_prefill_logprobs: false,
}