LORA Adapated Deepseek R1 not working with inference endpoints

I used a standard LORA adapter training pipeline to train the deepseek-ai/DeepSeek-R1-Distill-Llama-8B model. I then stored the model on the huggingface hub using the model.push_to_hub_merged() method. I then wanted to use huggingface inference endpoints to load the model and I kept getting an error. I shall link my model as well as the error I am getting, any help would be appreciated, thanks!

Name of model - bhaskars113/DeepSeek-R1-Entity-8B-V1.1

Error:

Apr 02, 16:20:29	WARN	
๐Ÿšจ๐ŸšจBREAKING CHANGE in 2.0๐Ÿšจ๐Ÿšจ: Safetensors conversion is disabled without `--trust-remote-code` because Pickle files are unsafe and can essentially contain remote code execution!Please check for more information here: https://huggingface.co/docs/text-generation-inference/basic_tutorials/safety
Apr 02, 16:20:29	WARN	
No safetensors weights found for model /repository at revision None. Converting PyTorch weights to safetensors.
Apr 02, 16:20:37	ERROR	
: DownloadError
Apr 02, 16:20:37	INFO	
{"timestamp":"2025-04-02T10:50:37.264752Z","level":"ERROR","fields":{"message":"Download encountered an error: \n2025-04-02 10:50:27.692 |      | text_generation_server.utils.import_utils:<module>:76 - Detected system cuda\nโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ\nโ”‚ /usr/src/server/text_generation_server/cli.py:335 in download_weights        โ”‚\nโ”‚                                                                              โ”‚\nโ”‚   332 โ”‚   โ”‚   except Exception:                                              โ”‚\nโ”‚   333 โ”‚   โ”‚   โ”‚   discard_names = []                                         โ”‚\nโ”‚   334 โ”‚   โ”‚   # Convert pytorch weights to safetensors                       โ”‚\nโ”‚ โฑ 335 โ”‚   โ”‚   utils.convert_files(local_pt_files, local_st_files, discard_na โ”‚\nโ”‚   336                                                                        โ”‚\nโ”‚   337                                                                        โ”‚\nโ”‚   338 @app.command()                                                         โ”‚\nโ”‚                                                                              โ”‚\nโ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚\nโ”‚ โ”‚      architecture = 'LlamaForCausalLM'                                   โ”‚ โ”‚\nโ”‚ โ”‚      auto_convert = True                                                 โ”‚ โ”‚\nโ”‚ โ”‚     base_model_id = None                                                 โ”‚ โ”‚\nโ”‚ โ”‚            config = {                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'architectures': ['LlamaForCausalLM'],           โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'attention_bias': False,                         โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'attention_dropout': 0.0,                        โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'bos_token_id': 128000,                          โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'eos_token_id': 128001,                          โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'head_dim': 128,                                 โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'hidden_act': 'silu',                            โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'hidden_size': 4096,                             โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'initializer_range': 0.02,                       โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   'intermediate_size': 14336,                      โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚   ... +18                                          โ”‚ โ”‚\nโ”‚ โ”‚                     }                                                    โ”‚ โ”‚\nโ”‚ โ”‚   config_filename = '/repository/config.json'                            โ”‚ โ”‚\nโ”‚ โ”‚     discard_names = ['lm_head.weight']                                   โ”‚ โ”‚\nโ”‚ โ”‚         extension = '.safetensors'                                       โ”‚ โ”‚\nโ”‚ โ”‚                 f = <_io.TextIOWrapper name='/repository/config.json'    โ”‚ โ”‚\nโ”‚ โ”‚                     mode='r' encoding='utf-8'>                           โ”‚ โ”‚\nโ”‚ โ”‚    is_local_model = True                                                 โ”‚ โ”‚\nโ”‚ โ”‚              json = <module 'json' from                                  โ”‚ โ”‚\nโ”‚ โ”‚                     '/root/.local/share/uv/python/cpython-3.11.11-linuxโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚       json_output = True                                                 โ”‚ โ”‚\nโ”‚ โ”‚    local_pt_files = [                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00001-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00002-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00003-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00004-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00005-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00006-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/pytorch_model-00007-of-00007โ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     ]                                                    โ”‚ โ”‚\nโ”‚ โ”‚    local_st_files = [                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00001-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00002-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00003-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00004-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00005-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00006-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     โ”‚                                                    โ”‚ โ”‚\nโ”‚ โ”‚                     PosixPath('/repository/model-00007-of-00007.safetenโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                     ]                                                    โ”‚ โ”‚\nโ”‚ โ”‚      logger_level = 'INFO'                                               โ”‚ โ”‚\nโ”‚ โ”‚        merge_lora = True                                                 โ”‚ โ”‚\nโ”‚ โ”‚          model_id = '/repository'                                        โ”‚ โ”‚\nโ”‚ โ”‚          revision = None                                                 โ”‚ โ”‚\nโ”‚ โ”‚      transformers = <module 'transformers' from                          โ”‚ โ”‚\nโ”‚ โ”‚                     '/usr/src/.venv/lib/python3.11/site-packages/transfโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚ trust_remote_code = False                                                โ”‚ โ”‚\nโ”‚ โ”‚             utils = <module 'text_generation_server.utils' from          โ”‚ โ”‚\nโ”‚ โ”‚                     '/usr/src/server/text_generation_server/utils/__iniโ€ฆ โ”‚ โ”‚\nโ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚\nโ”‚                                                                              โ”‚\nโ”‚ /usr/src/server/text_generation_server/utils/convert.py:112 in convert_files โ”‚\nโ”‚                                                                              โ”‚\nโ”‚   109 โ”‚   โ”‚   โ”‚   continue                                                   โ”‚\nโ”‚   110 โ”‚   โ”‚                                                                  โ”‚\nโ”‚   111 โ”‚   โ”‚   start = datetime.datetime.now()                                โ”‚\nโ”‚ โฑ 112 โ”‚   โ”‚   convert_file(pt_file, sf_file, discard_names)                  โ”‚\nโ”‚   113 โ”‚   โ”‚   elapsed = datetime.datetime.now() - start                      โ”‚\nโ”‚   114 โ”‚   โ”‚   logger.info(f\"Convert: [{i + 1}/{N}] -- Took: {elapsed}\")      โ”‚\nโ”‚   115                                                                        โ”‚\nโ”‚                                                                              โ”‚\nโ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚\nโ”‚ โ”‚ discard_names = ['lm_head.weight']                                       โ”‚ โ”‚\nโ”‚ โ”‚             i = 0                                                        โ”‚ โ”‚\nโ”‚ โ”‚             N = 7                                                        โ”‚ โ”‚\nโ”‚ โ”‚       pt_file = PosixPath('/repository/pytorch_model-00001-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚      pt_files = [                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00001-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00002-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00003-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00004-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00005-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00006-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/pytorch_model-00007-of-00007.binโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 ]                                                        โ”‚ โ”‚\nโ”‚ โ”‚       sf_file = PosixPath('/repository/model-00001-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚      sf_files = [                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00001-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00002-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00003-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00004-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00005-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00006-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 PosixPath('/repository/model-00007-of-00007.safetensorsโ€ฆ โ”‚ โ”‚\nโ”‚ โ”‚                 ]                                                        โ”‚ โ”‚\nโ”‚ โ”‚         start = datetime.datetime(2025, 4, 2, 10, 50, 29, 649491)        โ”‚ โ”‚\nโ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚\nโ”‚                                                                              โ”‚\nโ”‚ /usr/src/server/text_generation_server/utils/convert.py:93 in convert_file   โ”‚\nโ”‚                                                                              โ”‚\nโ”‚    90 โ”‚   โ”‚   pt_tensor = loaded[k]                                          โ”‚\nโ”‚    91 โ”‚   โ”‚   sf_tensor = reloaded[k]                                        โ”‚\nโ”‚    92 โ”‚   โ”‚   if not torch.equal(pt_tensor, sf_tensor):                      โ”‚\nโ”‚ โฑ  93 โ”‚   โ”‚   โ”‚   raise RuntimeError(f\"The output tensors do not match for k โ”‚\nโ”‚    94                                                                        โ”‚\nโ”‚    95                                                                        โ”‚\nโ”‚    96 def convert_files(pt_files: List[Path], sf_files: List[Path], discard_ โ”‚\nโ”‚                                                                              โ”‚\nโ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚\nโ”‚ โ”‚       dirname = '/repository'                                            โ”‚ โ”‚\nโ”‚ โ”‚ discard_names = ['lm_head.weight']                                       โ”‚ โ”‚\nโ”‚ โ”‚             k = 'model.layers.1.self_attn.k_proj.weight'                 โ”‚ โ”‚\nโ”‚ โ”‚        loaded = {                                                        โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   'model.embed_tokens.weight': tensor([[-0.0008,       โ”‚ โ”‚\nโ”‚ โ”‚                 0.0095, -0.0044,  ...,  0.0049, -0.0009,  0.0005],       โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [-0.0019,  0.0016, -0.0009,  ...,  0.0016,       โ”‚ โ”‚\nโ”‚ โ”‚                 -0.0029,  0.0006],                                       โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [ 0.0050, -0.0173,  0.0038,  ...,  0.0061,       โ”‚ โ”‚\nโ”‚ โ”‚                 0.0063,  0.0066],                                        โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   ...,                                             โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [ 0.0000,  0.0000,  0.0000,  ...,  0.0000,       โ”‚ โ”‚\nโ”‚ โ”‚                 -0.0000, -0.0000],                                       โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [ 0.0000, -0.0000, -0.0000,  ...,  0.0000,       โ”‚ โ”‚\nโ”‚ โ”‚                 0.0000, -0.0000],                                        โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [-0.0000, -0.0000,  0.0000,  ...,  0.0000,       โ”‚ โ”‚\nโ”‚ โ”‚                 -0.0000, -0.0000]],                                      โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚      dtype=torch.float16),                             โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   'model.layers.0.self_attn.q_proj.weight':            โ”‚ โ”‚\nโ”‚ โ”‚                 tensor([[-0.0303, -0.0229,  0.0315,  ...,  0.0450,       โ”‚ โ”‚\nโ”‚ โ”‚                 -0.0190,  0.0166],                                       โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [-0.0358, -0.0204, -0.0146,  ..., -0.0294,       โ”‚ โ”‚\nโ”‚ โ”‚                 0.0561, -0.0159],                                        โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [-0.0416, -0.0110, -0.0236,  ..., -0.0320,       โ”‚ โ”‚\nโ”‚ โ”‚                 -0.0151,  0.0200],                                       โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   ...,                                             โ”‚ โ”‚\nโ”‚ โ”‚                 โ”‚   โ”‚   [ 0.0000,  0.0000,  0.0000,  ...,  0.0000,       โ”‚ โ”‚\nโ”‚ โ”‚                 0.0000,  0.0000
Apr 02, 16:20:58	INFO	
Args {
    model_id: "/repository",
    revision: None,
    validation_workers: 2,
    sharded: None,
    num_shard: None,
    quantize: None,
    speculate: None,
    dtype: None,
    kv_cache_dtype: None,
    trust_remote_code: false,
    max_concurrent_requests: 128,
    max_best_of: 2,
    max_stop_sequences: 4,
    max_top_n_tokens: 5,
    max_input_tokens: None,
    max_input_length: None,
    max_total_tokens: None,
    waiting_served_ratio: 0.3,
    max_batch_prefill_tokens: None,
    max_batch_total_tokens: None,
    max_waiting_tokens: 20,
    max_batch_size: None,
    cuda_graphs: None,
    hostname: "r-113industries-deepseek-r1-entity-8b-v1-1-sih-csfvdr-c1edc-v8y",
    port: 80,
    shard_uds_path: "/tmp/text-generation-server",
    master_addr: "localhost",
    master_port: 29500,
    huggingface_hub_cache: Some(
        "/repository/cache",
    ),
    weights_cache_override: None,
    disable_custom_kernels: false,
    cuda_memory_fraction: 1.0,
    rope_scaling: None,
    rope_factor: None,
    json_output: true,
    otlp_endpoint: None,
    otlp_service_name: "text-generation-inference.router",
    cors_allow_origin: [],
    api_key: None,
    watermark_gamma: None,
    watermark_delta: None,
    ngrok: false,
    ngrok_authtoken: None,
    ngrok_edge: None,
    tokenizer_config_path: None,
    disable_grammar_support: false,
    env: false,
    max_client_batch_size: 4,
    lora_adapters: None,
    usage_stats: On,
    payload_limit: 2000000,
    enable_prefill_logprobs: false,
}
1 Like

No safetensors weights found for model /repository at revision None. Converting PyTorch weights to safetensors.

As the error message says, there is only .bin files.

You might need:

model.push_to_hub_merged(***, safe_serialization = None) # save weight as .safetensors

Safetensors conversion is disabled without --trust-remote-code because Pickle files are unsafe and can essentially contain remote code execution!

Or โ€“trust-remote-code on loading.

Or use GGUF in llamacpp? It worked normally in my environment.