Can someone explain why this model doesn't work?

iNEEDtechSUPPORT · December 17, 2024, 1:47pm

I am trying to use Djrango/Qwen2vl-Flux. The first step is to clone the repository, and this succeeds. The second step is to download the snapshots and this succeeds. The third step is to use the model, and this fails with the error:

OSError: Incorrect path_or_model_id: 'checkpoints\qwen2-vl'. Please provide either the path to a local folder or the repo_id of a model on the Hub.

There is a comment in the “Community” tab that suggests this repository might be private and require a token of some kind, but there is no information about this elsewhere.

It seems like there are missing setup instructions. How should I proceed?

Alanturner2 · December 17, 2024, 1:51pm

Why don’t use this code

from transformers import AutoModel, AutoTokenizer

model_id = "organization_name/qwen2-vl"  # Replace with correct model repo_id
tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=True)
model = AutoModel.from_pretrained(model_id, use_auth_token=True)

If you’ve done then consider your file structure or free space that can download the model.

iNEEDtechSUPPORT · December 17, 2024, 9:05pm

Your code resulted in the following error:

File "C:\LLM\.venv\Lib\site-packages\transformers\models\auto\configuration_auto.py", line 1053, in from_pretrained
    raise ValueError(
ValueError: Unrecognized model in Djrango/Qwen2vl-Flux. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: albert, align, altclip, audio-spectrogram-transformer, autoformer, bark, bart, beit, bert, bert-generation, big_bird, bigbird_pegasus, biogpt, bit, blenderbot, blenderbot-small, blip, blip-2, bloom, bridgetower, bros, camembert, canine, chameleon, chinese_clip, chinese_clip_vision_model, clap, clip, clip_text_model, clip_vision_model, clipseg, clvp, code_llama, codegen, cohere, conditional_detr, convbert, convnext, convnextv2, cpmant, ctrl, cvt, dac, data2vec-audio, data2vec-text, data2vec-vision, dbrx, deberta, deberta-v2, decision_transformer, deformable_detr, deit, depth_anything, deta, detr, dinat, dinov2, distilbert, donut-swin, dpr, dpt, efficientformer, efficientnet, electra, encodec, encoder-decoder, ernie, ernie_m, esm, falcon, falcon_mamba, fastspeech2_conformer, flaubert, flava, fnet, focalnet, fsmt, funnel, fuyu, gemma, gemma2, git, glm, glpn, gpt-sw3, gpt2, gpt_bigcode, gpt_neo, gpt_neox, gpt_neox_japanese, gptj, gptsan-japanese, granite, granitemoe, graphormer, grounding-dino, groupvit, hiera, hubert, ibert, idefics, idefics2, idefics3, ijepa, imagegpt, informer, instructblip, instructblipvideo, jamba, jetmoe, jukebox, kosmos-2, layoutlm, layoutlmv2, layoutlmv3, led, levit, lilt, llama, llava, llava_next, llava_next_video, llava_onevision, longformer, longt5, luke, lxmert, m2m_100, mamba, mamba2, marian, markuplm, mask2former, maskformer, maskformer-swin, mbart, mctct, mega, megatron-bert, mgp-str, mimi, mistral, 
mixtral, mllama, mobilebert, mobilenet_v1, mobilenet_v2, mobilevit, mobilevitv2, moshi, mpnet, mpt, mra, mt5, musicgen, musicgen_melody, mvp, nat, nemotron, nezha, nllb-moe, nougat, nystromformer, olmo, olmo2, olmoe, omdet-turbo, oneformer, open-llama, openai-gpt, opt, owlv2, owlvit, paligemma, patchtsmixer, patchtst, pegasus, pegasus_x, perceiver, persimmon, phi, phi3, phimoe, pix2struct, pixtral, plbart, poolformer, pop2piano, prophetnet, pvt, pvt_v2, qdqbert, qwen2, qwen2_audio, qwen2_audio_encoder, qwen2_moe, qwen2_vl, rag, realm, recurrent_gemma, reformer, regnet, rembert, resnet, retribert, roberta, roberta-prelayernorm, roc_bert, roformer, rt_detr, rt_detr_resnet, rwkv, sam, seamless_m4t, seamless_m4t_v2, segformer, seggpt, sew, sew-d, siglip, siglip_vision_model, speech-encoder-decoder, speech_to_text, speech_to_text_2, speecht5, splinter, squeezebert, stablelm, starcoder2, 
superpoint, swiftformer, swin, swin2sr, swinv2, switch_transformers, t5, table-transformer, tapas, time_series_transformer, timesformer, timm_backbone, trajectory_transformer, transfo-xl, trocr, tvlt, tvp, udop, umt5, unispeech, unispeech-sat, univnet, upernet, van, video_llava, videomae, vilt, vipllava, vision-encoder-decoder, vision-text-dual-encoder, visual_bert, vit, vit_hybrid, vit_mae, vit_msn, vitdet, vitmatte, vits, vivit, wav2vec2, wav2vec2-bert, wav2vec2-conformer, wavlm, whisper, xclip, xglm, xlm, xlm-prophetnet, xlm-roberta, xlm-roberta-xl, xlnet, xmod, yolos, yoso, zamba, zoedepth

How would you proceed?

John6666 · December 18, 2024, 1:57am

Qwen2vl-flux is not an LLM, but a chimera of FLUX and LLM. The way it is used is very specific.

Topic		Replies	Views
Transformers CLI tool: error: invalid choice: 'repo' Beginners	3	2881	November 25, 2020
Cannot import newly uploaded model Models	1	2275	November 20, 2020
I'm unable to upload tokenizer.json and vocab.json Beginners	0	213	August 29, 2021
Exporting models Models	6	2930	March 15, 2021
How to deploy models trained here Beginners	0	440	September 15, 2023

Can someone explain why this model doesn't work?

Related topics