Separate image encoding and decoding in PreTrained decoder-only models

minlu-21-new · October 19, 2025, 8:18pm

Hi, currently I am trying to separate the image encoding and decoding phase of Qwen2.5-VL. As seen in the code here, transformers/src/transformers/models/qwen2_5_vl/modular_qwen2_5_vl.py at 307c5238546ba1675daabc46050c63ffde25f8e6 · huggingface/transformers · GitHub, currently the image embedding is done within the forward function (line 580-586). However, I want the image embedding to be done in a separate container and then have the result passed into the model which only does decoding. How would I do something like this?

Topic		Replies	Views
How can I run separately the Encoder and Decoder layers? 🤗Transformers	1	1825	November 2, 2020
Img2seq model with pretrained weights Beginners	7	1246	November 18, 2021
Using EncoderDecoderModel 🤗Transformers	4	1089	October 28, 2021
Using encoder and decoder portion separately from encoder-decoder Beginners	1	451	October 4, 2023
Image captioning decoder Languages at Hugging Face	4	1484	January 6, 2022