Support for LLaMA in EncoderDecoder framework

Varal7 · April 7, 2023, 4:23pm

I’m trying to use LLaMA as a drop-in replacement for GPT2 in my ViT-GPT2 model.

After seeing issue Using FNet model in Encoder Decoder Models · Issue #22308 · huggingface/transformers · GitHub, it seems like HuggingFace doesn’t plan to support future models in the EncoderDecoder framework and I should adapt the model to suit my own needs.

I’m planning to follow the steps described in Trying to add support for GPT2 as decoder in EncoderDecoder model · Issue #4483 · huggingface/transformers · GitHub

Are there any gotchas I should know about?

JORGEDC01 · March 8, 2025, 9:08pm

Hey, Did you try to do it? I’m trying to merge a bge-small-1.5 encoder with a Llama2-1B with EncoderDecoderModel. The issue is that Llama2 is decoder-only and doesn’t support cross attention, so the EncoderDecoderModel don’t let me join both

Topic		Replies	Views
Using EncoderDecoderModel 🤗Transformers	4	1089	October 28, 2021
GPT-GPT encoder decoder 🤗Transformers	0	294	May 4, 2021
Possible encoder decoder models Beginners	0	196	June 11, 2021
Difference between transformer encoder and decoder Models	1	11915	March 12, 2021
FlaxVisionEncoderDecoderModel decoder_start_token_id Beginners	1	457	January 13, 2022

Support for LLaMA in EncoderDecoder framework

Related topics