How to add encoder's last hidden state to GPT2 as encoder-decoder attention

iamneerav · January 31, 2023, 7:14pm

I have a BERT encoder model and I want to input the last hidden state output of this to GPT2 as encoder-decoder attention. There are no options in transformers.GPT2Config to use encoder’s last hidden layer as input to GPT2. How do I achieve this?

I want something like this:

inputs = input_ids, token_type_ids, labels, attention_mask

encoder           = RobertaForMaskedLM(config=encoder_config)
encoder_output    = encoder(**inputs)
last_hidden_layer = encoder_output.hidden_states[-1]

decoder           = GPT2LMHeadModel(config=decoder_config)
decoder_output    = decoder(**inputs, last_hidden_layer)

where the last_hidden_layer is used as encoder-decoder attention to each transformer unit in GPT2.

Topic		Replies	Views
Last layer hidden state: GPT2 🤗Transformers	0	1942	March 23, 2021
Can hidden states be passed instead of input_ids or inputs_embeds in Transformers OpenAI GPT2 🤗Transformers	0	483	July 6, 2021
Is last_hidden_state the output of Encoder block? Beginners	1	446	December 23, 2021
Control EncoderDecoderModel to generate tokens step by step 🤗Transformers	8	2595	June 8, 2022
How to use encoded hidden_states as input to a Bert/DistilBert Model Beginners	0	334	June 19, 2023

How to add encoder's last hidden state to GPT2 as encoder-decoder attention

Related topics