I am trying to intialize a bert2bert model with bert-base-uncased as encoder and bert-large-uncased as decoder with the following codes: from transformers import EncoderDecoderModel, BertTokenizer import torch tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") model = EncoderDecoderMod…

About the Cross-attention Layer Shape in Encoder-Decoder Model

zhkleciel March 18, 2022, 2:25am 2

I found the codes in EncoderDecoderModel class that maps the encoder hidden state size to decoder hidden state size in the link here. The problem solved.

1 Like

Topic		Replies	Views
Difference between transformer encoder and decoder Models	1	11751	March 12, 2021
Can we access attention component and feed-forward component of a Bert layer? Research	2	973	September 23, 2024
Is attention of different encoder layers comprabale? 🤗Transformers	0	271	December 6, 2022
Can I compare the attention of different encoder layers? Beginners	0	204	December 13, 2022
EncoderDecoderModel converts classifier layer of decoder Beginners	2	528	October 26, 2021

About the Cross-attention Layer Shape in Encoder-Decoder Model

Related topics