Does it make sense to generate sentences with Transofmrer's encoder?

zuujhyt · May 22, 2021, 3:26pm

Quite a few vision+language papers pretrain BERT-based model with image-text data and finetune for image captioning task. But there is no decoder involved to generate sentences. Does that make sense? And what’s the main difference between using T’s encoder to do the sentence generation and do it with a T’ decoder?

Topic		Replies	Views
How to use an image tensor for caption generation with Transformer-XL or BERT? Beginners	1	1039	November 27, 2020
Img2seq model with pretrained weights Beginners	7	1215	November 18, 2021
Question on text input in image captioning Beginners	0	268	December 4, 2022
T5 Model, T5 Encoder Model and T5 Model for Conditional Generation Beginners	1	1295	November 20, 2022
How to use the generation_utils.generate? 🤗Transformers	0	282	April 28, 2022

Does it make sense to generate sentences with Transofmrer's encoder?

Related topics