A question about the modeling_bart.py

zuujhyt · November 7, 2020, 4:29pm

Hello,
I have a question about one part.

huggingface/transformers/blob/07708793f20ec3a949ccab32cc4fe0c7272dcc4c/src/transformers/modeling_bart.py#L940


    decoder_padding_mask,
    decoder_causal_mask=causal_mask,
    past_key_values=past_key_values,
    use_cache=use_cache,
    output_attentions=output_attentions,
    output_hidden_states=output_hidden_states,
    return_dict=return_dict,
)

if not return_dict:
    return decoder_outputs + encoder_outputs

return Seq2SeqModelOutput(
    last_hidden_state=decoder_outputs.last_hidden_state,
    past_key_values=decoder_outputs.past_key_values,
    decoder_hidden_states=decoder_outputs.hidden_states,
    decoder_attentions=decoder_outputs.attentions,
    cross_attentions=decoder_outputs.cross_attentions,
    encoder_last_hidden_state=encoder_outputs.last_hidden_state,
    encoder_hidden_states=encoder_outputs.hidden_states,
    encoder_attentions=encoder_outputs.attentions,

Why the BartModel return not just decoder_outputs
and need to be decoder_outputs + encoder_outputs
Thank you.

thomwolf · November 12, 2020, 1:11pm

Because when you do generation you usually do a single pass in the encoder and reuse it’s output for the subsequent token generation for efficiency so you need to access the encoder output from the first forward pass.

Topic		Replies	Views
Encoder Decoder Embedding layer shared in BartModel code 🤗Transformers	1	344	September 20, 2023
Using BART models encoder and decoder Models	1	628	November 22, 2022
BART generate() output not related to input Intermediate	1	814	February 17, 2022
How to use BART as an encoder and a decoder separately for summarization? 🤗Transformers	1	815	September 22, 2021
Using generate() method with decoder Models	0	566	January 16, 2022

A question about the modeling_bart.py

Related topics