Dropout before layer normalization

lifelongeek · December 15, 2020, 9:43am

At first stage of BartDecoder, we compute

x = self.embed_tokens(input_ids)
x += positions
x = self.layernorm(x)
x = dropout(x, p, self.training)

I am thinking of moving dropout right before adding positional embedding for making token embedding noisy

x = self.embed_tokens(input_ids)
x = dropout(x, p, self.training)
x += positions
x = self.layernorm(x)

Is there any belief that dropout needs to be placed after layer normalization?

Topic		Replies	Views
Modify the dropout and freeze some layers from Encoder-Decoder models 🤗Transformers	2	1003	November 22, 2022
Creating a tokenizer with both custom tokens and positions Beginners	5	1230	April 22, 2022
Positional Embeddings in Transformer Implementations 🤗Transformers	1	1779	September 3, 2024
Bert embedding layer Beginners	1	2741	January 4, 2022
Problem with Adding LayerNorm after BART's Encoder for Summarization 🤗Transformers	0	391	May 16, 2022