Do the common tricks in transformers help with RNNs?

ssharpe42 · November 10, 2022, 5:48pm

Does anybody know any research or work that utilizes common tricks (layer norm, masked language training, etc) commonly used with transformers with RNNs?

Do these things still help improve RNNs? If not, are there reasons you think these techniques would/would not translate to rnns?

Topic		Replies	Views
Tutorials on transformers Beginners	6	1488	May 21, 2021
How to Train a Generative Pre-training Transformer Beginners	0	135	May 26, 2024
Getting NaNs for document relevance model 🤗Transformers	0	366	July 16, 2021
MLM vs CLM, can be exchanged? Models	0	1052	August 21, 2022
Converting DeepSpeech model to Transformers 🤗Transformers	0	304	September 17, 2021

Do the common tricks in transformers help with RNNs?

Related topics