Shortformer: Better Language Modeling using Shorter Inputs

FL33TW00D December 31, 2020, 10:02am 1

Interesting paper focusing on shorter context windows and improving training speed!

2 Likes

Topic		Replies	Views
Are Word Embeddings by BERT generated for long sequences better than ones generated for short sequences? 🤗Transformers	0	243	March 29, 2022
ICLR 2020 highlights - Yacine Awesome paper	1	1758	July 11, 2020
My input sentence is very long(more than 512). What should I do when I want to fintune model about classify?Thanks Beginners	3	1140	September 3, 2021
Datasets for generating longer summaries Models	0	291	December 3, 2020
Model for big context window Beginners	0	201	June 30, 2024