🤗Transformers

Topic	Replies	Views	Activity
How to make it so that GPT-2 generates the text to the end of the sentence and does not cut it off in the middle? 🤗Transformers	1	1175	December 13, 2021
Some weights of the model checkpoint at /Flaubert/finetune/Multiclass/checkpoint-10 were not used when initializing Flaubert ForSequenceClassification: 🤗Transformers	0	361	December 13, 2021
Meanings of different brackets during tokenization 🤗Transformers	0	307	December 10, 2021
TypeError: __init__() missing 1 required positional argument: 'num_labels' 🤗Transformers	0	4525	December 10, 2021
How to do that trained huggingface model speech recognation? DeepSpeed	0	402	December 10, 2021
Time complexity of the generate method in transformer library (using beam search) 🤗Transformers	0	420	December 9, 2021
TrOCR, CER metric error 🤗Transformers	1	1032	December 9, 2021
RAG Gradient Checking support DeepSpeed	0	410	December 8, 2021
NER pipeline aggregation for BILOU 🤗Transformers	1	1916	December 4, 2021
Replace weights in TFBertModel 🤗Transformers	1	2085	December 4, 2021
Effect of target mask in autoregressive model when it is used in the first decoder layer vs all decoder layers 🤗Transformers	0	399	December 2, 2021
Using head_mask in DistilBERT 🤗Transformers	0	269	December 2, 2021
Out of memory when fine-tuning bert on tpu 🤗Transformers	0	606	December 2, 2021
XLM-Roberta Flax 🤗Transformers	0	294	December 2, 2021
What is the difference between T5 and BART model? 🤗Transformers	0	3354	December 2, 2021
With DataCollator, there is still "KeyError: 'loss'" 🤗Transformers	0	549	December 2, 2021
Is Int8 quantization training possible while using deepspeed? DeepSpeed	0	586	December 1, 2021
Know more about the use of Hugging Face's transformers library 🤗Transformers	0	376	December 1, 2021
Transfer learning 🤗Transformers	3	864	November 30, 2021
RuntimeError when running on Colab GPU 🤗Transformers	2	3495	November 28, 2021
Continual pre-training vs. Fine-tuning a language model with MLM 🤗Transformers	5	8775	November 30, 2021
How to preserve Html when processing(paraphrasing) 🤗Transformers	3	403	November 21, 2021
Using Seq2SeqTrainer to eval during training? 🤗Transformers	1	1051	November 27, 2021
EncoderDecoderModel generate text for a ViT as encoder 🤗Transformers	0	624	November 27, 2021
BERT vs GPT architectural, conceptual and implemetational differences 🤗Transformers	0	1011	November 26, 2021
Need help training Speech2Text from scratch 🤗Transformers	0	884	November 26, 2021
How to get the predicted labels per epoch or step for the huggingface.transformers Trainer? 🤗Transformers	1	1178	November 26, 2021
Shared cache-dir licensing 🤗Transformers	0	365	November 26, 2021
Big `generate()` refactor 🤗Transformers	7	3764	November 26, 2021
Beam search (FlaxT5) generates PAD tokens mid generation 🤗Transformers	1	491	November 25, 2021