🤗Transformers

Topic	Replies	Views	Activity
Error of run_glue.py: RuntimeError: CUDA error: device-side assert triggered 🤗Transformers	0	729	July 21, 2023
Validation loss is none while training using pytorch training loop 🤗Transformers	0	387	July 20, 2023
How to jit.trace gpt-neo-125mb 🤗Transformers	3	1266	July 20, 2023
Duration of training time trainer api 🤗Transformers	1	327	July 20, 2023
Change loss and dataset format with SFTTrainer (TRL & QLoRA ) 🤗Transformers	0	1735	July 19, 2023
Long audio input for training? 🤗Transformers	0	224	July 20, 2023
How to modify the internal layers of BERT 🤗Transformers	12	16509	July 19, 2023
How does _batch_encode_plus function works? 🤗Transformers	0	364	July 19, 2023
Sentiment Tuning Examples 🤗Transformers	0	137	July 19, 2023
Initialize masked language model with RobertaForMaskLM missing intermediate_act_fn layer 🤗Transformers	1	216	July 18, 2023
BertForMaskedLM training from scratch not converging 🤗Transformers	0	253	July 18, 2023
Rolling test windows in Multivariate Time Series post 🤗Transformers	0	214	July 18, 2023
Behaviour change in checkpoints saved by Trainer 🤗Transformers	0	966	July 17, 2023
Any language model which utilizes both encoder and decoder output for multi-task learning? 🤗Transformers	0	229	July 17, 2023
How to create custom GPT-2 model with different number of attention heads in different layers? 🤗Transformers	0	394	July 17, 2023
Batching on Vanilla CPU for Inference 🤗Transformers	0	320	July 17, 2023
By default how long does hugging face `trainer` run for? 🤗Transformers	0	203	July 16, 2023
Applying movement-pruning on GPT2 🤗Transformers	1	1218	July 16, 2023
Ideas for better cross-corpus similarity scoring 🤗Transformers	0	161	July 16, 2023
Getting KeyError: 203 when running trainer.train() 🤗Transformers	0	434	July 16, 2023
Why my model behaves differently at each load? 🤗Transformers	3	2225	July 16, 2023
Multi label classification with large number of labels and sparse data 🤗Transformers	1	1556	July 15, 2023
Arabic Question Generation using Shared AraBERT2AraBERT isn't working 🤗Transformers	0	165	July 15, 2023
How was LlamaForSequenceClassification Pretrained 🤗Transformers	0	303	July 15, 2023
Is there a good/easy way to know what blocks should in `no_split_module_classes` when using multi GPU setup? 🤗Transformers	0	328	July 14, 2023
Vision transformer in tensorflow 🤗Transformers	0	224	July 14, 2023
Join AI Research Survey and Stand a Chance to Win a Gift Card by Polytechnique Montreal's SWAT Lab 🤗Transformers	4	430	July 14, 2023
How to fine tune a LORA fine tuned model 🤗Transformers	0	304	July 14, 2023
Does Trainer use multiple workers on datasets? 🤗Transformers	0	533	July 13, 2023
How to set up DistilBertModel to use a bach_size? 🤗Transformers	6	1735	July 13, 2023