🤗Transformers

Topic	Replies	Views	Activity
Fine-tuning BERT with multiple classification heads 🤗Transformers	10	5822	January 19, 2024
Remove a named module from a pre-trained model 🤗Transformers	0	249	April 12, 2024
Mistral model generates the same embeddings for different input texts 🤗Transformers	2	345	April 12, 2024
Loss becomes nan 🤗Transformers	0	863	April 12, 2024
Caching encoder state for multiple encoder-decoder `.generate()` calls? 🤗Transformers	2	243	April 12, 2024
Trainner API is not working. Its complaining of numpy depreciation issues 🤗Transformers	0	139	April 11, 2024
RuntimeError: CUDA error: device-side assert triggered 4x10 🤗Transformers	0	177	April 11, 2024
How to properly UPCAST the model weights to float32? 🤗Transformers	2	485	April 11, 2024
Shouldn't RobertaForCausalLM generate something? 🤗Transformers	8	1432	April 11, 2024
How many GB of RAM do I need to train DBRX? 🤗Transformers	2	237	April 11, 2024
Tensor size error when generating embeddings for documents using pre-trained models 🤗Transformers	3	540	April 11, 2024
Search models by tokenizer 🤗Transformers	0	102	April 10, 2024
Fine-Tune LoRA adapter starting from existing adapter 🤗Transformers	1	259	April 10, 2024
Seeking Clarification: Model Evaluation - Train and Val loss 🤗Transformers	3	765	April 10, 2024
Development status of huggingface/tflite-android-transformers and modern alternatives 🤗Transformers	0	337	April 10, 2024
Exporting UDOP to ONNX fails 🤗Transformers	0	466	April 8, 2024
IndexError: index out of range in self while training a language model from scratch 🤗Transformers	0	303	April 9, 2024
Processing the [-100] Mask in SFT 🤗Transformers	2	1249	April 9, 2024
Server-side Audio Processing in Node.js 🤗Transformers	0	112	April 8, 2024
Subject: Issues with Custom Model Saving Behavior Using Trainer Class in LVLM Training 🤗Transformers	0	122	April 8, 2024
Speeding up the inference for marian MT 🤗Transformers	4	2783	April 8, 2024
Loading only pre-trained backbone for Mask2Former 🤗Transformers	0	216	April 8, 2024
Hardware Requirements \| Fine tuning Pegasus Large 🤗Transformers	1	986	April 8, 2024
Slower train with collator for completion only 🤗Transformers	1	1248	April 7, 2024
How does Gemini 1.5 achieve 10M context window? 🤗Transformers	0	322	April 7, 2024
How to run hf MoE series model in an expert parallel manner? 🤗Transformers	0	370	April 7, 2024
What should I do if I want to use model from DeepSpeed DeepSpeed	5	1639	April 6, 2024
Setting up separate device for validation in Trainer? 🤗Transformers	0	100	April 6, 2024
Langchain & SentenceTransformerEmbeddings error while passing the embeded function to chromadb 🤗Transformers	0	806	April 5, 2024
Stopping criteria for batch 🤗Transformers	7	4198	April 5, 2024