🤗Transformers

Topic	Replies	Views	Activity
Run_glue.py provides higher GLUE score on bert-base-uncased 🤗Transformers	2	310	September 26, 2025
Using AutoVideoProcessor or SmolVLMVideoProcessor for RTSP and Local Video Input 🤗Transformers	3	52	September 25, 2025
Confusion about Mistral Small 24B 3.1 head_dim calculation 🤗Transformers	1	32	September 24, 2025
SAM2 video streaming – VRAM usage keeps increasing until OOM 🤗Transformers	5	155	September 22, 2025
RuntimeError: Backward through graph with Whisper-medium and gradient_checkpointing=True 🤗Transformers	5	83	September 22, 2025
How can I pretrain T5 model? 🤗Transformers	3	120	September 22, 2025
CUDA out of memory when using Trainer with compute_metrics 🤗Transformers	26	47592	September 19, 2025
Training from scratch: HF transformers vs pytorch lightning vs others. What is used in practice? 🤗Transformers	1	212	September 17, 2025
Whisper warning about not predicting end of a timestamp 🤗Transformers	3	1693	September 16, 2025
Entropy-Based Self-Reflective Learning Framework for Language Models 🤗Transformers	0	10	September 15, 2025
How to get hugging face models running on vscode pluggin 🤗Transformers	5	5874	September 15, 2025
No errors but no output 🤗Transformers	5	34	September 10, 2025
Problem with Compute Metrics function 🤗Transformers	3	35	September 9, 2025
Layoutlmv3 word_labels does not match original labels from dataset 🤗Transformers	3	15	September 9, 2025
How to visualize the attention map of my Segformer model? 🤗Transformers	3	1417	September 8, 2025
Correct way to save/load adapters and checkpoints in PEFT 🤗Transformers	10	16838	September 8, 2025
API error for model sentence-transformers/all-MiniLM-L6-v2 🤗Transformers	8	159	September 4, 2025
Model Selection to convert Prompt to Json Object 🤗Transformers	1	14	September 4, 2025
Error Importing Seq2SeqTrainer 🤗Transformers	2	41	September 3, 2025
Batch generation Llama 3 Instruct \| Tokenizer has no padding token 🤗Transformers	4	43	September 3, 2025
From TLinFormer to TConstFormer: The Leap to Constant-Time Transformer Attention: Achieving O(1) Computation and O(1) KV Cache during Autoregressive Inference 🤗Transformers	0	19	September 3, 2025
Dequantize 4bit B&B model to prepare for merging 🤗Transformers	4	55	September 2, 2025
How can artificial intelligence (AI) and machine learning (ML) make kids learning apps feel more personalized (tailored to each child’s needs), while also making sure the content is safe and suitable for their age? 🤗Transformers	0	16	September 1, 2025
TangLinFormer: A Revolutionary Breakthrough in Achieving True Linear Attention for Transformers 🤗Transformers	2	95	September 1, 2025
Which data parallel does trainer use? DP or DDP? 🤗Transformers	6	6526	August 30, 2025
Speed issues using tokenizer.train_new_from_iterator on ~50GB dataset 🤗Transformers	8	2378	August 29, 2025
Bert2bert translator? 🤗Transformers	6	58	August 28, 2025
Cannot Login to HF 🤗Transformers	1	26	August 26, 2025
Cannot import name '_resolve_process_group' from 'torch.distributed.distributed_c10d' 🤗Transformers	3	48	August 27, 2025
Is the reported loss averaged over logging steps 🤗Transformers	3	645	August 25, 2025