🤗Transformers

Topic	Replies	Views	Activity
How to inject condition into causal model correctly 🤗Transformers	0	43	September 18, 2024
Calculate tokens per second while fine-tuning llm? DeepSpeed	0	140	September 17, 2024
Training loop for LoRA 🤗Transformers	3	293	September 18, 2024
Speed up whisper batched inference 🤗Transformers	0	211	September 16, 2024
Error with GPTQ for distilbert/distilbert-base-cased 🤗Transformers	0	23	September 16, 2024
How to run the Causal Language modelling example on multiple gpu? 🤗Transformers	0	82	September 16, 2024
How to set gpu device for hugging trainer? 🤗Transformers	1	1099	September 16, 2024
Trainer object high memory usage on Google Cloud Platform Workbench instance 🤗Transformers	0	34	September 16, 2024
Problems with trainer.compute_metrics 🤗Transformers	1	221	September 15, 2024
T5 models have non-deterministic outputs even after disabling dropout 🤗Transformers	9	192	September 15, 2024
Adapter for facebook/sam-vit-huge 🤗Transformers	0	11	September 14, 2024
How to finetune Microsoft Phi-2 on Wikitext2 dataset 🤗Transformers	2	99	September 14, 2024
Corpus for pre train bert base chinese 🤗Transformers	1	27	September 14, 2024
Multiple texts as inputs to Transformers models 🤗Transformers	9	10057	September 13, 2024
Impact of resuming from a checkpoint vs training/finetuning from the start 🤗Transformers	0	27	September 12, 2024
Why use tokenizer in Trainer with Tokenized Data 🤗Transformers	4	730	September 12, 2024
Transformer Trainer no response when evaluate with compute_metrics 🤗Transformers	1	172	September 12, 2024
How to calculate tokens per second while fine-tuning llm? 🤗Transformers	1	1675	September 12, 2024
Trainer() shows no log for validation loss when using PEFT 🤗Transformers	2	561	September 11, 2024
Is it possible to add L1-regularization in Huggingface Trainer? 🤗Transformers	2	289	September 11, 2024
Can't train Mamba2 with FP16 (Mamba2ForCausalLM) 🤗Transformers	4	56	September 10, 2024
Trainer API for Model Parallelism on Multiple GPUs 🤗Transformers	5	4233	September 10, 2024
Defog sqlcoder model download 🤗Transformers	4	32	September 10, 2024
ConvNextImageProcessor weird resize behaviour when input image is 224x224 🤗Transformers	2	49	September 10, 2024
Modeling_bert use next-token prediction? 🤗Transformers	4	183	September 10, 2024
[DONUT] Typo errors - Document parsing 🤗Transformers	1	526	September 10, 2024
How do LLMs identify generation start point during fine-tuning? 🤗Transformers	5	135	September 9, 2024
Are dropout layers activated when calling model.generate()? 🤗Transformers	2	79	September 7, 2024
Multi-GPU Operation mistralai/Mistral-Large-Instruct-2407 🤗Transformers	0	35	September 7, 2024
Fitting huge models on multiple nodes DeepSpeed	0	180	September 6, 2024