What should be processing_class param value of Seq2SeqTrainer for VisionEncoderDecoderModel Finetuning?

HarsimarSingh · January 3, 2025, 12:53pm

The image processor and tokenizer along with model is defined as -

image_processor = AutoImageProcessor.from_pretrained(“microsoft/swinv2-tiny-patch4-window8-256”)
tokenizer = XLMRobertaTokenizerFast.from_pretrained(“FacebookAI/xlm-roberta-base”)
model = VisionEncoderDecoderModel.from_encoder_decoder_pretrained(
“microsoft/swinv2-tiny-patch4-window8-256”,
“FacebookAI/xlm-roberta-base”
)
What should be the processing_class argument for this setup?

Seq2SeqTrainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=val_dataset,
processing_class= ? ,
compute_metrics=compute_cer,
data_collator=collate_fn,
)

Topic		Replies	Views
How can i implement custom model to use Seq2SeqTrainer class 🤗Transformers	0	451	November 8, 2023
Using EncoderDecoderModel 🤗Transformers	4	1088	October 28, 2021
Img2seq model with pretrained weights Beginners	7	1244	November 18, 2021
Finetuning Vision Encoder Decoder Models with huggingface causes ValueError: expected sequence of length 11 at dim 2 (got 12) Beginners	0	493	March 12, 2023
How to use Trainer with Vision Transformer Beginners	3	1706	October 19, 2021

What should be processing_class param value of Seq2SeqTrainer for VisionEncoderDecoderModel Finetuning?

Related topics