Should I use .map(processor) or define tokenizer=processor?

Diegulio · November 7, 2023, 3:15am

I am working in a vision use case. I have the processor:

processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')

Then I process my dataset as follow:

def apply_processor(example):
  example['pixel_values'] = processor(example['image'].convert("RGB"), return_tensors="pt").pixel_values.squeeze()
  return example

processed_dataset = pet_dataset.map(apply_processor)

Considering this, should I also add the tokenizer = processor in the transformers.Trainer ? If not, which one is the best option, doing the map/transform/etc or doing the tokenizer=processor?

Thanks in advance!

Topic		Replies	Views
Using map take 7,2x times longer than set_transform 🤗Transformers	0	190	November 15, 2023
How to rewrite this code? 🤗Transformers	0	50	July 11, 2024
Tokenizer is not defined 🤗Transformers	5	11214	March 19, 2024
Image dataset with_transform not applied Beginners	1	111	July 25, 2024
Image classification: Why use both a transform and a processor to preprocess images? Beginners	4	147	September 12, 2024

Should I use .map(processor) or define tokenizer=processor?

Related topics