Pass tokenizer to Trainer when data is already tokenized?

alonmiz · August 25, 2023, 5:37pm

I tokenize the dataset as follows:

cola = datasets.load_dataset(‘linxinyuan/cola’)
cola_tokenized = cola.map(lambda examples: tokenizer(examples[‘text’], padding=True, truncation=True), batched=True, batch_size=16)

however, if do not pass tokenizer=cola_tokenizer to Trainer arguments I get an error about tensors size mismatches.

Why do I need to pass the tokenizer to Trainer if my data is already tokenized?

Topic		Replies	Views
Dataset expected by Trainer Beginners	5	8994	September 28, 2020
Why use tokenizer in Trainer with Tokenized Data 🤗Transformers	4	653	September 12, 2024
Help defining tokenizer 🤗Tokenizers	0	282	April 28, 2023
Tokenizer to dataset to datacollator Beginners	1	1320	April 28, 2022
Training a Tokenizer on a Streamed Dataset Beginners	5	1341	May 30, 2023

Pass tokenizer to Trainer when data is already tokenized?

Related topics