Clarification on Batch mapping

lhoestq · November 2, 2023, 5:11pm

When batched=True, both examples['final'] and examples['raw'] will be a list of batch_size elements. You may have to use

def tokenizer_func(examples):
        return tokenizer([generate_prompt(raw_text) for raw_text in examples['raw']]),
                                  truncation=True, padding=True, max_length=128, return_tensors="pt")

Topic		Replies	Views
Why use batched=True in map function? 🤗Datasets	2	7201	May 17, 2022
Streaming datasets and batched mapping 🤗Datasets	5	2646	January 10, 2022
Padding in datasets 🤗Datasets	6	5007	October 21, 2021
Dataset and Training Batching Beginners	1	1425	February 9, 2022
Tokenize iterable dataset Models	0	262	June 7, 2023

Clarification on Batch mapping

Related topics