Issue with Tokenizer

pnandhini · March 14, 2023, 5:16pm

I am trying to download audio files using streaming mode. The steps go like this Download the dataset, processor feature extractor, prepare the dataset, seq2seqtrainer, compute metrics and then trainer.train().

When the training steps starts, after few downloads getting an error in tokenizer.utils.base as “You need to specify either ’ text’ or ’ text_target’”.

Have two questions here, one is not getting this error while downloading non streaming mode. Secondly after passing the parameter as " tex" / " text_target" still getting this error.

Any help would be appreciated!!

Topic		Replies	Views
ValueError: You need to specify either `text` or `text_target` when using evaluator Beginners	1	3753	August 27, 2024
Training a Tokenizer on a Streamed Dataset Beginners	5	1341	May 30, 2023
Tokenizer.train() running out of memory 🤗Tokenizers	0	750	February 9, 2023
Help defining tokenizer 🤗Tokenizers	0	282	April 28, 2023
Tokenization error only for pretrained tokenizer Beginners	1	779	September 24, 2023

Issue with Tokenizer

Related topics