Open ai whisper fine tuning on unknown language

andrewbawitlung · October 1, 2024, 3:19pm

When following this blog,

I used English as the tokenizer since my unknown language has english alphabets.

But in theis field, if I remove config.language

#model.generation_config.language = "hindi"
model.generation_config.task = "transcribe"

model.generation_config.forced_decoder_ids = None

How will I handle the start_token_id here?

data_collator = DataCollatorSpeechSeq2SeqWithPadding(
    processor=processor,
    decoder_start_token_id=model.config.decoder_start_token_id,
)

Can I just remove this part?

 #decoder_start_token_id=model.config.decoder_start_token_id,

``

Topic		Replies	Views
How to set language in Whisper pipeline for audio transcription? 🤗Transformers	2	9550	June 22, 2023
How to fine-tune whisper on unsupported language? Beginners	1	221	October 12, 2024
How to set audio language in Whisper Pipeline? 🤗Transformers	6	7117	December 2, 2024
Fine Tuning Whisper on my own Dataset with a customized Tokenizer Beginners	16	12732	February 12, 2024
How to finetune Whisper with language which is not supported in WhisperTokenizer Beginners	4	852	May 18, 2024