Decode whisper logits to transcript using forward instead of generate method

Sankeerth · December 9, 2022, 5:27am

I’m trying to use whisper to generate transcription. I can get results when using model.generate() . But when I try to use

    out = model(inputs, decoder_input_ids = torch.tensor([[50258]]).to('cuda'))
    predicted_ids = torch.argmax(out.logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    transcription
    ['<|startoftranscript|>']

I’m only getting one token output. Is the issue with decoder_input_ids? I want to use foward because I want use encoder and decoder embeddings for other tasks. Is there any workaround here?

Sankeerth · December 9, 2022, 6:55am

We can get hidden_states_embeddings from model.generate by enabling the two flags , output_hidden_states=True, return_dict_in_generate=True.

Hannan · December 16, 2022, 9:12am

Is it possible to access logits by using model.generate?
However it is possible to get logits from model but as you mentioned, I couldn’t get more than one token.

Sankeerth · December 20, 2022, 9:30am

You can get scores in the model.generate function using output_scores=True and then apply softmax to get individual tokens logits.

Topic		Replies	Views
Disparity between output from `forward` and `generate` for greedy search (using Whisper) 🤗Transformers	3	1316	August 11, 2024
Using model() instead of model.generate() 🤗Transformers	3	457	January 30, 2025
How can I obtain the logits via model.generate()? 🤗Transformers	2	2783	October 8, 2024
How to generate without decoding? 🤗Transformers	1	369	December 13, 2023
Can I get logits for each sequence I acqired from model.generate()? Beginners	1	1303	November 27, 2020

Decode whisper logits to transcript using forward instead of generate method

Related topics