How to decode wav2vec2 output with beam search?

laro1 · March 6, 2023, 10:50am

I’m running simple wav2vec2 example:

from transformers      import Wav2Vec2ForCTC, Wav2Vec2Processor
from torchaudio.utils  import download_asset

import torch
import librosa

if __name__ == '__main__':
   processor        = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
   model            = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

   FILE_NAME        = "tutorial-assets/Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.wav"
   SPEECH_FILE      = download_asset(FILE_NAME)

   speech, sr       = librosa.load(SPEECH_FILE, sr=16000)
   input_values     = processor(speech, sampling_rate=16000, return_tensors="pt").input_values
   logits           = model(input_values).logits

How can I decode the logits with the beam-search algorithm (without using LM) ?

Topic		Replies	Views
Which decoder method did "facebook/wav2vec2-base-960h" used? Beginners	0	228	March 1, 2023
Language model for wav2vec2.0 decoding Models	36	13936	August 3, 2024
Wav2vec: how to run decoding with a language model? Beginners	6	6422	August 24, 2022
How to use an unsupported Beam Search decoder in ASR Pipeline? 🤗Transformers	0	550	August 4, 2023
AttributeError: 'Wav2Vec2FeatureExtractor' object has no attribute 'decode' Models	0	581	February 24, 2023

How to decode wav2vec2 output with beam search?

Related topics