Wav2Vec2ForCTC not working for my own wav file

congcongwang · November 22, 2021, 10:27pm

Hi the great comminity,

I was trying to test Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h") on my own wav files (generated by pyaudio) and the generated transcription is far away from what I expected. However when I tested it with the samples downloaded from this page (facebook/wav2vec2-base-960h · Hugging Face), it works really well no matter if it is a flac or wav file. I actually also tried uploading my own audio file to the demo page (facebook/wav2vec2-base-960h · Hugging Face) and it worked very well. I am wondering if there are any pre-processing steps I missed that the HF sever side does take before the audio is read and fed to the model?

Below is my code (the demo.wav is my own audio file) and I appreciate if any pointers:

from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
import soundfile as sf
import torch

#load model and tokenizer
tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

#load audio
audio_input, sample_rate = sf.read("demo.wav")

#transcribe
input_values = tokenizer(audio_input, sample_rate=sample_rate,return_tensors="pt").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = tokenizer.batch_decode(predicted_ids)[0]
print(str(transcription))

Topic		Replies	Views
[STT] Using huggingface pretrained models but different results =>Wav2Vec2 vs PatrickDemo 🤗Transformers	0	445	December 27, 2021
Pretrained wav2vec2 speech to text - decoded text is gibberish Models	0	408	June 12, 2023
Wav2vec2-xls-r-2b-22-to-16 sample code not running Models	1	698	March 18, 2022
How do I instantiate a Wav2Vec2Processor with a phoneme tokenizer? 🤗Datasets	1	35	February 27, 2025
AttributeError: 'Wav2Vec2FeatureExtractor' object has no attribute 'decode' Models	0	581	February 24, 2023

Wav2Vec2ForCTC not working for my own wav file

Related topics