Model generating incorrect prediction

hadiqa123 · September 21, 2022, 8:18pm

Hello Everyone,

When I decode the audio, the model generates the wrong transcription. Can anyone help me to get out of this?

Dataset:
from datasets import load_dataset
dataset = load_dataset(“mozilla-foundation/common_voice_8_0”, “ur”, split=“test”,use_auth_token=True)

Installed Libraries:

!pip install https://github.com/kpu/kenlm/archive/master.zip
!pip install pyctcdecode==0.3.0
!pip install datasets==2.0.0
!pip install torchaudio==0.11
!pip install transformers==4.18.0

Code:
import IPython.display as ipd
audio_sample = dataset[3]
print(audio_sample[“sentence”].lower())
ipd.Audio(data=audio_sample[“audio”][“array”], autoplay=True, rate=audio_sample[“audio”][“sampling_rate”])

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
processor = Wav2Vec2Processor.from_pretrained("
BakhtUllah123/xls-r-ur-large")
model = Wav2Vec2ForCTC.from_pretrained("
BakhtUllah123/xls-r-ur-large")
inputs = processor(audio_sample[“audio”][“array”], sampling_rate=16_000, return_tensors=“pt”)

import torch
with torch.no_grad():
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
transcription[0].lower()

Output:

hadiqa123 · September 21, 2022, 8:23pm

@patrickvonplaten Can you please look it up?

Topic		Replies	Views
Pretrained wav2vec2 speech to text - decoded text is gibberish Models	0	402	June 12, 2023
Problems when using PyTorch Class Dataset in model fineturn Beginners	0	220	July 12, 2023
PyTorch models predictions varies with the same data input Models	0	508	October 27, 2022
Fine-tune transformers for language model Beginners	2	662	August 14, 2022
Calling Silero VAD model from dataset.map 🤗Datasets	2	1307	October 12, 2023

Model generating incorrect prediction

Related topics