[STT] Using huggingface pretrained models but different results =>Wav2Vec2 vs PatrickDemo

mictiong85 · December 27, 2021, 10:10am

I am novice here and I am using different pretrained model other than Wav2Vec2. I am now playing with createWav2Vec2 py. provided by Pytorch. android-demo-app/create_wav2vec2.py at master · pytorch/android-demo-app · GitHub

I load the pretrained model from hugging face , but during the sanity check , the transcribed text is totally wrong.

Place I changed from

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

To

model1 = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-base-timit-demo-colab")

Expected answer

Result: I HAD THAT CURIOSITY BESIDE ME AT THIS MOMENT

But i got

Result: J <pad></s>DJ<pad>F</s>DJF<pad>JBJSN JKJCJ JFJO<pad>YLJCJ L<pad>HL<pad> F<pad>F</s> JC<pad>JHKJHLRFJ<pad>

Could somebody advise what is wrong here?

Topic		Replies	Views
Wav2Vec2ForCTC not working for my own wav file 🤗Transformers	0	885	November 22, 2021
Wav2vec2-xls-r-2b-22-to-16 sample code not running Models	1	706	March 18, 2022
Pretrained wav2vec2 speech to text - decoded text is gibberish Models	0	421	June 12, 2023
Model broken on Hub: wav2vec robust 🤗Transformers	6	1662	November 5, 2021
Wav2Vec model returns zero values 🤗Transformers	0	494	June 12, 2021