Understanding Wav2vec2Processor

tzeviya · December 14, 2021, 12:23pm

Hi,

I’m trying to use wav2vec2 for its output feature vectors. My input is audio files, and I don’t want to use any information about its textual content.

This is the model I’m using:

model = Wav2Vec2Model.from_pretrained('facebook/wav2vec2-base')

It seems that a feature extractor should be defined as well:

feature_extractor = Wav2Vec2Processor.from_pretrained('facebook/wav2vec2-base')

Then, when training:

audio_file = feature_extractor(audio_file, return_tensors="pt", padding=True, feature_size=1, sampling_rate=16000 )
output = model(**audio_file)

What is the feature_extractor needed for? Doesn’t the model itself include a feature extractor?

Topic		Replies	Views
Do we need to fine-tune Wav2Vec2FeatureExtractor? Beginners	1	250	July 15, 2021
Wav2Vec2 pretraining feature extraction during preprocessing as welll as training 🤗Transformers	1	734	October 1, 2022
Wav2vec2 using transformers library Beginners	0	278	November 18, 2021
What does Wav2Vec2Tokenizer do?and what is the difference between it and Wav2Vec2FeatureExtractor? Beginners	0	299	May 12, 2023
Why I'm getting same result with or without using Wav2Vec2Processor? 🤗Tokenizers	0	330	February 25, 2023

Understanding Wav2vec2Processor

Related topics