WavLM ECAPA-TDNN embeddings for Speaker verification

laro1 · November 19, 2023, 11:28am

According to the WavLM paper:
(WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing)

They used ECAPA-TDNN embeddings model for the downstream task: Speaker verification.

I searched but didn’t found, is there any implementation which I can used with the model ?
(WavLM embeddings which produced by ECAPA-TDNN) ?

For example:

import torch
from transformers import Wav2Vec2FeatureExtractor
from transformers import WavLMForXVector
import soundfile as sf

wav_tensor, sr = sf.read(r"nyfile.wav")

device = "cuda" if torch.cuda.is_available() else "cpu"
feature_extractor_wav2vec = Wav2Vec2FeatureExtractor.from_pretrained("microsoft/wavlm-base-plus-sv")
model_wav_lm = WavLMForXVector.from_pretrained("microsoft/wavlm-base-plus-sv").to(device)

inputs = feature_extractor_wav2vec(wav_tensor,sampling_rate=16000,return_tensors="pt",padding=True).to(device)
with torch.no_grad():
    embeddings = model_wav_lm(**inputs).embeddings

I didn’t saw if the embeddings came from ECAPA-TDNN or from X-Vector.

Topic		Replies	Views
Single embedding from single wav file for wav2vec models? Beginners	0	517	September 29, 2023
Getting embeddings from wav2vec2 models Beginners	2	1404	October 20, 2023
How to extract embeddings in Wav2Vec2? Beginners	0	429	April 29, 2022
Different versions of 'wav2vec2' model and their differences Beginners	1	1502	August 7, 2021
Best setting for Wav2vec2ForXvector? 🤗Transformers	0	302	October 25, 2022

WavLM ECAPA-TDNN embeddings for Speaker verification

Related topics