Best setting for Wav2vec2ForXvector?

fleek · October 25, 2022, 1:27pm

Hello, I’m trying to finetune wav2vec2ForXvector model for speaker verification task.

I used pretrained wav2vec2 base model,
and used only wav2vec2 1th layer for TDNN layer.

Scale of Dataset is 2000k, number of speaker is 11k, batchsize is 256, and learning rate is scheduled by cosine schedule (max 1e-5, min 1e-7)

On this setting, train loss descend too slow until 4th epoch. eer for test set is descending less than I though. And only few classes of embedding vectors are clustered.

In my experience from training ASR, I feel that learning rate and other hyperparameters are important for training progress. Is there a best setting for training TDNN-XVector?

In addition, Does margin or scale setting for additive softmax loss affects strongly for training?

Topic		Replies	Views
Wav2Vec2: loss growing in training and validation after few epochs Models	6	2042	September 25, 2024
Wav2Vec2: fix growing training and validation loss after few epochs Models	5	2240	January 27, 2022
Wav2vec2 not converging when finetuning 🤗Transformers	7	2534	June 15, 2021
Collapsing Wav2Vec2 pretraining loss Beginners	2	759	April 3, 2023
Why is Wav2Vec pretraining loss not decreasing? Models	10	2639	April 29, 2022

Best setting for Wav2vec2ForXvector?

Related topics