Cannot convert mbart from fairseq to huggingface using the script in the repo

mralexis · June 3, 2021, 10:17pm

I am using this converter script in the transformers repo to convert the official fairseq bart to huggingface. The command looks like:

python convert_mbart_original_checkpoint_to_pytorch.py mbart.cc25.v2/model.pt ./temp/

which returns an error of

	Unexpected key(s) in state_dict: "encoder.layers.0.layer_norms.0.weight", "encoder.layers.0.layer_norms.0.bias", "encoder.layers.0.layer_norms.1.weight", "encoder.layers.0.layer_norms.1.bias", "encoder.layers.0.self_attn.in_proj_weight", "encoder.layers.0.self_attn.in_proj_bias", "encoder.layers.1.layer_norms.0.weight", "encoder.layers.1.layer_norms.0.bias", "encoder.layers.1.layer_norms.1.weight", "encoder.layers.1.layer_norms.1.bias", "encoder.layers.1.self_attn.in_proj_weight", "encoder.layers.1.self_attn.in_proj_bias", "encoder.layers.2.layer_norms.0.weight", "encoder.layers.2.layer_norms.0.bias", "encoder.layers.2.layer_norms.1.weight", "encoder.layers.2.layer_norms.1.bias", "encoder.layers.2.self_attn.in_proj_weight", "encoder.layers.2.self_attn.in_proj_bias", "encoder.layers.3.layer_norms.0.weight", "encoder.layers.3.layer_norms.0.bias", "encoder.layers.3.layer_norms.1.weight", "encoder.layers.3.layer_norms.1.bias", "encoder.layers.3.self_attn.in_proj_weight", "encoder.layers.3.self_attn.in_proj_bias", "encoder.layers.4.layer_norms.0.weight", "encoder.layers.4.layer_norms.0.bias", "encoder.layers.4.layer_norms.1.weight", "encoder.layers.4.layer_norms.1.bias", "encoder.layers.4.self_attn.in_proj_weight", "encoder.layers.4.self_attn.in_proj_bias", "encoder.layers.5.layer_norms.0.weight", "encoder.layers.5.layer_norms.0.bias", "encoder.layers.5.layer_norms.1.weight", "encoder.layers.5.layer_norms.1.bias", "encoder.layers.5.self_attn.in_proj_weight", "encoder.layers.5.self_attn.in_proj_bias", "encoder.layers.6.layer_norms.0.weight", "encoder.layers.6.layer_norms.0.bias", "encoder.layers.6.layer_norms.1.weight", "encoder.layers.6.layer_norms.1.bias", "encoder.layers.6.self_attn.in_proj_weight", "encoder.layers.6.self_attn.in_proj_bias", "encoder.layers.7.layer_norms.0.weight", "encoder.layers.7.layer_norms.0.bias", "encoder.layers.7.layer_norms.1.weight", "encoder.layers.7.layer_norms.1.bias", "encoder.layers.7.self_attn.in_proj_weight", "encoder.layers.7.self_attn.in_proj_bias", "encoder.layers.8.layer_norms.0.weight", "encoder.layers.8.layer_norms.0.bias", "encoder.layers.8.layer_norms.1.weight", "encoder.layers.8.layer_norms.1.bias", "encoder.layers.8.self_attn.in_proj_weight", "encoder.layers.8.self_attn.in_proj_bias", "encoder.layers.9.layer_norms.0.weight", "encoder.layers.9.layer_norms.0.bias", "encoder.layers.9.layer_norms.1.weight", "encoder.layers.9.layer_norms.1.bias", "encoder.layers.9.self_attn.in_proj_weight", "encoder.layers.9.self_attn.in_proj_bias", "encoder.layers.10.layer_norms.0.weight", "encoder.layers.10.layer_norms.0.bias", "encoder.layers.10.layer_norms.1.weight", "encoder.layers.10.layer_norms.1.bias", "encoder.layers.10.self_attn.in_proj_weight", "encoder.layers.10.self_attn.in_proj_bias", "encoder.layers.11.layer_norms.0.weight", "encoder.layers.11.layer_norms.0.bias", "encoder.layers.11.layer_norms.1.weight", "encoder.layers.11.layer_norms.1.bias", "encoder.layers.11.self_attn.in_proj_weight", "encoder.layers.11.self_attn.in_proj_bias", "decoder.layers.0.self_attn.in_proj_weight", "decoder.layers.0.self_attn.in_proj_bias", "decoder.layers.0.encoder_attn.in_proj_weight", "decoder.layers.0.encoder_attn.in_proj_bias", "decoder.layers.1.self_attn.in_proj_weight", "decoder.layers.1.self_attn.in_proj_bias", "decoder.layers.1.encoder_attn.in_proj_weight", "decoder.layers.1.encoder_attn.in_proj_bias", "decoder.layers.2.self_attn.in_proj_weight", "decoder.layers.2.self_attn.in_proj_bias", "decoder.layers.2.encoder_attn.in_proj_weight", "decoder.layers.2.encoder_attn.in_proj_bias", "decoder.layers.3.self_attn.in_proj_weight", "decoder.layers.3.self_attn.in_proj_bias", "decoder.layers.3.encoder_attn.in_proj_weight", "decoder.layers.3.encoder_attn.in_proj_bias", "decoder.layers.4.self_attn.in_proj_weight", "decoder.layers.4.self_attn.in_proj_bias", "decoder.layers.4.encoder_attn.in_proj_weight", "decoder.layers.4.encoder_attn.in_proj_bias", "decoder.layers.5.self_attn.in_proj_weight", "decoder.layers.5.self_attn.in_proj_bias", "decoder.layers.5.encoder_attn.in_proj_weight", "decoder.layers.5.encoder_attn.in_proj_bias", "decoder.layers.6.self_attn.in_proj_weight", "decoder.layers.6.self_attn.in_proj_bias", "decoder.layers.6.encoder_attn.in_proj_weight", "decoder.layers.6.encoder_attn.in_proj_bias", "decoder.layers.7.self_attn.in_proj_weight", "decoder.layers.7.self_attn.in_proj_bias", "decoder.layers.7.encoder_attn.in_proj_weight", "decoder.layers.7.encoder_attn.in_proj_bias", "decoder.layers.8.self_attn.in_proj_weight", "decoder.layers.8.self_attn.in_proj_bias", "decoder.layers.8.encoder_attn.in_proj_weight", "decoder.layers.8.encoder_attn.in_proj_bias", "decoder.layers.9.self_attn.in_proj_weight", "decoder.layers.9.self_attn.in_proj_bias", "decoder.layers.9.encoder_attn.in_proj_weight", "decoder.layers.9.encoder_attn.in_proj_bias", "decoder.layers.10.self_attn.in_proj_weight", "decoder.layers.10.self_attn.in_proj_bias", "decoder.layers.10.encoder_attn.in_proj_weight", "decoder.layers.10.encoder_attn.in_proj_bias", "decoder.layers.11.self_attn.in_proj_weight", "decoder.layers.11.self_attn.in_proj_bias", "decoder.layers.11.encoder_attn.in_proj_weight", "decoder.layers.11.encoder_attn.in_proj_bias".

Am I missing anything here? Thanks!

mralexis · June 4, 2021, 2:21pm

still needs help on this…

mralexis · June 8, 2021, 4:55pm

still needs help on this…

Elaben · February 8, 2022, 4:35pm

I have a similar problem. I want to convert a Wav2Vec2 model trained with fairseq to transformers.
With convert_s2t_fairseq_to_tfms.py script, I get the following error:

lm_head_weights = state_dict["decoder.output_projection.weight"]
KeyError: 'decoder.output_projection.weight'

The code in question is:

m2m_100 = torch.load(checkpoint_path, map_location="cpu")
args = m2m_100["args"]
state_dict = m2m_100["model"]

I added print(state_dict.keys()):

dict_keys(['w2v_encoder.w2v_model.mask_emb', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.0.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.0.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.0.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.0.2.1.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.1.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.1.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.1.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.1.2.1.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.2.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.2.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.2.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.2.2.1.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.3.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.3.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.3.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.3.2.1.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.4.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.4.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.4.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.4.2.1.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.5.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.5.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.5.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.5.2.1.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.6.0.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.6.0.bias', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.6.2.1.weight', 'w2v_encoder.w2v_model.feature_extractor.conv_layers.6.2.1.bias', 'w2v_encoder.w2v_model.post_extract_proj.weight', 'w2v_encoder.w2v_model.post_extract_proj.bias', 'w2v_encoder.w2v_model.encoder.pos_conv.0.bias', 'w2v_encoder.w2v_model.encoder.pos_conv.0.weight_g', 'w2v_encoder.w2v_model.encoder.pos_conv.0.weight_v', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.0.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.0.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.0.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.0.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.0.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.0.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.0.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.1.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.1.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.1.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.1.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.1.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.1.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.1.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.2.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.2.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.2.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.2.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.2.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.2.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.2.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.3.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.3.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.3.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.3.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.3.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.3.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.3.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.4.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.4.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.4.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.4.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.4.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.4.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.4.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.5.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.5.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.5.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.5.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.5.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.5.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.5.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.6.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.6.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.6.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.6.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.6.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.6.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.6.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.7.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.7.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.7.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.7.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.7.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.7.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.7.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.8.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.8.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.8.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.8.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.8.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.8.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.8.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.9.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.9.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.9.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.9.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.9.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.9.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.9.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.10.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.10.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.10.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.10.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.10.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.10.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.10.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.11.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.11.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.11.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.11.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.11.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.11.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.11.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.12.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.12.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.12.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.12.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.12.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.12.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.12.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.13.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.13.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.13.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.13.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.13.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.13.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.13.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.14.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.14.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.14.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.14.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.14.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.14.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.14.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.15.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.15.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.15.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.15.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.15.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.15.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.15.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.16.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.16.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.16.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.16.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.16.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.16.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.16.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.17.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.17.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.17.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.17.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.17.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.17.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.17.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.18.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.18.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.18.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.18.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.18.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.18.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.18.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.19.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.19.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.19.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.19.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.19.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.19.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.19.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.20.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.20.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.20.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.20.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.20.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.20.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.20.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.21.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.21.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.21.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.21.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.21.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.21.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.21.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.22.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.22.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.22.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.22.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.22.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.22.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.22.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.k_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.k_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.v_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.v_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.q_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.q_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.out_proj.weight', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn.out_proj.bias', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.23.self_attn_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layers.23.fc1.weight', 'w2v_encoder.w2v_model.encoder.layers.23.fc1.bias', 'w2v_encoder.w2v_model.encoder.layers.23.fc2.weight', 'w2v_encoder.w2v_model.encoder.layers.23.fc2.bias', 'w2v_encoder.w2v_model.encoder.layers.23.final_layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layers.23.final_layer_norm.bias', 'w2v_encoder.w2v_model.encoder.layer_norm.weight', 'w2v_encoder.w2v_model.encoder.layer_norm.bias', 'w2v_encoder.w2v_model.layer_norm.weight', 'w2v_encoder.w2v_model.layer_norm.bias', 'w2v_encoder.proj.weight', 'w2v_encoder.proj.bias'])

The keys names are very different from the expected ones.
Could someone help me to modify the script accordingly?
Thanks in advance

Topic		Replies	Views
How can I convert a model created with fairseq? Beginners	32	13215	January 21, 2023
Converting pytorch checkpoints to original roberta pytorch checkpoints 🤗Transformers	0	658	November 4, 2020
How to convert Fairseq model to huggingface transformer model Beginners	1	766	October 31, 2023
Funnel transformer convert from tf-ckpt Models	0	233	January 6, 2021
Fine tune bart model with my dataset Beginners	0	664	July 16, 2021

Cannot convert mbart from fairseq to huggingface using the script in the repo

Related topics