Should I use BertConfig? Why these output are different?

frap · February 10, 2022, 12:41pm

Why are these output different?

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('prajjwal1/bert-tiny')
model = AutoModel.from_pretrained('prajjwal1/bert-tiny', output_hidden_states=True)
print(model(**tokenizer(sent, return_tensors="pt"), output_hidden_states=True).hidden_states)

from transformers import AutoModelForMaskedLM, AutoTokenizer

    tokenizer = AutoTokenizer.from_pretrained('prajjwal1/bert-tiny')
    model = AutoModelForMaskedLM.from_pretrained('prajjwal1/bert-tiny', output_hidden_states=True)
    print(model(**tokenizer(sent, return_tensors="pt"), output_hidden_states=True).hidden_states)

Actually, the first two outputs are exactly the same, but what about this third code?

 from transformers import AutoConfig, AutoModelForMaskedLM, AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained('prajjwal1/bert-tiny')
    config = AutoConfig.from_pretrained('prajjwal1/bert-tiny', output_hidden_states=True)
    model = AutoModelForMaskedLM.from_config(config)
    print(model(**tokenizer(sent, return_tensors="pt"), output_hidden_states=True).hidden_states)

beneyal · February 11, 2022, 8:57am

Hello

The 1st and 2nd snippets load the weights of the prajjwal1/bert-tiny model (either with or without the LM head), so their outputs are the same.

The 3rd snippet only loads the config, meaning no weights are loaded, the model variable contains an untrained model, so the outputs will differ.

Topic		Replies	Views
Differences between Config.from_pretrained and Model.from_pretrained 🤗Transformers	1	1170	July 20, 2021
Should I use BertModel or BertModelForLM? Beginners	2	468	February 10, 2022
How to use AutoModel Beginners	0	2018	May 4, 2021
Naming inconsistency in Distilbert config 🤗Transformers	1	517	November 30, 2020
Comparing output of BERT model - why do two runs differ even with fixed seed? Beginners	2	664	January 18, 2022

Should I use BertConfig? Why these output are different?

Related topics