Decode embeddings of BERT hidden layers

yuna786 · January 30, 2023, 8:15pm

I am concatenating the last 4 hidden layers of BERT to generate my embeddings, with the method from here. The embedding is a 1D numpy array of length 3,072 (4*768)

However, I can’t seem to figure out how to decode these embeddings back into sentences.

I’ve tried reshaping the embedding to work with get_output_embedding():

    bert = transformers.BertForMaskedLM.from_pretrained("bert-base-uncased")
    tok = transformers.BertTokenizer.from_pretrained("bert-base-uncased")
    dec = bert.get_output_embeddings()(torch.from_numpy(embedding.reshape(4,768)).float())
    print("Decoded sentence:", tok.decode(dec.softmax(0).argmax(1)))

Although the output of this code indeed returns a string of characters, these characters are not the original sentence.

How can I decode the embeddings (generated from the last 4 hidden layers of BERT)?

Topic		Replies	Views
Why BertForMaskedLM has decoder layer 🤗Transformers	2	820	August 17, 2021
Question about last_hidden_state of the bert model Beginners	0	332	December 7, 2023
How to get embedding matrix of bert in hugging face Beginners	8	41104	October 31, 2024
What should be used as sentence embedding for BertModel? Beginners	0	1909	May 24, 2021
How to obtain [CLS] embeddings from fine-tuned BERT model (using Transformers Trainer) Beginners	1	2667	June 27, 2022

Decode embeddings of BERT hidden layers

Related topics