Get each generated token last layer hidden state

JuyiLin · March 15, 2025, 9:19pm

I am using llama2 casual model

        multimodal_embeddings, multimodal_attention_mask = self._build_multimodal_attention(
            input_embeddings, projected_patch_embeddings, attention_mask
self.language_model.generate(inputs_embeds=multimodal_embeddings,max_new_tokens=8,output_hidden_states=True,return_dict_in_generate=True)

I want to get each generated token last layer hidden state.
But I don’t know whether language_model_output.hidden_states[0][-1]. is the first generated token hidden state because it is different:

language_model_output.hidden_states[0][-1].shape
torch.Size([1, 535, 4096]) # why it is same with multimodal_embeddings.shape, not 1 
(Pdb) language_model_output.hidden_states[1][-1].shape
torch.Size([1, 1, 4096])
(Pdb) multimodal_embeddings.shape
torch.Size([1, 535, 4096])

JuyiLin · March 15, 2025, 9:56pm

Same problem as Wrong shape of hidden_states and attentions when generating · Issue #26174 · huggingface/transformers · GitHub
From this, we may need generate one more token? Wrong shape of last layer hidden states when generating · Issue #30036 · huggingface/transformers · GitHub

John6666 · March 16, 2025, 10:34am

Hmm, that’s difficult…

JuyiLin · March 16, 2025, 3:35pm

Why it is difficult?
language_model_output.hidden_states[1][-1].shape torch.Size([1, 1, 4096]) I think it is hidden state, right?
Can we grep the first token hidden state by language_model_output.hidden_states[0][-1][:,-1,:] ?

Topic		Replies	Views
Get output embeddings out of a transformer model 🤗Transformers	4	4069	July 20, 2021
T5.generate() cannot get hidden states although output_hidden_states=True 🤗Transformers	0	553	July 9, 2022
MaskedLMOutput does not have last_hidden_state 🤗Transformers	0	1684	May 27, 2021
ValueError: expected sequence of length 133 at dim 1 (got 80) encountered when trying to retrieve first hidden state Beginners	0	627	June 24, 2021
Generate tokens given hidden states Beginners	0	158	August 28, 2023

Get each generated token last layer hidden state

Related topics