Does model supports partial `past_key_values`?

qgallouedec · May 12, 2023, 9:47am

Demo code:

import torch
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-125M")

# Init input id
input_ids = torch.tensor([[1, 2, 3, 4]], dtype=torch.int64)

# One forward pass
output = model(input_ids)
past_key_values = output.past_key_values

# Add predicted token
next_token = output.logits[:, -1].argmax(1, keepdim=True)
input_ids = torch.cat((input_ids, next_token), dim=1)

# Add some custom tokens
additional_token = torch.zeros(1, 3, dtype=torch.int64)
input_ids = torch.cat((input_ids, additional_token), dim=1)

# Generate
model(input_ids, past_key_values=past_key_values)  # Works
model.generate(input_ids, max_length=30, past_key_values=past_key_values)  # Fails

Several questions:

Even if model(…) does not raise an exception, does it work? Or is there a silent bug?
If the model does support partial past_key_values, why model.generate doesn’t?

Thanks!

transformers: v4.29
Python: v3.10.10

Topic		Replies	Views
Outputs change if re-using KVCache (past_key_values) for model.forward and generation 🤗Transformers	5	194	January 22, 2025
Why past_key_values is not in GreedySearchDecoderOnlyOutput? 🤗Transformers	1	2018	October 4, 2022
Correct input_ids when passing past_key_values 🤗Transformers	2	874	June 14, 2024
Why i can't use or can't pass past_key_values = DynamicCache() into Llama 3 model Intermediate	1	280	October 8, 2024
Why if use cache in gpt2 model from transformers , the logits are different if i do a forward pass from scratch Models	1	355	February 25, 2024

Does model supports partial `past_key_values`?

Related topics