Having Multiple [MASK] tokens in a sentence

Lindasteel · February 3, 2021, 5:40pm

I would like to have multiple [MASK] tokens in a sentence but I get an error when I try to run it.
What do I need to change to fix it?

Instead of: text = "The capital of France, " + tokenizer.mask_token + “, contains the Eiffel Tower.”
I need: text = "The capital of France, " + tokenizer.mask_token + ", contains the Eiffel + tokenizer.mask_token "

from transformers import BertTokenizer, BertForMaskedLM
from torch.nn import functional as F
import torch
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased',    return_dict = True)
text = "The capital of France, " + tokenizer.mask_token + ", contains the Eiffel Tower."
input = tokenizer.encode_plus(text, return_tensors = "pt")
mask_index = torch.where(input["input_ids"][0] == tokenizer.mask_token_id)
output = model(**input)
logits = output.logits
softmax = F.softmax(logits, dim = -1)
mask_word = softmax[0, mask_index, :]
top_10 = torch.topk(mask_word, 10, dim = 1)[1][0]
for token in top_10:
   word = tokenizer.decode([token])
   new_sentence = text.replace(tokenizer.mask_token, word)
   print(new_sentence)

I’ve used the code from here

I’ve already looked at Multiple Mask Tokens but I want the output to be a sentence.

I hope you can help me

Kind regards
Linda

zanderbush · February 4, 2021, 5:39am

import torch

sentence = "The capital of France [MASK] contains the Eiffel [MASK]."

token_ids = tokenizer.encode(sentence, return_tensors='pt')

# print(token_ids)

token_ids_tk = tokenizer.tokenize(sentence, return_tensors='pt')

print(token_ids_tk)

masked_position = (token_ids.squeeze() == tokenizer.mask_token_id).nonzero()

masked_pos = [mask.item() for mask in masked_position ]

print (masked_pos)

with torch.no_grad():

    output = model(token_ids)

last_hidden_state = output[0].squeeze()

print ("\n\n")

print ("sentence : ",sentence)

print ("\n")

list_of_list =[]

for mask_index in masked_pos:

    mask_hidden_state = last_hidden_state[mask_index]

    idx = torch.topk(mask_hidden_state, k=100, dim=0)[1]

    words = [tokenizer.decode(i.item()).strip() for i in idx]

    list_of_list.append(words)

    print (words)


best_guess = ""

for j in list_of_list:

    best_guess = best_guess+" "+j[0]

Lindasteel · April 8, 2021, 1:39pm

Thank you so much! This helped me so much.

Topic		Replies	Views
Multiple Mask Tokens 🤗Transformers	4	7484	February 12, 2022
Combine multiple sentences together during tokenization 🤗Tokenizers	3	5638	February 4, 2022
Mask More Than one Word: 🤗Transformers	7	3300	October 24, 2022
Evaluating multiple choices using BertForMultipleChoice Beginners	0	610	June 20, 2021
Fine-tuning a masked language model Beginners	0	355	February 2, 2022

Having Multiple [MASK] tokens in a sentence

Related topics