How to add new tokens for existing masked language modelling?

anon58275033 · June 11, 2021, 9:09am

Hi,

I have followed this tutorial from GitHub on masked language modelling: notebooks/language_modeling.ipynb at master · huggingface/notebooks · GitHub

But, I am wondering, how do I modfiy this code below for the masked language modelling task, and where in my code do I place it?

In the tutorial, this line of code is used:

from transformers import AutoModelForMaskedLM
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)

This is the code I need to modify to satisfy MLM:

 Let's see how to increase the vocabulary of Bert model and tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

num_added_toks = tokenizer.add_tokens(['new_tok1', 'my_new-tok2'])
print('We have added', num_added_toks, 'tokens')
model.resize_token_embeddings(len(tokenizer))  # Notice: resize_token_embeddings expect to receive the full size of the new vocabulary, i.e. the length of the tokenizer.

BramVanroy · June 11, 2021, 10:42am

First of all, I guess you want to use BertForMaskedLM instead of BertModel. The other parts should work AFAIK.

anon58275033 · June 11, 2021, 11:55am

@BramVanroy Yes, I want to use BertForMaskedLM

anon58275033 · June 11, 2021, 1:44pm

I have modified the code, but I am getting this error:

NameError: name 'BertTokenizer' is not defined

Topic		Replies	Views
Adding a new mask_token for BERT-like models/tokenizers Intermediate	0	546	May 26, 2023
NameError: name 'BertTokenizer' is not defined Beginners	2	8021	June 11, 2021
Can't load pre-trained tokenizer with additional new tokens 🤗Transformers	3	4427	August 10, 2021
Transformers v3.0.0 is out! 🤗Transformers	0	1937	July 7, 2020
Unexpected result from transformer model prediction Beginners	0	288	November 21, 2021

How to add new tokens for existing masked language modelling?

Related topics