How can I see the masked words during pre-learning by MLM?

tossy · February 7, 2022, 2:05pm

I would like to know what words are masked during pre-learning by masked language modeling.
How can I see the masked words during pre-learning?

For example, Below is sample code.


tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased')

dataset = LineByLineTextDataset(
    tokenizer=tokenizer,
    file_path=corpus,
    block_size=max_length,
)

data_collator = DataCollatorForLanguageModeling(
     tokenizer=tokenizer, 
     mlm=True,
     mlm_probability=0.15
)

training_args = TrainingArguments(
    output_dir=outputdir,
    overwrite_output_dir=False,
    num_train_epochs=epochs,
    per_device_train_batch_size=batch_size,
    save_steps=2000,
    save_total_limit=2,
    prediction_loss_only=True,
    logging_steps=2000,
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset
)

trainer.train()

Thank you.

Topic		Replies	Views
Is masking still used when finetuning a BERT model? Beginners	1	1322	July 29, 2020
Using a dataset with already masked tokens Beginners	2	702	February 3, 2021
Pre - Train model with inputs_embeds 🤗Transformers	0	373	July 4, 2023
Where in the code does masking of tokens happen when pretraining BERT Beginners	5	7275	August 17, 2020
How to add new tokens for existing masked language modelling? Beginners	3	681	June 11, 2021

How can I see the masked words during pre-learning by MLM?

Related topics