Error training MLM with Roberta Tokenizer

djs · February 18, 2022, 7:35pm

I am currently trying to train a MLM using a ByteLevelBPETokenizer on a custom corpus and am getting the following error:

AttributeError: ‘tokenizers.Tokenizer’ object has no attribute ‘mask_token’

Shown below is the code:

BOS = “”
EOS = “”
UNK = “”
PAD = “”
MASK = “”

tokenizer = Tokenizer(BPE())

tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)
tokenizer.decoder = decoders.ByteLevel()
tokenizer.enable_truncation(max_length=512)
tokenizer.enable_padding()

trainer = BpeTrainer(
vocab_size=50000,
special_tokens=[BOS, PAD, EOS, UNK, MASK],
initial_alphabet=pre_tokenizers.ByteLevel.alphabet()
)

tokenizer.train_from_iterator(batch_iterator(), trainer=trainer)

tokenizer.post_processor = RobertaProcessing(
sep=(EOS, tokenizer.token_to_id(EOS)),
cls=(BOS, tokenizer.token_to_id(BOS))
)

data_collator = DataCollatorForLanguageModeling(
tokenizer,
mlm_probability=0.15,
return_tensors=‘tf’)

Any ideas? The current environment makes it difficult for me to save the tokenizer and load it back using a load from pretrained.

Thanks

ArmanAsq · September 17, 2023, 7:30am

I have the same problem here. Did you find any solution to it?

Topic		Replies	Views
Further pre-training the tokenizer? 🤗Tokenizers	0	821	April 30, 2022
Training RoBERTa from scratch: error? 🤗Transformers	0	587	August 26, 2021
[URGENT] Issues with Training RoBERTa Model for Text Prediction with Fill Mask Task 🤗Transformers	6	216	March 19, 2024
RobertaTokenizer: How to enable masking of custom special tokens 🤗Transformers	1	977	April 24, 2021
Build a RoBERTa tokenizer from scratch 🤗Tokenizers	5	3347	December 12, 2020

Error training MLM with Roberta Tokenizer

Related topics