Create custom data_collator for Huggingface Trainer

krishnagarg09 · April 19, 2022, 7:27pm

I need to create a custom data_collator for finetuning with Huggingface Trainer API.

HuggingFace offers DataCollatorForWholeWordMask for masking whole words within the sentences with a given probability.

model_ckpt    = "vinai/bertweet-base"
tokenizer     = AutoTokenizer.from_pretrained(model_ckpt, normalization=True)
data_collator = DataCollatorForWholeWordMask(tokenizer=tokenizer, mlm_probability=args.mlm_prob)

I am using the collator as Trainer argument:

    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_dataset['train'],
        eval_dataset=None,
        data_collator=data_collator,
    )
    trainer.train()

But in my usecase, a sample input looks like: <sent1>.<sent2>. I want to mask the tokens only in <sent2> and not in <sent1>. How can I go about it? Any pointers on getting started with it are also welcome.

nbroad · July 22, 2022, 3:00pm

Subclass DataCollatorForWholeWordMask and override the torch_mask_tokens function.

Topic		Replies	Views
How to use whole word masking data_collator? Beginners	8	3090	June 15, 2024
Whole-word masking for T5 Beginners	2	527	November 28, 2023
How to train a LM model with whole word masking using Pytorch Trainer API 🤗Transformers	0	293	July 4, 2022
Seeding Data Collator 🤗Transformers	0	224	May 12, 2023
Masking specific token in each input sentence during Masked language modelling 🤗Transformers	0	1046	October 18, 2021

Create custom data_collator for Huggingface Trainer

Related topics