Selective masking in Language modeling

leoapolonio · August 13, 2020, 2:26pm

Refer to: https://colab.research.google.com/github/huggingface/blog/blob/master/notebooks/01_how_to_train.ipynb#scrollTo=M1oqh0F6W3ad

Mask Code:

github.com

huggingface/transformers/blob/master/src/transformers/data/data_collator.py#L157


    if are_tensors_same_length:
        return torch.stack(examples, dim=0)
    else:
        if self.tokenizer._pad_token is None:
            raise ValueError(
                "You are attempting to pad samples but the tokenizer you are using"
                f" ({self.tokenizer.__class__.__name__}) does not have one."
            )
        return pad_sequence(examples, batch_first=True, padding_value=self.tokenizer.pad_token_id)

def mask_tokens(self, inputs: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
    """
    Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.
    """

    if self.tokenizer.mask_token is None:
        raise ValueError(
            "This tokenizer does not have a mask token which is necessary for masked language modeling. Remove the --mlm flag if you want to use this tokenizer."
        )

    labels = inputs.clone()

Topic		Replies	Views
How to do selective masking in Language modeling 🤗Transformers	3	530	August 13, 2020
Masking specific token in each input sentence during Masked language modelling 🤗Transformers	0	1047	October 18, 2021
Using a dataset with already masked tokens Beginners	2	702	February 3, 2021
Mask modelling on specific words Beginners	1	1044	March 25, 2021
How to make a model predict on only some tokens Beginners	1	601	June 16, 2022

Selective masking in Language modeling

Related topics