Cannot load fill-mask pipline with BertWordPieceTokenizer

timpal0l · May 15, 2023, 3:24pm

In [136]: tokenizer
Out[136]: Tokenizer(vocabulary_size=64000, model=BertWordPiece, unk_token=[UNK], sep_token=[SEP], cls_token=[CLS], pad_token=[PAD], mask_token=[MASK], clean_text=True, handle_chinese_chars=False, strip_accents=False, lowercase=False, wordpieces_prefix=##)

fill_masker = pipeline(task="fill-mask", model=model, tokenizer=tokenizer)

File ~/anaconda3/envs/transformers/lib/python3.11/site-packages/transformers/pipelines/fill_mask.py:211, in FillMaskPipeline._sanitize_parameters(self, top_k, targets)
    208 if top_k is not None:
    209     postprocess_params["top_k"] = top_k
--> 211 if self.tokenizer.mask_token_id is None:
    212     raise PipelineException(
    213         "fill-mask", self.model.base_model_prefix, "The tokenizer does not define a `mask_token`."
    214     )
    215 return {}, {}, postprocess_params

AttributeError: 'BertWordPieceTokenizer' object has no attribute 'mask_token_id'

It clearly says that the tokenizer have a mask_token_id called “[MASK]”.

It can decode this special token correctly:

In [140]: tokenizer.encode("[MASK]").ids
Out[140]: [2, 4, 3]

Topic		Replies	Views
Use custom model for mask filling using pipeline 🤗Transformers	0	339	September 27, 2023
MLM pipeline with saved/customized BertModel Beginners	10	1905	March 22, 2022
Pipeline fill-mask error with custom Roberta tokenizer Beginners	1	847	February 8, 2022
About fill-mask pipeline with [mask] made up of multiple tokens 🤗Transformers	0	323	April 24, 2023
Where in the code does masking of tokens happen when pretraining BERT Beginners	5	7268	August 17, 2020

Cannot load fill-mask pipline with BertWordPieceTokenizer

Related topics