Why BigBirdTokenizer can’t load my own vocab or trained BPE results？

ccfeidao · September 3, 2021, 4:40am

BigBirdTokenizer can’t load vacob results. But BERT and RoBERTa can.

tokenizer = RobertaTokenizer.from_pretrained('my_bpe', max_len=512)  # right
tokenizer = BertTokenizer.from_pretrained('./data/my_vocab.txt')  # right

tokenizer = BigBirdTokenizer.from_pretrained('my_bpe') # not right



    175 
    176     def LoadFromFile(self, arg):
--> 177         return _sentencepiece.SentencePieceProcessor_LoadFromFile(self, arg)
    178 
    179     def Init(self,

RuntimeError: Internal: /sentencepiece/src/sentencepiece_processor.cc(818) [model_proto->ParseFromArray(serialized.data(), serialized.size())]

How can I train a token to use in BigBirdTokenizer？ Thanks

coolcoder001 · September 3, 2021, 10:26am

Hi , may I know in which format is the token given ?

ccfeidao · September 3, 2021, 10:36am

vacob.txt merge.txt
vacob.json merge.txt

Topic		Replies	Views
Load custom pretrained tokenizer 🤗Tokenizers	0	1609	October 28, 2021
Using whitespace tokenizer for training models 🤗Tokenizers	1	3221	June 6, 2021
FutureWarning about BertTokenizer.from_pretrained() at latest version 🤗Tokenizers	0	1241	June 6, 2022
Train a new tokenizer from scratch 🤗Transformers	4	1707	November 10, 2020
Pipeline fill-mask error with custom Roberta tokenizer Beginners	1	847	February 8, 2022

Why BigBirdTokenizer can’t load my own vocab or trained BPE results？

Related topics