How to save my tokenizer using save_pretrained?

anon58275033 · August 12, 2021, 4:39pm

I have just followed this tutorial on how to train my own tokenizer.

Now, from training my tokenizer, I have wrapped it inside a Transformers object, so that I can use it with the transformers library:

from transformers import BertTokenizerFast

new_tokenizer = BertTokenizerFast(tokenizer_object=tokenizer)

Then, I try to save my tokenizer using this code:

tokenizer.save_pretrained('/content/drive/MyDrive/Tokenzier')

However, from executing the code above, I get this error:

AttributeError: 'tokenizers.Tokenizer' object has no attribute 'save_pretrained'

Am I saving the tokenizer wrong?

If so, what is the correct approach to save it to my local files, so I can use it later?

sgugger · August 12, 2021, 4:54pm

You are saving the wrong tokenizer ;-). new_tokenizer.save_pretrained(xxx) should work.

anon58275033 · August 12, 2021, 5:07pm

Thank you very much for that! And, one more thing… When I want to use my tokenizer for masked language modelling, do I use the pretrained model notebook?

sgugger · August 12, 2021, 5:11pm

I’m not sure which notebook you are referencing. If you want to train a language model from scratch on masked language modeling, it’s in this notebook.

anon58275033 · August 12, 2021, 10:52pm

I see - will take a look at that. So, after training my tokenizer, how do I use it for masked language modelling task?

anon58275033 · August 13, 2021, 1:06pm

@sgugger Do I replace the following with where I saved my trained tokenizer?

model_checkpoint = "bert-base-cased"
tokenizer_checkpoint = "sgugger/bert-like-tokenizer"

Topic		Replies	Views
Saving local bert/roberta model not working using save_pretrained Beginners	0	1070	November 18, 2022
Can't load pre-trained tokenizer with additional new tokens 🤗Transformers	3	4426	August 10, 2021
Is there a way to save a pre-compiled AutoTokenizer? 🤗Tokenizers	1	351	January 25, 2024
How to save a fast tokenizer using the transformer library and then load it using Tokenizers? 🤗Tokenizers	7	3447	December 14, 2022
Tokenizer Saving Issues, Wrapper Issues and Push to Hub issues Beginners	3	1493	May 12, 2024

How to save my tokenizer using save_pretrained?

Related topics