How to create a tokenizers from a custom pretrained tokenizer?

johanbjorck · February 24, 2021, 1:20am

I have created a custom tokenizer from the tokenizers library, roughly following (The tokenization pipeline — tokenizers documentation). However, these tokenizers do not have utilities like transforming encoded sentences to torch tensors and so on. For this, I’d want to use the PreTrainedTokenizerFast class. It exposes an interface for getting the tokenizers of various pretrained models from google/facebook/etc, but I want to use my own tokenizer.

How do I create a PreTrainedTokenizerFast from my own tokenizer?

thanks!!

sgugger · February 24, 2021, 4:14pm

cc @anthony on this.

Topic		Replies	Views
Cannot create an identical PretrainedTokenizerFast object from a Tokenizer created by tokenizers library 🤗Tokenizers	1	1092	August 30, 2021
Tokenizer from tokenizers library cannot be used in transformers.Trainer 🤗Transformers	2	625	July 30, 2021
Pushing a custom tokenizer to the hub Beginners	0	333	April 14, 2023
Why does PreTrainedTokenizerFast return a list instead of tokenizers.Encoding instance? Beginners	1	316	February 6, 2023
Train a new tokenizer from scratch 🤗Transformers	4	1714	November 10, 2020

How to create a tokenizers from a custom pretrained tokenizer?

Related topics