T5 model tokenizer

antoine2323231 · September 26, 2022, 4:38pm

T5 models are using BPE tokenizers? Is it possible to use another type of tokenizer along a T5 model, or not because they are designed to work with BPE?

michaelwechner · September 27, 2022, 1:39pm

AFAIK T5 is using SentencePiece T5 which has BPE implemented GitHub - google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation. and therefore depends on this.

Why would you like to use another tokenizer?

michaelwechner · September 29, 2022, 11:54am

The question got answered on Discord

If you’re training from scratch, then you would typically train a tokenizer on your own data, in which case you can choose which tokenizer training algorithm (BPE, WordPiece or UnigramLM if you’re using tokenizers) and how to preprocess the data before tokenizing it. I can recommend this chapter of the HF course to learn more about tokenizers: Introduction - Hugging Face Course

Topic		Replies	Views
Can i use BPE tokenizer for T5 model not pretrain Beginners	0	331	April 13, 2022
MarianTokenizer sentencepiece model Beginners	0	264	November 4, 2021
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3768	July 17, 2020
T5 tokenizer vs t51.1 tokenizer 🤗Tokenizers	0	213	March 1, 2024
SentencePieceUnigramTokenizer 🤗Tokenizers	0	687	September 22, 2022

T5 model tokenizer

Related topics