MarianTokenizer sentencepiece model

hieutt99 · November 4, 2021, 12:43pm

As far as I have read from sentencepiece github, sentencepiece can be done in modes of unigram(default) and bpe and so on. So what exactly do the tokenizers for these mt model is made of ? unigram as default or bpe ?

Topic		Replies	Views
T5 model tokenizer 🤗Tokenizers	2	1345	September 29, 2022
SentencePieceUnigramTokenizer 🤗Tokenizers	0	683	September 22, 2022
How do you use SentencePiece for BPE of sequences with no whitespace 🤗Tokenizers	1	2086	April 29, 2021
Training a tokenizer Beginners	1	445	August 3, 2022
SentencePiece to Tokenizers conversion 🤗Tokenizers	0	80	March 14, 2025

MarianTokenizer sentencepiece model

Related topics