Does the ByteLevelBPETokenizer need to be wrapped in a normal Tokenizer?

vedantroy · March 18, 2023, 7:08pm

The Huggingface tokenizer documents say to use the following:

from tokenizers import Tokenizer
from tokenizers.models import BPE
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))

However, it looks like the correct way to train a byte-level BPE is as follows:

tokenizer = ByteLevelBPETokenizer()
tokenizer.train(["path/to/train.txt"], vocab_size=1000, min_frequency=2, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

Why is the ByteLevelBPETokenizer not just a normal tokenizer model?

Topic		Replies	Views
NLP dataset for ByteLevelTokenizer Training 🤗Datasets	1	2085	February 16, 2021
Two approaches to training a tokenizer Beginners	0	976	March 6, 2023
HuggingFace BPE Trainer Error - Training Tokenizer 🤗Tokenizers	1	2994	July 14, 2022
Loading BPE modeled Tokenizer results in empty tokenizer 🤗Tokenizers	0	327	April 15, 2024
How to properly clean vocabulary from BBPE tokenizer 🤗Tokenizers	3	1041	October 1, 2022

Does the ByteLevelBPETokenizer need to be wrapped in a normal Tokenizer?

Related topics