Byte Level Tokenizer While Training

dinesh-bk · December 14, 2024, 1:27am

Hi, I have trained the tokenizer using the model BPE and pre tokenizer as ByteLevel tokenizer = Tokenizer(models.BPE(unk_token="[UNK]")) tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel() tokenizer.decoder = decoders.ByteLevel()
Now, my vocabulary is saved in bytes and tokenizer.tokenize give me output in bytes too which is obvious.
tokenizer.tokenize output is

['Ġà¤¨',
 'à¥ĩ',
 'à¤ª',
 'à¤¾',
 'à¤²',
 'à¥Ģ',
 'Ġà¤Ń',
 'à¤¾',
 'à¤·',
 'à¤¾',
 'à¤®',
 'à¤¾',
 'Ġà¤¯',
 'à¥ĭ',
 'Ġà¤ıà¤ķ',
 'Ġà¤īà¤¦',
 'à¤¾',
 'à¤¹à¤°à¤£',
 'Ġà¤¹',
 'à¥ĭà¥¤']

. Is there way to save my vocabulary in unicode character rather than bytes and show tokens in unicode characters too?

Topic		Replies	Views
Does the ByteLevelBPETokenizer need to be wrapped in a normal Tokenizer? 🤗Tokenizers	0	1860	March 18, 2023
Tokenized sequence lengths 🤗Tokenizers	6	2088	March 10, 2022
Tokenizers v0.8.0 is out! 🤗Tokenizers	0	1518	July 7, 2020
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3908	July 17, 2020
ByteLevelBPETokenizer inconsistent behavior 🤗Tokenizers	0	412	July 23, 2020

Byte Level Tokenizer While Training

Related topics