Create a simple tokenizer

beannn February 14, 2023, 6:57am 1

I have a preprocessed dataset. The tokens are split by whitespace. So I need a very simple tokenizer to load this. Is there any advice about how to create this?

Topic		Replies	Views
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3917	July 17, 2020
Can't load tokenizer for 'sshleifer/student_blarge_12_3' 🤗Tokenizers	0	336	May 6, 2021
Automatic sentence segmentation and encoding 🤗Tokenizers	0	846	October 12, 2020
About the Tokenizers category 🤗Tokenizers	1	314	July 7, 2020
Save tokenizer with argument 🤗Tokenizers	2	1974	October 26, 2022

Create a simple tokenizer

Related topics