Is there a Fast Whitespace Tokenizer?

blckwdw61 · November 18, 2022, 4:06pm

Hello, is there an existing “Fast” (Rust based) whitespace tokenizer?

If not, am I able to train a “Fast” whitespace tokenizer ?

Reason for wanting to use a “Fast” tokenizer is because I would like to use the offset mapping to recover multi-word entities in NER

Topic		Replies	Views
Difference between tokenizer and tokenizerfast Beginners	4	4234	December 22, 2023
Create a simple tokenizer 🤗Tokenizers	0	420	February 14, 2023
Using whitespace tokenizer for training models 🤗Tokenizers	1	3229	June 6, 2021
BertTokenizerFast for stsb-xlm-r-multilingual model 🤗Tokenizers	3	662	April 8, 2021
Scala/JVM Bindings for Tokenizers 🤗Tokenizers	0	503	May 10, 2023