TokenizerFast with various units (e.g., BPE, wordpiece, word, character, unigram)

lifelongeek · November 8, 2020, 3:09am

I am using BartTokenizerFast to encode & decode my dataset.
I can find the documentation for using BPE unit for TokenizerFast
(including
https://colab.research.google.com/github/huggingface/transformers/blob/master/notebooks/01-training-tokenizers.ipynb)

Is there any useful documentation for using other units (e.g., wordpiece, word, character) for TokenizerFast?

Thank you !

thomwolf · November 12, 2020, 1:12pm

Topic		Replies	Views
Training a tokenizer Beginners	1	444	August 3, 2022
Tokenizer vs. TokenizerFast 🤗Transformers	5	6814	August 12, 2021
SentencePiece user_defined_symbols and fast tokenizers 🤗Tokenizers	1	1561	January 3, 2024
Training sentencePiece from scratch? 🤗Tokenizers	8	19125	December 19, 2023
Using HuggingFace Tokenizers Without Special Characters 🤗Tokenizers	2	1916	November 2, 2022