Training a tokenizer

duynguyen236 · August 3, 2022, 4:20am

Hi everyone,
I have a dataset in which sentences have been segmented into words. How do I use it to train a BPE or SentencePiece tokenizer?
Thank you

mapama247 · August 3, 2022, 9:04am

Check out this notebook from huggingface’s github, or the second step of this other notebook about how to pretrain a LM from scratch

Topic		Replies	Views
Use a pretrained ByteLevelBPETokenizer on text 🤗Tokenizers	1	3768	July 17, 2020
Training sentencePiece from scratch? 🤗Tokenizers	8	19311	December 19, 2023
Tokenizer from tokenizers library cannot be used in transformers.Trainer 🤗Transformers	2	625	July 30, 2021
T5 model tokenizer 🤗Tokenizers	2	1354	September 29, 2022
MarianTokenizer sentencepiece model Beginners	0	264	November 4, 2021