How to create a HF tokenizer's vocab file from a BPE model's merges.txt file?

junliu44 · May 13, 2023, 9:37am

I have a BPE merges file that has been trained by another trainer. How can I convert it to the vocab format of the hf tokenizer? Because I don’t want to spend a lot of time retraining the BPE model.

Topic		Replies	Views
How to create a hugging face compatible tokenizer from a vocab file? Beginners	0	249	May 23, 2024
Get intermediate tokens and merges used in tokenization 🤗Tokenizers	0	468	December 1, 2023
Using HuggingFace Tokenizers Without Special Characters 🤗Tokenizers	2	1925	November 2, 2022
Loading BPE modeled Tokenizer results in empty tokenizer 🤗Tokenizers	0	327	April 15, 2024
Why do different tokenizers use different vocab files? 🤗Transformers	0	1788	October 18, 2020

How to create a HF tokenizer's vocab file from a BPE model's merges.txt file?

Related topics