[Question] How to generate a merge file and a vocab file

Zhang-kg · April 17, 2023, 3:50pm

I want to use the Megatron framework for Chinese NLP pre-training tasks. Currently, I have Chinese corpus resources and a vocab.txt file. However, for most frameworks, it seems that vocab.json and merge.txt are needed. Can I generate the above two files from Chinese corpus resources? If so, how can I generate them? Sorry, I haven’t found a particularly suitable tutorial on Google.

Topic		Replies	Views
How to create a HF tokenizer's vocab file from a BPE model's merges.txt file? 🤗Tokenizers	0	475	May 13, 2023
Why do different tokenizers use different vocab files? 🤗Transformers	0	1793	October 18, 2020
Instantiating TransfoXLTokenizer using existing vocab dict 🤗Transformers	1	282	January 8, 2021
Tokenizer shrinking recipes 🤗Tokenizers	7	2650	December 24, 2023
TransformerXL on Custom Language Beginners	1	253	October 21, 2020

[Question] How to generate a merge file and a vocab file

Related topics