How to replace a existing token in a sentencepiece tokenizer

muziyongshixin · December 12, 2023, 3:57pm

I have a tokenizer(baichuan2 tokenizer) which have lots of preserved tokens like bellow:

 '<reserved_7>': 100,
 '<reserved_8>': 101,
 '<reserved_9>': 102,
 '<reserved_10>': 103,
 '<reserved_11>': 104,
 '<reserved_12>': 105,
 '<reserved_13>': 106,
 '<reserved_14>': 107,

I want to replace the ‘<reserved_7>’ with ‘<|im_start|>’ and replace ‘<reserved_8>’ with ‘<|im_end|>’

what I want to get is a tokenizer which can act as below:
tokenizer.encode(‘<|im_start|>’) => 100

I do not want to use add_tokens or add_special_tokens, because this will change the model’s embedding size and introduce some inconvience in finetuning.

Topic		Replies	Views
SentencePiece tokenizer Beginners	2	119	February 22, 2025
How to save a tokenizer only consisting of added tokens 🤗Tokenizers	0	840	May 11, 2022
SentencePiece tokenizer encodes to unknown token 🤗Tokenizers	0	878	August 2, 2023
Training sentencePiece from scratch? 🤗Tokenizers	8	19195	December 19, 2023
Replace special [unusedX] tokens in a tokenizer to add domain-specific words Intermediate	0	1095	October 12, 2023

How to replace a existing token in a sentencepiece tokenizer

Related topics