Customizing T5 tokenizer for finetuning

phade160 · March 25, 2022, 4:54pm

Hi,
I am finetuning a T5 model for QA on my dataset but the vocab is so different than the tokenizer’s, which results in an excessive length of token_ids/tokens. can I train a new tokenizer from the existing one and use it for finetuning? if yes, any tips/resources to aid?
Thanks

0bzrv3 · May 2, 2024, 7:16pm

what i did was make a set of words i want to be tokenized and used tokenizer.add_tokens(new_tokens).
remember to resize embedding weights in the model as well: model.resize_token_embeddings(len(tokenizer))

Topic		Replies	Views
Anyone have idea how we can finetune a model using Trainer API? 🤗Transformers	0	446	April 22, 2022
T5 tokenizer vs t51.1 tokenizer 🤗Tokenizers	0	211	March 1, 2024
Customized tokenizers Beginners	0	250	August 18, 2022
How to properly add news tokens to tokenizer vocab? Beginners	0	154	May 14, 2024
Errors when fine-tuning T5 Beginners	7	6469	January 3, 2022

Customizing T5 tokenizer for finetuning

Related topics