Custom Tokenizer for source code

arushi17 · March 4, 2022, 4:33am

Is it possible to use an external tokenizer like the standard Python tokenizer with a CodeBert model? How?
tokenize — Tokenizer for Python source — Python 3.10.2 documentation

I realize that there is an option for pretokenizers that is able to do something similar, but it still requires me to use a standard tokenizer after that. Is it possible to skip that?

Topic		Replies	Views
Two SEP Tokens added by microsoft/codebert-base Beginners	0	319	August 5, 2022
Pushing a custom tokenizer to the hub Beginners	0	333	April 14, 2023
Questions re: Tokenizer pipeline composability / reuse outside of the HF ecosystem 🤗Tokenizers	0	214	December 18, 2023
Re-train microsoft/codebert-base tokenizer Beginners	1	833	February 3, 2022
Train a new tokenizer from scratch 🤗Transformers	4	1711	November 10, 2020

Custom Tokenizer for source code

Related topics