Fine-tuning code embedding model for multilingual query-code pairs

palindromeRice05 · March 25, 2025, 9:43am

I have a dataset with queries and multiple correct code solutions in different programming languages (e.g., Python, C++, Java). Within each language, there are also multiple correct solutions. How should I group query-code pairs for fine-tuning?

Option 1: Separate by language (e.g.,
Query 1 - Python 1, Python 2
Query 1 - Java 1, Java 2
Query 1 - C++ 1, C++ 2)

Option 2: Mix all languages (e.g.,
Query 1 - Python 1, Python 2, Java 1, Java 2, C++ 1, C++ 2)

Which approach is more suitable?

mahmutc · March 25, 2025, 9:59am

hi @palindromeRice05
I think Option 1 looks better. However, do you have a suitable tokenizer for handling multiple programming languages?

palindromeRice05 · March 25, 2025, 10:00am

I am using SFR code embedding model. i am using the model’s tokenizer only.

Topic		Replies	Views
Sentence Pair Classification where sentences are in different languages Languages at Hugging Face	0	527	November 2, 2022
Pretrain and Fine Tune Byte-level model for multilingual extractive QA (Like ByT5) Flax/JAX Projects	13	1999	July 2, 2021
Finetune different language pair on pretrained translation model Models	1	960	May 26, 2022
Re-train microsoft/codebert-base tokenizer Beginners	1	839	February 3, 2022
M2m-100 finetuning Models	4	3279	November 23, 2022

Fine-tuning code embedding model for multilingual query-code pairs

Related topics