TransformerXL on Custom Language

blagav · October 15, 2020, 7:35pm

I am looking to train a Transformer model on biological sequence data where a “sentence” may be represented as follows: [“A”, “LLGR”, “V”, “GD” …]

In order to do so, I need a word-level tokenizer that doesn’t split up words, so I’ve opted for TransformerXL.

The train() function from ByteLevelBPETokenizer() (as described in this blog: https://huggingface.co/blog/how-to-train) is not available for TransfoXLTokenizer()

Is there a way to train TransfoXLTokenizer() on my custom “language”? Or do I simply train the TransfoXLModel and it’ll take care of custom tokenization? (I can’t see this being the case as its a completely unseen “language”)

blagav · October 21, 2020, 2:58pm

No need to train.TransfoXLTokenizer() doesn’t merge words like ByteLevelBPETokenizer().

Simply create your vocab file as a txt file with each word on a new line, and feed it’s path as a parameter to TransfoXLTokenizer():

tokenizer = TransfoXLTokenizer(vocab_file=vocab_path)

Topic		Replies	Views
Instantiating TransfoXLTokenizer using existing vocab dict 🤗Transformers	1	281	January 8, 2021
Training Transformer XL from scratch Beginners	0	892	May 22, 2021
Questions when doing Transformer-XL Finetune with Trainer Beginners	3	1057	October 6, 2021
Training sentencePiece from scratch? 🤗Tokenizers	8	19191	December 19, 2023
Train a new tokenizer from scratch 🤗Transformers	4	1707	November 10, 2020

TransformerXL on Custom Language

Related topics