Tokenizer.train() running out of memory

5GreatApes · February 9, 2023, 1:15am

I am trying to train a tokenizer using the following code:

tokenizer= ByteLevelBPETokenizer()


tokenizer.train(files=paths, vocab_size=52_000, min_frequency=2, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

# Save files to disk
tokenizer.save_model("tokenizer")

It works fine when using a small dataset but when using my full dataset it reads the following error:

[00:00:00] Pre-processing files (485 Mo) ████████████████████████████████████████████████ 100%
memory allocation of 21474836480 bytes failed

My system has 16gb of RAM. Is there a way around this issue that isn’t upgrading RAM? I’m not finding solutions online. Thanks

Topic		Replies	Views
Training tokenizer takes too much RAM 🤗Tokenizers	1	1323	February 21, 2022
Tokenizer Trainer Crashing 🤗Tokenizers	0	703	April 15, 2023
How much memory is needed for training ByteLevelBPETokenizer? 🤗Tokenizers	3	1501	September 18, 2020
Tokenizer taking lot of memory 🤗Transformers	3	3484	April 16, 2023
Tokenizer.batch_encode_plus uses all my RAM Beginners	5	2773	November 23, 2021

Tokenizer.train() running out of memory

Related topics