How to deal with tokenizer out of memory in run_clm.py

navaaesarosh · March 22, 2023, 1:52am

I have looked everywhere and there seems to be nothing. I am using the language modeling example script to finetune bloom-560m on my own dataset and I am stuck on out of memory error with 13GB RAM on kaggle when I use even a remotely large file. Here is the command I use

! python run_clm.py \
    --model_name_or_path navaaesarosh/saqi_v0 \
    --train_file  /kaggle/input/urdu-classics/urdu_classics.txt \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --do_train \
    --do_eval \
    --do_predict \
    --num_train_epochs 3.0 \
    --save_total_limit 2 \
    --output_dir saqi_v0.5/ \
    --report_to wandb \
    --run_name bloom-560m-urduclassics \
    --load_best_model_at_end \
    --save_strategy steps \
    --save_steps 1000 \
    --eval_steps 1000 \
    --evaluation_strategy steps

Topic		Replies	Views
Running out of Memory with run_clm.py Beginners	3	1703	December 14, 2022
How much memory is needed for training ByteLevelBPETokenizer? 🤗Tokenizers	3	1525	September 18, 2020
Tokenizer.train() running out of memory 🤗Tokenizers	0	771	February 9, 2023
Training tokenizer takes too much RAM 🤗Tokenizers	1	1351	February 21, 2022
Run_clm.py: why does the tokenizer phase use so much memory? 288GB for <2GB input data Beginners	1	338	February 4, 2024

How to deal with tokenizer out of memory in run_clm.py

Related topics