Memory Efficient Dataset Creation for NSP Training

mariosasko · December 7, 2021, 3:13pm

Hi,

Instead of generating a dataset with load_dataset, it should be easier to create dataset chunks with Dataset.from_dict, which we can then save to disk with save_to_disk, reload and concatenate to get a memory-mapped dataset.

The code could look as follows:

# distribute files in multiple dirs (chunkify dir) to avoid loading the entire data into a single LineByLineWithSOPTextDataset
from datasets import Dataset, concatenate_datasets

def list_of_dicts_to_dict_of_lists(d):
    dic = d[0]
    keys = dic.keys()
    values = [dic.values() for dic in d]
    return {k: list(v) for k, v in zip(keys, zip(*values))}

chunks = []
for i, file_dir with enumerate(dirs_with_data_files):
    dset = LineByLineWithSOPTextDataset(<tokenizer>, file_dir)
    examples = list_of_dicts_to_dict_of_lists(dset.examples)
    chunk = Dataset.from_dict(examples)
    chunk = Dataset.load_from_disk(chunk.save_to_disk("./chunks_dir/{i}")) # currently `chunk` is in memory, so we save it on disk to make it memory-mapped
    chunks.append(chunk)

final_dset = concatenate_datasets(chunks)

Topic		Replies	Views
Pre-Train BERT (from scratch) Research	43	19024	June 27, 2022
Identifying max_steps for generativeText Dataset For Next SentencePrediction Intermediate	0	771	November 5, 2021
Why Text Dataset For Next SentencePrediction get “Run out of input” error? 🤗Transformers	0	662	June 4, 2022
How to train a language model from scratch when my dataset is bigger than RAM? Beginners	19	9748	September 18, 2020
Fine-tuning lm with nsp 🤗Transformers	0	1166	January 19, 2021

Memory Efficient Dataset Creation for NSP Training

Related topics