I’m trying to create dataset by using .from_generator(). At the beginning the first 1000 items is processed very fast. However, after 1000, the processing speed is extremely slow. I’m curious why this happen? I’m really appreciate if anyone can help me with this problem.

Creating dataset slow

John6666 December 18, 2024, 5:49am 2

Perhaps the data set has become too large, exceeding the capacity of the RAM, and you are using an SSD or HDD as a substitute for RAM?
You might want to look for some know-how on creating large data sets.

Topic		Replies	Views
How to create a new large Dataset on disk? 🤗Datasets	10	3299	July 6, 2022
Creating a Dataset object from large pandas dataframe 🤗Datasets	3	1886	July 21, 2022
Recommended max size of dataset? 🤗Datasets	5	203	March 11, 2025
Serially creating a very large dataset using from_generator(), slower each iteration (slows to >2-3s per example!) 🤗Datasets	1	776	May 18, 2023
How does Dataset.from_generator store data bigger than RAM? 🤗Datasets	1	33	June 19, 2025

Creating dataset slow

Related topics