Filtering performance

mariosasko · December 22, 2022, 7:08pm

Hi! Which version of datasets are you using? We’ve made some improvements in the latest release (2.8.0) to optimize decoding, so use this version for the best performance.

Also, unlike select (creates an indices mapping), filter writes a new dataset to disk/memory, which can take some time for larger datasets (some benefits are faster indexing, etc.)

Topic		Replies	Views
Is `flatten_indices` needed after a `filter`? 🤗Datasets	1	265	July 14, 2023
Filtering Dataset Beginners	3	5690	April 8, 2024
Filter Large Dataset Entry by Entry 🤗Datasets	7	174	August 28, 2024
Datasets behaving strange when calling filter twice 🤗Datasets	3	419	October 6, 2021
Index retrieval speed varies considerably with dataset size 🤗Datasets	2	866	May 9, 2022

Filtering performance

Related topics