How to get maximum and minimum value of features?

mariosasko · March 31, 2022, 12:42pm

Hi! We don’t have an official API (currently) for running aggregations directly on the underlying Arrow table, but you can use the experimental datasets_sql package that leverages DuckDB.

So in your case, to get maximum and minimum values, you would run the following queries (I’m assuming that num_channels=6):

# ... dataset initialization
from datasets_sql import query
query_max = query("SELECT MAX(tokens[0]) as max_0, MAX(tokens[1]) as max_1, MAX(tokens[2]) as max_2, MAX(tokens[3]) as max_3, MAX(tokens[4]) as max_4, MAX(tokens[5]) as max_5 FROM (SELECT unnest(tokens) as tokens FROM dataset)")
query_min = query("SELECT MIN(tokens[0]) as min_0, MIN(tokens[1]) as min_1, MIN(tokens[2]) as min_2, MIN(tokens[3]) as min_3, MIN(tokens[4]) as min_4, MIN(tokens[5]) as min_5 FROM (SELECT unnest(tokens) as tokens FROM dataset)")

Topic		Replies	Views
How to operate on columns of a dataset Beginners	2	194	January 30, 2025
Data exploration/visualisation 🤗Datasets	3	583	January 15, 2024
Fetching rows of a large Dataset by index 🤗Datasets	10	1640	March 15, 2021
Copy columns in a dataset and compute statistics for a column 🤗Datasets	13	2006	July 10, 2024
Generating Vocabulary using Datasets 🤗Datasets	1	1462	August 30, 2022

How to get maximum and minimum value of features?

Related topics