Create dataset consisting of numpy arrays, Sequence or ArrayND?

Raz0rr · October 24, 2024, 11:32am

I went with the following approach. It would be great if anyone can check it.

from datasets import load_from_disk

class NumpyTransform:
    def __init__(self, features, arr_types=None, seq_types=None):
        self._feats = features
        self._arr_types = arr_types or list(self._feats.keys())
        self._seq_types = seq_types or []

    def __call__(self, batch):
        sample = {}
        for key, val in batch.items():
            if key in self._arr_types:
                val = np.asarray(val, dtype=self._feats[key].dtype)
            elif key in self._seq_types:
                val = np.asarray(val, dtype=self._feats[key].feature.dtype)
            sample[key] = val
        return sample

dataset = load_from_disk(data_dir, keep_in_memory=None)
dataset = dataset.with_transform(
    NumpyTransform(dataset.features,
                   arr_types=["example", "label", "coords_label"],
                   seq_types=["coords_num"])
)

Topic		Replies	Views
Setting dataset feature value as numpy array 🤗Datasets	7	7972	November 14, 2023
Compatibility for numpy arrays 🤗Datasets	7	5572	April 27, 2021
Specifying a Sequence feature slows down the generation of a dataset 🤗Datasets	8	752	September 11, 2023
Dataset Viewer not available on features of type datasets.Array2D(shape=(None, 768), dtype='float64') 🤗Datasets	7	44	May 14, 2025
Standard getitem returns wrong data type for arrays 🤗Datasets	2	436	November 17, 2023

Create dataset consisting of numpy arrays, Sequence or ArrayND?

Related topics