Dataset Generator local files path

julianpollmann · August 12, 2023, 7:14pm

Hey,

I’ve got a dataset loading script inheriting from the GeneratorBasedBuilder.
I want to load local preprocessed data from different folders. Since the dataset loading script is cached I have to specify the full absolute path in the script, which is obviously not a good solution.
When I try to get the current path the path to the cached script is used, which fails to load the data.

I also tried using data_dir and other options, nut none worked. How can i get the current dir in the script?

class MyDataset(datasets.GeneratorBasedBuilder):
    ...
    def _split_generators(self, dl_manager: datasets.DownloadManager) -> List[datasets.SplitGenerator]:
        # currentpath = os.path.abspath(os.getcwd()) #TODO resolve path auto
        # also tried os.path.abspath(__file__)
        currentpath = "/my/absolute/path/"

        generator = []
        file_train = os.path.join(currentpath, self.config.name, "train.csv")
        file_test = os.path.join(currentpath, self.config.name, "test.csv")
        file_eval = os.path.join(currentpath, self.config.name, "valid.csv")

        if os.path.isfile(file_train):
            train = datasets.SplitGenerator(
                name=datasets.Split.TRAIN,
                gen_kwargs={
                    "filepath": file_train,
                    "split": "train",
                },
            )
            generator.append(train)

Thanks!

lhoestq · August 14, 2023, 9:17am

You can pass a relative path to the dl_manager

e.g.

class MyDataset(datasets.GeneratorBasedBuilder):
    ...
    def _split_generators(self, dl_manager: datasets.DownloadManager) -> List[datasets.SplitGenerator]:
        generator = []
        file_train = dl_manager.download(os.path.join(self.config.name, "train.csv"))
        file_test = dl_manager.download(os.path.join(self.config.name, "test.csv"))
        file_eval = dl_manager.download(os.path.join(self.config.name, "valid.csv"))

        train = datasets.SplitGenerator(
            name=datasets.Split.TRAIN,
            gen_kwargs={
                "filepath": file_train,
                "split": "train",
            },
        )
        generator.append(train)

Topic		Replies	Views
Writing custom dataset script with files residing in local 🤗Datasets	1	352	June 28, 2023
My dataset loading script is not working 🤗Datasets	3	854	September 15, 2022
Splitting Dataset in the dataset loading script 🤗Datasets	1	601	September 16, 2022
Loading downloaded dataset from local directory 🤗Datasets	0	239	April 20, 2024
Image Dataset Generation gets killed 🤗Datasets	5	586	September 8, 2023

Dataset Generator local files path

Related topics