Data files not working with custom loading script and dataset

Howuhh · May 1, 2023, 4:50pm

Interestingly it works for allenai/c4 dataset from documentation example:

load_dataset("allenai/c4", name="en", data_files=["en/c4-train.00000-of-01024.json.gz"])

From the debugger I see that at some point during execution data_files will be transformed to absolute path with url:

https://huggingface.co/datasets/allenai/c4/resolve/607bd4c8450a42878aa9ddc051a65a055450ef87/en/c4-train.00000-of-01024.json.gz

However, this is done only for datasets without loading script in dataset_module_factory and HubDatasetModuleFactoryWithoutScript. Then, later data_path will be poped from builder with correct formatting here:

# datasets/load.py
    dataset_module = dataset_module_factory(
        path,
        revision=revision,
        download_config=download_config,
        download_mode=download_mode,
        data_dir=data_dir,
        data_files=data_files,
    )

    # Get dataset builder class from the processing script
    builder_cls = import_main_class(dataset_module.module_path)
    builder_kwargs = dataset_module.builder_kwargs
    data_files = builder_kwargs.pop("data_files", data_files)   <-------- HERE, it will stay relative for datasets with loading script!
    config_name = builder_kwargs.pop("config_name", name)
    hash = builder_kwargs.pop("hash")

How then relative paths should be done for datasets with custom loading script?

Topic		Replies	Views
Data_files not working with custom loading script and remote dataset 🤗Datasets	3	783	May 12, 2023
Dataset loading script not working 🤗Datasets	2	431	August 31, 2023
Some issues about loading script of datasets 🤗Datasets	0	40	July 31, 2024
Writing load_dataset loading script with multiple code files 🤗Datasets	3	302	May 25, 2023
Using load_datasets for newly created datasets 🤗Datasets	2	458	August 27, 2021

Data files not working with custom loading script and dataset

Related topics