How does one fix an interleaved data set from only sampling one data set?

brando · August 9, 2023, 12:43am

The following

from datasets import load_dataset
from datasets import interleave_datasets

# Preprocess each dataset
c4 = load_dataset("c4", "en", split="train", streaming=True) 
wikitext = load_dataset("wikitext", "wikitext-103-v1", split="train", streaming=True)

# Interleave the preprocessed datasets  
datasets = [c4, wikitext]
for dataset in datasets:
  print(dataset.description)
interleaved = interleave_datasets(datasets, probabilities=[0.5, 0.5])
print(interleaved)

only samples from one data set, why?

example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
example.keys()=dict_keys(['text', 'timestamp', 'url'])
counts=100

colab: Google Colab
hf dicord: Discord

mariosasko · August 14, 2023, 1:05pm

These datasets’ features don’t match, so interleave_datasets / concatenate_datasets generates their union and adds them as None where needed (timestamp and url are None in the wikitext samples), hence the same set of keys in the output.

Topic		Replies	Views
Desired behavior when calling `shuffle` or `select` on `interleave_datasets` 🤗Datasets	1	425	July 20, 2021
A couple of questions about interleave_datasets() 🤗Datasets	7	2249	March 28, 2024
Getting Value Error while using datasets_interleave_datasets method Beginners	11	1916	April 8, 2023
Can I make the interleave dataset for the longest one 🤗Datasets	1	1374	August 12, 2022
Using interleave_datasets with probabilities 🤗Datasets	1	476	January 27, 2024

How does one fix an interleaved data set from only sampling one data set?

Related topics