Loading Custom Datasets

g3casey · May 21, 2021, 3:40pm

@lhoestq, since I am doing the split=‘train’:
dataFiles = {
“train”: “./ADPConll/ADPConll_train.json”,
“validation”: “./ADPConll/ADPConll_valid.json”,
“test”: “./ADPConll/ADPConll_test.json”
}
dataset = load_dataset(‘json’, data_files=dataFiles, split=‘train’)

So I ran the following:

len(dataset)   which is {int} 2
dataset[0] which is {dict: 5}
{'id': '0', 
 'chunk_tags': ['B-NP', 'B-VP', 'B-NP', 'I-NP', 'B-VP', 'I-VP', 'B-NP', 'I-NP', 'O'],
 'ner_tags': ['B-ORG', 'O', 'B-MISC', 'O', 'O', 'O', 'B-MISC', 'O', 'O'], 
 'pos_tags': ['NNP', 'VBZ', 'JJ', 'NN', 'TO', 'VB', 'JJ', 'NN', '.'], 
 'tokens': ['EU', 'rejects', 'German', 'call', 'to', 'boycott', 'British', 'lamb', '.']}

Topic		Replies	Views
Token Classification run_NER.py AttributeError Models	1	892	July 8, 2022
Passing schema features to a load_dataset function 🤗Datasets	4	1435	August 26, 2021
Fine Tuning BERT model on custom dataset 🤗Transformers	3	1192	January 27, 2022
Fine Tuning IMDb tutorial - Unable to reproduce and adapt Beginners	19	8598	August 21, 2020
Create own dataset for NER Beginners	3	6267	November 22, 2023

Loading Custom Datasets

Related topics