RuntimeError: Could not infer dtype of NoneType

Saitarun04 · May 3, 2023, 5:44am

import torch
from torch.utils.data import IterableDataset

class ConstantLengthDataset(IterableDataset):

def __init__(self, tokenizer, dataset, seq_length=1024,
             num_of_sequences=1024, chars_per_token=3.6):
    self.tokenizer = tokenizer
    self.concat_token_id = tokenizer.eos_token_id
    self.dataset = dataset
    self.seq_length = seq_length
    self.input_characters = seq_length * chars_per_token * num_of_sequences

def __iter__(self):
    iterator = iter(self.dataset)
    more_examples = True
    while more_examples:
        buffer, buffer_len = [], 0
        while True:
            if buffer_len >= self.input_characters:
                m=f"Buffer full: {buffer_len}>={self.input_characters:.0f}"
                print(m)
                break
            try:
                m=f"Fill buffer: {buffer_len}<{self.input_characters:.0f}"
                print(m)
                buffer.append(next(iterator)["text"])
                buffer_len += len(buffer[-1])
            except StopIteration:
                iterator = iter(self.dataset)

        all_token_ids = []
        tokenized_inputs = self.tokenizer(buffer, truncation=False)
        for tokenized_input in tokenized_inputs['input_ids']:
            all_token_ids.extend(tokenized_input + [self.concat_token_id])
        
        for i in range(0, len(all_token_ids), self.seq_length):
            input_ids = all_token_ids[i : i + self.seq_length]
            if len(input_ids) == self.seq_length:
                yield torch.tensor(input_ids)

shuffled_dataset = dataset.shuffle()

constant_length_dataset = ConstantLengthDataset(tokenizer, shuffled_dataset,num_of_sequences=10)

dataset_iterator = iter(constant_length_dataset)

lengths = [len(b) for _, b in zip(range(5), dataset_iterator)]

print(f"Lengths of the sequences: {lengths}")

Solmazp · June 24, 2024, 4:53pm

Your tokenizer returns “None” for some tokens , so your input_ids list contains “None” objects.

Topic		Replies	Views
ValueError: Unable to create tensor for 1 dataset but not the other of same type 🤗Tokenizers	1	1003	March 23, 2022
Tokenizer from scratch Error TypeError: Can't convert None to PyString Beginners	1	1093	December 26, 2022
LongFormer tokenizer has the same token_type_ids for sequence pairs 🤗Tokenizers	0	718	December 20, 2021
TrOCR sequence item 26: expected str instance, NoneType found Models	0	1155	February 11, 2022
KeyError: 0 in data_collator.py 🤗Transformers	0	546	February 11, 2023

RuntimeError: Could not infer dtype of NoneType

Related topics