Hello, I am trying to use the tutorial here, Google Colab and Iโm finetuning it on a custom dataset. I am loading my dataset from a pandas dataframe and Iโm not sure what the error means here. Can anyone help me with this? TIA!
โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ Traceback (most recent call last) โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ
โ in <cell line: 21>:21 โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/transformers/trainer.py:1664 in train โ
โ โ
โ 1661 โ โ inner_training_loop = find_executable_batch_size( โ
โ 1662 โ โ โ self._inner_training_loop, self._train_batch_size, args.auto_find_batch_size โ
โ 1663 โ โ ) โ
โ โฑ 1664 โ โ return inner_training_loop( โ
โ 1665 โ โ โ args=args, โ
โ 1666 โ โ โ resume_from_checkpoint=resume_from_checkpoint, โ
โ 1667 โ โ โ trial=trial, โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/transformers/trainer.py:1909 in _inner_training_loop โ
โ โ
โ 1906 โ โ โ โ rng_to_sync = True โ
โ 1907 โ โ โ โ
โ 1908 โ โ โ step = -1 โ
โ โฑ 1909 โ โ โ for step, inputs in enumerate(epoch_iterator): โ
โ 1910 โ โ โ โ total_batched_samples += 1 โ
โ 1911 โ โ โ โ if rng_to_sync: โ
โ 1912 โ โ โ โ โ self._load_rng_state(resume_from_checkpoint) โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py:634 in __next__ โ
โ โ
โ 631 โ โ โ if self._sampler_iter is None: โ
โ 632 โ โ โ โ # TODO(https://github.com/pytorch/pytorch/issues/76750) โ
โ 633 โ โ โ โ self._reset() # type: ignore[call-arg] โ
โ โฑ 634 โ โ โ data = self._next_data() โ
โ 635 โ โ โ self._num_yielded += 1 โ
โ 636 โ โ โ if self._dataset_kind == _DatasetKind.Iterable and \ โ
โ 637 โ โ โ โ โ self._IterableDataset_len_called is not None and \ โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py:678 in _next_data โ
โ โ
โ 675 โ โ
โ 676 โ def _next_data(self): โ
โ 677 โ โ index = self._next_index() # may raise StopIteration โ
โ โฑ 678 โ โ data = self._dataset_fetcher.fetch(index) # may raise StopIteration โ
โ 679 โ โ if self._pin_memory: โ
โ 680 โ โ โ data = _utils.pin_memory.pin_memory(data, self._pin_memory_device) โ
โ 681 โ โ return data โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/torch/utils/data/_utils/fetch.py:49 in fetch โ
โ โ
โ 46 โ def fetch(self, possibly_batched_index): โ
โ 47 โ โ if self.auto_collation: โ
โ 48 โ โ โ if hasattr(self.dataset, "__getitems__") and self.dataset.__getitems__: โ
โ โฑ 49 โ โ โ โ data = self.dataset.__getitems__(possibly_batched_index) โ
โ 50 โ โ โ else: โ
โ 51 โ โ โ โ data = [self.dataset[idx] for idx in possibly_batched_index] โ
โ 52 โ โ else: โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/datasets/arrow_dataset.py:2782 in __getitems__ โ
โ โ
โ 2779 โ โ
โ 2780 โ def __getitems__(self, keys: List) -> List: โ
โ 2781 โ โ """Can be used to get a batch using a list of integers indices.""" โ
โ โฑ 2782 โ โ batch = self.__getitem__(keys) โ
โ 2783 โ โ n_examples = len(batch[next(iter(batch))]) โ
โ 2784 โ โ return [{col: array[i] for col, array in batch.items()} for i in range(n_example โ
โ 2785 โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/datasets/arrow_dataset.py:2778 in __getitem__ โ
โ โ
โ 2775 โ โ
โ 2776 โ def __getitem__(self, key): # noqa: F811 โ
โ 2777 โ โ """Can be used to index columns (by string names) or rows (by integer index or i โ
โ โฑ 2778 โ โ return self._getitem(key) โ
โ 2779 โ โ
โ 2780 โ def __getitems__(self, keys: List) -> List: โ
โ 2781 โ โ """Can be used to get a batch using a list of integers indices.""" โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/datasets/arrow_dataset.py:2762 in _getitem โ
โ โ
โ 2759 โ โ format_kwargs = kwargs["format_kwargs"] if "format_kwargs" in kwargs else self._ โ
โ 2760 โ โ format_kwargs = format_kwargs if format_kwargs is not None else {} โ
โ 2761 โ โ formatter = get_formatter(format_type, features=self._info.features, **format_kw โ
โ โฑ 2762 โ โ pa_subtable = query_table(self._data, key, indices=self._indices if self._indice โ
โ 2763 โ โ formatted_output = format_table( โ
โ 2764 โ โ โ pa_subtable, key, formatter=formatter, format_columns=format_columns, output โ
โ 2765 โ โ ) โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/datasets/formatting/formatting.py:578 in query_table โ
โ โ
โ 575 โ โ _check_valid_column_key(key, table.column_names) โ
โ 576 โ else: โ
โ 577 โ โ size = indices.num_rows if indices is not None else table.num_rows โ
โ โฑ 578 โ โ _check_valid_index_key(key, size) โ
โ 579 โ # Query the main table โ
โ 580 โ if indices is None: โ
โ 581 โ โ pa_subtable = _query_table(table, key) โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/datasets/formatting/formatting.py:531 in โ
โ _check_valid_index_key โ
โ โ
โ 528 โ โ โ _check_valid_index_key(min(key), size=size) โ
โ 529 โ elif isinstance(key, Iterable): โ
โ 530 โ โ if len(key) > 0: โ
โ โฑ 531 โ โ โ _check_valid_index_key(int(max(key)), size=size) โ
โ 532 โ โ โ _check_valid_index_key(int(min(key)), size=size) โ
โ 533 โ else: โ
โ 534 โ โ _raise_bad_key_type(key) โ
โ โ
โ /usr/local/lib/python3.10/dist-packages/datasets/formatting/formatting.py:521 in โ
โ _check_valid_index_key โ
โ โ
โ 518 def _check_valid_index_key(key: Union[int, slice, range, Iterable], size: int) -> None: โ
โ 519 โ if isinstance(key, int): โ
โ 520 โ โ if (key < 0 and key + size < 0) or (key >= size): โ
โ โฑ 521 โ โ โ raise IndexError(f"Invalid key: {key} is out of bounds for size {size}") โ
โ 522 โ โ return โ
โ 523 โ elif isinstance(key, slice): โ
โ 524 โ โ pass โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ
IndexError: Invalid key: 19 is out of bounds for size 0