Converting string label to int

dronych · August 8, 2023, 10:35am

As opposed to using some pre-made encoders like those found in sklearn, for example which I found to be slow, I wrote a simple class like this:

class LabelEncoder:
    def __init__(self):
        self.labels_to_int = {}

    def encode(self, labels):
        prev_label = 0
        encoded_labels = []

        for label in labels:
            if label not in self.labels_to_int:
                self.labels_to_int[label] = prev_label
                encoded = prev_label
                prev_label += 1
            else:
                encoded = self.labels_to_int[label]

            encoded_labels.append(encoded)

        return encoded_labels


label_encoder = LabelEncoder()


tokenized_dataset = tokenized_dataset.map(
    lambda batch: {
        'labels_encoded': label_encoder.encode(batch['labels'])
    },
    load_from_cache_file=False,
    batched=True

)

Topic		Replies	Views
Class Labels for Custom Datasets 🤗Datasets	4	18081	June 2, 2022
Sequence features - Class Label Cast_ 🤗Datasets	9	1317	July 4, 2023
Numpy.str_ error during training phase Course	2	1164	December 2, 2021
How to convert string labels into ClassLabel classes for custom set in pandas Beginners	3	5829	April 25, 2023
How to apply training ClassLabels on test / validation Dataset 🤗Datasets	2	381	September 20, 2023

Converting string label to int

Related topics