Loss error for bert token classifier

AgelZin · December 2, 2021, 3:17pm

So i am doing my first berttoken classifier. I am using a german polyglot dataset meaning tokenised words and lists of ner labels.
a row is [‘word1’,‘word2’…] [‘ORG’,‘LOC’…]
This is my code
tokenizer = BertTokenizer.from_pretrained('bert-base-german-cased')
encoded_dataset = [tokenizer(item['words'], is_split_into_words=True,return_tensors="pt", padding='max_length', truncation=True, max_length=128) for item in dataset_1]
model = BertForTokenClassification.from_pretrained('bert-base-german-cased', num_labels=1)

for item in encoded_dataset:

    for key in item:

        item[key] = torch.squeeze(item[key])

train_set = encoded_dataset[:500]

test_set = encoded_dataset[500:]

training_args = TrainingArguments(

num_train_epochs=1,

per_device_train_batch_size=4,

per_device_eval_batch_size=4,

output_dir='results',

logging_dir='logs',

no_cuda=False,  # defaults to false anyway, just to be explicit

)


trainer = Trainer(

    model=model,

    tokenizer=tokenizer,

    args=training_args,

    train_dataset=train_set,

)

trainer.train()

And i am getting key error loss

emmakelo · December 2, 2021, 3:32pm

Could you post the error ?

AgelZin · December 2, 2021, 5:46pm

emmakelo · December 3, 2021, 8:35am

The problem seems to be in the Trainer. How is your data encoded ? can you show the shape, type ans how it looks before passing to the trainer ?

your num_lables = 1 , Are you doing single classification ?

emmakelo · December 3, 2021, 8:37am

Try putting num_train_epoch to flioat number = 1.0 to see if it works and also check the number of label? if it really 1 label in your training data ?

AgelZin · December 3, 2021, 2:44pm

num of labels was a mistake i changed it to 4 since they are 4 types. I didnt do any further encoding to the data than this code

emmakelo · December 3, 2021, 3:46pm

when you change label does it outputs the same result ?

AgelZin · December 3, 2021, 3:56pm

yes the float number doesnt change it

emmakelo · December 3, 2021, 4:22pm

Could you print dataset_1 to see how it looks ?

AgelZin · December 3, 2021, 4:51pm

emmakelo · December 3, 2021, 5:14pm

I think maybe you should change dataset to Dataset type and then rewrite like this :

tokenized_dataset = dataset_1.map(lambda x: tokenizer(x[‘words’], is_split_into_words=True,return_tensors=“pt”, padding=‘max_length’, truncation=True, max_length=128)

I think you donot need to loop into dataset_1 but rather pass the column words dataset_1[‘words’] directly to the tokenizer or transform to Dataset format. Datasets — datasets 1.16.1 documentation

AgelZin · December 4, 2021, 1:46am

the tokenized dataset didnt work. I think i need to do some label encoding first for ner but not sure how to go about that

Topic		Replies	Views
Token classification on custom BERT and data Intermediate	2	1499	December 28, 2020
Expected scalar type Long but found Float using Trainer for BertForTokenClassification Beginners	6	3999	April 22, 2021
Expected input batch_size (2048) to match target batch_size (4) Beginners	3	1606	May 23, 2022
KeyError: 'loss' while training QnA Beginners	2	2556	March 17, 2022
KeyError: 'input_ids'. when training BERT with Trainer Models	5	7675	July 21, 2021

Loss error for bert token classifier

Related topics