How to use Data Collator?

Constantin · April 26, 2021, 8:42pm

I want to train transformer TF model for NER with my pipeline. I have a problem with alignment of labels. As I understand for this task one uses DataCollatorForTokenClassification. But I can’t figure out how to use it outside of Trainer to get aligned labels.

Just to clearify what do I mean:

tokens: [‘Europe’,‘is’,‘international’]
labels: [‘1’,‘0’.‘0’]
input_ids: [‘545’,‘43’,‘6343’,‘2334’,‘2’]

lewtun · April 26, 2021, 8:56pm

hey @Constantin you should be able to use the tokenize_and_align_labels function from here: transformers/run_ner_no_trainer.py at bc2571e61c985ec82819cf01ad038342771c94d0 · huggingface/transformers · GitHub

you could also try adapting the pytorch code to tensorflow for the training loop

Topic		Replies	Views
Cannot get DataCollator to prepare tf dataset 🤗Transformers	0	477	July 15, 2022
KeyError: 'loss' even though my dataset has labels Beginners	1	983	November 10, 2021
DataCollator vs. Tokenizers 🤗Transformers	1	3807	May 1, 2021
Using datacollator for multi-task training Intermediate	2	1194	January 24, 2022
When to use a DataCollator for SFTTrainer Beginners	1	785	March 15, 2025

How to use Data Collator?

Related topics