Loading WiC dataset for fine tuning

nielsr · November 17, 2021, 10:54am

Hi,

I see you are first working with a HuggingFace Dataset (that is returned by the load_dataset function), and that you are then converting it to a PyTorch Dataset.

Actually, the latter is not required. Also, you can tokenize your training and test splits in one go:

from transformers import BertTokenizer, BertForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset
import torch

# load local data as HuggingFace Dataset
dataset = load_dataset('json', data_files={'train': 'train.jsonl', 'test': 'test.jsonl'})

def preprocess_data(examples):
     # encode a batch of sentences
     encoding = tokenizer(examples["sentence1"], padding="max_length", truncation=True)
     # add labels as a list
     encoding["labels"] = examples["label"]

     return encoding

# tokenize sentences + add labels
encoded_dataset = dataset.map(preprocess_data)
# turn into PyTorch dataset
encoded_dataset.set_format("torch")

training_args = TrainingArguments("test_trainer")
trainer = Trainer(
    model=model, args=training_args, train_dataset=encoded_dataset["train"], eval_dataset=encoded_dataset["test"])

trainer.train()

Topic		Replies	Views
Expected input batch_size (2048) to match target batch_size (4) Beginners	3	1603	May 23, 2022
BERT Multiclass Sequence Classification Index Error Beginners	4	974	April 13, 2021
Can I fine tune bert for a project where I have multiple text inputs and one label as output? Beginners	0	798	May 6, 2022
Evaluating Finetuned BERT Model for Sequence Classification Beginners	10	8487	October 25, 2022
How to test saved fine tuned bert model? Beginners	0	896	November 28, 2023

Loading WiC dataset for fine tuning

Related topics