Bart generates text from training data for predicted values during evaluation

Death052 · July 11, 2024, 4:39am

So, currently, I am using the raptorkwok/cantonese-chinese-translation, which is a model that is pre-trained for cantonese to chinese translation (modified version of fnlp/bart-base-chinese

Now, the issue is with how the predicted values are generated for each evaluation, and it gets worse and worse.

Firstly, this is my code

from datasets import load_dataset

model_name = "raptorkwok/cantonese-chinese-translation"
dataset = load_dataset("classified")

dataset = dataset["train"].train_test_split(test_size=0.2)
print(dataset["test"][0])

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name)

source_lang = "yue"
target_lang = "zh"
prefix = "translate canto to written: "

def preprocess_function(examples):
    inputs = [example[source_lang] for example in examples["translation"]]
    targets = [example[target_lang] for example in examples["translation"]]
    model_inputs = tokenizer(inputs, text_target=targets, max_length=512, truncation=True)
    return model_inputs

tokenized_dataset = dataset.map(preprocess_function, batched=True)

from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model_name)

import evaluate

metric = evaluate.load("sacrebleu")

import numpy as np


def postprocess_text(preds, labels):
    preds = [pred.strip() for pred in preds]
    labels = [[label.strip()] for label in labels]

    return preds, labels


def compute_metrics(eval_preds):
    preds, labels = eval_preds
    if isinstance(preds, tuple):
        preds = preds[0]

    #preds = preds[0]
    print(preds)
    print(labels)
    decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)

    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    decoded_preds, decoded_labels = postprocess_text(decoded_preds, decoded_labels)
    print("predicted: " + str(decoded_preds))
    print("answer: " + str(decoded_labels))
    

    result = metric.compute(predictions=decoded_preds, references=decoded_labels)
    result = {"bleu": result["score"]}
    print(result)
    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in preds]
    result["gen_len"] = np.mean(prediction_lens)
    result = {k: round(v, 4) for k, v in result.items()}
    return result


from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer

model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

training_args = Seq2SeqTrainingArguments(
    output_dir='./Results',
    logging_steps=2,
    evaluation_strategy="steps",
    learning_rate=1e-3,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=45,
    warmup_steps=20,
    save_steps=20,
    eval_steps=4,
    gradient_accumulation_steps=1,
    push_to_hub=False,
    report_to=["tensorboard"],
    metric_for_best_model= "eval_bleu",
    greater_is_better=True,
    predict_with_generate=True
)

trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    tokenizer=tokenizer,
    data_collator=data_collator,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["test"],
    compute_metrics=compute_metrics
)

trainer.train()

The issue with the prediction values is that the values will either be direct answers from the training dataset [case 1], or just completely blank [case 2].

Case 1 example:
predicted: [‘能否真的趕及任期完成所有工作’, ‘能否真的趕及任期完成所有工作’, ‘能否真的趕及任期完成所有工作’, ‘能否
真的趕及任期完成所有工作’, ‘能否真的趕及任期完成所有工作’, ‘能否真的趕及任期完成所有工作’, ‘能否真的趕及任期完成所有工作’, ‘能否真的趕及任期完成所有工作’]
answer: [[‘回溯至本屆第一份施政報告，那時是…’], [‘但林太聽了行政會議成員之中’], [‘以及希望達到甚麼效果’], [‘在創科方面，她提出八大發展方向’], [‘我們跟大家一起偵測一下’], [‘從一份發展至下一份也有很多不同議題’], [‘即是除了因為競選結束’], [‘「一起同行，擁抱希望，分享快樂」’]]

Case 2 example:
predicted: [‘’, ‘’, ‘’, ‘’, ‘’, ‘’, ‘’, ‘’]
answer: [[‘回溯至本屆第一份施政報告，那時是…’], [‘但林太聽了行政會議成員之中’], [‘以及希望達到甚麼效果’], [‘在創科方面，她提出八大發展方向’], [‘我們跟大家一起偵測一下’], [‘從一份發展至下一份也有很多不同議題’], [‘即是除了因為競選結束’], [‘「一起同行，擁抱希望，分享快樂」’]]

But one thing you might notice as well, is that the predicted value for each sentence has the same string regardless. This doesn’t happen at the start, but happens after a few evaluations, and will remain like this through the whole training process.

Can anyone find the source of the issue, I am not familiar with huggingface and I am struggling to find what’s wrong, thanks.

Topic		Replies	Views
[Urgent] trainer.predict() and model.generate creates totally different predictions 🤗Transformers	4	6956	February 1, 2021
Evaluate model at saved checkpoint 🤗Transformers	0	1303	June 22, 2021
BART-base generating completely wrong output after training for more than 3 epochs Intermediate	0	862	July 8, 2021
Why am I getting constant predictions (but not when I use the older version in the google colab fake news notebook?) Beginners	0	1456	August 20, 2020
Trainer.evaluate() with text generation Beginners	5	3564	December 31, 2021

Bart generates text from training data for predicted values during evaluation

Related topics