pre-train_BERT for a specific corpus

Jaafer · May 2, 2024, 3:01pm

pre-train bert
HI
i am trying to pre_train bert in my own corpus
but got this errors

!pip install accelerate -U
!pip install transformers
import  torchvision, torchaudio
from accelerate import Accelerator
from transformers import  DataCollatorForLanguageModeling,TextDataset,TrainingArguments

from transformers import BertTokenizer, BertForPreTraining

tokenizer = BertTokenizer.from_pretrained('Jaafer/code-search-net-tokenizer')

model = BertForPreTraining.from_pretrained('bert-base-uncased')
!pip install accelerate -U
!pip install transformers
import  torchvision, torchaudio
from accelerate import Accelerator
from transformers import  DataCollatorForLanguageModeling,TextDataset,TrainingArguments

from transformers import BertTokenizer, BertForPreTraining

tokenizer = BertTokenizer.from_pretrained('Jaafer/code-search-net-tokenizer')

model = BertForPreTraining.from_pretrained('bert-base-uncased')
%%time
data="/kaggle/input/ontology/ontology.txt"

from transformers import LineByLineTextDataset

dataset = LineByLineTextDataset(
    tokenizer=tokenizer,
    file_path=data,
    block_size=128,
)
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=True, mlm_probability=0.15)
model.to(device)
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./EsperBERTo",
    overwrite_output_dir=True,
    num_train_epochs=1,
    per_gpu_train_batch_size=64,
    save_steps=10_000,
    save_total_limit=2,
    prediction_loss_only=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset,
)
trainer.train()

Topic		Replies	Views
Fine-tuning BERT Model on domain specific language and for classification 🤗Transformers	7	8429	November 14, 2024
Pre-training a BERT model from scratch with custom tokenizer Intermediate	5	3097	January 11, 2022
Using Trainer for BertForPretraining does not work 🤗Transformers	1	1349	April 6, 2022
Fine tuning an unsupervised model - BERT Beginners	0	858	April 7, 2022
Perform 1 Pretrain epoch on Pretrained model Beginners	0	362	July 5, 2022

pre-train_BERT for a specific corpus

Related topics