Help defining tokenizer

surya-narayanan · April 28, 2023, 11:33pm

Im just curious- i want to train multiple models on the same dataloader, kinda similar to vision- is there any way to train a new tokenizer that’s not specific to a model, such that I can run the following workflow?


dataset = load_dataset('wiki')
model1 = AutoModelForMaskedLM.from_pretrained("model1name")
model2 = AutoModelForMaskedLM.from_pretrained("model2name")

### help me with code to tokenize the dataset here
tokenizer = (...) # I would have done a from_pretained here, but am not sure what to do, since model1 and model2 might have different tokenizers

def tokenize_function(examples):
    return tokenizer.encode(examples["text"], padding="max_length", truncation=True)

dataset = dataset.map(tokenize_function, batched=True)

dataloader = Dataloader(dataset)
####

for x in dataloader: 
  y1 = model1(x) 
  y2 = model2(x)

Topic		Replies	Views
Can i use a tokenizer x for a model y Models	1	1960	April 20, 2023
Save tokenizer with argument 🤗Tokenizers	2	1974	October 26, 2022
Tokenize a batch of data Models	0	167	May 1, 2023
Pipeline's Tokenizer vs training tokenizer Beginners	1	453	March 8, 2021
Do you need to use the associated tokenizer Beginners	2	579	June 6, 2022

Help defining tokenizer

Related topics