Ward2vec is not included in tokinizer??

hose · September 11, 2022, 6:29am

ntil now, I thought that the ward2vec part was in tokenizer
So the output of tokinizer is [batch_size, lens, vec] 3D

[['labels', torch.Size([16])], ['input_ids', torch.Size([16, 512,256])], ['token_type_ids', torch.Size([16, 512])], ['attention_mask', torch.Size([16, 512,256])]]

I expected that, but actually

[['labels', torch.Size([16])], ['input_ids', torch.Size([16, 512])], ['token_type_ids', torch.Size([16, 512])], ['attention_mask', torch.Size([16, 512])]]

In other words, is ward2vec included in model?
Is this normal? Also, what is token_type_ids?

I confirmed these facts with “bert-base-cased” and “model/distilbert-base-uncased”

Preprocessing（dataset is yelp_review_full model is bert-base-cased ）

def tokenize_function(examples):
    return tokenizer(examples["text"], padding=True, truncation=True)

    pre_train_model_name="bert-base-cased"
    dataset_evel = load_from_disk(dataset_URL[1])
    tokenized_datasets_evel = dataset_evel.map(tokenize_function, batched=True)
    tokenized_datasets_evel = tokenized_datasets_evel.remove_columns(["text"])
    tokenized_datasets_evel = tokenized_datasets_evel.rename_column("label", "labels")
    tokenized_datasets_evel.set_format("torch")
    test_loader = DataLoader(tokenized_datasets_evel, batch_size=batch_size)

Topic		Replies	Views
Expected input batch_size (2048) to match target batch_size (4) Beginners	3	1602	May 23, 2022
Extra Dimension with DataCollatorFor LanguageModeling into BertForMaskedLM? Beginners	7	2016	January 16, 2024
[HELP] RuntimeError: CUDA error - when training my model? Beginners	2	2512	August 24, 2021
Trying to build a Q&A bot, got stuck at trainer.train() Beginners	0	327	May 22, 2023
Pytorch tokenizer unable to create tensor error Models	0	580	July 24, 2023

Ward2vec is not included in tokinizer??

Related topics