Generate raw word embeddings using transformer models like BERT for downstream process

Sanjeeth · October 4, 2021, 1:27pm

Hi Bram Vanroy, I was trying the above mentioned code with respect to BertTokenizer instead of AutoTokenizer but i get a error as mentioned below.

ValueError: word_ids() is not available when using Python-based tokenizers

Can you please let me know what changes to be made in code to get a list indicating the word corresponding to each token. Special tokens added by the tokenizer are mapped to None and other tokens are mapped to the index of their corresponding word

Topic		Replies	Views
Training BERT for word embedding Beginners	17	14469	November 12, 2022
What is the best way to create a unique representation of a word from BERT embeddings? Beginners	1	436	June 14, 2022
What should be used as sentence embedding for BertModel? Beginners	0	1909	May 24, 2021
Extracting sentence embeddings from NLP models from each layer seperately Beginners	0	718	August 18, 2021
Can we add extra word embedding to the BERT? Beginners	6	5234	August 15, 2022

Generate raw word embeddings using transformer models like BERT for downstream process

Related topics