DPR retriever module

Jung · November 6, 2020, 10:36pm

I see this topic was already answered in Github from Quentin.
So, I’d love to add the answer here for convenience

The retriever is now part of the nlp library.
You can install it with
pip install datasets
and load the retriever:

from datasets import load_dataset

wiki = load_dataset("wiki_dpr", with_embeddings=False, with_index=True, split="train")

The retriever is basically a dense index over wikipedia passages.
To query it using the DPR question encoder you can do:

from transformers import DPRQuestionEncoderTokenizer, DPRQuestionEncoder 
question_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained('facebook/dpr-question_encoder-single-nq-base') 
question_encoder = DPRQuestionEncoder.from_pretrained('facebook/dpr-question_encoder-single-nq-base') 
question = "What is love ?" 

question_emb = question_encoder(**question_tokenizer(question, return_tensors="pt"))[0].detach().numpy() 

passages_scores, passages = wiki.get_nearest_examples("embeddings", question_emb, k=20) # get k nearest neighbors

Topic		Replies	Views
Trying RAG with other Retriever Models 🤗Transformers	0	430	January 21, 2021
Create your own search engine 🤗 Course Projects	11	4946	December 29, 2024
How do we insert our own datasets in DPR / RAG retrieval Q&A models? 🤗Transformers	1	1645	October 11, 2020
Create DPR Tokenizer for non-Bert model Intermediate	1	309	September 7, 2021
Which model to use for suggesting article to the user based on details provided? Beginners	7	1849	May 28, 2021

DPR retriever module

Related topics