Best way to perform paragraph embeddings?

pierrefg · September 22, 2023, 8:10am

Hi,
I would like to create embeddings for medium-sized paragraphs.
In all the examples given in huggingface feature extraction models, only sentences are given to the tokenizers.
What is the best strategy to achieve that ?
What are the recommended parameters for the tokenization ?
Would you recommend some models in particular ?
Many thanks,
Pierre

Roopak29 · March 1, 2024, 4:02am

Any update here ?

Topic		Replies	Views
Split document into sentences for sentence embedding Beginners	2	6885	February 9, 2021
Training a tokenizer Beginners	1	445	August 3, 2022
Questions on model's tokens 🤗Tokenizers	0	601	March 24, 2021
Can we directly use the embeddings from masked language models? 🤗Transformers	0	748	December 15, 2021
Extracting embedding values of NLP pertained models from tokenized strings 🤗Tokenizers	3	2221	August 18, 2021

Best way to perform paragraph embeddings?

Related topics