Sentence length influence on similarity

subsubsubsubsub · February 14, 2022, 5:03pm

Hi everyone,
I’m using sentence transformers to compute similarity between text. (embedding, mean pooling, cosine similarity)
I get the impressions that beyond text meaning, text length plays a huge role in similarity.
As anyone experienced the same thing ?
sebastien

ialuronico · February 17, 2022, 8:46am

I fine tuned a model to compute similarity between names. This is a toy example:

 name0 name1 label
 Test  Test  y
 Test  Hi    n

I fined-tuned a model using the label and feeding it with pairs of names.

I also found out that longer names tend to be predicted as y.

Topic		Replies	Views
Guidance on Optimizing Text Similarity and Reporting with Transformers and Advanced NLP Techniques 🤗Transformers	0	33	November 7, 2024
Fine tuning a sentence-transformer for cosine sim on 500k sentence pairs without labels-- advice 🤗Transformers	2	1198	April 20, 2024
Transformer similarity (fine-tuned on classification) too sensitive Models	2	648	March 6, 2022
Can Similarity Sentence Returns the Similarity Content? 🤗Transformers	0	324	April 27, 2023
How to find similarity in documents longer than input sequence length? Beginners	2	2058	August 25, 2022

Sentence length influence on similarity

Related topics