Slightly different embeddings for pandas series using a sentence transformer

Dts1 · December 14, 2023, 3:08pm

Hello,
I found that the embeddings given by a sentence transformer 'distiluse-base-multilingual-cased-v1’ is slightly different, depending on how you calculate them for a Pandas series.
Specifically, the result is different if I calculate encoding using series as an argument or if I use ‘apply’ method:

import pandas as pd

import sentence transformer model

sentence_transformer_path=‘distiluse-base-multilingual-cased-v1’
from sentence_transformers import SentenceTransformer
encoder=SentenceTransformer(sentence_transformer_path).encode

create dataframe with texts

s=[str(i**2) for i in range(10)]
df=pd.DataFrame()
df[‘num’]=s

find embedding 1st method

embed1=encoder(df[‘num’])

compare embeddnigs for a given row

row=1
difference=(encoder(df.loc[row,‘num’])-embed1[row,:])

find total length of the difference vector

print('Method 1 difference: ',(sum(difference**2))**0.5)

find embedding 2nd method

embed2=(df[‘num’]).apply(encoder)

#compare embeddnigs for a given row
row=1
difference=(encoder(df.loc[row,‘num’])-embed2[row])

find total length of the difference vector

print('Method 2 difference: ',(sum(difference**2))**0.5)

The difference seems to be minor but I wonder what is the reason. Also, I don’t know if it is specific to my machine or not.
Thank you

Dts1 · December 18, 2023, 2:26pm

Dts1:

import pandas as pd

import sentence transformer model

sentence_transformer_path=‘distiluse-base-multilingual-cased-v1’
from sentence_transformers import SentenceTransformer
encoder=SentenceTransformer(sentence_transformer_path).encode

create dataframe with texts

s=[str(i**2) for i in range(10)]
df=pd.DataFrame()
df[“num”=s

find embedding 1st method

embed1=encoder(df[“num”])

compare embeddings for a given row

row=1
difference=(encoder(df.loc[row,“num”])-embed1[row,:])

find total length of the difference vector

print('Method 1 difference: ',(sum(difference**2))**0.5)

find embedding 2nd method

embed2=(df[“num”]).apply(encoder)

#compare embeddings for a given row
row=1
difference=(encoder(df.loc[row,“num”])-embed2[row])

find total length of the difference vector

print('Method 2 difference: ',(sum(difference**2))**0.5)

Forgot to include the output:

Method 1 difference: 3.997695879885389e-07
Method 2 difference: 0.0

Topic		Replies	Views
Passing series of DF into sentence transformers encode function for paragraph similarity Beginners	1	2543	June 17, 2022
Different embeddings when using sentence transformers and transformers.js Beginners	3	925	April 19, 2024
Use sentence transformers with different embeddings size 🤗Transformers	0	293	June 6, 2023
Get sentence embedding vector using API? 🤗Transformers	0	335	September 10, 2021
Return embeddings via inference api 🤗Transformers	0	371	January 17, 2023

Slightly different embeddings for pandas series using a sentence transformer

import sentence transformer model

create dataframe with texts

find embedding 1st method

compare embeddnigs for a given row

find total length of the difference vector

find embedding 2nd method

find total length of the difference vector

Related topics