FDA Label Document Embedding

lewtun · February 15, 2021, 10:21pm

Hi @FL33TW00D, I ran into a similar problem last year with TF-IDF and found the following approach gave better results:

Encode the documents, either with your favourite Transformer or Universal Sentence Encoder (the latter works really well!)
Run UMAP on the embeddings to perform dimensionality reduction
Cluster with HDBSCAN

HTH!

Topic		Replies	Views
Anyone have advice on best methods to cluster BERT-embedded documents? Beginners	2	2540	August 31, 2021
Clustering news articles with sentence bert Models	15	20066	October 29, 2023
OpenAI Embeddings with Fast Clustering Beginners	2	1062	June 14, 2023
Use sentence transformers with different embeddings size 🤗Transformers	0	293	June 6, 2023
Short text clustering Beginners	3	6965	April 30, 2021