How can I drop duplicates on datasets module?

conceptofmind · July 5, 2022, 1:32am

Hi,

I made some adaptations to the deduplication scripts in the Code Parrot research repository. Here is what a barebones deduplication script would look like with MinHash and LSH: GitHub - conceptofmind/Huggingface-deduplicate

I also opened up a new post regarding a general use case here: Minhash Deduplication

Best,

Enrico

Topic		Replies	Views
Minhash Deduplication 🤗Datasets	15	7319	August 6, 2022
Deleting Duplicate Saved Datasets 🤗Datasets	3	4488	September 7, 2022
Collapse duplicates in dataset and treat it as usual 🤗Datasets	5	243	July 5, 2024
How to duplicate a dataset? 🤗Datasets	1	5793	July 21, 2021
How is duplicate data in dataset splits/subsets handled in the hub 🤗Hub	1	63	August 17, 2024

How can I drop duplicates on datasets module?

Related topics