HDBSCAN 聚类的高性能实现
Published on Aug. 22, 2023, 12:10 p.m.
HDBSCAN - 基于分层密度的噪声应用空间聚类。对不同的 epsilon 值执行 DBSCAN 并整合结果以找到在 epsilon 上提供最佳稳定性的聚类。这允许 HDBSCAN 找到不同密度的集群(与 DBSCAN 不同),并且对参数选择更加稳健。
在实践中,这意味着 HDBSCAN 在很少或没有参数调整的情况下立即返回一个良好的聚类——主要参数,最小聚类大小,是直观且易于选择的。
HDBSCAN 是探索性数据分析的理想选择;这是一种快速而强大的算法,您可以信任它来返回有意义的集群(如果有的话)。
文档地址
hdbscan.readthedocs.io/en/latest/
项目地址
https://github.com/scikit-learn-contrib/hdbscan
示例如下
import hdbscan
from sklearn.datasets import make_blobs
data, _ = make_blobs(1000)
clusterer = hdbscan.HDBSCAN(min_cluster_size=10)
cluster_labels = clusterer.fit_predict(data)