无监督聚类评价指标
SEE、SC和CH 寻找k
误差平方和(Sum of the Squared Errors, SSE),轮廓系数(Silhouette Coefficient)和CH指标(Calinski-Harabaz)
评价用于后验判断聚类K,如kmeans
评价指标-轮廓系数法(SC)
使用聚类的凝聚度和分离度,来评价聚类效果.
评价指标-CH系数法
Calinski-Harabasz:类别内部数据的距离平方和越小越好,类别之间的距离平方和越大越好这样的Calinski-Harabasz分数s会局,分数S高则聚类效果越好.
无监督聚类算法结果好坏的评价指标
无监督聚类算法结果好坏的评价指标
Compactness(紧密性)(CP)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210605003137815.png#pic_center)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210605003214366.png#pic_center)
CP计算每一个类各点到聚类中心的平均距离CP越低意味着类内聚类距离越近。著名的 K-Means 聚类算法就是基于此思想提出的。
缺点:没有考虑类间效果
Separation(间隔性)(SP)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210605003243508.png#pic_center)
SP计算 各聚类中心两两之间平均距离,SP越高意味类间聚类距离越远
缺点:没有考虑类内效果
Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210605003305388.png#pic_center)
DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。DB越小意味着类内距离越小 同时类间距离越大
缺点:因使用欧式距离 所以对于环状分布 聚类评测很差
Dunn Validity Index (邓恩指数)(DVI)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210605003318153.png#pic_center)
DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。 DVI越大意味着类间距离越大 同时类内距离越小
缺点:对离散点的聚类测评很高、对环状分布测评效果差
轮廓系数仅适用于某些算法,如K-Means和层次聚类。它不适合与DBSCAN一起使用,我们将使用DBCV代替。
https://towardsdatascience.com/unsupervised-machine-learning-clustering-analysis-d40f2b34ae7e
https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/89062335
https://github.com/christopherjenness/DBCV
参考:
- https://www.zhihu.com/question/19635522/answer/1437553106
- 督聚类评价指标:https://blog.csdn.net/u013709270/article/details/74276533
- 机器学习中的各种评价指标:https://blog.csdn.net/u013181595/article/details/84631326