如果我们有一些数据点:
例如,我们使用 k-means 进行分段;所得到的线段是否不是每个点都最接近其各自簇的质心?如果是这样,当 Silhouette Score 比较 ai(到簇内点的平均距离)和 bi(到簇外点的平均距离)时,怎么会出现分数为负,或者 bi 小于 ai 的情况?
我可以看到,对于不同的分类算法,一些更复杂的分类算法可能会以不同的方式聚类,或者某些点分配不正确。但是 k 均值是如何发生这种情况的呢?
点 i 到簇中点的平均距离为not与其到该星团质心的距离相同。 Silhouette Score 在计算 a(i) 和 b(i) 时使用前者,而 k-means 在聚类分配时使用后者,因此可能会出现分歧。
例如,在下图中:假设蓝点已分配给一个集群,绿点已分配给另一个集群。红点将被分配到哪个簇?蓝色簇的质心位于 (0, 1),绿色簇的质心位于 (0, -1.15),因此红色点将分配给蓝色簇。然而,它到绿点的平均距离是 1.15,而到蓝点的平均距离是 1.414,所以它会得到负的轮廓分数。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)