剪影分数怎么可能是负数?

2024-02-18

如果我们有一些数据点:

例如,我们使用 k-means 进行分段;所得到的线段是否不是每个点都最接近其各自簇的质心?如果是这样,当 Silhouette Score 比较 ai(到簇内点的平均距离)和 bi(到簇外点的平均距离)时,怎么会出现分数为负,或者 bi 小于 ai 的情况?

我可以看到,对于不同的分类算法,一些更复杂的分类算法可能会以不同的方式聚类,或者某些点分配不正确。但是 k 均值是如何发生这种情况的呢?


点 i 到簇中点的平均距离为not与其到该星团质心的距离相同。 Silhouette Score 在计算 a(i) 和 b(i) 时使用前者,而 k-means 在聚类分配时使用后者,因此可能会出现分歧。

例如,在下图中:假设蓝点已分配给一个集群,绿点已分配给另一个集群。红点将被分配到哪个簇?蓝色簇的质心位于 (0, 1),绿色簇的质心位于 (0, -1.15),因此红色点将分配给蓝色簇。然而,它到绿点的平均距离是 1.15,而到蓝点的平均距离是 1.414,所以它会得到负的轮廓分数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

剪影分数怎么可能是负数? 的相关文章

  • 机器学习(三)K-means聚类(手肘法、轮廓系数、可视化代码)

    K means聚类 聚类是无监督学习当中非常重要的一部分 能够在没有标签的情况下将数据分类 说到聚类 最常用也是最重要的一个算法就是K means算法 算法介绍 K means是一种非常简单快速高效的算法 只需要迭代几次即可 其原理用一句话
  • 将matlab矩阵分成几个相等的部分

    我有一个大小矩阵64500x17 它代表检测到的文本特征 我必须用它来找到 5 个质心kmeans 我需要的是 把这个矩阵分成5份12900x17矩阵 找到方法 将它们连接成一个5x17矩阵输入到开始参数kmeans 我几乎知道如何做所有事
  • 如何将 Row 类型转换为 Vector 以馈送到 KMeans

    当我尝试将 df2 提供给 kmeans 时 出现以下错误 clusters KMeans train df2 10 maxIterations 30 runs 10 initializationMode random 我得到的错误 Can
  • Spark MLLib Kmeans 来自数据帧,然后再次返回

    我的目标是使用 Spark 1 3 1 MLLib 将 kmeans 聚类算法应用于非常大的数据集 我已经使用 Spark 中的 hiveContext 调用了 HDFS 中的数据 并且最终希望以这种方式将其放回原处 以这种格式 I D c
  • 如何设置Spark Kmeans初始中心

    我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心 例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量 我看到 Kmean
  • 具有相同簇大小的 K 均值算法变体

    我正在寻找最快的算法 用于按距离将地图上的点分组为大小相等的组 这k 均值聚类算法看起来简单且有前途 但不能产生同等规模的群体 该算法是否有一种变体 或者是否有一种不同的算法可以允许所有集群的成员数量相等 也可以看看 将 n 个点分组到 k
  • 如何使用Python从最高到最低设置k-Means聚类标签?

    我有一个包含 38 个公寓的数据集以及它们早上 下午和晚上的用电量 我尝试使用 scikit learn 的 k Means 实现对该数据集进行聚类 并得到了一些有趣的结果 First clustering results 这一切都很好 对
  • k-means 使用从 minhash 生成的签名矩阵

    我在文档及其木瓦上使用了 minhash 从这些文档生成签名矩阵 我已经验证签名矩阵可以很好地比较已知相似文档 例如 关于同一运动队的两篇文章或关于同一世界赛事的两篇文章 的杰卡德距离 从而给出正确的读数 我的问题是 使用这个签名矩阵来执行
  • 在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离

    我需要使用相关距离进行一些聚类 但我需要绝对皮尔逊距离 而不是使用定义为 d 1 r 的内置 距离 相关 在我的应用程序中 反相关数据应该获得相同的集群 ID 现在 当使用 kmeans 函数时 我得到的质心高度反相关 我希望通过组合它们来
  • 考虑中心的顺序,重新标记 kmean 结果中的样本

    我正在使用 kmeans 来聚类我的数据 对于生成的结果我有一个计划 我想根据订购的中心重新标记样本 考虑以下示例 a c a b c d e F i j k l m n b c 1 2 3 20 21 21 40 41 42 4 23 5
  • 剪影分数怎么可能是负数?

    如果我们有一些数据点 例如 我们使用 k means 进行分段 所得到的线段是否不是每个点都最接近其各自簇的质心 如果是这样 当 Silhouette Score 比较 ai 到簇内点的平均距离 和 bi 到簇外点的平均距离 时 怎么会出现
  • Scikit-learn、KMeans:如何使用 max_iter

    我想了解类中的参数 max itersklearn cluster KMeans http scikit learn org stable modules generated sklearn cluster KMeans html 根据文档
  • 使用谱聚类对看不见的点进行聚类

    我在用谱聚类 http papers nips cc paper 2092 on spectral clustering analysis and an algorithm方法对我的数据进行聚类 实施似乎工作正常 但是 我有一个问题 我有一
  • Sklearn.KMeans:如何避免内存或值错误?

    我正在研究图像分类问题 并且正在创建一个词袋模型 为此 我提取了所有图像的 SIFT 描述符 并且必须使用 KMeans 算法来找到用作我的词袋的中心 这是我拥有的数据 图片数量 1584 SIFT 描述符的数量 32 个元素的向量 571
  • OpenCV 使用 k 均值对图像进行色调分离

    我想在 C 接口 cv 命名空间 中使用 k means 和 OpenCV 对图像进行色调分离 但得到了奇怪的结果 我需要它来减少一些噪音 这是我的代码 include cv h include highgui h using namesp
  • 使用杰卡德距离矩阵进行 Kmeans 聚类

    我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文 以下是代码 我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson
  • 不同长度的时间序列数据的聚类

    我有不同系列长度的时间序列数据 我想根据 DTW 距离进行聚类 但找不到与之相关的 ant 库 sklearn给出直接错误 而 tslearn kmeans 给出错误答案 我的问题是如果我用零填充它就可以解决 但我不确定这在聚类时填充时间序
  • 从彩色背景中提取黑色对象

    人眼很容易辨别black来自其他颜色 但是计算机呢 我在普通的A4纸上打印了一些色块 由于组成彩色图像有青色 品红色和黄色三种墨水 所以我设置每个块的颜色C 20 C 30 C 40 C 50 以及其余两种颜色是 0 这是我的源图像的第一列
  • 如何在 k 均值中使用欧氏距离以外的不同距离公式

    我正在处理纬度经度数据 我必须根据两点之间的距离进行聚类 现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值 有什
  • 如何设置K-means openCV c++的初始中心

    我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割 我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i

随机推荐