kmeans

Python 中的球形 k 均值实现

我一直在使用scipy 的 k 均值 http docs scipy org doc scipy reference cluster vq html已经有一段时间了我对它在可用性和效率方面的工作方式感到非常满意然而现在我想探索不同的

python scipy kmeans

scipy 中的 kmeans 和 kmeans2 有什么区别？

我是机器学习的新手想知道 scipy 中 kmeans 和 kmeans2 之间的区别根据文档它们都使用 k means 算法但是如何选择它们呢根据文档 kmeans2 似乎是标准的 k 均值算法并且运行直到收敛到局部最优并且

python machinelearning scipy kmeans

如何在C++中使用OpenCV检测多个物体？

我从这个答案中得到了启发here https stackoverflow com a 43076532 385127 这是一个Python实施但我需要C 这个答案非常有效我的想法是 detectAndCompute to get key

c opencv kmeans OPENCV30 meanshift

R - “princomp”只能与比变量更多的单位一起使用

我正在使用 R 软件 R Commander 对我的数据进行聚类我的数据有一个较小的子集包含 200 行和大约 800 列尝试 kmeans 聚类并在图表上绘制时出现以下错误 princomp 只能与比变量更多的单位一起使用然后我创

r clusteranalysis kmeans PCA rcommander

在 ELKI 中运行聚类算法

我需要以编程方式使用 ELKI 运行 k medoids 聚类算法我有一个相似度矩阵我希望将其输入到算法中是否有任何代码片段可用于如何运行 ELKI 算法我基本上需要知道如何创建Database and Relation对象创建自

Java clusteranalysis kmeans elki

考虑中心的顺序，重新标记 kmean 结果中的样本

我正在使用 kmeans 来聚类我的数据对于生成的结果我有一个计划我想根据订购的中心重新标记样本考虑以下示例 a c a b c d e F i j k l m n b c 1 2 3 20 21 21 40 41 42 4 23 5

r Classification kmeans

K-means 仅使用特定数据帧列与 scikit-learn

我正在使用k means算法从scikit learn库我想要聚类的值位于具有 3 列的 pandas 数据框中 ID value 1 and value 2 我想使用以下方法对信息进行聚类value 1 and value 2 但我也想

python pandas scikitlearn kmeans

AttributeError：“KMeans”对象没有属性“inertia_”

from sklearn cluster import KMeans import numpy import pandas as pd from pandas import read csv boston read csv desktop

scikitlearn kmeans

'KMeansModel' 对象在 apache pyspark 中没有属性 'computeCost'

我正在 pyspark 中试验聚类模型我试图获得适合不同 K 值的簇的均方成本 def meanScore k df inputCol df columns 38 assembler VectorAssembler inputCols i

python apachespark PySpark clusteranalysis kmeans

kmean 需要三角不等式吗？

我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离正好满足三角不等式使用其他距离函数是有风险的因为它可能会停止收敛然而原因是not三角不等式但是平均值可能不会最小化距离

machinelearning clusteranalysis Distance datamining kmeans

在 R 中设置 kmeans 的静态中心

我想根据预先确定的中心点 my center Points 对长和纬度 my long lats 列表进行分组当我跑步时 k lt kmeans as matrix my long lats centers as matrix my ce

r kmeans geosphere

在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离

我需要使用相关距离进行一些聚类但我需要绝对皮尔逊距离而不是使用定义为 d 1 r 的内置距离相关在我的应用程序中反相关数据应该获得相同的集群 ID 现在当使用 kmeans 函数时我得到的质心高度反相关我希望通过组合它们来

MATLAB clusteranalysis datamining kmeans

k-means 使用从 minhash 生成的签名矩阵

我在文档及其木瓦上使用了 minhash 从这些文档生成签名矩阵我已经验证签名矩阵可以很好地比较已知相似文档例如关于同一运动队的两篇文章或关于同一世界赛事的两篇文章的杰卡德距离从而给出正确的读数我的问题是使用这个签名矩阵来执行

python Text clusteranalysis kmeans minhash

K表示当肘部图是平滑曲线时寻找肘部

我正在尝试使用以下代码绘制 k 的肘部 load CSDmat mydata for k 2 20 opts statset MaxIter 500 Display off IDX1 C1 sumd1 D1 kmeans CSDmat k

MATLAB clusteranalysis kmeans Variance

如何在R编程中显示同一坐标中的总数

更新2017年9月11日问题这是我在 R 中集群 kmode 的代码 library klaR setwd D kmodes data to cluster lt read csv kmodes csv header TRUE sep c

r clustercomputing clusteranalysis kmeans visualize

scikit-learn k-means：预测方法的真正作用是什么？

当我使用 scikit learn 的 k means 实现时我通常只调用fit 方法这足以获得聚类中心和标签这predict 方法用于计算标签甚至fit predict 方法是为了方便起见但如果我只能使用fit 目的是什么pre

scikitlearn kmeans

Pyspark：在数据帧的不同组上应用 kmeans

使用 Pyspark 我想将 kmeans 单独应用于数据帧组而不是立即应用于整个数据帧目前我使用 for 循环对每个组进行迭代应用 kmeans 并将结果附加到另一个表但是有很多组会很耗时有人可以帮我吗多谢 for cust

apachespark groupby PySpark kmeans

余弦距离作为 k 均值的向量距离函数

我有一个 N 个顶点的图其中每个顶点代表一个地方我还有向量每个用户一个 N 个系数中的每一个其中系数的值是在相应地点花费的持续时间以秒为单位如果没有访问该地点则为 0 例如对于图表向量 v1 100 50 0 30 0 意味

clusteranalysis datamining Distance kmeans cosinesimilarity

K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

K 中心点 and K Means是两种流行的分区聚类方法我的研究表明当存在异常值时 K Medoids 更擅长对数据进行聚类 source https stackoverflow com questions 21619794 what

r clusteranalysis partitioning kmeans