kmeans

使用 k 均值算法进行异常值检测

我希望你能帮助我解决我的问题我正在尝试使用 kmeans 算法来检测异常值首先我执行算法并选择那些距聚类中心距离较远的对象作为可能的异常值我不想使用绝对距离而是想使用相对距离即对象到聚类中心的绝对距离与聚类中所有对象到其聚类中心

r kmeans outliers

快速 (< n^2) 聚类算法

我有 100 万个 5 维点需要将它们分组为 k 个簇其中 k 但我需要运行时间远低于 n 2 n log n 左右应该没问题我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵这需要 n 2 时间或多个小时而是我只想计算聚

Algorithm machinelearning clusteranalysis datamining kmeans

Microsoft SQL 和 R、存储过程和 k-means

我是新来的希望能帮助和得到帮助不过我正在开发新的 Microsoft Sql Server Management Studio 2016 使用其意味着与 R 集成的新功能首先我的目标是创建一个存储过程该存储过程使用 x 和 y

sqlserver r kmeans

如何使用 TensorFlow 实现 k-means？

介绍教程使用内置的梯度下降优化器非常有意义然而 k 均值不仅仅是我可以插入梯度下降中的东西看起来我必须编写自己的优化器但考虑到 TensorFlow 原语我不太确定如何做到这一点我应该采取什么方法注您现在可以获得这段代码的更

kmeans tensorflow

如何在 K - 均值算法中优化 K [重复]

这个问题在这里已经有答案了可能的重复使用 k 均值聚类时如何确定 k https stackoverflow com questions 1793532 how do i determine k when using k means c

datamining kmeans

我自己的 R 中的 K 均值算法

我是 R 编程的初学者我正在 R 中进行此练习作为编程入门我已经在 R 中实现了自己的 K 均值实现但在某一点上卡住了一段时间我需要达成共识算法迭代直到找到每个簇的最佳中心这是没有迭代的原始算法它只是从整个数据中随机选取一个数

r Algorithm kmeans

如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？

我有一个包含数据向量的文件其中每行包含一个以逗号分隔的值列表我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外我不确定是否需要进行某种类型的转换才能获取

mahout kmeans

使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法我想要将最接近聚类中心的 50 个样本作为输出我该如何执行这个任务 If km是 k means 模型到j数组中每个点的第一个质心X is

python scikitlearn kmeans

内存错误 Numpy/Python 欧几里得距离

我正在尝试使用 numpy 和 python 运行 K 均值聚类算法但如果我使用较大的 K 值任何大于 10 的值似乎都会导致错误就会不断遇到内存错误我有两个大小为 42000 784 数据集和 K 784 质心的 numpy

python NumPy memoryleaks kmeans RAM

R 中一百万个观测值的 Kmeans - 绘制集群时遇到的问题

我正在尝试对超过 100 万行执行 KMeans 聚类其中有 4 个观察值全部为数字我正在使用以下代码 kmeansdf lt as data frame rbind train V3 train V5 train V8 train

r plot machinelearning kmeans RStudio

具有相同簇大小的 K 均值算法变体

我正在寻找最快的算法用于按距离将地图上的点分组为大小相等的组这k 均值聚类算法看起来简单且有前途但不能产生同等规模的群体该算法是否有一种变体或者是否有一种不同的算法可以允许所有集群的成员数量相等也可以看看将 n 个点分组到 k

Algorithm Dictionary clusteranalysis kmeans

错误包 KlaR kmodes ：错误：列索引如果为正，则最多不得为 5，而不是 6

将 klaR kmodes 算法应用于以下数据集 gt summary raw CREDIT LIMIT CP gender IE CHILD NB IE TOT DEP NB TOTAL INCOME IE HOUSE CHARGE ma

r kmeans mode

在 Apache Spark Python 中自定义 K-means 距离公式

现在我使用 K means 进行聚类和跟踪本教程 and API 但我想使用自定义公式来计算距离那么如何使用 PySpark 在 k means 中传递自定义距离函数呢一般来说使用不同的距离度量没有意义因为 k 均值与k 中心点

apachespark kmeans apachesparkmllib apachesparkml

如何在 Python 中使用 K-Means 聚类找到最佳聚类数

我是聚类算法的新手我有一个电影数据集包含 200 多部电影和 100 多个用户所有用户都至少评价了一部电影值 1 表示好 0 表示坏如果注释者别无选择则值为空白我想根据相似的用户的评论对他们进行聚类这样的想法是将相似电影评

python clusteranalysis kmeans euclideandistance cosinesimilarity

如何设置Spark Kmeans初始中心

我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量我看到 Kmean

K-Medoids / K-Means 算法。两个或多个簇代表之间距离相等的数据点

我一直在研究和学习基于分区的聚类算法例如 K means 和 K Medoids 我了解到与 K 均值相比 K 中心点对异常值的鲁棒性更强然而我很好奇如果在分配数据点期间两个或多个簇代表在数据点上具有相同的距离会发生什么您将把

Algorithm Distance datamining kmeans

使用 clusplot 绘制以 0 为中心坐标的聚类

我正在尝试绘制 GIS 坐标特别是东向和北向相似的英国国家网格坐标 194630000 562220000 我可以使用 Cluster 库中的 clusplot 绘制这些图 clusplot df2 k means fit cluster

r Coordinates GIS clusteranalysis kmeans

如何根据Python中最近的聚类质心逻辑将新的观察值分配给现有的Kmeans聚类？

我使用下面的代码通过 Scikit learn 创建 k means 集群 kmean KMeans n clusters nclusters n jobs 1 random state 2376 max iter 1000 n init

python scikitlearn clusteranalysis kmeans textclassification

Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类

我想通过使用 kmeans 聚类对组月的 X2 和 X3 进行聚类我需要对两个变量进行聚类另外我想根据每个簇的平均值将簇 0 簇 1 和簇 2 分配为强平均弱最高意味着强簇下面是我的示例数据集 df pd DataFrame

python pandas DataFrame clustercomputing kmeans

如何使用 R 中的 k 均值聚类技术获得与数据相对应的聚类编号？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我通过 k 均值聚类方法对数据进行聚类如何在 R 中使用 k 均值聚类技术获得与数据相

r clusteranalysis kmeans