Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 k 均值算法进行异常值检测
我希望你能帮助我解决我的问题 我正在尝试使用 kmeans 算法来检测异常值 首先 我执行算法并选择那些距聚类中心距离较远的对象作为可能的异常值 我不想使用绝对距离 而是想使用相对距离 即对象到聚类中心的绝对距离与聚类中所有对象到其聚类中心
r
kmeans
outliers
快速 (< n^2) 聚类算法
我有 100 万个 5 维点 需要将它们分组为 k 个簇 其中 k 但 我需要运行时间远低于 n 2 n log n 左右应该没问题 我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵 这需要 n 2 时间或多个小时 而是我只想计算聚
Algorithm
machinelearning
clusteranalysis
datamining
kmeans
Microsoft SQL 和 R、存储过程和 k-means
我是新来的 希望能帮助和得到帮助 不过 我正在开发新的 Microsoft Sql Server Management Studio 2016 使用其意味着与 R 集成的新功能 首先 我的目标是创建一个存储过程 该存储过程使用 x 和 y
sqlserver
r
kmeans
如何使用 TensorFlow 实现 k-means?
介绍教程使用内置的梯度下降优化器 非常有意义 然而 k 均值不仅仅是我可以插入梯度下降中的东西 看起来我必须编写自己的优化器 但考虑到 TensorFlow 原语 我不太确定如何做到这一点 我应该采取什么方法 注 您现在可以获得这段代码的更
kmeans
tensorflow
如何在 K - 均值算法中优化 K [重复]
这个问题在这里已经有答案了 可能的重复 使用 k 均值聚类时如何确定 k https stackoverflow com questions 1793532 how do i determine k when using k means c
datamining
kmeans
我自己的 R 中的 K 均值算法
我是 R 编程的初学者 我正在 R 中进行此练习作为编程入门 我已经在 R 中实现了自己的 K 均值实现 但在某一点上卡住了一段时间 我需要达成共识 算法迭代直到找到每个簇的最佳中心 这是没有迭代的原始算法 它只是从整个数据中随机选取一个数
r
Algorithm
kmeans
如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类?
我有一个包含数据向量的文件 其中每行包含一个以逗号分隔的值列表 我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外 我不确定是否需要进行某种类型的转换才能获取
mahout
kmeans
使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本
我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法 我想要将最接近聚类中心的 50 个样本作为输出 我该如何执行这个任务 If km是 k means 模型 到j数组中每个点的第一个质心X is
python
scikitlearn
kmeans
内存错误 Numpy/Python 欧几里得距离
我正在尝试使用 numpy 和 python 运行 K 均值聚类算法 但如果我使用较大的 K 值 任何大于 10 的值似乎都会导致错误 就会不断遇到内存错误 我有两个大小为 42000 784 数据集 和 K 784 质心 的 numpy
python
NumPy
memoryleaks
kmeans
RAM
R 中一百万个观测值的 Kmeans - 绘制集群时遇到的问题
我正在尝试对超过 100 万行执行 KMeans 聚类 其中有 4 个观察值 全部为数字 我正在使用以下代码 kmeansdf lt as data frame rbind train V3 train V5 train V8 train
r
plot
machinelearning
kmeans
RStudio
具有相同簇大小的 K 均值算法变体
我正在寻找最快的算法 用于按距离将地图上的点分组为大小相等的组 这k 均值聚类算法看起来简单且有前途 但不能产生同等规模的群体 该算法是否有一种变体 或者是否有一种不同的算法可以允许所有集群的成员数量相等 也可以看看 将 n 个点分组到 k
Algorithm
Dictionary
clusteranalysis
kmeans
错误包 KlaR kmodes :错误:列索引如果为正,则最多不得为 5,而不是 6
将 klaR kmodes 算法应用于以下数据集 gt summary raw CREDIT LIMIT CP gender IE CHILD NB IE TOT DEP NB TOTAL INCOME IE HOUSE CHARGE ma
r
kmeans
mode
在 Apache Spark Python 中自定义 K-means 距离公式
现在我使用 K means 进行聚类和跟踪本教程 and API 但我想使用自定义公式来计算距离 那么如何使用 PySpark 在 k means 中传递自定义距离函数呢 一般来说 使用不同的距离度量没有意义 因为 k 均值 与k 中心点
apachespark
kmeans
apachesparkmllib
apachesparkml
如何在 Python 中使用 K-Means 聚类找到最佳聚类数
我是聚类算法的新手 我有一个电影数据集 包含 200 多部电影和 100 多个用户 所有用户都至少评价了一部电影 值 1 表示好 0 表示坏 如果注释者别无选择 则值为空白 我想根据相似的用户的评论对他们进行聚类 这样的想法是 将相似电影评
python
clusteranalysis
kmeans
euclideandistance
cosinesimilarity
如何设置Spark Kmeans初始中心
我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心 例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量 我看到 Kmean
K-Medoids / K-Means 算法。两个或多个簇代表之间距离相等的数据点
我一直在研究和学习基于分区的聚类算法 例如 K means 和 K Medoids 我了解到 与 K 均值相比 K 中心点对异常值的鲁棒性更强 然而 我很好奇如果在分配数据点期间 两个或多个簇代表在数据点上具有相同的距离 会发生什么 您将把
Algorithm
Distance
datamining
kmeans
使用 clusplot 绘制以 0 为中心坐标的聚类
我正在尝试绘制 GIS 坐标 特别是东向和北向相似的英国国家网格坐标 194630000 562220000 我可以使用 Cluster 库中的 clusplot 绘制这些图 clusplot df2 k means fit cluster
r
Coordinates
GIS
clusteranalysis
kmeans
如何根据Python中最近的聚类质心逻辑将新的观察值分配给现有的Kmeans聚类?
我使用下面的代码通过 Scikit learn 创建 k means 集群 kmean KMeans n clusters nclusters n jobs 1 random state 2376 max iter 1000 n init
python
scikitlearn
clusteranalysis
kmeans
textclassification
Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类
我想通过使用 kmeans 聚类对组月的 X2 和 X3 进行聚类 我需要对两个变量进行聚类 另外 我想根据每个簇的平均值将簇 0 簇 1 和簇 2 分配为 强 平均 弱 最高意味着强簇 下面是我的示例数据集 df pd DataFrame
python
pandas
DataFrame
clustercomputing
kmeans
如何使用 R 中的 k 均值聚类技术获得与数据相对应的聚类编号? [关闭]
很难说出这里问的是什么 这个问题模棱两可 含糊不清 不完整 过于宽泛或言辞激烈 无法以目前的形式合理回答 如需帮助澄清此问题以便重新打开 访问帮助中心 我通过 k 均值聚类方法对数据进行聚类 如何在 R 中使用 k 均值聚类技术获得与数据相
r
clusteranalysis
kmeans
«
1
2
3
4
5
6
7
8
»