Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致
我正在使用 PySpark 对数据集执行聚类 为了找到簇的数量 我对一系列值 2 20 进行了聚类 并找到了wsse 簇内平方和 每个值的值k 在这里我发现了一些不寻常的东西 根据我的理解 当你增加集群数量时 wsse单调递减 但我得到的结
python
apachespark
scikitlearn
PySpark
kmeans
高维数据的ELKI Kmeans聚类任务失败错误
我有 60000 个文档 我在其中处理过gensim得到一个60000 300的矩阵 我将其导出为csv文件 当我导入这个时ELKI环境和运行Kmeans聚类 我遇到以下错误 Task failed de lmu ifi dbs elki
clusteranalysis
kmeans
gensim
doc2vec
elki
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类
我们一直在使用 Kmeans 来对日志进行聚类 典型的数据集有 10 mill 具有 100k 特征的样本 为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个 在 90 的情况下 我们最终得到的 k 介于 2 到 1
tensorflow
machinelearning
PySpark
clusteranalysis
kmeans
KMeans 对不平衡数据进行聚类
我有一组包含 50 个特征 c1 c2 c3 的数据 行数超过 80k 每行包含标准化数值 范围 0 1 它实际上是一个标准化的虚拟变量 其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征 我使用
python
clusteranalysis
kmeans
datascience
featureengineering
kmeans 对分组数据进行聚类
目前 我尝试在分组数据中找到簇的中心 通过使用示例数据集和问题定义 我能够创建kmeans每个组内的集群 然而 当涉及到给定组的集群的每个中心时 我不知道如何获取它们 https rdrr io cran broom man kmeans
r
machinelearning
dplyr
kmeans
哪里可以找到可靠的 K-medoid(不是 k-means)开源软件/工具? [关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在学习 K medoids 算法 所以如果我提出不恰当的问题 我很抱歉 据我所知 K medoid
opensource
clusteranalysis
kmeans
使用 scikit 包在 Python 中绘制集群区域的边界
这是我处理 3 个属性 x y 值 中的数据聚类的简单示例 每个样本代表其位置 x y 及其所属变量 我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
python
matplotlib
scikitlearn
clusteranalysis
kmeans
R 中的聚类分析:确定最佳聚类数
如何选择最佳的聚类数量来进行 k 均值分析 绘制以下数据的子集后 多少个簇比较合适 如何进行聚类树突分析 n 1000 kk 10 x1 runif kk y1 runif kk z1 runif kk x4 sample x1 lengt
r
clusteranalysis
kmeans
Scikit Learn - K-Means - 肘部 - 标准
今天我想学习一些关于 K means 的知识 我已经了解该算法并且知道它是如何工作的 现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法 但我不明白如何将它与 scikit learn 一起使用 在 scikit learn
python
machinelearning
scikitlearn
clusteranalysis
kmeans
Javascript 中的 k 均值聚类实现? [关闭]
Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我需要 k means 聚类算法的 Javascript 实现 我只有一维数据 很少超过 100 个项目
javascript
clusteranalysis
kmeans
如何设置K-means openCV c++的初始中心
我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割 我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i
c
Algorithm
opencv
kmeans
centroid
如何在 k 均值中使用欧氏距离以外的不同距离公式
我正在处理纬度经度数据 我必须根据两点之间的距离进行聚类 现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值 有什
r
machinelearning
clusteranalysis
datamining
kmeans
在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException
我正在学习 Mahout 并阅读 Mahout in Action 当我尝试运行第 7 章 Simple KMeans Clustering java 中的示例代码时 弹出了一个异常 线程 main 中的异常 java io IOExcep
mahout
kmeans
从彩色背景中提取黑色对象
人眼很容易辨别black来自其他颜色 但是计算机呢 我在普通的A4纸上打印了一些色块 由于组成彩色图像有青色 品红色和黄色三种墨水 所以我设置每个块的颜色C 20 C 30 C 40 C 50 以及其余两种颜色是 0 这是我的源图像的第一列
MATLAB
opencv
imageprocessing
ComputerVision
kmeans
Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间
我正在尝试从 大 文本文档集合 TF IDF 向量 在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送 稀疏向量由 HashingTF transform 函数创建 无论我使用的并行程度如何 通过合并函数 KMea
scala
apachespark
OutOfMemory
kmeans
apachesparkmllib
如何在Python中的二值图像上使用kmeans聚类?
我试图对两个不同的人采取二元面具 其他一切都是黑色的 现在我想使用将每个人分组到他们自己的集群中K means这样我最终就可以在它们周围绘制边界框 这是我到目前为止的代码 def kmeans img k values range 1 5
python
opencv
ComputerVision
kmeans
不同长度的时间序列数据的聚类
我有不同系列长度的时间序列数据 我想根据 DTW 距离进行聚类 但找不到与之相关的 ant 库 sklearn给出直接错误 而 tslearn kmeans 给出错误答案 我的问题是如果我用零填充它就可以解决 但我不确定这在聚类时填充时间序
TimeSeries
clusteranalysis
kmeans
mutate/tibble 中的自定义函数
我正在关注一个tutorial https cran r project org web packages broom vignettes kmeans html我正在尝试将这部分应用于我的数据 问题 kclusts lt tibble k
r
kmeans
tibble
使用杰卡德距离矩阵进行 Kmeans 聚类
我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文 以下是代码 我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson
r
twitter
clusteranalysis
kmeans
tweets
使轮廓图对于 k 均值清晰易读
我正在尝试为 k 均值聚类制作轮廓图 但条形几乎看不见 我怎样才能使这个图表清晰易读 示例代码 require cluster X lt EuStockMarkets kmm lt kmeans X 8 D lt daisy X plot
r
plot
kmeans
1
2
3
4
5
6
...8
»