Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Python scipy/numpy 中相关性的层次聚类?
如何在相关矩阵上运行层次聚类scipy numpy 我有一个 100 行 x 9 列的矩阵 我想根据 9 个条件中每个条目的相关性进行分层聚类 我想使用 1 pearson 相关性作为聚类距离 假设我有一个numpy array X包含 1
python
NumPy
clusteranalysis
machinelearning
scipy
R - “princomp”只能与比变量更多的单位一起使用
我正在使用 R 软件 R Commander 对我的数据进行聚类 我的数据有一个较小的子集 包含 200 行和大约 800 列 尝试 kmeans 聚类并在图表上绘制时出现以下错误 princomp 只能与比变量更多的单位一起使用 然后我创
r
clusteranalysis
kmeans
PCA
rcommander
在 ELKI 中运行聚类算法
我需要以编程方式使用 ELKI 运行 k medoids 聚类算法 我有一个相似度矩阵 我希望将其输入到算法中 是否有任何代码片段可用于如何运行 ELKI 算法 我基本上需要知道如何创建Database and Relation对象 创建自
Java
clusteranalysis
kmeans
elki
Scipy.cluster.hierarchy.fclusterdata + 距离测量
1 我正在使用 scipy 的 hcluster 模块 所以我可以控制的变量是阈值变量 我如何知道每个阈值的表现 即在 Kmeans 中 该性能将是所有点到其质心的总和 当然 这必须进行调整 因为通常更多的簇 更短的距离 我可以用 hclu
python
clusteranalysis
scipy
'KMeansModel' 对象在 apache pyspark 中没有属性 'computeCost'
我正在 pyspark 中试验聚类模型 我试图获得适合不同 K 值的簇的均方成本 def meanScore k df inputCol df columns 38 assembler VectorAssembler inputCols i
python
apachespark
PySpark
clusteranalysis
kmeans
文本聚类主题建模效率低下
我尝试使用 LDA 进行文本聚类 但它没有给我不同的聚类 下面是我的代码 Import libraries from gensim import corpora models import pandas as pd from gensim
python
clusteranalysis
gensim
LDA
如何识别每个簇内的序列?
使用作为一部分的 biofam 数据集TraMineR library TraMineR data biofam lab lt c P L M LM C LC LMC D biofam seq lt seqdef biofam 10 25
r
clusteranalysis
datamanipulation
traminer
如何创建每行库存的二进制矩阵? (右)
我有一个由 9 列组成的数据框 其中包含一系列因素 每行可以填充全部 9 列 因为该行包含 9 个 东西 但大多数没有 大多数有 3 4 个 这些列也不具体 就像第 200 项出现在第 1 列和第 3 列中一样 这是同一件事 我想为包含所有
r
sparsematrix
clusteranalysis
kmean 需要三角不等式吗?
我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离 正好满足三角不等式 使用其他距离函数是有风险的 因为它可能会停止收敛 然而原因是not三角不等式 但是平均值可能不会最小化距离
machinelearning
clusteranalysis
Distance
datamining
kmeans
在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离
我需要使用相关距离进行一些聚类 但我需要绝对皮尔逊距离 而不是使用定义为 d 1 r 的内置 距离 相关 在我的应用程序中 反相关数据应该获得相同的集群 ID 现在 当使用 kmeans 函数时 我得到的质心高度反相关 我希望通过组合它们来
MATLAB
clusteranalysis
datamining
kmeans
在 MATLAB 中对文本进行聚类
我想在 MATLAB 中对文本进行层次凝聚聚类 说吧 我有四句话 I have a pen I have a paper I have a pencil I have a cat 我想把上面的四个句子聚类一下 看看哪个更相似 我知道统计工具
MATLAB
clusteranalysis
textmining
python 用高斯混合模型(GMM)拟合加权数据,协方差最小
我想使用 python 将高斯混合模型拟合到一组加权数据点 我尝试了 sklearn mixture GMM 它工作得很好 除了它对所有数据点的权重相等 有谁知道如何在此方法中为数据点分配权重 我多次尝试使用数据点来 增加其权重 但这对于大
python
opencv
scikitlearn
clusteranalysis
expectationmaximization
Matlab聚类编码-绘制散点图
我有一年期间每日 每年的能源消耗数据集 我想显示该数据集的散点图 分为我期望存在的四个集群 由于四个季节的差异 我知道 matlab cluster 函数可以做到这一点 但我的统计数据非常生疏 我希望得到一些指导来确定哪个函数最好使用 Th
MATLAB
clusteranalysis
scatterplot
根据相似度对图像进行聚类
我面临着基于相似性的图像聚类问题 而不知道聚类的数量 理想情况下 我想实现类似这样的目标http cs231n github io assets cnnvis tsne jpeg http cs231n github io assets c
算法 - 字符串相似度分数/散列
有没有一种方法可以计算字符串的一般 相似度分数 在某种程度上 我不是将两个字符串比较在一起 而是为每个字符串获取一些数字 分数 哈希 这些数字 分数可以稍后告诉我两个字符串是否相似 两个相似的字符串应该具有相似 接近 的分数 哈希值 让我们
python
string
Algorithm
clusteranalysis
Hash
k-means 使用从 minhash 生成的签名矩阵
我在文档及其木瓦上使用了 minhash 从这些文档生成签名矩阵 我已经验证签名矩阵可以很好地比较已知相似文档 例如 关于同一运动队的两篇文章或关于同一世界赛事的两篇文章 的杰卡德距离 从而给出正确的读数 我的问题是 使用这个签名矩阵来执行
python
Text
clusteranalysis
kmeans
minhash
DBSCAN sklearn 非常慢
我正在尝试对包含超过 100 万个数据点的数据集进行聚类 一列包含文本 另一列包含与其对应的数值 我面临的问题是它被卡住并且永远不会完成 我尝试过处理大约 100 000 个较小的数据集 它运行得相当快 但当我开始增加数据点时 它开始变慢
python
machinelearning
scikitlearn
clusteranalysis
DBSCAN
K表示当肘部图是平滑曲线时寻找肘部
我正在尝试使用以下代码绘制 k 的肘部 load CSDmat mydata for k 2 20 opts statset MaxIter 500 Display off IDX1 C1 sumd1 D1 kmeans CSDmat k
MATLAB
clusteranalysis
kmeans
Variance
«
1
2
3
4
5
6
7
8
»