clusteranalysis

Python scipy/numpy 中相关性的层次聚类？

如何在相关矩阵上运行层次聚类scipy numpy 我有一个 100 行 x 9 列的矩阵我想根据 9 个条件中每个条目的相关性进行分层聚类我想使用 1 pearson 相关性作为聚类距离假设我有一个numpy array X包含 1

python NumPy clusteranalysis machinelearning scipy

R - “princomp”只能与比变量更多的单位一起使用

我正在使用 R 软件 R Commander 对我的数据进行聚类我的数据有一个较小的子集包含 200 行和大约 800 列尝试 kmeans 聚类并在图表上绘制时出现以下错误 princomp 只能与比变量更多的单位一起使用然后我创

r clusteranalysis kmeans PCA rcommander

在 ELKI 中运行聚类算法

我需要以编程方式使用 ELKI 运行 k medoids 聚类算法我有一个相似度矩阵我希望将其输入到算法中是否有任何代码片段可用于如何运行 ELKI 算法我基本上需要知道如何创建Database and Relation对象创建自

Java clusteranalysis kmeans elki

Scipy.cluster.hierarchy.fclusterdata + 距离测量

1 我正在使用 scipy 的 hcluster 模块所以我可以控制的变量是阈值变量我如何知道每个阈值的表现即在 Kmeans 中该性能将是所有点到其质心的总和当然这必须进行调整因为通常更多的簇更短的距离我可以用 hclu

python clusteranalysis scipy

'KMeansModel' 对象在 apache pyspark 中没有属性 'computeCost'

我正在 pyspark 中试验聚类模型我试图获得适合不同 K 值的簇的均方成本 def meanScore k df inputCol df columns 38 assembler VectorAssembler inputCols i

python apachespark PySpark clusteranalysis kmeans

文本聚类主题建模效率低下

我尝试使用 LDA 进行文本聚类但它没有给我不同的聚类下面是我的代码 Import libraries from gensim import corpora models import pandas as pd from gensim

python clusteranalysis gensim LDA

如何识别每个簇内的序列？

使用作为一部分的 biofam 数据集TraMineR library TraMineR data biofam lab lt c P L M LM C LC LMC D biofam seq lt seqdef biofam 10 25

r clusteranalysis datamanipulation traminer

如何创建每行库存的二进制矩阵？ (右)

我有一个由 9 列组成的数据框其中包含一系列因素每行可以填充全部 9 列因为该行包含 9 个东西但大多数没有大多数有 3 4 个这些列也不具体就像第 200 项出现在第 1 列和第 3 列中一样这是同一件事我想为包含所有

r sparsematrix clusteranalysis

kmean 需要三角不等式吗？

我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离正好满足三角不等式使用其他距离函数是有风险的因为它可能会停止收敛然而原因是not三角不等式但是平均值可能不会最小化距离

machinelearning clusteranalysis Distance datamining kmeans

在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离

我需要使用相关距离进行一些聚类但我需要绝对皮尔逊距离而不是使用定义为 d 1 r 的内置距离相关在我的应用程序中反相关数据应该获得相同的集群 ID 现在当使用 kmeans 函数时我得到的质心高度反相关我希望通过组合它们来

MATLAB clusteranalysis datamining kmeans

在 MATLAB 中对文本进行聚类

我想在 MATLAB 中对文本进行层次凝聚聚类说吧我有四句话 I have a pen I have a paper I have a pencil I have a cat 我想把上面的四个句子聚类一下看看哪个更相似我知道统计工具

MATLAB clusteranalysis textmining

python 用高斯混合模型（GMM）拟合加权数据，协方差最小

我想使用 python 将高斯混合模型拟合到一组加权数据点我尝试了 sklearn mixture GMM 它工作得很好除了它对所有数据点的权重相等有谁知道如何在此方法中为数据点分配权重我多次尝试使用数据点来增加其权重但这对于大

python opencv scikitlearn clusteranalysis expectationmaximization

Matlab聚类编码-绘制散点图

我有一年期间每日每年的能源消耗数据集我想显示该数据集的散点图分为我期望存在的四个集群由于四个季节的差异我知道 matlab cluster 函数可以做到这一点但我的统计数据非常生疏我希望得到一些指导来确定哪个函数最好使用 Th

MATLAB clusteranalysis scatterplot

根据相似度对图像进行聚类

我面临着基于相似性的图像聚类问题而不知道聚类的数量理想情况下我想实现类似这样的目标http cs231n github io assets cnnvis tsne jpeg http cs231n github io assets c

算法 - 字符串相似度分数/散列

有没有一种方法可以计算字符串的一般相似度分数在某种程度上我不是将两个字符串比较在一起而是为每个字符串获取一些数字分数哈希这些数字分数可以稍后告诉我两个字符串是否相似两个相似的字符串应该具有相似接近的分数哈希值让我们

python string Algorithm clusteranalysis Hash

k-means 使用从 minhash 生成的签名矩阵

我在文档及其木瓦上使用了 minhash 从这些文档生成签名矩阵我已经验证签名矩阵可以很好地比较已知相似文档例如关于同一运动队的两篇文章或关于同一世界赛事的两篇文章的杰卡德距离从而给出正确的读数我的问题是使用这个签名矩阵来执行

python Text clusteranalysis kmeans minhash

DBSCAN sklearn 非常慢

我正在尝试对包含超过 100 万个数据点的数据集进行聚类一列包含文本另一列包含与其对应的数值我面临的问题是它被卡住并且永远不会完成我尝试过处理大约 100 000 个较小的数据集它运行得相当快但当我开始增加数据点时它开始变慢

python machinelearning scikitlearn clusteranalysis DBSCAN

K表示当肘部图是平滑曲线时寻找肘部

我正在尝试使用以下代码绘制 k 的肘部 load CSDmat mydata for k 2 20 opts statset MaxIter 500 Display off IDX1 C1 sumd1 D1 kmeans CSDmat k

MATLAB clusteranalysis kmeans Variance