datamining

期望最大化算法的数值示例[重复]

这个问题在这里已经有答案了由于我不确定给出的公式有人可以提供 EM 算法的简单数字示例吗一个非常简单的具有 4 或 5 个笛卡尔坐标的坐标就可以了那这个呢 http en wikibooks org wiki Data Mining

Algorithm machinelearning datamining expectationmaximization

寻找簇的中心

我有以下问题进行抽象以找出关键问题我有 10 个点每个点与其他点有一定距离我想要能够找到簇的中心即与其他点的成对距离最小的点令 p j p k 表示点 j 和 k 之间的成对距离p i 是簇的中心点 iff p i s t m

Algorithm clusteranalysis datamining

有人可以用非常简单的图形方式给出余弦相似度的例子吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案维基百科上的余弦相似度文章 http en wikipedia org wiki Cosine similarity 你能在这里显示向量吗

Text datamining cosinesimilarity

URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup

Algorithm datamining Classification levenshteindistance textmining

如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据我必须根据两点之间的距离进行聚类现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值有什

r machinelearning clusteranalysis datamining kmeans

估计/选择 DBSCAN 的最佳超参数

我需要根据不同介词的分布找到自然出现的名词类别如施事工具时间地点等我尝试使用 k means 聚类但帮助较少效果不佳我正在寻找的类有很多重叠可能是因为类的非球状形状和 k means 中的随机初始化我现在正在使用 DBS

datamining clusteranalysis DBSCAN

计算聚类的 F 度量

谁能帮我计算一下F measure的总和吗我知道如何计算召回率和精度但不知道对于给定的算法如何计算一个 F 测量值举个例子假设我的算法创建m集群但我知道有n相同数据的聚类由另一个基准算法创建我找到了一份 pdf 但它没有用因

clusteranalysis datamining precisionrecall

R：tuneRF 函数的行为不明确（randomForest 包）

我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor

r Optimization machinelearning datamining RandomForest

HMM 如何用于手写识别？

这个问题与传统的手写识别有点不同我有一个包含数千个以下内容的数据集对于一个绘制的角色我有几个连续的 x y 按下笔的坐标所以这是一个顺序时间问题我希望能够根据这些数据对手写字符进行分类并且希望实现 HMM 来实现学习目的

machinelearning datamining hiddenmarkovmodels handwritingrecognition

网页抓取、屏幕抓取、数据挖掘技巧？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

Java screenscraping htmlparsing datamining webscraping

Matlab - 多维数据的PCA分析与重构

我有一个大型多维数据集 132 维我是数据挖掘的初学者我想使用 Matlab 来应用主成分分析不过我看到网上有很多功能解释但我不明白它们应该如何应用基本上我想应用 PCA 并从我的数据中获取特征向量及其相应的特征值在此步骤之

MATLAB datamining PCA

如何提取文本中使用的关键字？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的

Text Indexing keyword datamining

使用 R TM 包查找 2 和 3 个单词短语

我正在尝试找到一个代码该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语也许还有另一个我不知道的包我一直在尝试使用标记器但似乎没有运气如果您过去处理过类似的情况您可以发布经过测试且实际有效的代码吗太感谢了您可

r datamining textmining

TFIDF 计算混淆

我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不

python datamining textprocessing informationretrieval tfidf

网络挖掘-分类算法

我的高级项目是确定网页的主导类别我抓取了 dmoz 现在我正在尝试构建arff 之后我将使用一些特征提取方法和分类算法您知道哪种特征提取方法与用于网络挖掘的任何分类算法表现良好吗 u分类 http www uclassify com u

Algorithm datamining Mining

R 中的时间序列突破/变化/干扰检测：strucchange、changepoint、BreakoutDetection、bfast 等

我希望这成为 R 中各种时间序列突破变化干扰检测方法的路标我的问题是描述以下每个包的动机和方法差异也就是说什么时候使用一种方法比另一种方法更有意义相似差异等有问题的包结构变化 http cran r project org

r TimeSeries datamining

如何在 Python 上使用 PMML 文件和 Augustus 对线性模型进行评分

我是 python PMML 和 augustus 的新手所以这个问题有点新手我有一个 PMML 文件我想在每次新的数据迭代后从中评分我必须使用 Python 和 Augustus 来完成这个练习我读过各种文章其中一些值得一提

python r xsd datamining pmml

R arules ：从规则中提取 lhs 项

我想从 arules 生成的规则中提取 lhs 项目例如 a b c gt d 我希望能够提取a b c并将其放入字符向量中以便我可以根据这些项目进行迭代和进一步处理目前我可以考虑解析这组规则将其转换为数据帧然后使用字符操作正

r datamining arules

DBSCAN 算法可以创建少于 minPts 的簇吗？

我刚刚编写了 DBSCAN 算法我想知道 DBSCAN 算法是否可以允许集群中的点数少于所使用的 minPts 参数我一直在使用http people cs nctu edu tw rsliang dbscan testdatagen

machinelearning datamining clusteranalysis DBSCAN

梯度下降和牛顿梯度下降有什么区别？

我明白梯度下降的作用基本上它试图通过缓慢地沿着曲线移动来走向局部最优解我想了解普通梯度下降法和牛顿法之间的实际区别是什么我从维基百科上读到了这样一句话牛顿方法使用曲率信息来采取更直接的路线这直观上意味着什么在局部最小值或最大