Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
期望最大化算法的数值示例[重复]
这个问题在这里已经有答案了 由于我不确定给出的公式 有人可以提供 EM 算法的简单数字示例吗 一个非常简单的具有 4 或 5 个笛卡尔坐标的坐标就可以了 那这个呢 http en wikibooks org wiki Data Mining
Algorithm
machinelearning
datamining
expectationmaximization
寻找簇的中心
我有以下问题 进行抽象以找出关键问题 我有 10 个点 每个点与其他点有一定距离 我想要 能够找到簇的中心 即与其他点的成对距离最小的点 令 p j p k 表示点 j 和 k 之间的成对距离p i 是簇的中心点 iff p i s t m
Algorithm
clusteranalysis
datamining
有人可以用非常简单的图形方式给出余弦相似度的例子吗? [关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 维基百科上的余弦相似度文章 http en wikipedia org wiki Cosine similarity 你能在这里显示向量吗
Text
datamining
cosinesimilarity
URL路径相似度/字符串相似度算法
我的问题是我需要比较 URL 路径并推断它们是否相似 下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
Algorithm
datamining
Classification
levenshteindistance
textmining
如何在 k 均值中使用欧氏距离以外的不同距离公式
我正在处理纬度经度数据 我必须根据两点之间的距离进行聚类 现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值 有什
r
machinelearning
clusteranalysis
datamining
kmeans
估计/选择 DBSCAN 的最佳超参数
我需要根据不同介词的分布找到自然出现的名词类别 如施事 工具 时间 地点等 我尝试使用 k means 聚类 但帮助较少 效果不佳 我正在寻找的类有很多重叠 可能是因为类的非球状形状和 k means 中的随机初始化 我现在正在使用 DBS
datamining
clusteranalysis
DBSCAN
计算聚类的 F 度量
谁能帮我计算一下F measure的总和吗 我知道如何计算召回率和精度 但不知道对于给定的算法如何计算一个 F 测量值 举个例子 假设我的算法创建m集群 但我知道有n相同数据的聚类 由另一个基准算法创建 我找到了一份 pdf 但它没有用 因
clusteranalysis
datamining
precisionrecall
R:tuneRF 函数的行为不明确(randomForest 包)
我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor
r
Optimization
machinelearning
datamining
RandomForest
HMM 如何用于手写识别?
这个问题与传统的手写识别有点不同 我有一个包含数千个以下内容的数据集 对于一个绘制的角色 我有几个连续的 x y 按下笔的坐标 所以 这是一个顺序 时间 问题 我希望能够根据这些数据对手写字符进行分类 并且希望实现 HMM 来实现学习目的
machinelearning
datamining
hiddenmarkovmodels
handwritingrecognition
网页抓取、屏幕抓取、数据挖掘技巧? [关闭]
就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
Java
screenscraping
htmlparsing
datamining
webscraping
Matlab - 多维数据的PCA分析与重构
我有一个大型多维数据集 132 维 我是数据挖掘的初学者 我想使用 Matlab 来应用主成分分析 不过 我看到网上有很多功能解释 但我不明白它们应该如何应用 基本上 我想应用 PCA 并从我的数据中获取特征向量及其相应的特征值 在此步骤之
MATLAB
datamining
PCA
如何提取文本中使用的关键字? [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话 但却具有历史意义 目前不接受新的
Text
Indexing
keyword
datamining
使用 R TM 包查找 2 和 3 个单词短语
我正在尝试找到一个代码 该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语 也许还有另一个我不知道的包 我一直在尝试使用标记器 但似乎没有运气 如果您过去处理过类似的情况 您可以发布经过测试且实际有效的代码吗 太感谢了 您可
r
datamining
textmining
TFIDF 计算混淆
我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不
python
datamining
textprocessing
informationretrieval
tfidf
网络挖掘-分类算法
我的高级项目是确定网页的主导类别 我抓取了 dmoz 现在我正在尝试构建arff 之后我将使用一些特征提取方法和分类算法 您知道哪种特征提取方法与用于网络挖掘的任何分类算法表现良好吗 u分类 http www uclassify com u
Algorithm
datamining
Mining
R 中的时间序列突破/变化/干扰检测:strucchange、changepoint、BreakoutDetection、bfast 等
我希望这成为 R 中各种时间序列突破 变化 干扰检测方法的路标 我的问题是描述以下每个包的动机和方法差异 也就是说 什么时候使用一种方法比另一种方法更有意义 相似 差异等 有问题的包 结构变化 http cran r project org
r
TimeSeries
datamining
如何在 Python 上使用 PMML 文件和 Augustus 对线性模型进行评分
我是 python PMML 和 augustus 的新手 所以这个问题有点新手 我有一个 PMML 文件 我想在每次新的数据迭代后从中评分 我必须使用 Python 和 Augustus 来完成这个练习 我读过各种文章 其中一些值得一提
python
r
xsd
datamining
pmml
R arules :从规则中提取 lhs 项
我想从 arules 生成的规则中提取 lhs 项目 例如 a b c gt d 我希望能够提取a b c并将其放入字符向量中 以便我可以根据这些项目进行迭代和进一步处理 目前 我可以考虑解析这组规则 将其转换为数据帧 然后使用字符操作 正
r
datamining
arules
DBSCAN 算法可以创建少于 minPts 的簇吗?
我刚刚编写了 DBSCAN 算法 我想知道 DBSCAN 算法是否可以允许集群中的点数少于所使用的 minPts 参数 我一直在使用http people cs nctu edu tw rsliang dbscan testdatagen
machinelearning
datamining
clusteranalysis
DBSCAN
梯度下降和牛顿梯度下降有什么区别?
我明白梯度下降的作用 基本上 它试图通过缓慢地沿着曲线移动来走向局部最优解 我想了解普通梯度下降法和牛顿法之间的实际区别是什么 我从维基百科上读到了这样一句话 牛顿方法使用曲率信息来采取更直接的路线 这直观上意味着什么 在局部最小值 或最大
1
2
3
»