WEKA 的重采样过滤器 - 如何解释结果

2024-04-28

我目前正在努力解决机器学习问题，而我必须处理大量不平衡的数据集。也就是说，有六个类（'1'，'2'...'6'）。不幸的是有例如对于“1”类，有 150 个示例/实例；对于“2”，有 90 个实例；对于“3”类，只有 20 个实例。所有其他类都无法“训练”，因为这些类没有可用的实例。

到目前为止，我发现 WEKA（我正在使用的机器学习工具包）提供了这种受监督的“重新采样”过滤器。当我使用 'noReplacement'=false 和 'bialToUniformClass'=1.0 应用此过滤器时，这会产生一个数据集，其中实例的数量很好并且几乎相等（对于类 '1'..'3' 和其他类）留空）。

我现在的问题是：WEKA 和这个过滤器如何为不同的类生成“新”/附加实例。

预先非常感谢您的任何提示或建议。

干杯朱利安

事实并非如此。它正在对现有实例进行重新采样。如果您有一个 2 类实例，并要求以 1.0 的偏差进行重采样，则您可以预期该实例的 N 个副本以及已存在数据的每种其他类型的 N 个其他实例。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

WEKA 的重采样过滤器 - 如何解释结果的相关文章

如何跨多个文本文件查找字典中键的频率？

我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率这里文档 individual articles 大约有20000个txt文件文件名为1 2 3 4 例如假设 d Britain 5 7
如何使用机器学习从数据序列计算状态图？

通用配方我有一个由一系列点组成的数据集每个点有 12 个特征我有兴趣检测此数据中的事件在训练数据中我知道事件发生的时刻当事件发生时我可以在事件发生之前的点序列中看到可观察到的模式该形态由大约 300 个连续点形成我感兴趣的是
为什么各个树的 xgboost 回归预测存在差异？

首先我运行一个非常简单的 xgb 回归模型其中仅包含 2 棵树每棵树有 1 个叶子可用数据here https raw githubusercontent com jbrownlee Datasets master pima ind
在 R 中绘制决策树（插入符）

我已经训练了一个数据集rf方法例如 ctrl lt trainControl method LGOCV repeats 3 savePred TRUE verboseIter TRUE preProcOptions list thresh
Encog：BasicNetwork：无需预先构建数据集的在线学习

我正在尝试使用 encog 库作为强化学习问题的函数逼近器更准确地说我正在尝试启动并运行多层感知器 BasicNetwork 由于我的代理将根据我选择的任何 RL 算法以某种方式探索世界因此我无法预先构建任何 BasicNeuralD
过滤器返回 true 或 false

我正在使用过滤器在 data it 返回对象中查找 id 它返回的对象不是 true 或 false 如果我怎样才能返回 true 或 falseval recoredId valueId var hasMatch data filter
期望最大化抛硬币的例子

我最近一直在自学期望最大化并在这个过程中给自己举了一些简单的例子 http cs dartmouth edu cs104 CS104 11 04 22 pdf http cs dartmouth edu cs104 CS104 11 04
对于神经网络来说，拥有正态分布的数据重要吗？

因此与数据相关的标准操作之一就是对其进行归一化并将其标准化为均值为 0 标准差为 1 的正态分布数据对吧但是如果数据不是正态分布怎么办另外所需的输出也必须呈正态分布吗如果我希望我的前馈网络在两个类 1 和 1 之间进行分类
“after_filter”如何/何时工作/运行？

我正在使用 Ruby on Rails 3 1 我想知道对于表现原因无论是否after filter渲染视图文件后运行也就是说当用户访问我的应用程序 URL 时他她应该显示的相关视图文件先于渲染after filter运行或af
如何使用 R 中的 dplyr 包在列中保留具有相同值的行？

我想知道如何使用过滤列中具有相同值的行dplyr包裹我尝试做一些与本文中要求和建议相反的事情question https stackoverflow com questions 46906630 filtering rows where
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
sklearn：如何在 sknn 中重置回归器或分类器对象

我定义了一个回归器如下所示 nn1 Regressor layers Layer Rectifier units 150 Layer Rectifier units 100 Layer Linear regularize L2 dropo
地图应用的聚类算法

我正在研究地图上的聚类点纬度经度对于快速且可扩展的合适算法有什么建议吗更具体地说我有一系列纬度经度坐标和一个地图视口我正在尝试将靠近的点聚集在一起以消除混乱我已经有了解决问题的方法 see here http bouldr
get-childItem 的新 -file 参数是像 -filter 一样快还是像 -include 一样慢？

EDIT希望在这里澄清我的复杂和误导性问题基于我错误的假设 file 接受输入感谢您纠正我并指出这只是一个开关参数我的示例中的输入实际上传递给 path 听起来这可能是搜索多种文件类型最快的纯 powershell 方式因为 fil
如何组合过滤条件

过滤器类函数接受一个条件 a gt Bool 并在过滤时应用它当您有多个条件时使用过滤器的最佳方法是什么使用了应用函数 liftA2 而不是 liftM2 因为出于某种原因我不明白 liftM2 在纯代码中如何工作 liftM2 组合
如何使用DecisionTreeClassifier平衡分类？

我有一个数据集其中类别不平衡课程是0 1 or 2 如何计算每个类别的预测误差然后重新平衡weights相应地在 scikit learn 中如果您想完全平衡将每个类别视为同等重要您可以简单地通过class weight bala
如何过滤视图两列 OR 而不是 AND？

在 Google 表格中我想过滤查看结果以便仅显示 D 列和或 E 列中带有 x 的行如果我过滤以显示其中包含 x 的列则它将仅显示 D 列和 E 列中包含 x 的行我如何让它做和或操作当我单击列中的过滤器按钮时它只会
如何过滤 jQuery.ajax() 返回的数据？

当使用jQuery ajax 方法中我正在努力过滤返回的数据以获取我所需要的数据我知道这很容易使用 load 可能还有其他 jQuery AJAX 方法但我需要使用 ajax 具体来说例如我知道这是可行的 var title da
理解高斯混合模型的概念

我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类并且正在了解 GMM 与 K 均值的比较以下是我的理解如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类但在 GMM 中每个簇都有自己独立的均值和
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如

随机推荐

如何从 std::vector 自动删除已完成的 future

在下面的示例中 mEventExecutors 是一个std vector
从 xsl:template 传递字符串参数并在另一个 xsl 文件中使用它
在 Angular http Post 请求中获取完整响应

我正在尝试从 POST 请求获得完整响应我已经阅读了如何获得角度官方网站上提到的获取请求的完整响应角度 http https angular io guide http 它说的是添加 observe response 但这适用于get请
使用 PyGTK 的右键菜单（上下文菜单）

所以我对 Python 还很陌生并且已经学习了几个月了但我试图弄清楚的一件事是说你有一个基本的窗口 usr bin env python import sys os import pygtk gtk gobject class app
VS Code 中的输出窗口是不可编辑的，那么我们如何在程序要求时键入输入呢？

当我在输出窗口中输入任何内容时会显示错误 https i stack imgur com 7Lhu4 png 顾名思义输出窗口仅用于显示输出您似乎正在使用 VSCode Coderunner 扩展它默认在输出窗口中运行程序要将其更
Linux环境下串口数据转换为TCP/IP

我需要从Linux系统的串口获取数据并将其转换为TCP IP发送到服务器这很难做到吗我有一些基本的编程经验但对 Linux 的经验不多有没有开源应用程序可以做到这一点在 Linux 中您不需要编写程序来执行此操作只是pipe h
如何检测UITableView的滚动？

有一个与此类似的问题但答案非常笼统模糊检测 UITableView 滚动 https stackoverflow com questions 1587855 detecting uitableview scrolling 请不要驳回
如何阻止 Firefox 在按住 Ctrl 键的情况下在新选项卡中打开 gridview 标头排序回发链接

我试图让 ASP Net 中的 gridview 控件根据用户在尝试通过单击列名称进行排序时是否按下 Ctrl 键进行多重排序问题是当我使用 Firefox 时如果我按下 Ctrl 键单击列名称浏览器会尝试在新选项卡中打开 java
有没有java对象到对象映射的工具？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
SKPaymentTransaction：transactionDate 到底是什么？

在苹果的文档中transactionDate is 交易添加到 App Store 支付队列的日期只读我只是想澄清一下在以下情况下 transactionDate 是什么在时间 T1 购买了一些东西交易日期是 T1 在时间 T2 恢
在浮动元素周围放置边框

假设我有类似以下代码的内容我想在左右浮动的两个图像之间显示一些文本 img src testImage1 png alt Test Image 1 img src testImage2 png alt Test Image 2 p Tes
如何减少 MediaCodec 视频/avc 解码中的延迟

我执行了一些简单的计时电影播放器 java https github com google grafika blob master src com android grafika MoviePlayer java in the Grafik
Mongoose findOneAndUpdate 如何知道对象是否存在以及是否被修改

我在用findOneAndUpdate猫鼬的方法 function update one record Model unique constraint new updated values obj Model findOneAndUpdat
如何在 http POST 请求中发送 HTML 代码？

我正在从 Google Web Toolkit 应用程序向 php 脚本发送 HTTP POST 请求内容类型现在是 application x www form urlencoded 所以我可以将变量发送到 php 并使用 POST 在
使用斐波那契堆时 Dijkstra 是否更快？

使用斐波那契堆时 Dijkstra 是否比使用二进制堆更快我自己做了一些实现斐波那契堆的实验并在 Dijkstra 中使用它我还检查了 fibheap 库中现成的斐波那契堆但没有一个实现能够更快地找到使用以下命令的最短路径二进制堆
多列多对一

我有一个遗留数据库和两个表之间一对一的关系问题是关系使用两列而不是一列在 nhibernate 中是否有某种方法可以说当获取引用的实体时它在 join 语句中使用了两列而不是一列我有一个类似的表结构任务进度进度ID Tas
从纬度和经度获取 Windows TimeZoneInfo

在网络应用程序中我让人们输入他们的地址然后我使用Google 的地理编码 API获取他们的纬度和经度接下来我想得到他们的Windows 时区名称使用这些坐标这样我就可以处理夏令时正确通过 NetTimeZoneInfo objec
尝试使用 Redshift SQL 对累积不同实体进行计数

我正在尝试获取某个时间序列中 Redshift 中不同对象的累积计数最简单的事情就是使用COUNT DISTINCT myfield OVER ORDER BY timefield DESC ROWS UNBOUNDED PRECEDIN
我怎样才能残酷无情地中止 Java 中的任务？

我用 Java 编写了一个数独求解器作为作业目前我正在尝试找出它可能面临的有问题的输入以使其变得更好我已经生成了几千个数独网格David Bau 的数独生成器 http davidbau com archives 2006 09 04
WEKA 的重采样过滤器 - 如何解释结果

我目前正在努力解决机器学习问题而我必须处理大量不平衡的数据集也就是说有六个类 1 2 6 不幸的是有例如对于 1 类有 150 个示例实例对于 2 有 90 个实例对于 3 类只有 20 个实例所有其他类都无法训练因为

WEKA 的重采样过滤器 - 如何解释结果

WEKA 的重采样过滤器 - 如何解释结果 的相关文章

随机推荐

热门标签

WEKA 的重采样过滤器 - 如何解释结果的相关文章