WEKA 的重采样过滤器 - 如何解释结果

2024-04-28

我目前正在努力解决机器学习问题,而我必须处理大量不平衡的数据集。也就是说,有六个类('1','2'...'6')。不幸的是有例如对于“1”类,有 150 个示例/实例;对于“2”,有 90 个实例;对于“3”类,只有 20 个实例。所有其他类都无法“训练”,因为这些类没有可用的实例。

到目前为止,我发现 WEKA(我正在使用的机器学习工具包)提供了这种受监督的“重新采样”过滤器。当我使用 'noReplacement'=false 和 'bialToUniformClass'=1.0 应用此过滤器时,这会产生一个数据集,其中实例的数量很好并且几乎相等(对于类 '1'..'3' 和其他类)留空)。

我现在的问题是:WEKA 和这个过滤器如何为不同的类生成“新”/附加实例。

预先非常感谢您的任何提示或建议。

干杯 朱利安


事实并非如此。它正在对现有实例进行重新采样。如果您有一个 2 类实例,并要求以 1.0 的偏差进行重采样,则您可以预期该实例的 N 个副本以及已存在数据的每种其他类型的 N 个其他实例。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

WEKA 的重采样过滤器 - 如何解释结果 的相关文章

  • 如何跨多个文本文件查找字典中键的频率?

    我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率 这里 文档 individual articles 大约有20000个txt文件 文件名为1 2 3 4 例如 假设 d Britain 5 7
  • 如何使用机器学习从数据序列计算状态图?

    通用配方 我有一个由一系列点组成的数据集 每个点有 12 个特征 我有兴趣检测此数据中的事件 在训练数据中我知道事件发生的时刻 当事件发生时 我可以在事件发生之前的点序列中看到可观察到的模式 该形态由大约 300 个连续点形成 我感兴趣的是
  • 为什么各个树的 xgboost 回归预测存在差异?

    首先 我运行一个非常简单的 xgb 回归模型 其中仅包含 2 棵树 每棵树有 1 个叶子 可用数据here https raw githubusercontent com jbrownlee Datasets master pima ind
  • 在 R 中绘制决策树(插入符)

    我已经训练了一个数据集rf方法 例如 ctrl lt trainControl method LGOCV repeats 3 savePred TRUE verboseIter TRUE preProcOptions list thresh
  • Encog:BasicNetwork:无需预先构建数据集的在线学习

    我正在尝试使用 encog 库作为强化学习问题的函数逼近器 更准确地说 我正在尝试启动并运行多层感知器 BasicNetwork 由于我的代理将根据我选择的任何 RL 算法以某种方式探索世界 因此我无法预先构建任何 BasicNeuralD
  • 过滤器返回 true 或 false

    我正在使用过滤器在 data it 返回对象中查找 id 它返回的对象不是 true 或 false 如果我怎样才能返回 true 或 falseval recoredId valueId var hasMatch data filter
  • 期望最大化抛硬币的例子

    我最近一直在自学期望最大化 并在这个过程中给自己举了一些简单的例子 http cs dartmouth edu cs104 CS104 11 04 22 pdf http cs dartmouth edu cs104 CS104 11 04
  • 对于神经网络来说,拥有正态分布的数据重要吗?

    因此 与数据相关的标准操作之一就是对其进行归一化 并将其标准化为均值为 0 标准差为 1 的正态分布数据 对吧 但是 如果数据不是正态分布怎么办 另外 所需的输出也必须呈正态分布吗 如果我希望我的前馈网络在两个类 1 和 1 之间进行分类
  • “after_filter”如何/何时工作/运行?

    我正在使用 Ruby on Rails 3 1 我想知道 对于表现原因 无论是否after filter渲染视图文件后运行 也就是说 当用户访问我的应用程序 URL 时 他 她应该显示的相关视图文件先于渲染after filter运行或af
  • 如何使用 R 中的 dplyr 包在列中保留具有相同值的行?

    我想知道如何使用过滤列中具有相同值的行dplyr包裹 我尝试做一些与本文中要求和建议相反的事情question https stackoverflow com questions 46906630 filtering rows where
  • 使用 NLTK 生成字典以将推文分类为预定义类别

    我有一个 Twitter 用户 screen names 列表 我需要根据他们的兴趣领域将他们分为 7 个预定义类别 教育 艺术 体育 商业 政治 汽车 技术 我用 Python 提取了用户的最后 100 条推文 并在清理推文后为每个用户创
  • sklearn:如何在 sknn 中重置回归器或分类器对象

    我定义了一个回归器 如下所示 nn1 Regressor layers Layer Rectifier units 150 Layer Rectifier units 100 Layer Linear regularize L2 dropo
  • 地图应用的聚类算法

    我正在研究地图上的聚类点 纬度 经度 对于快速且可扩展的合适算法有什么建议吗 更具体地说 我有一系列纬度 经度坐标和一个地图视口 我正在尝试将靠近的点聚集在一起以消除混乱 我已经有了解决问题的方法 see here http bouldr
  • get-childItem 的新 -file 参数是像 -filter 一样快还是像 -include 一样慢?

    EDIT希望在这里澄清我的复杂和误导性问题 基于我错误的假设 file 接受输入 感谢您纠正我并指出这只是一个开关参数 我的示例中的输入实际上传递给 path 听起来这可能是搜索多种文件类型最快的纯 powershell 方式 因为 fil
  • 如何组合过滤条件

    过滤器类函数接受一个条件 a gt Bool 并在过滤时应用它 当您有多个条件时 使用过滤器的最佳方法是什么 使用了应用函数 liftA2 而不是 liftM2 因为出于某种原因我不明白 liftM2 在纯代码中如何工作 liftM2 组合
  • 如何使用DecisionTreeClassifier平衡分类?

    我有一个数据集 其中类别不平衡 课程是0 1 or 2 如何计算每个类别的预测误差然后重新平衡weights相应地在 scikit learn 中 如果您想完全平衡 将每个类别视为同等重要 您可以简单地通过class weight bala
  • 如何过滤视图两列 OR 而不是 AND?

    在 Google 表格中 我想过滤查看结果 以便仅显示 D 列和 或 E 列中带有 x 的行 如果我过滤以显示其中包含 x 的列 则它将仅显示 D 列和 E 列中包含 x 的行 我如何让它做 和 或 操作 当我单击列中的过滤器按钮时 它只会
  • 如何过滤 jQuery.ajax() 返回的数据?

    当使用jQuery ajax 方法中 我正在努力过滤返回的数据以获取我所需要的数据 我知道这很容易使用 load 可能还有其他 jQuery AJAX 方法 但我需要使用 ajax 具体来说 例如 我知道这是可行的 var title da
  • 理解高斯混合模型的概念

    我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类 并且正在了解 GMM 与 K 均值的比较 以下是我的理解 如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类 但在 GMM 中 每个簇都有自己独立的均值和
  • 为什么 dplyr filter() 不能在函数内工作(即使用变量作为列名)?

    使用 dplyr 函数对数据进行过滤 分组和变异的函数 基本管道序列在函数之外工作得很好 这就是我使用真实列名称的地方 将其放入一个函数中 其中列名称是一个变量 并且某些函数可以工作 但有些函数则不能 尤其是 dplyr filter 例如

随机推荐