处理不平衡问题后，数据高度倾斜，准确性下降

2024-01-28

在对数据进行预处理（例如缺失值替换和异常值检测）后，我使用随机化方法对数据进行分区，并使用 WEKA 删除百分比过滤器。我的数据集是一个高度倾斜的数据集，不平衡比为 6:1，对应于负类和正类。如果我使用朴素贝叶斯分类器对数据进行分类，而不处理类不平衡问题，则准确率达到 83%，召回率为 0.623。但是，如果我使用监督实例重新采样或监督实例spreadsub样本过滤器处理类不平衡（平衡1：1后），然后应用朴素贝叶斯进行分类精度下降77％，召回率0.456。

我不明白为什么在处理类别不平衡率时准确性会降低？

谢谢。

如果班级比例不平衡为 6:1，则多数班级为 6/7 = 85.7%。仅通过预测多数类（例如使用 ZeroR），您将获得比 NaiveBayes 所实现的稍好的准确性。

平衡数据集后，NaiveBayes 报告的准确度为 77%，远高于预测多数类别的 50%。

从某种意义上说，NaiveBayes 确实有所进步。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Classification

Weka

处理不平衡问题后，数据高度倾斜，准确性下降的相关文章

fastText 中的精确度和召回率？

我实现了 fastText 进行文本分类链接https github com facebookresearch fastText blob master tutorials supervised learning md https git
WEKA 工具包中的隐马尔可夫模型相当于什么？

我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类每个加速度计都会给我一个 X Y 和 Z 值因此在每个样本中我有 8 x 3 24 个加速度值我的采样频率约为 30 Hz 执行时间约为 0 5 秒起初我想为此使用隐
R中使用GBM函数进行分类的问题

我试图用R中的gum函数来做分类问题 library gbm set seed 1 boost goodwine gbm goodwine quality data traindata shrinkage 0 01 cv folds 5 d
如何生成阳性预测值 (PPV) 与各种分类截止点的关系图？

我生成了一些分数来帮助预测某些内容是是 1 还是否 0 假设数据包括 scores c 10 20 response c 0 0 1 0 1 0 1 1 0 1 1 mydata data frame scores response 我
Weka：如何在 java 中获取测试实例的预测值？

我已经成功训练了一个分类器 bayesnet 并构建了一个测试集 ARFF 格式该测试集有一个实例有一个缺失值 Evaluation eTest new Evaluation trainingInstance eTest evaluat
逻辑回归中的成本函数给出 NaN 结果

我正在使用批量梯度下降来实现逻辑回归输入样本要分为两类类别为 1 和 0 在训练数据时我使用以下 sigmoid 函数 t 1 1 exp z where z x theta 我正在使用以下成本函数来计算成本以确定何时停止训练 fu
如何创建带有彩色分支的树状图？

I would like to create a dendrogram in R which has colored branches like the one shown below 到目前为止我使用以下命令来创建标准树状图 d lt
Eclipse - 为现有项目设置 .classpath 文件

我有一个java项目来自其他人的 Eclipse 项目的工作文件夹我认为这是一个 Repast Simphony 项目在我的 Eclipse 中我创建了一个新的 Java 项目并告诉它使用现有的代码所以它似乎已经引入了所有代码但
如何在新算法中添加weka特征？

我想在 weka 中添加一种新算法在一个算法中具有分类聚类关联等功能我应该如何编写代码来包含所有 weka 功能并为这个新算法向 weka 添加一个选项卡我已经向 weka 添加了一个虚拟算法现在它可以工作了我想添加一个结合了
如何在CARET中自定义模型来执行PLS-[Classifier]两步分类模型？

这个问题是同一线程的延续here https stats stackexchange com questions 81727 what is the best strategy to train and validate classific
SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
SPMD 与 Parfor

我对 matlab 中的并行计算很陌生我有一个创建分类器 SVM 的函数我想用几个数据集来测试它我有一个 2 核工作站所以我想并行运行测试有人可以向我解释一下以下之间的区别 dataset array dataset1 datas
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
Windows 上的 NLTK MEGAM Max Ent 算法

我一直在 Python 上使用 NLTK 但无法使用 MEGAM Max Ent 算法因为缺少任何版本的 MEGAM 库等于或高于 0 3 的 Windows 64 位可执行文件需要包含 NLTK 的 nobias 选项工作在 v 0
增量决策树 C++ 实现

有谁知道决策树分类器的增量实现吗这样当您将新实例添加到训练集中时它可以根据现有决策树分类器以低计算量并尽可能快地生成最佳决策树分类器换句话说我有一个最优决策树分类器集A 其中命名为T 1 现在我想添加实例X to set A并找到
如何使用 lstm 执行多类多输出分类

I have multiclass multioutput classification see https scikit learn org stable modules multiclass html https scikit lear
批量大小不适用于带有deploy.prototxt的caffe

我正在努力让我的分类过程更快一些我想增加我的deploy prototxt中的第一个input dim 但这似乎不起作用甚至比对每张图像进行分类还要慢一点部署 prototxt input data input dim 128 inp
使用 CNN 和 pytorch 计算每个类别的准确度

我可以使用此代码计算每个时期后的准确性但是我想最后计算每个班级的准确性我怎样才能做到这一点我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练否则 val 文件夹用于测试
使用 to_categorical 转换 np.array 时出现内存问题

我有一个像这样的 numpy 数组 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 我这样改造它以减少内存需求 x val x val asty
Keras：binary_crossentropy 和 categorical_crossentropy 混淆

使用 TensorFlow 一段时间后我阅读了一些 Keras 教程并实现了一些示例我找到了几个使用卷积自动编码器的教程keras losses binary crossentropy作为损失函数我想binary crossentro

随机推荐

PHP preg_replace：删除字符串开头和结尾的标点符号

我可以在 PHP 中使用什么正则表达式来删除字符串开头和结尾的所有标点符号我不会使用正则表达式可能是这样的 str trim str 其中第二个参数是您定义的标点假设你真正的意思是 was to 去掉字母数字等以外的内容我会和一
css 过滤器使元素变成一种颜色

以下 CSS 过滤器 filter brightness 0 invert 1 使元素全白 source https stackoverflow com questions 24224112 css filter make color im
C++ 中的链选项

如何避免在 C 中使用链式选项嵌套 if 语句例如如果类型 A 包含std optional b b和 B 型std optional b
MYSQL更新查询删除空格

我的一位客户在我们的一个应用程序中添加了多个帐号尝试进行交易时由于帐号末尾有空格交易失败我如何更新他在Mysql数据库中的记录以删除末尾有空格的帐户中的所有空格而不会让他删除客户端并重新添加帐户表的结构如下不知道如何构造查询
qsort 是否需要一致的比较，或者我可以用它来进行洗牌吗？

Update 请将其归档到坏主意下生活中没有任何东西是免费得到的这就是证据一个简单的想法却变坏了但这绝对是值得学习的东西惰性编程挑战如果我传递一个函数该函数对于 qsort 的比较函数返回 50 50 返回 true 或
红宝石确定季节（秋季、冬季、春季或夏季）

我正在编写一个脚本该脚本应该根据日期范围确定一年中的季节例如 January 1 April 1 Winter April 2 June 30 Spring July 1 September 31 Summer October 1 D
如何处理 JOptionPane 中的取消按钮

I had created a JOptionPane of type showInputDialog When it opens it it shows me two buttons OK and Cancel I would like
未捕获的引用错误：ga 未定义

我想知道人们点击某个特定按钮的次数使用谷歌分析应该非常简单但是我在谷歌控制台上遇到了未捕获的引用错误 ga未定义错误并且找不到如何修复它我在头部添加了这个
在 Android 上将 USB 波特率从 9600 更改为 115200

我有一个 Arduino 它以 115200 波特率串行发送数据有一个应用程序以 9600 波特率从 Arduino 接收数据代码是 Arduino USB serial converter setup Set control line
Yii CGridView 超链接在新选项卡中打开

我已经将我的 yii CGridview 的一栏作为超链接但单击它后它会在同一选项卡中打开链接地址如何在新选项卡中打开链接地址 array header gt Name name gt name value gt CHtml link
在 WinRT 应用程序中处理 2、3、4、5 个手指点击、双击和按住手势

我可以轻松处理 1 根手指Tapped DoubleTap and Holding像这样的手势 public MainPage this InitializeComponent this Tapped mc Tapped this Doub
如何旋转MKMapView并保持Annotation和视图不旋转？

我正在制作一个显示用户当前位置的 MKMapView 我想像 Google 地图应用程序一样旋转地图但不旋转注释我使用以下代码 void locationManager CLLocationManager manager didUpda
替换 msbuild 变量中的字符

我需要替换要传递给 msbuild 4 中的 exec 任务的变量中的字符具体来说我需要替换所有出现的反斜杠带有正斜杠 in the MSBuildProjectDirectory 多变的 eg
play2框架我的模板是没有看到的。 : 包views.html不存在

问题是控制器看不到我想使用的模板 etl admin compile info 编译 3 个 Scala 源代码和 4 个 Java 源代码来源 D ECLIPSE WORKSPACES play2 apps etl admin targ
在谷歌地图图块上绘制形状文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些形状文件想要在 Google 地图图块上绘制做到这一点最有效的方法是什么一种方法可能是使用 pkg RgoogleMaps
如何传递手势选择器的参数

我向标签添加了一个手势当点击时我想触发 showlbl 它将以 int 作为参数但是我收到一个编译器错误 UITapGestureRecognizer gestlbl0 UITapGestureRecognizer alloc init
Spring 视图不尊重 @UIScope 注释？

我遇到 Vaadin spring 注释的问题 UIScope 定义如下 SpringComponent SpringView name AdminView VIEW NAME UIScope public class AdminView
Symfony 4 全局路由前缀

我在 Symfony 4 应用程序中找不到有关全局路由前缀的任何信息唯一的thing https symfony com blog new in symfony 3 4 prefix all controller route names我
ImportError：尝试导入祝福时没有名为“_curses”的模块

我正在尝试运行这个 from blessings import Terminal t Terminal print t bold Hi there print t bold red on bright green It hurts my e
处理不平衡问题后，数据高度倾斜，准确性下降

在对数据进行预处理例如缺失值替换和异常值检测后我使用随机化方法对数据进行分区并使用 WEKA 删除百分比过滤器我的数据集是一个高度倾斜的数据集不平衡比为 6 1 对应于负类和正类如果我使用朴素贝叶斯分类器对数据进行分类而不处

处理不平衡问题后，数据高度倾斜，准确性下降

处理不平衡问题后，数据高度倾斜，准确性下降 的相关文章

随机推荐

热门标签

处理不平衡问题后，数据高度倾斜，准确性下降的相关文章