处理不平衡问题后,数据高度倾斜,准确性下降

2024-01-28

在对数据进行预处理(例如缺失值替换和异常值检测)后,我使用随机化方法对数据进行分区,并使用 WEKA 删除百分比过滤器。我的数据集是一个高度倾斜的数据集,不平衡比为 6:1,对应于负类和正类。如果我使用朴素贝叶斯分类器对数据进行分类,而不处理类不平衡问题,则准确率达到 83%,召回率为 0.623。但是,如果我使用监督实例重新采样或监督实例spreadsub样本过滤器处理类不平衡(平衡1:1后),然后应用朴素贝叶斯进行分类精度下降77%,召回率0.456。

我不明白为什么在处理类别不平衡率时准确性会降低?

谢谢。


如果班级比例不平衡为 6:1,则多数班级为 6/7 = 85.7%。仅通过预测多数类(例如使用 ZeroR),您将获得比 NaiveBayes 所实现的稍好的准确性。

平衡数据集后,NaiveBayes 报告的准确度为 77%,远高于预测多数类别的 50%。

从某种意义上说,NaiveBayes 确实有所进步。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

处理不平衡问题后,数据高度倾斜,准确性下降 的相关文章

  • fastText 中的精确度和召回率?

    我实现了 fastText 进行文本分类 链接https github com facebookresearch fastText blob master tutorials supervised learning md https git
  • WEKA 工具包中的隐马尔可夫模型相当于什么?

    我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类 每个加速度计都会给我一个 X Y 和 Z 值 因此 在每个样本中 我有 8 x 3 24 个加速度值 我的采样频率约为 30 Hz 执行时间约为 0 5 秒 起初我想为此使用隐
  • R中使用GBM函数进行分类的问题

    我试图用R中的gum函数来做分类问题 library gbm set seed 1 boost goodwine gbm goodwine quality data traindata shrinkage 0 01 cv folds 5 d
  • 如何生成阳性预测值 (PPV) 与各种分类截止点的关系图?

    我生成了一些分数来帮助预测某些内容是 是 1 还是 否 0 假设数据包括 scores c 10 20 response c 0 0 1 0 1 0 1 1 0 1 1 mydata data frame scores response 我
  • Weka:如何在 java 中获取测试实例的预测值?

    我已经成功训练了一个分类器 bayesnet 并构建了一个测试集 ARFF 格式 该测试集有一个实例 有一个缺失值 Evaluation eTest new Evaluation trainingInstance eTest evaluat
  • 逻辑回归中的成本函数给出 NaN 结果

    我正在使用批量梯度下降来实现逻辑回归 输入样本要分为两类 类别为 1 和 0 在训练数据时 我使用以下 sigmoid 函数 t 1 1 exp z where z x theta 我正在使用以下成本函数来计算成本 以确定何时停止训练 fu
  • 如何创建带有彩色分支的树状图?

    I would like to create a dendrogram in R which has colored branches like the one shown below 到目前为止 我使用以下命令来创建标准树状图 d lt
  • Eclipse - 为现有项目设置 .classpath 文件

    我有一个java项目 来自其他人的 Eclipse 项目的工作文件夹 我认为这是一个 Repast Simphony 项目 在我的 Eclipse 中 我创建了一个新的 Java 项目并告诉它使用现有的代码 所以它似乎已经引入了所有代码 但
  • 如何在新算法中添加weka特征?

    我想在 weka 中添加一种新算法 在一个算法中具有分类 聚类 关联等功能 我应该如何编写代码来包含所有 weka 功能 并为这个新算法向 weka 添加一个选项卡 我已经向 weka 添加了一个虚拟算法 现在它可以工作了我想添加一个结合了
  • 如何在CARET中自定义模型来执行PLS-[Classifier]两步分类模型?

    这个问题是同一线程的延续here https stats stackexchange com questions 81727 what is the best strategy to train and validate classific
  • SGDClassifier 每次为文本分类提供不同的准确度

    我使用 SVM 分类器将文本分类为好文本和乱码 我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
  • SPMD 与 Parfor

    我对 matlab 中的并行计算很陌生 我有一个创建分类器 SVM 的函数 我想用几个数据集来测试它 我有一个 2 核工作站 所以我想并行运行测试 有人可以向我解释一下以下之间的区别 dataset array dataset1 datas
  • 混淆矩阵不支持多标签指示符

    multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
  • Windows 上的 NLTK MEGAM Max Ent 算法

    我一直在 Python 上使用 NLTK 但无法使用 MEGAM Max Ent 算法 因为缺少任何版本的 MEGAM 库等于或高于 0 3 的 Windows 64 位可执行文件 需要包含 NLTK 的 nobias 选项工作 在 v 0
  • 增量决策树 C++ 实现

    有谁知道决策树分类器的增量实现吗 这样 当您将新实例添加到训练集中时 它可以根据现有决策树分类器以低计算量并尽可能快地生成最佳决策树分类器 换句话说 我有一个最优决策树分类器集A 其中命名为T 1 现在我想添加实例X to set A并找到
  • 如何使用 lstm 执行多类多输出分类

    I have multiclass multioutput classification see https scikit learn org stable modules multiclass html https scikit lear
  • 批量大小不适用于带有deploy.prototxt的caffe

    我正在努力让我的分类过程更快一些 我想增加我的deploy prototxt中的第一个input dim 但这似乎不起作用 甚至比对每张图像进行分类还要慢一点 部署 prototxt input data input dim 128 inp
  • 使用 CNN 和 pytorch 计算每个类别的准确度

    我可以使用此代码计算每个时期后的准确性 但是 我想最后计算每个班级的准确性 我怎样才能做到这一点 我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练 否则 val 文件夹用于测试
  • 使用 to_categorical 转换 np.array 时出现内存问题

    我有一个像这样的 numpy 数组 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 我这样改造它以减少内存需求 x val x val asty
  • Keras:binary_crossentropy 和 categorical_crossentropy 混淆

    使用 TensorFlow 一段时间后 我阅读了一些 Keras 教程并实现了一些示例 我找到了几个使用卷积自动编码器的教程keras losses binary crossentropy作为损失函数 我想binary crossentro

随机推荐