在对数据进行预处理(例如缺失值替换和异常值检测)后,我使用随机化方法对数据进行分区,并使用 WEKA 删除百分比过滤器。我的数据集是一个高度倾斜的数据集,不平衡比为 6:1,对应于负类和正类。如果我使用朴素贝叶斯分类器对数据进行分类,而不处理类不平衡问题,则准确率达到 83%,召回率为 0.623。但是,如果我使用监督实例重新采样或监督实例spreadsub样本过滤器处理类不平衡(平衡1:1后),然后应用朴素贝叶斯进行分类精度下降77%,召回率0.456。
我不明白为什么在处理类别不平衡率时准确性会降低?
谢谢。
如果班级比例不平衡为 6:1,则多数班级为 6/7 = 85.7%。仅通过预测多数类(例如使用 ZeroR),您将获得比 NaiveBayes 所实现的稍好的准确性。
平衡数据集后,NaiveBayes 报告的准确度为 77%,远高于预测多数类别的 50%。
从某种意义上说,NaiveBayes 确实有所进步。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)