过采样和欠采样问题(二分类数据不均衡)

2023-11-12

参考:知乎专栏

项目中出现了二分类数据不平衡问题,研究总结下对于类别不平横问题的处理经验:

1:为什么类别不平衡会影响模型的输出:

许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例。在数据不平衡时,默认的阈值会导致模型输出倾向与类别数据多的类别。

因此可以在实际应用中,解决办法包括:

1)调整分类阈值,使得更倾向与类别少的数据。

2)选择合适的评估标准,比如ROC或者F1,而不是准确度(accuracy)

3)过采样法(sampling):来处理不平横的问题。分为欠采样(undersampling)和过采样(oversampling)两种,

过采样:重复正比例数据,实际上没有为模型引入更多数据,过分强调正比例数据,会放大正比例噪音对模型的影响。

欠采样:丢弃大量数据,和过采样一样会存在过拟合的问题。

由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General)

4)数据合成:SMOTE(Synthetic Minority Oversampling Technique)即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,,SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。

经验:

 

 

 

PS:(评估指标不能解决根本问题,必须把样本平衡才可能有效 )
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

过采样和欠采样问题(二分类数据不均衡) 的相关文章

随机推荐

  • 初级python爬虫薪资-月薪2万的爬虫工程师,Python需要学到什么程度?

    Python 爬虫学到什么样就可以找工作了 非计算机专业 正在自学python 很多教程里提到的网站的爬虫都会写了 比如拉勾网 豆瓣 实习僧 京东 淘宝 某妹子图等等 但是因为不是计算机专业的 也没学所谓的四大名著 不知道那四大对找工作重要
  • 残体字符设计:INVETA

    残体字符设计是logo设计中很常见的一种风格 它通过删减 多余 的笔画来实现残缺的字符 让读者通过 脑补 还原出原来的文字 以此独特的风格加深用户的产品印象 Github支持STL文本格式的3D模型预览 奈何STL格式非常简陋 难以表示复杂
  • android 的 Testing Support Library 测试支持包(库)

    Testing Support Library 测试支持包 库 这个库提供了一系列的api来快速的创建和运行测试对于你的app 包括jUnit 4 和用户 UI 的测试 创建可以使用android studio IDE 或者通过命令行 两种
  • 日志:slf4j+logback 的配置与使用

    1 常用日志组件和选择 java开发日志处理是发现和调试bug所 必不可少的 那么现在企业中常用的日志组件有哪些呢 JCL JUL SLF4j Log4j Log4j2 Logback jboss loggin 等 一般日志是配套出现的 一
  • 内存请求分页实验java_请求分页内存管理的模拟

    一 实验题目 二 代码 1 Main java package OS import java util Scanner public class Main public static int pageSize blockSize procS
  • CentOS8提高篇11:centos8软件安装dnf命令

    DNF是新一代的rpm软件包管理器 它首先出现在 Fedora 18 这个发行版中 而目前 它取代了yum 正式成为从 Fedora 22 起 Fedora 版本的包管理器 DNF包管理器克服了YUM包管理器的一些瓶颈 提升了包括用户体验
  • SE0、J、K 、Chirp J、Chirp K

    SE0 J K Chirp J Chirp K 是 USB 总线上常见的信号状态 用于表示不同的电平和信号类型 SE0 Single Ended Zero 是 USB 总线上的空闲状态 表示逻辑低电平 在 SE0 状态下 数据线 D 和 D
  • Git 强制回退到某个历史版本再推送到远程

    1 使用 git log 命令历史版本记录回退版本 git reset hard f6a7c803a6931a9eca011d4e097389e0845cbe49 2 推送到远程 git push f u origin master ps
  • sqli-labs18、19关详解

    18关 对两个输入框都进行了设置 所以只能寻找其他注入点 看到insert语句从uagents插入 我们可以用http header live插件得到post内容放进hackbar中 再在user agent里面添加修改
  • [382]定时任务JoBX(opencron升级版)

    opencron文章链接 https blog csdn net xc zhou article details 80950811 升级日志 V1 2 0 by 2018 xx xx 1 支持Window端 实现全平台编译和安装 2 简化安
  • 八大排序算法总结Java代码实现(建议收藏后食用)

    目录 排序算法介绍 相关术语 排序的稳定性 排序分类 内排序与外排序 算法时间复杂度 度量一个程序 算法 执行时间的两种方法 时间频度 忽略常数项 忽略低次项 忽略系数 时间复杂度 常数阶O 1 对数阶O log2n 线性阶O n 线性对数
  • 词法分析器(分析C语言)

    问题描述 用C或C 语言编写一个简单的词法分析程序 扫描C语言小子集的源程序 根据给定的词法规则 识别单词 填写相应的表 如果产生词法错误 则显示错误信息 位置 并试图从错误中恢复 简单的恢复方法是忽略该字符 或单词 重新开始扫描 相关词法
  • MacOS 安装GO环境与测试

    MacOS 安装GO环境 一 下载安装包 二 验证GO的版本 三 配置代理 3 1 GO111MODULE 3 2 GOPROXY 四 初始化项目 五 编译运行代码 引用 MacOS版本 Catalina 10 15 2 GO版本 go1
  • 怎样查看对方计算机网络密码,如何查看邻居家的wifi密码?不知道wifi密码怎么蹭网...

    如何查看邻居家的wifi密码 不知道wifi密码怎么蹭网 不知道大家有没有遇到这样的问题 手机虽然已经连接到了WiFi 但是却已经忘记了WiFi密码 这时候如果会有一丝担忧在心中 如果下次连接不上 或是有人问你密码 该怎么办连接WiFi呢
  • 《COM原理及应用》学习笔记之第十一章

    第11章 自动化 Automation 对象 1 自动化技术 自动化技术既以前提到的OLE自动化 虽然自动化技术建立在COM基础上 但自动化要比COM应用广泛得多 一方面 自动化继承了COM的很多优点 比如语言无关 进程透明等特性 另一方面
  • vc中gb2312和UTF-8的转换

    1 1 tools h include
  • CentOS7安装Hadoop集群完整步骤

    准备工作 搭建集群 所有机器的必须改成静态static 相关网址 https blog csdn net weixin 55076626 article details 126904432 csdn share tail 7B 22type
  • 2023华为od机试统一考试B卷Java【喊7游戏】

    前言 本题使用Java实现 如果需要python代码 请点击以下链接 点我 题目描述 喊7是一个传统的聚会游戏 N个人围成一圈 按顺时针从1到N编号 编号为1的人从1开始喊数 下一个人喊的数字为上一个人的数字加1 但是当将要喊出来的数字是7
  • 【业务功能117】微服务-springcloud-springboot-Kubernetes集群-k8s集群-KubeSphere-公共服务 Harbor镜像仓库

    kubernetes集群公共服务 Harbor 一 docker ce安装 1 1 获取YUM源 使用阿里云开源软件镜像站 wget https mirrors aliyun com docker ce linux centos docke
  • 过采样和欠采样问题(二分类数据不均衡)

    参考 知乎专栏 项目中出现了二分类数据不平衡问题 研究总结下对于类别不平横问题的处理经验 1 为什么类别不平衡会影响模型的输出 许多模型的输出类别是基于阈值的 例如逻辑回归中小于0 5的为反例 大于则为正例 在数据不平衡时 默认的阈值会导致