数据分析理论【5】之 下采样策略和上采样策略

2023-11-06

合辑传送门 -->> 数据分析-合辑

在分类问题的数据中,很容易出现正反数据集数量存在极大的差距,这类数据直接用于训练不利于模型的构架,所以我们需要对数据进行些许处理。

很容易想到,合理的数据集应该是正反数据集数量应接近,那就存在两种策略:

下采样策略:把数量多的减少到与数量少的相近

上采样策略:把数量少的增加到与数量多的相近


下采样策略

这个比较好理解,如下图


上采样策略

这里主要说一下其中的一种策略:SMOTE模型

(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻

(2)根据样本不平衡比例设置一个确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn

(3)对于每一个随机选出来的近邻xn,分别与原样本按照如下的公式构建新的样本

注意:

【1】采样倍率N应小于少数类样本x的具体数量-1。因为一个样本的K近邻的数目受到样本数的限制。

【2】在python中可以通过调用 imblearn库来便捷实现

from imblearn.over_sampling import SMOTE

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析理论【5】之 下采样策略和上采样策略 的相关文章

  • 曼哈顿距离

    曼哈顿距离 Manhattan distance 又称为城市街区距离或L1距离 是两点在南北方向和东西方向上的距离之和 对于二维平面上的两个点A x1 y1 和B x2 y2 它们的曼哈顿距离可以表示为 d x1 x2 y1 y2 其中 a

随机推荐

  • 二叉排序树的合并(C语言)

    二叉排序树的合并其实有好多方法了 反正就是把元素插入进去就好了 大不了两颗树都不建直接新建一个二叉排序树 函数也不是很难 如下 include
  • React(三)自定义render处理map的虚拟节点和diff算法

    React 一 JSX概念和实例 Zoie ting的博客 CSDN博客 React 二 实现自定义createElement和render Zoie ting的博客 CSDN博客 一 map的渲染 根据前两篇的实践 基本把JSX渲染出来了
  • jsp调整字体大小font_jsp中CSS如何设置字体大小、斜体及颜色

    我想在自己的网站中应用这个菜单 但是菜单的字体是固定的 应该怎样改变字体的大小 这个字体太小了 中文显示很难看 先解这个问题 修改这两个CSS即可 style1 font size 30px style4 font size 24px fo
  • 使用HTML和CSS完成网页导航模块的制作步骤和方法

    小编本人从事IT培训教育行业多年 在教授学生网页设计课程的时候 尤其是到CSS部分的时候 学生总是很难理解 大部分学生上手慢 针对这个问题 小编本人在教学的时候 将网页设计分模块进行讲解 今天就来给大家分享一下如何使用HTML和CSS完成网
  • 时间序列预测——双向LSTM(Bi-LSTM)

    本文展示了使用双向LSTM Bi LSTM 进行时间序列预测的全过程 包含详细的注释 整个过程主要包括 数据导入 数据清洗 结构转化 建立Bi LSTM模型 训练模型 包括动态调整学习率和earlystopping的设置 预测 结果展示 误
  • ipcfg报错_编译出错信息解析

    1 SRC WEB WEBPOST C 599 warning C280 ipcfg unreferenced local variable 定义了 但是没有使用 就会有这个警告 一般来说 出现这种情况则表示可以删除警告中所指的变量 2 S
  • redis学习:BitMap

    使用位存储 信息状态只有 0 和 1 这个适合哪种记录某些状态只有两种状态的 比如说成绩及没及格 是男是女 不考虑跨性别的 上班迟没迟到 是或者不是这种 Bitmap是一串连续的2进制数字 0或1 每一位所在的位置为偏移 offset 在b
  • java.lang.IllegalStateException: Failed to convert message:‘‘ to outbound message.

    java lang IllegalStateException Failed to convert message GenericMessage payload 4a76a1ea 9bab 4305 a7f9 26b63e113a19 he
  • jmeter 聚合数据_性能测试连载 (37)性能测试数据错误率分析

    概述 性能测试脚本跑完了之后 我们除了要收集瓶颈数据 还有分析错误数据 通常一套脚本跑完 错误类型不止一种 但是jmeter只会在聚合报告里面给出一个总体的错误率 错误率 jmeter里的错误率是如何统计的 在返回的数据里面 只要succe
  • 2022上半年

    2022上半年 b a c b 找不同 a 串联公式 并联公式 c b d c 在本地安装的沙都软件和网页被篡改没有之间的联系 a 对于SNAT 是由内网去访问外网的时候进行的地址转换 d b c b c c d b c d b a
  • 实现微信小程序web-view内嵌H5中的下载功能(大文件切片下载)

    实现微信小程序内嵌H5中的下载功能 一 项目场景 难点 解决方案 1 H5微信小程序 a 首先必不可少的是安装jweixin module模块 b 在main js中将依赖绑定 c H5对应页面点击下载时代码为 2 uni app的小程序
  • python+selenium+unittest自动化测试

    python selenium unittest自动化测试详解 Base 基类层 最基础类 供其他文件调用 封装浏览器方法 以方便后面代码的调用 可以二次封装自带的方法 方便调用 其他地方调用基础类的方法 如果需要修改调用地方的方法 只需要
  • 为什么我们要用Spring?

    在之前的文章说说java反射 2 反射的价值我们对java反射的内容有了一定的了解 并且通过反射机制做了一个简单的框架 也算是对于Spring框架的铺垫 接下来了解一下我们使用Spring框架的意义 Spring是一个解决了许多在J2EE开
  • 始料未及的COVID-19、延期的考试、又可以瞎倒腾的喜悦

    Hmmm 真的本来下定决心不要东摸西摸专心功课 但是确实发生了本次人类历史上的大事件 当然可能在以后的日子里这个也就是洒洒水水平 导致了考试的延期 我又再一次的东张西望起来 hmmm 好吧为了庆祝又可以自由活动 特此献上抄来的小程序一篇 以
  • 解决Rosbridge自定义action信息问题

    前言 利用rosbridge开发一个网页版的action客户端 一 rosbridge原理 rosbridge协议 该协议的基本思想是将节点间的分布式通信 改成 client节点 与一个代理节点进行C S通信 然后代理节点再将请求转发给se
  • 多服务环境下定时任务重复执行问题解决方案

    当一个服务部署在多台服务器上时 定时任务可能出现多次执行的情况 就是每个服务上执行一次 有以下两种思路 一是固定死只有某服务器执行定时任务 二是随机暂停几秒 某一服务执行了 其他就不再执行 1 固定某一个服务器作为执行定时任务的机器 通过配
  • 基于混沌映射与差分进化的自适应教与学优化算法

    文章目录 一 理论基础 1 标准TLBO算法 2 混沌映射与差分进化的自适应TLBO算法 1 改进的Logistic混沌映射 2 惯性权重自适应调节函数 3 教改阶段 二 仿真实验与分析 三 参考文献 一 理论基础 1 标准TLBO算法 请
  • 在Power BI中用DAX新建列的方式进行累计求和

    在Power BI中用DAX新建列的方式进行累计求和 DAX 新建列来累计求和 累计求和 DAX 新建列 DAX函数 Filter DAX函数 EARLIER DAX函数 SUMX DAX 新建列来累计求和 Power BI有两种方式进行累
  • 没有node-sass Windows 64-bit with Node.js 16.x

    throw new Error errors missingBinary OS X 64 bit with Node js 16 x Windows 64 bit with Node js 16 x 1 下载node sass 对应的版本
  • 数据分析理论【5】之 下采样策略和上采样策略

    合辑传送门 gt gt 数据分析 合辑 在分类问题的数据中 很容易出现正反数据集数量存在极大的差距 这类数据直接用于训练不利于模型的构架 所以我们需要对数据进行些许处理 很容易想到 合理的数据集应该是正反数据集数量应接近 那就存在两种策略