数据分析理论【5】之下采样策略和上采样策略

2023-11-06

合辑传送门 -->> 数据分析-合辑

在分类问题的数据中，很容易出现正反数据集数量存在极大的差距，这类数据直接用于训练不利于模型的构架，所以我们需要对数据进行些许处理。

很容易想到，合理的数据集应该是正反数据集数量应接近，那就存在两种策略：

下采样策略：把数量多的减少到与数量少的相近

上采样策略：把数量少的增加到与数量多的相近

下采样策略

这个比较好理解，如下图

上采样策略

这里主要说一下其中的一种策略：SMOTE模型

（1）对于少数类中每一个样本x，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻

（2）根据样本不平衡比例设置一个确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为xn

（3）对于每一个随机选出来的近邻xn，分别与原样本按照如下的公式构建新的样本

注意：

【1】采样倍率N应小于少数类样本x的具体数量-1。因为一个样本的K近邻的数目受到样本数的限制。

【2】在python中可以通过调用 imblearn库来便捷实现

from imblearn.over_sampling import SMOTE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

采样策略

数据分析理论【5】之下采样策略和上采样策略的相关文章

曼哈顿距离

曼哈顿距离 Manhattan distance 又称为城市街区距离或L1距离是两点在南北方向和东西方向上的距离之和对于二维平面上的两个点A x1 y1 和B x2 y2 它们的曼哈顿距离可以表示为 d x1 x2 y1 y2 其中 a

随机推荐

二叉排序树的合并（C语言）

二叉排序树的合并其实有好多方法了反正就是把元素插入进去就好了大不了两颗树都不建直接新建一个二叉排序树函数也不是很难如下 include
React（三）自定义render处理map的虚拟节点和diff算法

React 一 JSX概念和实例 Zoie ting的博客 CSDN博客 React 二实现自定义createElement和render Zoie ting的博客 CSDN博客一 map的渲染根据前两篇的实践基本把JSX渲染出来了
jsp调整字体大小font_jsp中CSS如何设置字体大小、斜体及颜色

我想在自己的网站中应用这个菜单但是菜单的字体是固定的应该怎样改变字体的大小这个字体太小了中文显示很难看先解这个问题修改这两个CSS即可 style1 font size 30px style4 font size 24px fo
使用HTML和CSS完成网页导航模块的制作步骤和方法

小编本人从事IT培训教育行业多年在教授学生网页设计课程的时候尤其是到CSS部分的时候学生总是很难理解大部分学生上手慢针对这个问题小编本人在教学的时候将网页设计分模块进行讲解今天就来给大家分享一下如何使用HTML和CSS完成网
时间序列预测——双向LSTM(Bi-LSTM)

本文展示了使用双向LSTM Bi LSTM 进行时间序列预测的全过程包含详细的注释整个过程主要包括数据导入数据清洗结构转化建立Bi LSTM模型训练模型包括动态调整学习率和earlystopping的设置预测结果展示误
ipcfg报错_编译出错信息解析

1 SRC WEB WEBPOST C 599 warning C280 ipcfg unreferenced local variable 定义了但是没有使用就会有这个警告一般来说出现这种情况则表示可以删除警告中所指的变量 2 S
redis学习：BitMap

使用位存储信息状态只有 0 和 1 这个适合哪种记录某些状态只有两种状态的比如说成绩及没及格是男是女不考虑跨性别的上班迟没迟到是或者不是这种 Bitmap是一串连续的2进制数字 0或1 每一位所在的位置为偏移 offset 在b
java.lang.IllegalStateException: Failed to convert message:‘‘ to outbound message.

java lang IllegalStateException Failed to convert message GenericMessage payload 4a76a1ea 9bab 4305 a7f9 26b63e113a19 he
jmeter 聚合数据_性能测试连载 (37)性能测试数据错误率分析

概述性能测试脚本跑完了之后我们除了要收集瓶颈数据还有分析错误数据通常一套脚本跑完错误类型不止一种但是jmeter只会在聚合报告里面给出一个总体的错误率错误率 jmeter里的错误率是如何统计的在返回的数据里面只要succe
2022上半年

2022上半年 b a c b 找不同 a 串联公式并联公式 c b d c 在本地安装的沙都软件和网页被篡改没有之间的联系 a 对于SNAT 是由内网去访问外网的时候进行的地址转换 d b c b c c d b c d b a
实现微信小程序web-view内嵌H5中的下载功能(大文件切片下载)

实现微信小程序内嵌H5中的下载功能一项目场景难点解决方案 1 H5微信小程序 a 首先必不可少的是安装jweixin module模块 b 在main js中将依赖绑定 c H5对应页面点击下载时代码为 2 uni app的小程序
python+selenium+unittest自动化测试

python selenium unittest自动化测试详解 Base 基类层最基础类供其他文件调用封装浏览器方法以方便后面代码的调用可以二次封装自带的方法方便调用其他地方调用基础类的方法如果需要修改调用地方的方法只需要
为什么我们要用Spring?

在之前的文章说说java反射 2 反射的价值我们对java反射的内容有了一定的了解并且通过反射机制做了一个简单的框架也算是对于Spring框架的铺垫接下来了解一下我们使用Spring框架的意义 Spring是一个解决了许多在J2EE开
始料未及的COVID-19、延期的考试、又可以瞎倒腾的喜悦

Hmmm 真的本来下定决心不要东摸西摸专心功课但是确实发生了本次人类历史上的大事件当然可能在以后的日子里这个也就是洒洒水水平导致了考试的延期我又再一次的东张西望起来 hmmm 好吧为了庆祝又可以自由活动特此献上抄来的小程序一篇以
解决Rosbridge自定义action信息问题

前言利用rosbridge开发一个网页版的action客户端一 rosbridge原理 rosbridge协议该协议的基本思想是将节点间的分布式通信改成 client节点与一个代理节点进行C S通信然后代理节点再将请求转发给se
多服务环境下定时任务重复执行问题解决方案

当一个服务部署在多台服务器上时定时任务可能出现多次执行的情况就是每个服务上执行一次有以下两种思路一是固定死只有某服务器执行定时任务二是随机暂停几秒某一服务执行了其他就不再执行 1 固定某一个服务器作为执行定时任务的机器通过配
基于混沌映射与差分进化的自适应教与学优化算法

文章目录一理论基础 1 标准TLBO算法 2 混沌映射与差分进化的自适应TLBO算法 1 改进的Logistic混沌映射 2 惯性权重自适应调节函数 3 教改阶段二仿真实验与分析三参考文献一理论基础 1 标准TLBO算法请
在Power BI中用DAX新建列的方式进行累计求和

在Power BI中用DAX新建列的方式进行累计求和 DAX 新建列来累计求和累计求和 DAX 新建列 DAX函数 Filter DAX函数 EARLIER DAX函数 SUMX DAX 新建列来累计求和 Power BI有两种方式进行累
没有node-sass Windows 64-bit with Node.js 16.x

throw new Error errors missingBinary OS X 64 bit with Node js 16 x Windows 64 bit with Node js 16 x 1 下载node sass 对应的版本
数据分析理论【5】之下采样策略和上采样策略

合辑传送门 gt gt 数据分析合辑在分类问题的数据中很容易出现正反数据集数量存在极大的差距这类数据直接用于训练不利于模型的构架所以我们需要对数据进行些许处理很容易想到合理的数据集应该是正反数据集数量应接近那就存在两种策略

热门标签