不均衡数据集采样2——BorderlineSMOTE算法(过采样)

2023-11-02

论文:Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.308.9315&rep=rep1&type=pdf

Borderline Smote 算法只过采样小样本数据的边界

算法思路:

  1. 从小样本出发,计算小样本点 p p p的k近邻的全部样本,如果:
  • 全是其他类别的样本点,则这个点是噪声(noise),不管了
  • 一半以上,但非全部是其他类别的样本点,则为DANGER(危险)点,论文中认为这部分是容易被错误分类的点,在这些点周围生成数据
  • 一半以下是其他类别的样本点,意味着这个点是安全的,不管了
  1. 对于DANGER(危险)点,按照SMOTE的思路(可以参考:https://blog.csdn.net/weixin_35757704/article/details/121927100)在线段上随机生成数据

示例代码

import pandas as pd
from imblearn.over_sampling import BorderlineSMOTE


def get_dataset():
    from sklearn.datasets import make_classification
    data_x, data_y = make_classification(n_samples=1000, n_classes=2, n_features=6, n_informative=4,
                                         random_state=0)  # 2个特征
    data_x = pd.DataFrame(data_x)
    data_x.columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6']
    data_y = pd.Series(data_y)
    # 删除部分数据:删除100个label为0的数据
    drop_index = data_y[data_y == 0].sample(100).index
    data_y = data_y.drop(drop_index)
    data_x = data_x.drop(drop_index)
    return data_x, data_y


if __name__ == '__main__':
    x_data, y_data = get_dataset()  # 获取数据源
    # 生成数据
    smote_data = BorderlineSMOTE().fit_resample(x_data, y_data.values)
    new_x_data = smote_data[0]  # 新的x
    new_y_data = smote_data[1]  # 新的y
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

不均衡数据集采样2——BorderlineSMOTE算法(过采样) 的相关文章

随机推荐

  • Yii Framework 开发教程(35) Zii组件-Button示例

    CJuiButton 显示按钮 CJuiButton 既可以做为Submit 提交 按钮 也可以做为普通按钮 按钮基本用法如下 php view plain copy print
  • Linux:基础开发工具之Makefile和缓冲区的基本概念

    文章目录 动静态库 自动化构建代码 缓冲区 原理实现 具体实现 动静态库 首先要知道什么是链接 C程序中 并没有定义printf的函数实现 且在预编译中包含的stdio h中也只有该函数的声明 而没有定义函数的实现 系统把这些函数实现都被做
  • new date()标准时间转yyyy-mm-dd hh:mm 24小时制

    知识点 es6的Object方法 正则表达式 循环对象等 直接贴代码
  • 解决Linux关机重启连不上网的异常

    NetworkManager 解决开机连不上网的问题 1 Systemctl status NetworkManager 查看NetworkManager的状态 2 如果NetworkManager的状态为运行状态 关闭NetworkMan
  • 区块链学习心得1:三个关于区块链数据安全性的重要常识性知识

    前往老猿Python博文目录 前面介绍了区块链的基础知识 包括什么是区块链 区块链类型 共识算法 Merkle树 默克尔树 和Merkle根 区块链的分叉 出块 最长链原则 主链等概念 在对这些概念理解较为彻底的基础上 老猿总结了几个常识性
  • 招聘Bev感知实习生

    工作职责 1 负责Bev感知算法调研和运用 2 负责模型量化部署 职位要求 1 熟悉Bevformer BevFusion等深度学习网络结构 2 熟悉C Python程序开发 3 具有良好的沟通能力 良好的团队合作精神 简历投递邮箱 lei
  • JavaSE进阶(二)—— 面向对象进阶(包、权限修饰符、抽象类、多态)

    目录 一 包 1 什么是包 2 导包 二 权限修饰符 1 什么是权限修饰符 2 权限修饰符的分类和具体作用范围 3 学完权限修饰符需要具备如下能力 三 final 1 final的作用 2 final修饰变量的注意 四 常量 1 常量概述和
  • C语言零基础入门习题(四)分苹果

    前言 C语言是大多数小白走上程序员道路的第一步 在了解基础语法后 你就可以来尝试解决以下的题目 放心 本系列的文章都对新手非常友好 Tips 题目是英文的 但我相信你肯定能看懂 一 Mr Wang wants to give some ap
  • C++编程命名规范

    C 编程命名规范 PS 根据多年工作经验和其它命名规范整理而成 个人感觉比较规范的标准 现应用于我的开发团队 一 命名通用规则 文件名 函数名 变量名命名应具有描述性 不要过度的缩写 类型变量是名词 函数名是动词或动词 名词 函数名必须是指
  • 编译原理笔记

    目录 序章 编译原理 编译器 程序设计语言 第一章 概述 机器语言 第一代语言 特点 汇编语言 高级程序设计语言 鼻祖 时期 特点 翻译程序 汇编语言 解释语言 编译程序 编译过程 词法分析 语法分析 语义分析 中间代码生成 之前三步都是编
  • MongoDB数据库的基本操作

    一 使用async await对CRUD进行封装 1 定义dao层 数据库访问层 专门用于访问数据库 不和接口直接联系 2 定义service层 服务层 通过调用dao层的方法来获取数据 将结果通过res对象响应给客户端 3 路由接口 功能
  • odoo14本地开发部署

    odoo本地开发部署 1 使用git在本地安装odoo 1 1地址 https github com odoo odoo 1 2 复制https里面链接 git clone http github com odoo odoo git 1 2
  • maven打包,依赖也打进jar包

    一 如果没有依赖第三方包 可以用maven jar plugin插件 只是修改META INFO下的MANIFEST MF信息 指定运行jar包的main入口
  • [代码审计] fengcms1.32从详细漏洞分析到漏洞利用

    前言 这是我在此发表的第一篇代码审计的文章 仅供学习参考 首发于哈拉少安全小队微信公众号 一 Cms初识 FengCms 由地方网络工作室基于PHP MYSQL开发 是一款开源的网站内容管理系统 系统支持自由订制模型 你完全可以用FengC
  • 感知机算法(原始和对偶)——100%还原统计学习方法的python代码实现,每行都有注释,超清晰

    参考 统计学习方法 第二版 李航著 目录 一 感知机的定义 二 感知机模型 三 感知机学习策略 四 感知机学习算法 4 1感知机学习算法的原始形式 4 2 感知机学习算法的对偶形式 一 感知机的定义 假设输入空间 特征空间 是 输出空间是
  • [第五空间 2021]pklovecloud

  • VScode如何设置默认自动换行设置

    VScode安装完默认不能自动换行 文本超出显示时 需要拖动下面的滑块才能看到超出的部分 如图 看起来很不方便 自动换行 为了更方便看代码 我们可以设置自动换行显示 在菜单 查看 切换自动换行 选中 就可以自动换行了 或者直接按快捷键 AL
  • c++中的栈内存和堆内存的区别以及智能指针的使用

    栈内存和堆内存的区别 https www cnblogs com ChenZhongzhou p 5685537 html https blog csdn net qianyayun19921028 article details 8036
  • python如何实现前后端交互_笔记

    前端工程师的职责 1 UI重构 2 在正确的区域渲染出服务端的数据 毕竟 我们要构建一个大的web应用 必然不是普普通通的静态页面构成 下文将罗列前端工程师应该必备的同后端打交道的常用技能 1 服务端渲染 谈起服务端渲染 对于动态服务而言
  • 不均衡数据集采样2——BorderlineSMOTE算法(过采样)

    论文 Borderline SMOTE A New Over Sampling Method in Imbalanced Data Sets Learning https citeseerx ist psu edu viewdoc down