不均衡数据集采样2——BorderlineSMOTE算法（过采样）

2023-11-02

论文：Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.308.9315&rep=rep1&type=pdf

Borderline Smote 算法只过采样小样本数据的边界

算法思路：

从小样本出发，计算小样本点 p p p的k近邻的全部样本，如果：

全是其他类别的样本点，则这个点是噪声（noise），不管了
一半以上，但非全部是其他类别的样本点，则为DANGER(危险)点，论文中认为这部分是容易被错误分类的点，在这些点周围生成数据
一半以下是其他类别的样本点，意味着这个点是安全的，不管了

对于DANGER(危险)点，按照SMOTE的思路（可以参考：https://blog.csdn.net/weixin_35757704/article/details/121927100）在线段上随机生成数据

示例代码

import pandas as pd
from imblearn.over_sampling import BorderlineSMOTE


def get_dataset():
    from sklearn.datasets import make_classification
    data_x, data_y = make_classification(n_samples=1000, n_classes=2, n_features=6, n_informative=4,
                                         random_state=0)  # 2个特征
    data_x = pd.DataFrame(data_x)
    data_x.columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6']
    data_y = pd.Series(data_y)
    # 删除部分数据：删除100个label为0的数据
    drop_index = data_y[data_y == 0].sample(100).index
    data_y = data_y.drop(drop_index)
    data_x = data_x.drop(drop_index)
    return data_x, data_y


if __name__ == '__main__':
    x_data, y_data = get_dataset()  # 获取数据源
    # 生成数据
    smote_data = BorderlineSMOTE().fit_resample(x_data, y_data.values)
    new_x_data = smote_data[0]  # 新的x
    new_y_data = smote_data[1]  # 新的y

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

特征工程

python

机器学习

算法

不均衡数据集采样2——BorderlineSMOTE算法（过采样）的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in

随机推荐

Yii Framework 开发教程(35) Zii组件-Button示例

CJuiButton 显示按钮 CJuiButton 既可以做为Submit 提交按钮也可以做为普通按钮按钮基本用法如下 php view plain copy print
Linux：基础开发工具之Makefile和缓冲区的基本概念

文章目录动静态库自动化构建代码缓冲区原理实现具体实现动静态库首先要知道什么是链接 C程序中并没有定义printf的函数实现且在预编译中包含的stdio h中也只有该函数的声明而没有定义函数的实现系统把这些函数实现都被做
new date()标准时间转yyyy-mm-dd hh:mm 24小时制

知识点 es6的Object方法正则表达式循环对象等直接贴代码
解决Linux关机重启连不上网的异常

NetworkManager 解决开机连不上网的问题 1 Systemctl status NetworkManager 查看NetworkManager的状态 2 如果NetworkManager的状态为运行状态关闭NetworkMan
区块链学习心得1：三个关于区块链数据安全性的重要常识性知识

前往老猿Python博文目录前面介绍了区块链的基础知识包括什么是区块链区块链类型共识算法 Merkle树默克尔树和Merkle根区块链的分叉出块最长链原则主链等概念在对这些概念理解较为彻底的基础上老猿总结了几个常识性
招聘Bev感知实习生

工作职责 1 负责Bev感知算法调研和运用 2 负责模型量化部署职位要求 1 熟悉Bevformer BevFusion等深度学习网络结构 2 熟悉C Python程序开发 3 具有良好的沟通能力良好的团队合作精神简历投递邮箱 lei
JavaSE进阶（二）—— 面向对象进阶（包、权限修饰符、抽象类、多态）

目录一包 1 什么是包 2 导包二权限修饰符 1 什么是权限修饰符 2 权限修饰符的分类和具体作用范围 3 学完权限修饰符需要具备如下能力三 final 1 final的作用 2 final修饰变量的注意四常量 1 常量概述和
C语言零基础入门习题（四）分苹果

前言 C语言是大多数小白走上程序员道路的第一步在了解基础语法后你就可以来尝试解决以下的题目放心本系列的文章都对新手非常友好 Tips 题目是英文的但我相信你肯定能看懂一 Mr Wang wants to give some ap
C++编程命名规范

C 编程命名规范 PS 根据多年工作经验和其它命名规范整理而成个人感觉比较规范的标准现应用于我的开发团队一命名通用规则文件名函数名变量名命名应具有描述性不要过度的缩写类型变量是名词函数名是动词或动词名词函数名必须是指
编译原理笔记

目录序章编译原理编译器程序设计语言第一章概述机器语言第一代语言特点汇编语言高级程序设计语言鼻祖时期特点翻译程序汇编语言解释语言编译程序编译过程词法分析语法分析语义分析中间代码生成之前三步都是编
MongoDB数据库的基本操作

一使用async await对CRUD进行封装 1 定义dao层数据库访问层专门用于访问数据库不和接口直接联系 2 定义service层服务层通过调用dao层的方法来获取数据将结果通过res对象响应给客户端 3 路由接口功能
odoo14本地开发部署

odoo本地开发部署 1 使用git在本地安装odoo 1 1地址 https github com odoo odoo 1 2 复制https里面链接 git clone http github com odoo odoo git 1 2
maven打包，依赖也打进jar包

一如果没有依赖第三方包可以用maven jar plugin插件只是修改META INFO下的MANIFEST MF信息指定运行jar包的main入口
[代码审计] fengcms1.32从详细漏洞分析到漏洞利用

前言这是我在此发表的第一篇代码审计的文章仅供学习参考首发于哈拉少安全小队微信公众号一 Cms初识 FengCms 由地方网络工作室基于PHP MYSQL开发是一款开源的网站内容管理系统系统支持自由订制模型你完全可以用FengC
感知机算法（原始和对偶）——100%还原统计学习方法的python代码实现,每行都有注释，超清晰

参考统计学习方法第二版李航著目录一感知机的定义二感知机模型三感知机学习策略四感知机学习算法 4 1感知机学习算法的原始形式 4 2 感知机学习算法的对偶形式一感知机的定义假设输入空间特征空间是输出空间是
[第五空间 2021]pklovecloud
VScode如何设置默认自动换行设置

VScode安装完默认不能自动换行文本超出显示时需要拖动下面的滑块才能看到超出的部分如图看起来很不方便自动换行为了更方便看代码我们可以设置自动换行显示在菜单查看切换自动换行选中就可以自动换行了或者直接按快捷键 AL
c++中的栈内存和堆内存的区别以及智能指针的使用

栈内存和堆内存的区别 https www cnblogs com ChenZhongzhou p 5685537 html https blog csdn net qianyayun19921028 article details 8036
python如何实现前后端交互_笔记

前端工程师的职责 1 UI重构 2 在正确的区域渲染出服务端的数据毕竟我们要构建一个大的web应用必然不是普普通通的静态页面构成下文将罗列前端工程师应该必备的同后端打交道的常用技能 1 服务端渲染谈起服务端渲染对于动态服务而言
不均衡数据集采样2——BorderlineSMOTE算法（过采样）

论文 Borderline SMOTE A New Over Sampling Method in Imbalanced Data Sets Learning https citeseerx ist psu edu viewdoc down

不均衡数据集采样2——BorderlineSMOTE算法（过采样）

示例代码

不均衡数据集采样2——BorderlineSMOTE算法（过采样） 的相关文章

随机推荐

热门标签

不均衡数据集采样2——BorderlineSMOTE算法（过采样）的相关文章