1.这种操作的原理是什么,目的是什么
目的是合成分类问题中的少数类样本,使数据达到平衡;
其中,样本数量过少的类别称为“少数类”。
原理和思想:合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a,b之间的连线上随机选一点作为新合成的少数类样本。
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQtaW1hZ2VzLmppYW5zaHUuaW8vdXBsb2FkX2ltYWdlcy8xMDA1MzE2Ni0yNjlhMzMwZDIyOWNjMWE4LnBuZw?x-oss-process=image/format,png)
算法流程:
a.对于少数类中每一个样本a,以欧式距离为标准,计算它到少数类样本集中所有样本的距离,得到其k近邻;
b.根据样本不平衡比例,设置一个采样比例,以确定采样倍率N,对于每一个少数类样本a,从其k近邻中随机选择若干个样本,假设选择的近邻为b;
c.对于每一个随机选出的近邻b,分别与原样本a按照如下的公式构建新的样本c: c=a +rand(0,1)*|a-b|
2. 这种操作可以提取/反应出数据的什么性质
这种操作是对非均衡数据的近似填充,使得数据的不均衡得到平衡。
3.实现
API介绍
imblearn.over_sampling.SMOTE(
sampling_strategy = ‘auto’,