1 数据预处理 Preprocessing & Impute
preprocessing.MinMaxScaler数据归一化
MinMaxScaler有一个重要参数, feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。
![](https://img-blog.csdnimg.cn/83eb6b1812c64907a87d3fc9f5b767f7.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ0hFTueahOWwj-WWtQ==,size_20,color_FFFFFF,t_70,g_se,x_16)
使用 feature_range控制参数范围
![](https://img-blog.csdnimg.cn/e2758657c4554fa99eca61d4d1b587b7.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ0hFTueahOWwj-WWtQ==,size_20,color_FFFFFF,t_70,g_se,x_16)
当X中的特征数量非常多的时候,fit会报错并表示,数据量太大了我计算不了 ,此时使用partial_fit作为训练接口 ,scaler = scaler.partial_fit(data)
preprocessing.StandardScaler 数据标准化
当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的正态分布(即标准正态分布),而这个过程,就叫做数据标准化
![](https://img-blog.csdnimg.cn/055851f6ab7f4e7186543bd39bf6e48a.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ0hFTueahOWwj-WWtQ==,size_20,color_FFFFFF,t_70,g_se,x_16)
2 处理缺失值
impute.SimpleImputer
class sklearn.impute.SimpleImputer (missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)
![](https://img-blog.csdnimg.cn/740b75e397334a49be42b92bc15a8f49.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ0hFTueahOWwj-WWtQ==,size_20,color_FFFFFF,t_70,g_se,x_16)
使用从泰坦尼克号提取出来的数据进行实例填补
![](https://img-blog.csdnimg.cn/a529ed7f3c1c4f7ebe201f61520f46ea.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ0hFTueahOWwj-WWtQ==,size_20,color_FFFFFF,t_70,g_se,x_16)
数据的前五行以及基本信息
![](https://img-blog.csdnimg.cn/12d23a085c1c4901845e7cbbe3e3ad07.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ0hFTueahOWwj-WWtQ==,size_20,color_FFFFFF,t_70,g_se,x_16)
3 处理分类型特征:编码与哑变量
pre