Python数据分析之特征工程

df=pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],
                 "B":["b0","b1","b2","b2","b3",None],
                 "C":[1,2,None,3,4,5],
                 "D":[0.1,10.2,11.4,8.9,9.1,12],
                 "E":[10,19,32,25,8,None],
                 "F":["f0","f1","g2","f3","f4","f5"]})

简单构造一组数据：

识别异常值和重复值

##识别None值
df.isnull()

##识别特征间的重复值
df.duplicated(["A"])  
df.duplicated(["A","B"])

返回的均为布尔值

直接丢弃（包括重复数据）

##直接删除包含nan值的整行
df.dropna()

##删除特征“B”中nan的那行
df.dropna(subset=["B"])

##删除重复值所在行
df.drop_duplicates(["A"])  #默认删除第一个

df.drop_duplicates(["A"],keep=False)  
#keep:{"first","last","False"}  （删除第一个；删除最后一个；删除全部重复值）

df.drop_duplicates(["A"],keep=False,inplace=True)  
#inplace=True原始数据会改变，默认为False

集中值指代（除异常值外的均值、中位数、众数等等）

##填充某个值
df.fillna("b*")
df.fillna(df["E"].mean())  #使用特征“E”的均值

插值

df["E"].interpolate()   #插值只能用在series

df["E"].interpolate(method="spline",order=3) #三次样条插值

pd.Series([1,None,4,5,20]).interpolate()

interpolate（）——插值函数https://www.cjavapy.com/article/541/

根据不同特征值的具体形式处理

df[[True if item.startswith("f") else False for item in list(df["F"].values)]]
#遍历F中的值，开头字母为f返回True，否则为False。

遍历特征"F"中的值，开头字母为f为正常数据，把第三行数据g2删除。

二、特征预处理

import numpy as np
import pandas as pd
import scipy.stats as ss
df1=pd.DataFrame({"A":ss.norm.rvs(size=10),
                  "B":ss.norm.rvs(size=10),
                  "C":ss.norm.rvs(size=10),
                  "D":np.random.randint(low=0,high=2,size=10)})
df1

生成服从正态分布的三组特征量及一组范围[0,1]的随机整数

1、特征选择——剔除与标注不相关或者冗余的特征

from sklearn.svm import SVR 
from sklearn.tree import DecisionTreeRegressor
#特征选择常用包：过滤思想，包裹思想，嵌入思想
from sklearn.feature_selection import SelectKBest,RFE,SelectFromModel

X=df1.loc[:,["A","B","C"]]
Y=df1.loc[:,"D"]

过滤思想（设置过滤的阈值）

过滤思想就是直接评价某个特征与标注的相关性等特征，如果与标注的相关性非常小，就去掉。

skb=SelectKBest(k=2)  #保留k个特征值

#方法一：fit()+transform()
skb.fit(X,Y)

##调用属性scores_，返回得分
skb.scores_
##调用属性pvalues_ ，返回P值
skb.pvalues_   
##返回特征过滤后保留下的特征列索引
skb.get_support(indices=True) 
print(skb.scores_,skb.pvalues_,skb.get_support(indices=True))

##转换数据，得到特征过滤后保留下的特征数据集
skb.transform(X)  

#方法二：fit_transform()
##拟合数据加转化数据一步到位：
x_new=skb.fit_transform(x,y)
x_new

SelectKBest(score_func= f_classif, k=10)

score_func：特征选择要使用的方法，默认适合分类问题的F检验分类：f_classif。
k ：取得分最高的前k个特征，默认10个。

结果：

1、得分： [0.06678612 0.01505405 1.7895258 ]
2、p值： [0.80259947 0.90537499 0.21776326]
3、特征过滤后保留下来的特征索引： [0 2] ——剔除了第二个特征

4、特征过滤后保留下的特征数据集：
array([[ 0.63265873,  0.15137685],
       [-0.81065328, -0.50542238],
       [ 0.43609265, -0.52941374],
       [ 1.15385088,  0.6536819 ],
       [ 1.5145949 , -0.35270394],
       [ 2.51115888,  1.61155123],
       [ 0.82370728, -1.04436562],
       [-1.96992943, -0.6010865 ],
       [ 0.20194085, -0.40571387],
       [ 0.33187617, -0.09669064]])

包裹思想（递归特征消除法算法—RFE—resave feature elimination）

包裹思想的含义，是我们假设所有的特征是个集合X，最佳的特征组合是它的一个子集。我们的任务就是要找到这个子集。

递归特征消除（RFE）的主要思想是反复的构建模型（如SVR回归模型）然后选出最好的的特征（可以根据系数来选），把选出来的特征选择出来，然后在剩余的特征上重复这个过程，直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此，这是一种寻找最优特征子集的贪心算法。

rfe=RFE(estimator=SVR(kernel="linear"),n_features_to_select=2,step=1)
rfe.fit_transform(X,Y)

经过递归特征消除法算法保留下的变量：（剔除了第一个特征）

array([[-0.45666814,  0.15137685],
       [ 0.26446625, -0.50542238],
       [ 0.04257889, -0.52941374],
       [ 1.09962668,  0.6536819 ],
       [ 0.30838919, -0.35270394],
       [ 1.62705506,  1.61155123],
       [-0.36483856, -1.04436562],
       [-1.49870357, -0.6010865 ],
       [-0.32120218, -0.40571387],
       [-0.80240473, -0.09669064]])

嵌入思想（正则化——系数反应特征重要程度）

最常见的方法是：对标注建立回归模型，得到特征与标注的权重系数；对这些系数进行正则化，反应特征的分量和重要程度。

sfm=SelectFromModel(estimator=DecisionTreeRegressor(),threshold=0.1)
sfm.fit_transform(X,Y)

此处estimator选择的是决策树回归器，也可以选择其它估算器，如LogisticRegression()
结果：（剔除了第二个特征）
array([[ 0.63265873,  0.15137685],
       [-0.81065328, -0.50542238],
       [ 0.43609265, -0.52941374],
       [ 1.15385088,  0.6536819 ],
       [ 1.5145949 , -0.35270394],
       [ 2.51115888,  1.61155123],
       [ 0.82370728, -1.04436562],
       [-1.96992943, -0.6010865 ],
       [ 0.20194085, -0.40571387],
       [ 0.33187617, -0.09669064]])

sfm=SelectFromModel(estimator=DecisionTreeRegressor(),threshold=1)
sfm.fit_transform(X,Y)

sfm=SelectFromModel(estimator=DecisionTreeRegressor(),threshold=0.00001)
sfm.fit_transform(X,Y)
#特征选择中采用样本进行特征筛选，而在正式建模中用全量数据。

需要根据实际需求设置合适的阈值threshold，否则特征筛选会失效

阈值太大，未保留特征：
array([], shape=(10, 0), dtype=float64)

阈值太小，使得保留了全部特征：
array([[-1.4947437 , 0.0191614 , 0.81820452], 
       [ 1.17189307, 1.87263454, -0.62936116],
       [ 1.66200794, 0.04248227, -0.93867893], 
       [ 1.05921792, 1.12342252, 0.44950437], 
       [-0.98050763, 0.20740876, -0.81644488], 
       [ 1.12914645, 0.06613361, -0.93451392], 
       [ 1.05055975, 0.08146466, -0.82193997],
       [ 1.73538698, -0.66855376, -0.41963065],
       [-0.06377718, 0.35172305, 1.02001796],
       [-1.51747269, -1.73222423, -0.10001505]])

2、特征变换

对指化（缩放尺度，单调性不变）
离散化（将连续变量分成几段bins）

#等频分箱
lst=[6,8,10,15,16,24,25,40,67]
pd.qcut(lst,q=3)
pd.qcut(lst,q=3,labels=["low","medium","high"])

#等距分箱
pd.cut(lst,bins=3)
pd.cut(lst,bins=3,labels=["low","medium","high"])

需要先排序

等频分箱：每个箱子的深度（数值的个数）一致
['low', 'low', 'low', 'medium', 'medium', 'medium', 'high', 'high', 'high']
Categories (3, object): ['low' < 'medium' < 'high']
等距分箱：每个箱子的宽度（数值的区间间距）一致
['low', 'low', 'low', 'low', 'low', 'low', 'low', 'medium', 'high']
Categories (3, object): ['low' < 'medium' < 'high']

归一化或标准化

from sklearn.preprocessing import MinMaxScaler,StandardScaler
#归一化
MinMaxScaler().fit_transform(np.array([1,4,10,15,21]).reshape(-1,1))
#标准化
X=np.array([1,0,0,0,0,0,0,0]).reshape(-1,1)

stand=StandardScaler().fit(X)
stand.transform(X)

#fit()+transform()==fit_transform()

StandardScaler().fit_transform(X)

归一化：（放缩到区间[0，1]）
array([[0.  ],
       [0.15],
       [0.45],
       [0.7 ],
       [1.  ]])
标准化：（数据满足标准正态分布，均值为0，方差为1）
array([[ 2.64575131],
       [-0.37796447],
       [-0.37796447],
       [-0.37796447],
       [-0.37796447],
       [-0.37796447],
       [-0.37796447],
       [-0.37796447]])

数值化

数值标签化：赋予距离比较的含义0，1，2
独热编码：无距离含义，仅表示类别

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
#数值标签化
LabelEncoder().fit_transform(np.array(["Down","Up","Up","Down"]).reshape(-1,1))

LabelEncoder().fit_transform(np.array(["Low","Medium","High","Medium","Low"]).reshape(-1,1))

#独热编码
lb_encoder=LabelEncoder()
lb_train_f=lb_encoder.fit_transform(np.array(["Red","Yello","Green","Blue","Green"]))
print(lb_train_f)  #按照首字母顺序排序，先转化成标签
oht_encoder=OneHotEncoder().fit(lb_train_f.reshape(-1,1))
oht_encoder.transform(lb_train_f.reshape(-1,1))
oht_encoder.transform(lb_train_f.reshape(-1,1)).toarray()

1、按照开头字母的顺序进行排序，标签化：
array([0, 1, 1, 0], dtype=int64)
array([1, 2, 0, 2, 1], dtype=int64)

2、独热编码需要先转化成标签，再转化成稀疏矩阵：
[2 3 1 0 1]
array([[0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 1., 0., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.]])

正规化（规范化）——可以反应特征对于标注的影响程度占比

直接用在特征上
用在每个对象的各个特征的表示（特征矩阵的行）
模型的参数上（回归模型的使用较多）

from sklearn.preprocessing import Normalizer
#正规化（规范化）
Normalizer(norm="l1").fit_transform(np.array([[1,1,3,-1,2]]))  #正规化是行运算
Normalizer(norm="l2").fit_transform(np.array([[1,1,3,-1,2]]))

L1正则化：绝对值形式
array([[ 0.125,  0.125,  0.375, -0.125,  0.25 ]])

L2正则化：均方根形式
array([[ 0.25,  0.25,  0.75, -0.25,  0.5 ]])
特别注意：正则化为行运算，不能用reshape(-1,1)转换成列向量

3、特征降维

PCA（无监督降维方法，无需用到标注）

求特征协方差矩阵
求协方差矩阵的特征值和特征向量
将特征值按照从大到小的顺序排序，选择其中最大的k个
将样本点投影到选取的特征向量上

LDA（线性判别式分析Linear Discriminant Analysis）

核心思想：投影变化后同一标注内的距离尽可能小；不同标注间的距离尽可能大。

#1、特征降维LDA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])
Y=np.array([1,1,1,2,2,2])
LinearDiscriminantAnalysis(n_components=1).fit_transform(X,Y)   #降到一维

#2、作为一个分类器使用：fisher classifier
clf=LinearDiscriminantAnalysis(n_components=1).fit(X,Y) 
clf.predict([[0.8,1]])

1、有监督的特征降维，降维后的特征量
array([[-1.73205081],
       [-1.73205081],
       [-3.46410162],
       [ 1.73205081],
       [ 1.73205081],
       [ 3.46410162]])

2、作为分类器的预测结果：（fisher分类器）
array([2])

4、特征衍生

四则运算（加减乘除）
求导或者高阶导数
人工归纳（从经验出发拓展特征维度）

三、具体HR的案例分析

整体特征工程的流程：

1、读入数据集

2、清洗数据集（异常值处理或抽样）

3、分离标注和特征

4、特征筛选（略）

5、特征处理：

数值型数据采用归一化或者标准化；

分类型数据采用标签化或者独热编码；

这里通过设置布尔值实现：

False——归一化；True——标准化；

False——标签化；True——独热编码；

6、特征降维（规定降维后的维度）

#HR表的特征预处理
import numpy as np
import pandas as pd

from sklearn.preprocessing import MinMaxScaler,StandardScaler  #归一化、标准化
from sklearn.preprocessing import LabelEncoder,OneHotEncoder  #数值化
from sklearn.preprocessing import Normalizer  #正规化
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis #特征降维
from sklearn.decomposition import PCA

#s1:satisfaction_level--False:MinMaxScaler;True:StandardScaler
#le:last_evaluation--False:MinMaxScaler;True:StandardScaler
#npr:number_project--False:MinMaxScaler;True:StandardScaler
#amh:average_montly_hours--False:MinMaxScaler;True:StandardScaler  
#tsc:time_spend_company--False:MinMaxScaler;True:StandardScaler  
#wa:Work_accident--False:MinMaxScaler;True:StandardScaler
#pl5:promotion_last_5years--False:MinMaxScaler;True:StandardScaler

#dp:Department--False:LabelEncoder;True:OneHotEncoder
#slr：salary--False:LabelEncoder;True:OneHotEncoder

#lower_d--False:不降维;True:降维,ld_n
def hr_preprocessing(sl = False,le=False,npr=False,amh=False,tsc=False,wa=False,\
                     pl5=False,dp=False,slr=False,lower_d=False,ld_n=1):
    df = pd.read_csv("d:/Users/Administrator/Desktop/python_code/HR_comma_sep.csv")
    
    #1.清洗数据（去除异常值或者抽样）
    df=df.dropna(subset=["satisfaction_level","last_evaluation"])
    df=df[df["satisfaction_level"] <= 1][df["salary"] != "nme"]
    
     #2.得到标注（最近是否有人离职,axis=1列）
    label=df["left"]
    df=df.drop("left",axis=1)
    #3.特征选择
    #4.特征处理
    
    #satisfaction_level处理方法(利用参数进行控制)：
    #(1)不处理
    #(2)强行拉伸到0~1之间 False
    #(3)数值型数据可以利用标准化方法 True
    scaler_lst=[sl,le,npr,amh,tsc,wa,pl5]#布尔型
    column_lst=["satisfaction_level","last_evaluation","number_project","average_montly_hours",\
                "time_spend_company","Work_accident","promotion_last_5years"]
    
    #第一个reshape是因为要求为列才可以处理，第二个是将数据变成行，
    #又因为它是二维数据，所以我们取[0]
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            df[column_lst[i]]=\
                MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
        else:
            df[column_lst[i]]=\
                StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
    
    #Department、salary都是类别离散值，需要先进行数值化
    scaler_lst=[slr,dp]
    column_lst=["department","salary"]
    
    #第一个reshape是因为要求为列才可以处理，第二个是将数据变成行，
    #又因为它是二维数据，所以我们取[0]
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            if column_lst[i] == "salary":
                df[column_lst[i]] = [map_salary(s) for s in df["salary"].values]
            else:
                df[column_lst[i]]=LabelEncoder().fit_transform(df[column_lst[i]])
            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
        else:
            df=pd.get_dummies(df,columns=[column_lst[i]]) #独热编码OneHotEncoder
    
    #5.特征降维
    if lower_d:
        return PCA(n_components=ld_n).fit_transform(df.values)
    
    return df,label

#进行排序的时候，会令low=2，这里处理一下
d=dict([("low",0),("medium",1),("high",2)])
def map_salary(s):
    #找不到，就默认s=0
    return d.get(s,0)
###get()——函数返回指定键的值。
#在 key（键）不在字典中时，可以返回默认值 None 或者设置的默认值0。

def main():
    print(hr_preprocessing(lower_d=False,ld_n=3))
if __name__=='__main__':
    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

笔记

python

数据分析

数据挖掘

scikitlearn

Python数据分析之特征工程的相关文章

如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

为什么需要自动化测试？软件测试师带你测评不同软件测试工具

软件从桌面转移到了我们接触到的几乎所有东西从智能恒温器到输液泵再到汽车软件无孔不入而且在不断增长来自物联网 IoT 的所谓东西越来越多地携带更多的逻辑随之而来的是更大的故障风险这些设备中的许多被用于安全关键领域如医疗和汽车
在Windows上使用gcc编译器

在Windows上使用gcc编译器第一步安装QT 第二步找到qt文件夹下的bin目录如下所示第三步将该目录配置到环境变量中第四步打开cmd 输入gcc v 出现下面的图片证明gcc配置成功第五步编写一个 c文件进行测试
web前端技术笔记（十三）jQuery动画、jquery事件

jQuery jquery动画滑动选项卡案例尺寸相关滚动事件加入购物车案例菜单吸顶案例 jquery属性操作 jquery循环手风琴格局案例 jquery事件绑定事件的其他方式取消绑定事件事件冒泡什么是事件冒泡事件冒泡
使用poi-ooxml-full.jar包过程中出现的版本问题

先看报错信息 Exception in thread main org apache poi ooxml POIXMLException org apache logging log4j Logger atTrace Lorg apache
数字政府2.0时代来临！阿里胜算几何？

科技行业有一个共识第三方数据机构的报告 C端看QuestMobile B端看IDC 在云计算市场 IDC的报告就是一种权威日前 IDC发布的中国数字政府大数据市场份额2018 报告显示随着数字政府建设不断推进 2018年中国数字政府
Java : 方法 PrintStream.println(Object)不适用 (实际参数列表和形式参数列表长度不同)

报错原因之前一直使用python 用习惯了在Java中应该作为String类型才能被识别不能直接使用连接两个变量贴报错代码和修改之后的代码 public class Operator public static void ma
WIN10登陆时出现“被引用的帐户当前被锁定且可能无法登录”，如何解决？

解决方法一旦遇到被引用的帐户当前被锁定且可能无法登录错误建议离开PC 30分钟这是一个等待时间通常由系统管理员设置如果用户输入了错误的密码等待30分钟后登录屏幕可能会解锁您可能有第二次机会访问桌面如果您已成功访问桌面
文献按时间排序_论文参考文献详解~

论文参考文献标注方法一般是顺序编码制顺序编码制 Numerical References Method 是一种文后参考文献的标注体系即引文采用序号标注参考文献按引文的序号排序在论文中的引用处以右上标小四宋体加方括号的方式表示不
Android Bluetooth AVRCP

本篇blog继续以结合日志的形式来分析AVRCP 以手机连接上耳机后通过耳机控制音乐播放的暂停播放来分析AVRCP的过程 1 AVRCP 本章基于A V Remote Control Profile 1 6 2 Bluetooth Te
Python Spyder 调出缩进对齐线

初学python 对python的对齐很重视为了防止出错使用spyder工具提供的功能下面是方法 1 首先打开Tools菜单栏下的Preferences 出现如下界面轻松1 2 3步之后就可以发现有当然红色的矩形框是我自己通过画
2022年Android面经分享，准备Android面试

前言前几天一个多年的朋友和我聊天说他被公司裁员了我听了非常吃惊我这个朋友之前在一家著名的外企公司已经工作10年以上了级别也还不错算是中高层了前几年创业最火爆的时候我和其他人想拉这位朋友出来一起干怎么诱惑怎么画大饼他都不动
Ubuntu18.04安装cuda10以及cuda版本的opencv3.4.13

目录一 cuda 二 cuda版本的Opencv3 4 13 一 cuda 首先提前安装好显卡驱动在软件与更新附加驱动里面直接安装即可这个很简单不再赘述查看自己应该安装的版本CUDA 12 0 Update 1 Release
html返回200错误,http – 为什么在404错误页面上有200 OK标题状态是不是很糟糕？...

我有一个问题我遇到了麻烦 err404页面的200OK标题状态问题虽然它应该是404标题 200好有什么问题真有可能200 OK应该在404错误页面标题状态感谢建议非常感谢我想它与 htaccess有关这是我的 htaccess
报错：Cannot read properties of undefined (reading ‘commit‘)

上传头像的时候出现了这样的报错根据代码的反应锁定应该是上传vuex方法的问题找出问题的方法打印 this update avatar 发现是undefined 打印this 发现属性中没有 route方法然后搜索main js发现没
Docker的基本操作2

CSDN话题挑战赛第2期参赛话题学习笔记个人名片博主酒徒个人简介沉醉在酒中借着一股酒劲去拼搏一个未来本篇励志三人行必有我师焉本项目基于B站黑马程序员Java SpringCloud微服务技术栈 SpringClou
realEngine（UE4）实现开关门效果

UE4系列文章目录文章目录 UE4系列文章目录前言一制作步骤注意前言虚幻引擎4是一个游戏开发工具的集合能够生成从2D移动游戏到AAA控制台游戏的一切它是方舟生存进化铁拳7 和王国之心III 等游戏的引擎玩家熟知的
python爬虫爬取网页上的天气数据

目录一获取网页重要信息二爬取网页数据三源码分享一获取网页重要信息在要爬取数据信息的网页上 F12进入查看网页内容二爬取网页数据 1 导入模块 import requests from bs4 import Beauti
MAC python通过pip安装依赖报错：unresolved reference‘Crypto’ 解决办法

MAC python通过pip安装依赖报错 unresolved reference Crypto 解决办法出现这个问题网上大部分的解决办法都试过了对我来说都没有用比如通过Pycharm gt Preferences gt Proje
Idea创建maven项目，通过java API操作Hbase数据库

一准备启动hdfs集群之前的HA集群启动Hbase 二创建工程三 API操作Hbase分布式数据库 1 插入一条数据 Test public void put throws Exception 创建conf对象会加载你项目资源
Python数据分析之特征工程

目录一数据清洗 1 数据样本采集抽样 2 异常值处理识别异常值和重复值直接丢弃包括重复数据集中值指代除异常值外的均值中位数众数等等插值根据不同特征值的具体形式处理二特征预处理 1 特征选择剔除与标注不相关或者冗

Python数据分析之特征工程

一、数据清洗：

1、数据样本采集（抽样）

2、异常值处理

识别异常值和重复值

直接丢弃（包括重复数据）

集中值指代（除异常值外的均值、中位数、众数等等）

插值

根据不同特征值的具体形式处理

二、特征预处理

1、特征选择——剔除与标注不相关或者冗余的特征

过滤思想（设置过滤的阈值）

包裹思想（递归特征消除法算法—RFE—resave feature elimination）

嵌入思想（正则化——系数反应特征重要程度）

2、特征变换

对指化（缩放尺度，单调性不变）

离散化（将连续变量分成几段bins）

归一化或标准化

数值化

正规化（规范化）——可以反应特征对于标注的影响程度占比

3、特征降维

PCA（无监督降维方法，无需用到标注）

LDA（线性判别式分析Linear Discriminant Analysis）

4、特征衍生

四则运算（加减乘除）

求导或者高阶导数

人工归纳（从经验出发拓展特征维度）

三、具体HR的案例分析

Python数据分析之特征工程 的相关文章

随机推荐

热门标签

Python数据分析之特征工程的相关文章