使用决策树对银行贷款进行建模
1、实验描述
2、实验环境
-
Anaconda 4.3.30
-
Python 3.6.6
-
Numpy 1.13.1
-
Matplotlib 2.2.2
-
scikit-learn 0.18.2
-
graphviz 2.30.1
3、相关技能
-
Python编程
-
Matplotlib编程
-
决策树构建
-
决策树可视化
4、相关知识点
-
决策树的原理
-
决策树(decision
tree)是一种基本的分类与回归方法,是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树可以看作一个if-then规则的集合:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。
-
使用决策树预测需要以下过程:收集数据、准备整理数据、分析数据、训练算法构造决策树、测试算法、使用算法。
-
决策树的构建
-
特征选择:特征选择在于选取对训练数据具有分类能力的特征,决定用哪个特征来划分特征空间,可以提高决策树学习的效率。通常特征选择的标准是信息增益或信息增益比。信息增益指的是划分数据集之后信息发生的变化,通过经验熵和条件熵,计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D)-
H(D|A)。
-
决策树的生成和修剪:使用C4.5、ID3、CART等算法,基于最好的属性值划分数据集,递归地构建决策树,直到不能继续下去为止。但这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。针对这一问题,考虑决策树的复杂度,对已生成的决策树进行修剪简化。
-
决策树可视化
-
通过Python编程构建的决策树不够清晰直观,可以使用强大的Matplotlib绘制决策树。
-
使用决策树分类预测
-
依靠原始数据集构造好的决策树,可以对实际数据进行分类预测。执行数据分类时,需要决策树以及用于构造树的标签向量。然后,程序比较测试数据与决策树上的数值,递归执行该过程直到进入叶子结点,最后将测试数据定义为叶子结点所属的类型,完成对数据的预测。
5、实现效果
![在这里插入图片描述](https://img-blog.csdnimg.cn/ace91791671c4386b13d1e6d2d61d953.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5aWU6IW-5ri45a2Q,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
图 1
6、实验步骤
6.1进入/home/zkpk/pycharm-2017.3.5/bin目录,切换到root用户,输入密码(zkpk)
[zkpk@localhost tgz]$ cd ~/pycharm-2017.3.5/bin
[zkpk@localhost bin]$ su root
![在这里插入图片描述](https://img-blog.csdnimg.cn/0f4a2f9a5c40400badf9dfb8f9e09e7f.png#pic_center)
图 2
修改hosts文件,在/etc/hosts文件末添加一行0.0.0.0
account.jetbrains.com,注意account前面有一个空格(按I键,添加以下内容后按Esc键,输入:wq,再按Enter键即可保存退出)。修改完成后使用exit命令退出root权限。
[root@localhost bin]# vi /etc/hosts
0.0.0.0 account.jetbrains.com
![在这里插入图片描述](https://img-blog.csdnimg.cn/63ca6dac76a843ed8cc9e7de8d163fd4.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5aWU6IW-5ri45a2Q,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
图 3
在/home/zkpk/pycharm-2017.3.5/bin目录下,使用./pycharm.sh命令打开Pycharm,点击open,打开DecisionTree工程,
在工程下创建DCTree.py 并设置Python Interpreter。
![在这里插入图片描述](https://img-blog.csdnimg.cn/f003ed1dac134998b04e0b550b92f02b.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5aWU6IW-5ri45a2Q,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
图 4
![在这里插入图片描述](https://img-blog.csdnimg.cn/b4b6cccf92b54364a96e18c2c84c1945.png#pic_center)
图 5
6.2定义数据集,设置四个属性标签为年龄,是否工作,是否有房,信用等级。
def createDataSet():
dataSet = [[0, 0, 0, 0, 'no'], #数据集
[0, 0, 0, 1, 'no'],
[0, 1, 0, 1, 'yes'],
[0, 1, 1, 0, 'yes'],
[0, 0, 0, 0, 'no'],
[1, 0, 0, 0, 'no'],
[1, 0, 0, 1, 'no'],
[1, 1, 1, 1, 'yes'],
[1, 0, 1, 2, 'yes'],
[1, 0, 1, 2, 'yes'],
[2, 0, 1, 2, 'yes'],
[2, 0, 1, 1, 'yes'],
[2, 1, 0, 1, 'yes'