决策树学习笔记整理

2023-11-04

本文目的

最近一段时间在Coursera上学习Data Analysis，里面有个assignment涉及到了决策树，所以参考了一些决策树方面的资料，现在将学习过程的笔记整理记录于此，作为备忘。

算法原理

决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

如何预测

先看看下面的数据表格：

ID	拥有房产（是/否）	婚姻情况（单身，已婚，离婚）	年收入（单位：千元）	无法偿还债务（是/否）
1	是	单身	125	否
2	否	已婚	100	否
3	否	单身	70	否
4	是	已婚	120	否
5	否	离婚	95	是
6	否	已婚	60	否
7	是	离婚	220	否
8	否	单身	85	是
9	否	已婚	75	否
10	否	单身	90	是

上表根据历史数据，记录已有的用户是否可以偿还债务，以及相关的信息。通过该数据，构建的决策树如下：

比如新来一个用户：无房产，单身，年收入55K，那么根据上面的决策树，可以预测他无法偿还债务（蓝色虚线路径）。从上面的决策树，还可以知道是否拥有房产可以很大的决定用户是否可以偿还债务，对借贷业务具有指导意义。

基本步骤

决策树构建的基本步骤如下：

1. 开始，所有记录看作一个节点

2. 遍历每个变量的每一种分割方式，找到最好的分割点

3. 分割成两个节点N₁和N₂

4. 对N₁和N₂分别继续执行2-3步，直到每个节点足够“纯”为止

决策树的变量可以有两种：

1）数字型（Numeric）：变量类型是整数或浮点数，如前面例子中的“年收入”。用“>=”，“>”,“<”或“<=”作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。

2）名称型（Nominal）：类似编程语言中的枚举类型，变量只能重有限的选项中选取，比如前面例子中的“婚姻情况”，只能是“单身”，“已婚”或“离婚”。使用“=”来分割。

如何评估分割点的好坏？如果一个分割点可以将当前的所有节点分为两类，使得每一类都很“纯”，也就是同一类的记录较多，那么就是一个好分割点。比如上面的例子，“拥有房产”，可以将记录分成了两类，“是”的节点全部都可以偿还债务，非常“纯”；“否”的节点，可以偿还贷款和无法偿还贷款的人都有，不是很“纯”，但是两个节点加起来的纯度之和与原始节点的纯度之差最大，所以按照这种方法分割。构建决策树采用贪心算法，只考虑当前纯度差最大的情况作为分割点。

量化纯度

前面讲到，决策树是根据“纯度”来构建的，如何量化纯度呢？这里介绍三种纯度计算方法。如果记录被分为n类，每一类的比例P(i)=第i类的数目/总数目。还是拿上面的例子，10个数据中可以偿还债务的记录比例为P(1) = 7/10 = 0.7，无法偿还的为P(2) = 3/10 = 0.3，N = 2。

Gini不纯度

熵（Entropy）

错误率

上面的三个公式均是值越大，表示越 “不纯”，越小表示越“纯”。三种公式只需要取一种即可，实践证明三种公司的选择对最终分类准确率的影响并不大，一般使用熵公式。

纯度差，也称为信息增益（Information Gain），公式如下：

其中，I代表不纯度（也就是上面三个公式的任意一种），K代表分割的节点数，一般K = 2。v_j表示子节点中的记录数目。上面公式实际上就是当前节点的不纯度减去子节点不纯度的加权平均数，权重由子节点记录数与当前节点记录数的比例决定。

停止条件

决策树的构建过程是一个递归的过程，所以需要确定停止条件，否则过程将不会结束。一种最直观的方式是当每个子节点只有一种类型的记录时停止，但是这样往往会使得树的节点过多，导致过拟合问题（Overfitting）。另一种可行的方法是当前节点中的记录数低于一个最小的阀值，那么就停止分割，将max(P(i))对应的分类作为当前叶节点的分类。

过渡拟合

采用上面算法生成的决策树在事件中往往会导致过滤拟合。也就是该决策树对训练数据可以得到很低的错误率，但是运用到测试数据上却得到非常高的错误率。过渡拟合的原因有以下几点：

噪音数据：训练数据中存在噪音数据，决策树的某些节点有噪音数据作为分割标准，导致决策树无法代表真实数据。
缺少代表性数据：训练数据没有包含所有具有代表性的数据，导致某一类数据无法很好的匹配，这一点可以通过观察混淆矩阵（Confusion Matrix）分析得出。
多重比较（Mulitple Comparition）：举个列子，股票分析师预测股票涨或跌。假设分析师都是靠随机猜测，也就是他们正确的概率是0.5。每一个人预测10次，那么预测正确的次数在8次或8次以上的概率为，只有5%左右，比较低。但是如果50个分析师，每个人预测10次，选择至少一个人得到8次或以上的人作为代表，那么概率为，概率十分大，随着分析师人数的增加，概率无限接近1。但是，选出来的分析师其实是打酱油的，他对未来的预测不能做任何保证。上面这个例子就是多重比较。这一情况和决策树选取分割点类似，需要在每个变量的每一个值中选取一个作为分割的代表，所以选出一个噪音分割标准的概率是很大的。

优化方案1：修剪枝叶

决策树过渡拟合往往是因为太过“茂盛”，也就是节点过多，所以需要裁剪（Prune Tree）枝叶。裁剪枝叶的策略对决策树正确率的影响很大。主要有两种裁剪策略。

前置裁剪 在构建决策树的过程时，提前停止。那么，会将切分节点的条件设置的很苛刻，导致决策树很短小。结果就是决策树无法达到最优。实践证明这中策略无法得到较好的结果。

后置裁剪 决策树构建好后，然后才开始裁剪。采用两种方法：1）用单一叶节点代替整个子树，叶节点的分类采用子树中最主要的分类；2）将一个字数完全替代另外一颗子树。后置裁剪有个问题就是计算效率，有些节点计算后就被裁剪了，导致有点浪费。

优化方案2：K-Fold Cross Validation

首先计算出整体的决策树T，叶节点个数记作N，设i属于[1,N]。对每个i，使用K-Fold Validataion方法计算决策树，并裁剪到i个节点，计算错误率，最后求出平均错误率。这样可以用具有最小错误率对应的i作为最终决策树的大小，对原始决策树进行裁剪，得到最优决策树。

优化方案3：Random Forest

Random Forest是用训练数据随机的计算出许多决策树，形成了一个森林。然后用这个森林对未知数据进行预测，选取投票最多的分类。实践证明，此算法的错误率得到了经一步的降低。这种方法背后的原理可以用“三个臭皮匠定一个诸葛亮”这句谚语来概括。一颗树预测正确的概率可能不高，但是集体预测正确的概率却很高。

准确率估计

决策树T构建好后，需要估计预测准确率。直观说明，比如N条测试数据，X预测正确的记录数，那么可以估计acc = X/N为T的准确率。但是，这样不是很科学。因为我们是通过样本估计的准确率，很有可能存在偏差。所以，比较科学的方法是估计一个准确率的区间，这里就要用到统计学中的置信区间（Confidence Interval）。

设T的准确率p是一个客观存在的值，X的概率分布为X ~ B(N,p)，即X遵循概率为p，次数为N的二项分布（Binomial Distribution），期望E(X) = N*p，方差Var(X) = N*p*(1-p)。由于当N很大时，二项分布可以近似有正太分布（Normal Distribution）计算，一般N会很大，所以X ~ N(np,n*p*(1-p))。可以算出，acc = X/N的期望E(acc) = E(X/N) = E(X)/N = p，方差Var(acc) = Var(X/N) = Var(X) / N² = p*(1-p) / N，所以acc ~ N(p,p*(1-p)/N)。这样，就可以通过正太分布的置信区间的计算方式计算执行区间了。

正太分布的置信区间求解如下：

1）将acc标准化，即

2）选择置信水平α= 95%，或其他值，这取决于你需要对这个区间有多自信。一般来说，α越大，区间越大。

3）求出 α/2和1-α/2对应的标准正太分布的统计量和（均为常量）。然后解下面关于p的不等式。acc可以有样本估计得出。即可以得到关于p的执行区间

参考资料

[1] 《数据挖掘导论》Chapter 4 Classification:Basic Concepts, Decision Trees, and Model Evaluation，Pang-Ning Tan & Micheal Steinbach & Vipin Kumar著

[2] Data Analyis, Lectures in Week 6,7 at Coursera

[3] 《集体智慧编程》Chapter 7 Modeling with Decision Tree，Toby Segaran著

[4] 《Head First Statistics》 Chapter 12 置信区间的构造, Dawn Griffiths 著

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据结构与算法

决策树学习笔记整理的相关文章

01背包问题变种：从长度为n的数组里选出m个数使和为固定值sum

这个问题是我从leetcode上一道问题所想到的原题如果是从数组中选出2个数相加使之成为固定的数sum 这当然很简单把数组中的数字遍历一遍判断另一个数字是否也在数组中即可代码如下 vector
数据库多维迭代算法

关键词数据库迭代递归多维一两种传统的数据库迭代结构算法对于数据库的迭代结构有两种传统的算法递归算法和边界算法比如对于下面图1的结构图1 递归算法的数据结构如表1所示节点id 节点值父节点id 1 1111 2 3
BP神经网络与Python实现

人工神经网络是一种经典的机器学习模型随着深度学习的发展神经网络模型日益完善联想大家熟悉的回归问题神经网络模型实际上是根据训练样本创造出一个多维输入多维输出的函数并使用该函数进行预测网络的训练过程即为调节该函数参数提高预测精度的过程
数据结构之链表与线性表

数据结构之链表与线性表线性表顺序线性表顺序表顺序线性表使用数组实现一组地址连续的存储单元数组大小有两种方式指定一是静态分配二是动态扩展优点随机访问特性查找O 1 时间存储密度高逻辑上相邻的元素物理上也相邻缺点
(笔试前准备)字符串匹配算法总结

我想说一句我日我讨厌KMP KMP虽然经典但是理解起来极其复杂好不容易理解好了便起码来巨麻烦老子就是今天图书馆在写了几个小时才勉强写了一个有bug的效率不高的KMP 特别是计算next数组的部分其实比KMP算法速度快的算法
数据结构----链式栈

目录前言链式栈操作方式 1 存储结构 2 初始化 3 创建节点 4 判断是否满栈 5 判断是否空栈 6 入栈 7 出栈 8 获取栈顶元素 9 遍历栈 10 清空栈完整代码前言前面我们学习过了数组栈的相关方法链接线性表栈栈
递归算法中的时间复杂度分析

对于一种算法的时间复杂度分析还是特别重要的在一些非递归算法中我们仅仅看运算次数最多的那一行代码可能执行多少次就可以实际就是看在循环中变量的变化但是对于递归算法中该怎么分析呢下面介绍几种递归函数中的算法时间复杂度分析的方法 0 递推
Python 实现列队

1 列队定义队列是项的有序结合其中添加新项的一端称为队尾移除项的一端称为队首当一个元素从队尾进入队列时一直向队首移动直到它成为下一个需要移除的元素为止最近添加的元素必须在队尾等待集合中存活时间最长的元素在队首这种排序成为
算法系列15天速成——第八天线性表【下】

一线性表的简单回顾上一篇跟大家聊过线性表顺序存储通过实验大家也知道如果我每次向顺序表的头部插入元素都会引起痉挛效率比较低下第二点我们用顺序存储时容易受到长度的限制反之就会造成空间资源的浪费二链表对于顺序表存
字符串09--表示数值的字符串

字符串09 表示数值的字符串 jz53 题目概述解析参考答案注意事项说明题目概述算法说明请实现一个函数用来判断字符串是否表示数值包括整数和小数例如字符串 100 5e2 123 3 1416 和 1E 16 都表示数值
JavaScript系列——数组元素左右移动N位算法实现

引言在自己刚刚毕业不久的时候去了一家公司面试面试官现场考了我这道题我记忆深刻当时没有想到思路毫无疑问被面试官当成菜鸟了最近刚好在研究数组的各种算法实现就想到这道题可以拿来实现一下纪念自己逝去的青春需求假设有这样一个数
算法问题实战策略

算法问题实战策略基本信息作者韩具宗万译者崔盛一出版社人民邮电出版社ISBN 9787115384621上架时间 2015 2 4出版日期 2015 年3月开本 16开页码 738版次 1 1 内容简介算法问题实战策略本书收录
时间复杂度+常见复杂度解释

前言算法的效率虽然计算机能快速的完成运算处理但实际上它也需要根据输入数据的大小和算法效率来消耗一定的处理器资源要想编写出能高效运行的程序我们就需要考虑到算法的效率算法的效率主要由以下两个复杂度来评估时间复杂度评估执行程序所
Linux下进程退出的几种形式

进程退出 Linux 下进程的退出分为正常退出和异常退出两种 1 正常退出 a 在main 函数中执行return b 调用exit 函数 c 调用 exit 函数 2 异常退出 a 调用about函数 b 进程收到某个信号而该信号使程序
【试题】排列组合

在写一个远程的代码如果本地有M个显示器远程有N个显示器 M lt N 依据分辨率显示器刷新频率等要求需要对远程的N个显示器进行最佳分辨率修改之后需要从N个远程显示器中选择M个跟本地显示器进行一对一的匹配即从 A N M N
索引优化之Explain 及慢查询日志

索引本质是数据结构简单理解为排好序的快速查找数据结构以索引文件的形式存储在磁盘中目的提高数据查询的效率优化查询性能就像书的目录一样优势提高检索效率降低IO成本排好序的表降低CPU的消耗劣势索引实际也是一张表该表
数组实现循环队列（增设队列大小size）

目录一前言 1 如何实现循环 2 如何判断队列为空 3 如何判断队列为满二循环队列的结构定义三循环队列的创建及其初始化四入队五出队六取队头元素七取队尾元素八循环队列判空九循环队列判满十循环队列销毁一
【数据结构】双链表的定义和操作

目录 1 双链表的定义 2 双链表的创建和初始化 3 双链表的插入节点操作 4 双链表的删除节点操作 5 双链表的查找节点操作 6 双链表的更新节点操作 7 完整代码嗨我是 Filotimo 很高兴与大家相识希望我的博客能对你有所帮助
从源码角度来谈谈 HashMap

HashMap的知识点可以说在面试中经常被问到是Java中比较常见的一种数据结构所以这一篇就通过源码来深入理解下HashMap 1 HashMap的底层是如何实现的基于JDK8 1 1 HashMap的类结构和成员 HashMap继承
最大流-Dinic算法，原理详解，四大优化，详细代码

文章目录零前言一概念回顾可略过 1 1流网络 1 2流 1 3最大流 1 4残留网络 1 5增广路

随机推荐

HTML5 详细介绍及应用实例

HTML5 概况什么是 HTML5 HTML 5有两大特点首先强化了 Web 网页的表现性能其次追加了本地数据库等 Web 应用的功能 HTML 5是近十年来Web开发标准最巨大的飞跃和以前的版本不同 HTML 5并非仅仅用来表
[MySQL]事务ACID详解

专栏简介 MySql数据库从入门到进阶题目来源 leetcode 牛客剑指offer 创作目标记录学习MySql学习历程希望在提升自己的同时帮助他人与大家一起共同进步互相成长学历代表过去能力代表现在学习能力代表未来目录
版本管理工具——SVN

SVN的下载和安装 1 1SVN服务器端的安装和配置 1 2SVN客户端的安装和配置 SVN的基本操作 SVN的常见问题 3 1解决文件提交冲突一 SVN服务器端的安装和配置 1 VisualSVN下载 http www visualsv
国内及Github优秀开发人员列表

自从入了Android软件开发的行道解决问题和学习过程中免不了会参考别人的思路浏览博文和门户网站成了最大的入口下面这些列表取名为国内及Github优秀开发人员列表就是浏览后的成果虽然下述列表出自Android软件开发文章定为不
python科研项目_通过科研人员论文项目等数据，训练识别导师/学生的分类器

student and teacher classifier 通过科研人员论文项目等数据训练识别导师学生的分类器代码包括特征选择基础网格搜索确定特征选择方法参数不平衡数据的处理 oversampling和undersampling
-day18面向对象进阶

day18 面向对象进阶课程目标掌握面向对象进阶相关知识点能更加自如的使用面向对象来进行编程今日概要成员变量实例变量类变量方法绑定方法类方法静态方法属性成员修饰符公有私有对象嵌套特殊成员对比问题洗衣
mysql group by 中文_MySQL GROUP BY 语句

MySQL GROUP BY 语句 GROUP BY 语句根据一个或多个列对结果集进行分组在分组的列上我们可以使用 COUNT SUM AVG 等函数 GROUP BY 语法 SELECT column name function col
单片机学习 1-LED灯的点亮（全操作）

LED灯 P0 P1 P2 P3结构图除了P0端口需要自己外接上拉电阻否则只能输入输出低电平其它自带上拉电阻因此都可以实现高低电平的输入输出 LED灯介绍 LED灯本质是发光二极管单片机输入电流控制在3mA 20mA之间可串联电
ubuntu pycharm 无法输入中文

很多人反馈是和ubuntu20 04有关但是其实应该是和pycharm20 2 3有关只需要替换掉版本里面的jbr即可 1 下载jbr https confluence jetbrains com pages viewpage acti
数组-第三大的数

题意给定一个非空数组返回此数组中第三大的数如果不存在则返回数组中最大的数要求算法时间复杂度必须是O n 示例 1 输入 3 2 1 输出 1 解释第三大的数是 1 示例 2 输入 1 2 输出 2 解释第三大的数不存在所以返
笔记本电脑运行特别慢怎么解决

其实不管是笔记本电脑还是台式电脑用久了肯定多多少少都会有点卡顿的情况出现很多人的笔记本就是用久了就有这种情况面对这种情况如果大家想快速的解决问题就一起学学今天的关于笔记本电脑运行特别慢怎么解决的内容吧工具原料系统版本 win
操作系统fork()进程

1 fork 是创建进程函数 2 c程序一开始就会产生一个进程当这个进程执行到fork 的时候会创建一个子进程 3 此时父进程和子进程是共存的它们俩会一起向下执行c程序的代码 4 需要注意子进程创建成功后 fork是返回两个值
C语言—星空&下雪特效(Easyx)

目录实现效果如图 01 星空静态 02 下雪动态实现效果如图 01 星空静态 include
[C++11]std::promise

一 std promise介绍 std promise 是C 11并发编程中常用的一个类常配合std future使用其作用是在一个线程t1中保存一个类型typename T的值可供相绑定的std future对象在另一线程t2中获取
vue click.stop 阻止点击事件继续传播（阻止事件冒泡）

场景 H5 移动端弹窗表单背景是遮罩点击表单外遮罩时关闭弹窗点击表单则不关闭弹窗 click stop 阻止点击事件继续传播
进阶指针【指针的进阶使用方法】

进阶指针目录前言字符指针指向字符指向字符串常量指向同一个字符串常量的字符指针指针数组指针数组的定义和使用数组指针数组指针的定义数组指针的使用函数指针函数指针的定义函数指针的使用函数指针数组函数指针数组的定义函
Opencv-Python学习（五）

一傅里叶变换傅里叶变换的详细过程及推导可以看一个大佬写的我这里就不介绍了链接傅里叶分析之掐死教程完整版更新于2014 06 06 知乎我这里就介绍一下傅里叶变换的一些概念和opencv中如何实现傅里叶变换低频变化缓慢的灰
Microsoft Skype产品线梳理

目录前言 1 Skype应用程序 2 Skype for Business 3 Skype电话 4 Skype号码 5 Skype连接总结
FPGA:三种基本门电路设计（与门、或门、非门）

FPGA的设计跟数电是紧密相连的而我们学习数电时候学习的第一个内容就是数字逻辑基础这里面就包含了我们今天要讲解的三种基本的门电路这里我们依次讲解过来 1 与门定义有两个或多个输入但只有一个输出只有在所有输入都是高但电平时才
决策树学习笔记整理

本文目的最近一段时间在Coursera上学习Data Analysis 里面有个assignment涉及到了决策树所以参考了一些决策树方面的资料现在将学习过程的笔记整理记录于此作为备忘算法原理决策树 Decision Tree

决策树学习笔记整理

决策树学习笔记整理 的相关文章

随机推荐

热门标签

决策树学习笔记整理的相关文章