常用决策树模型ID3、C4.5、CART算法

2023-11-04

决策树概述

决策树(decision tree):是一种基本的分类与回归方法,下面提到的ID3、C4.5、CART主要讨论分类的决策树。

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树通常有三个步骤

  • 特征选择
  • 决策树的生成
  • 决策树的剪枝

决策树的优点和缺点

优点:

  1. 决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解
  2. 决策树模型可以可视化,非常直观
  3. 应用范围广,可用于分类和回归,而且非常容易做多类别的分类
  4. 能够处理离散型和连续的样本特征
  5. 训练极端样本对树模型的性能影响相对其他模型较小(不包括回归树)
  6. 不平衡样本数据集也能取得好的表现(CART树)

缺点:

  1. 很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高度、叶子节点中的最少样本数量。
  2. 学习一棵最优的决策树被认为是NP-Complete问题。实际中的决策树是基于启发式的贪心算法建立的,这种算法不能保证建立全局最优的决策树。Random Forest 引入随机能缓解这个问题

常用的决策树模型

决策树模型在监督学习中非常常见,决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。本文主要介绍常用的基本树(包括 ID3、C4.5、CART)。一般而言一棵“完全生长”的决策树包含,特征划分、决策树构建、剪枝三个过程。

在介绍决策树之前我们先了解一下“纯度”的概念:
决策树的构建是基于样本概率和纯度进行构建操作的,判断数据集“纯”的指标有:Gini指数、信息熵、不确定性、错误率、标准方差。他们的值越小,说明越“纯”。并且他们有以下关系:

信息熵:可以理解为衡量不确定性的指标。
Gini指数:可以理解为衡量错误率的指标。

下面开始介绍一下常用的三种算法ID3、C4.5、CART。

ID3算法

划分标准:ID3选用使得信息增益最大(纯度提升)的那个特征作为决策节点来划分样本。

ID3算法的三个基本概念和通俗的理解:
信息熵(entropy): 表示随机变量的不确定性。
条件熵(Conditional Entropy): 在一个条件下,随机变量的不确定性。
信息增益(Information Gain): 信息增益=信息熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度(纯度提升)。

ID3算法缺点

  • 倾向于使用属性值多的特征来划分样本
  • 不能处理具有连续值的特征。
  • 不能处理特征具有缺失值的样本。
  • ID3 没有剪枝策略,容易过拟合。

由于上述缺点,如今几乎没人再使用ID3,但是信息增益的概念是重要的。

C4.5算法

划分标准:C4.5算法选用使得信息增益率(gain ratio)最大的那个特征作为决策节点来划分样本。

因为ID3算法中选用信息增益来作为决策树的生成策略,导致了生成过程中倾向于使用属性值多的特征来划分样本,为了克服这一缺点。引进了信息增益率(信息增益比)的概念。

C4.5算法相对于ID3算法主要有以下几个改进:

  • 用信息增益率来选择属性;
  • 引入悲观剪枝策略进行后剪枝;
  • 可以对连续数据进行离散化处理;
  • 能够处理具有缺失值的样本。

CART算法

CART(classification and regression tree),分类回归树,它既可以用来解决分类问题也可以用来解决回归问题。

划分标准:使用使得gini系数最小的那个属性来划分样本。

基尼系数:(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。

注意:Gini系数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本只有一个类时,基尼系数为0.

CART 在 C4.5 的基础上进行了很多提升:

  • C4.5 为多叉树,运算速度慢,CART 为二叉树,运算速度快;
  • C4.5 只能分类,CART 既可以分类也可以回归;
  • CART 使用 Gini 系数作为变量的不纯度量,减少了大量的对数运算;
  • CART 采用代理测试来估计缺失值,而 C4.5 以不同概率划分到不同节点中;
  • CART 采用“基于代价复杂度剪枝(CPP)”方法进行剪枝,而 C4.5 采用悲观剪枝(PEP)方法。

简单总结一下CART:

  1. CART与C4.5算法是非常相似的,但是CART支持预测连续的值(即回归)。
  2. CART构建二叉树,而C4.5则不一定。显然由于二叉树的原因使得CART5不会出现ID3的问题(倾向于选择属性值多的属性来划分样本)
  3. CART用训练集和交叉验证集不断地评估决策树的性能来修剪决策树,从而使训练误差和测试误差达到一个很好地平衡点。
  4. 此外,CART 的一大优势在于,无论训练数据集有多失衡,它都可以将其子冻消除不需要建模人员采取其他操作。

通过前面的介绍我们知道了,基本树ID3、C4.5、CART都是采用“纯度”来做特征选择。它们的思路都相近,得到的模型性能也比较接近。

那么问题来了:基尼指数与熵模型性能接近,但到底与熵模型的差距有多大呢?

我们知道 ln(x) = -1 + x + o(x),所以:
我们可以将基尼指数理解为熵模型的一阶泰勒展开
我们可以将基尼指数理解为熵模型的一阶泰勒展开,下面放上一张很经典的图。
在这里插入图片描述

剪枝

剪枝是应该决策树过拟合的一种重要方法,主要分为以下两种:

预剪枝:该策略就是在对一个节点进行划分前进行估计,如果不能提升决策树泛化精度,就停止划分,将当前节点设置为叶节点。那么怎么测量泛化精度,就是留出一部分训练数据当做测试集,每次划分前比较划分前后的测试集预测精度。

简单来说预剪枝就是在完全正确分类训练集之前,较早地停止树的生长。 具体在什么时候停止决策树的生长有多种不同的方法:

  1. 一种最为简单的方法就是在决策树到达一定高度的情况下就停止树的生长。
  2. 到达此结点的实例具有相同的特征向量,而不必一定属于同一类, 也可停止生长。
  3. 到达此结点的实例个数小于某一个阈值也可停止树的生长。
  4. 还有一种更为普遍的做法是计算每次扩张对系统性能的增益,如果这个增益值小于某个阈值则不进行扩展。

预剪枝的优缺点:

优点:降低了过拟合风险,降低了训练所需的时间。

缺点:预剪枝是一种贪心操作,可能有些划分暂时无法提升精度,但是后续划分可以提升精度。故产生了欠拟合的风险。

后剪枝:该策略是首先正常建立一个决策树,然后对整个决策树进行剪枝。按照决策树的广度优先搜索的反序,依次对内部节点进行剪枝,如果将某以内部节点为根的子树换成一个叶节点,可以提高泛化性能,就进行剪枝。

优点:降低过拟合风险,降低欠拟合风险,决策树效果提升比预剪枝强

缺点:时间开销大得多

常用的后剪枝方法:

  1. REP-错误率降低剪枝
  2. PEP-悲观剪枝(C4.5决策树)
  3. CCP-代价复杂度剪枝(CART树)
  4. MEP-最小错误剪枝

回归树

CART(Classification and Regression Tree,分类回归树),从名字就可以看出其不仅可以用于分类,也可以应用于回归。其回归树的建立算法上与分类树部分相似,这里简单介绍下不同之处。

所谓回归树,就是用树模型做回归问题,每一片叶子都是一个预测值,预测值一般是叶子节点所含训练集元素输出的均值。

划分标准:使用标准差/方差小的那个特征属性来划分样本。

回归树对连续值的处理:

对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。在回归模型中,我们使用常见的和方差度量方式,对于任意划分特征 A,对应的任意划分点 s 两边划分成的数据集D1 和D2 ,求出使D1 和 D2 各自集合的均方差最小,同时 D1 和D2 的均方差之和最小所对应的特征和特征值划分点。表达式为:
在这里插入图片描述
其中,c1 为 D1 数据集的样本输出均值,c2 为 D2数据集的样本输出均值。

回归树的预测方式:

对于决策树建立后做预测的方式, CART 分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。

总结

在这里插入图片描述

参考文献

https://blog.csdn.net/qq_43391414/article/details/109382789
https://zhuanlan.zhihu.com/p/85731206

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

常用决策树模型ID3、C4.5、CART算法 的相关文章

随机推荐

  • 【python】小目标检测中对一幅高分辨率图分块且改变目标bounding box的坐标

    很多时候 在小目标检测中 对于一副高分辨率图像 我们很难直接输入一整幅大图来进行目标检测 特别是对于one stage的方法 如SSD的输入尺寸是300和512 YOLO的输入尺寸是416 而高分辨率图像通常有几千 几千像素 所以我在此分享
  • MySQL之快速入门

    安装MySQL 下载地址 http dev mysql com downloads windows installer 安装教程 http blog sina com cn s blog 7cecec9501017cmk html 安装完之
  • 科技部发布“新一代人工智能”重大项目2018年度项目申报指南征求意见稿

    根据 国务院关于改进加强中央财政科研项目和资金管理的若干意见 国发 2014 11号 国务院关于深化中央财政科技计划 专项 基金等 管理改革方案的通知 国发 2014 64号 科技部关于印发 新一代人工智能重大科技项目实施方案 的通知 国科
  • Webservice 服务请求参数xml 嵌套问题/CDATA嵌套

    今天在对接某政府服务平台需要使用webservice服务进行对接 参考第三方提供的对接文档 截图如下
  • vue-router的routes中name属性作用详解

    我们常用vue js和vue router来创建单页应用 vue router能很方便的管理所有的单页组件 我们在定义每个路由的时候会有一个name的属性 如下面代码 通常我们不定义这个属性发现也没有任何问题 那么这个name到底有什么用呢
  • 题目:四舍五入

    题目描述 四舍五入是个好东西 比如你只考了45分 四舍五入后你是50分再四舍五入你就是满分啦 qdgg刚考完拓扑 成绩十分不理想 但老师觉得他每天都很认真的听课很不容易 于是决定给他一个提高成绩的机会 让他的成绩可以在小数点后的任意位置四舍
  • 基于NIO的Netty网络框架

    Netty是一个高性能 异步事件驱动的NIO框架 它提供了对TCP UDP和文件传输的支持 Netty的所有IO操作都是异步非阻塞的 通过Future Listener机制 用户可以方便的主动获取或者通过通知机制获得IO操作结果 Netty
  • TeamViewer连接密码问题

    最近用VNC连接服务器 只要知道服务器的IP和密码 一直使得顺风顺水 但是最近遇到一个问题 服务器的IP地址获取方式被别人改成了自动获取方式 自此 在使用VNC的路上 我碰到了第一个麻烦 为了解决这个麻烦 我安装了TeamViewer 这个
  • JAVA并发编程实战-任务执行

    目录 思维导图 1 在线程中执行任务 1 1 顺序执行任务 1 2 显式的为任务创建线程 1 3 无限制创建线程的缺点 2 Executor框架 2 1 使用Executor实现WebServer 2 2 执行策略 2 3 线程池 2 3
  • C++小游戏贪吃蛇源码

    graphics h是针对DOS下的一个C语言图形库 c 也可以 目前支持下载此头文件的常用的有两种 1 EGE Easy Graphics Engine 2 EasyX Graphics Library EGE 全名Easy Graphi
  • 请你讲讲wait方法的底层原理

    wait即object的wait 和notify 或者notifyall 一起搭配使用 wait方法会将当前线程放入wait set等待被唤醒 1 将当前线程封装成objectwaiter对象node 2 通过objectmonitor a
  • 在kali环境下安装dvwa

    1 下载dvwa 登陆进去kali 输入 git clone https github com ethicalhack3r DVWA 2 安装DVWA 把下载好得DVWA cp到 var www html 下 给dvwa一个权限 查看一下所
  • 技术革命与金融资本:泡沫与黄金时代的动力学 (美)卡萝塔·佩雷丝着

    这本书总结了科技革命对社会的影响 分析科技革命后什么时间什么条件下对社会造成影响 很不错的一本书 必须推荐啊 2013 9 29
  • harbor 离线同步

    场景 客户环境为离线环境 只能把公司私服的镜像下载后 然后通过客户端中转传到客户的私服上 客户端在客户内网中 然后拨号到公司的内网 bin bash harbor的url URL https 10 27 6 59 31009 源harbor
  • 文件锁

    借助 fcntl函数来实现文件锁机制 操作文件的进程没有获得文件锁时 可以打开文件 但无法执行read write操作 注意 文件锁只能用于进程间同步 fcntl函数 int fcntl int fd int cmd int fcntl i
  • 2022年江西省“网络空间安全”赛项模块B--流量分析(中职组)

    2022年中职组山西省 网络空间安全 赛项 B 6 流量分析任务书及解析 不懂私信博主 一 竞赛时间 420分钟 共计7小时 吃饭一小时 二 竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 第 阶段 单兵模式系统渗透测试 任务一 系
  • 【华为OD机试真题 Python】最差产品奖

    前言 本专栏将持续更新互联网大厂机试真题 并进行详细的分析与解答 包含完整的代码实现 希望可以帮助到正在努力的你 关于大厂机试流程 面经 面试指导等 如有任何疑问 欢迎联系我 wechat steven moda email nansun0
  • STM32外设天造地设的一对:ADC和DMA

    STM32外设天造地设的一对 ADC和DMA 引言 这篇文章主要介绍ADC和DMA配置的注意事项 适合懂得如何配置最基本的ADC和DMA 但是对它们两个的模式不是太理解的朋友们看 本文将重点介绍ADC和DMA模式的注意事项 DMA是CPU的
  • Spring Boot 报错org.springframework.jdbc.datasource.embedded.EmbeddedData

    记录一次Spring Boot错误解决方案 如果Spring Boot 在整合druid的时候 如果启动报错 并报以下错误的时候 org springframework beans factory UnsatisfiedDependency
  • 常用决策树模型ID3、C4.5、CART算法

    决策树概述 决策树 decision tree 是一种基本的分类与回归方法 下面提到的ID3 C4 5 CART主要讨论分类的决策树 在分类问题中 表示基于特征对实例进行分类的过程 可以认为是if then的集合 也可以认为是定义在特征空间