通俗理解决策树算法中的信息增益(最朴实的大白话,保准能看懂)

2023-11-17

信息增益


在决策树算法的学习过程中, 信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该 特征越重要相应的信息增益也就越大

概念

信息熵是代表随机变量的复杂度(不确定度)条件熵代表在某一个条件下,随机变量的复杂度(不确定度)
而我们的信息增益恰好是:信息熵 - 条件熵。

换句话说,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度

那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。

这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征

例子

我们有如下数据:
在这里插入图片描述
可以求得随机变量X(嫁与不嫁)的信息熵为:
嫁的个数为6个,占1/2,那么信息熵为-1/2log1/2-1/2log1/2 = -log1/2=0.301
现在假如我知道了一个男生的身高信息。
身高有三个可能的取值{矮,中,高}

矮包括{1,2,3,5,6,11,12},嫁的个数为1个,不嫁的个数为6个

中包括{8,9} ,嫁的个数为2个,不嫁的个数为0个

高包括{4,7,10},嫁的个数为3个,不嫁的个数为0个

先回忆一下条件熵的公式如下:
在这里插入图片描述
我们先求出公式对应的:
H(Y|X = 矮) = -1/7log1/7-6/7log6/7=0.178

H(Y|X=中) = -1log1-0 = 0

H(Y|X=高) = -1log1-0=0

p(X = 矮) = 7/12,p(X =中) = 2/12,p(X=高) = 3/12

则可以得出条件熵为:

7/120.178+2/120+3/12*0 = 0.103

那么我们知道信息熵与条件熵相减就是我们的信息增益,为
0.301-0.103=0.198
所以我们可以得出我们在知道了身高这个信息之后,信息增益是0.198

结论

  • 我们可以知道,本来如果我对一个男生什么都不知道的话,作为他的女朋友决定是否嫁给他的不确定性有0.301这么大
  • 当我们知道男朋友的身高信息后,不确定度减少了0.198.也就是说,身高这个特征对于我们广大女生同学来说,决定嫁不嫁给自己的男朋友是很重要的
  • 至少我们知道了身高特征后,我们原来没有底的心里(0.301)已经明朗一半多了,减少0.198了(大于原来的一半了)。

那么这就类似于非诚勿扰节目里面的桥段了,请问女嘉宾,你只能知道男生的一个特征。请问你想知道哪个特征。

假如其它特征我也全算了,信息增益是身高这个特征最大。那么我就可以说,孟非哥哥,我想知道男嘉宾的一个特征是身高特征。因为它在这些特征中,对于我挑夫君是最重要的,信息增益是最大的,知道了这个特征,嫁与不嫁的不确定度减少的是最多的

总结一下 信息增益在我们现实中还是很适用的。

希望通过我的归纳总结 能让您对信息增益有更深入的理解.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

通俗理解决策树算法中的信息增益(最朴实的大白话,保准能看懂) 的相关文章

  • Numpy 索引 排序

    numpy argmax 和 numpy argmin numpy argmax 和 numpy argmin 函数分别沿给定轴返回最大和最小元素的索引 实例 numpy sort numpy sort 函数返回输入数组的排序副本 函数格式

随机推荐

  • Spring学习(三)--声明式事务&常用注解

    1 前言 这篇文章用来整理spring中的事务管理机制 声明式事务和常用的注解 一般的事务管理分为两种 编程式事务和声明式事务 spring提供声明式事务的支持 这样在我们操作数据库时更加方便 2 声明式事务 声明式事务是在AOP的基础上实
  • Ubuntu16.04+GTX1060mq(驱动版本430.64)安装CUDA10.0

    Ubuntu16 04 GTX1060mq 驱动版本430 64 安装CUDA10 0 CUDA下载 cuda最新版本下载地址 可在该页面进入历史版本下载 https developer nvidia com cuda downloads
  • 环境+代理配置+模块化

    1 模块化知识补充 1 1 模块化的基础 1 引入目录 默认引入目录中的index js文件 vuex modules a js b js index js 引入a js 引入 b js import store from vuex 是vu
  • Flutter(一)之Flutter的的简单入门分析

    前言 Flutter诞生于2018年 谷歌出品 应该是属于最新的移动跨平台开发框架了 从React Native自身框架的一些问题导致的用户量降低后 有很多小伙伴便转战Flutter战场 Flutter作为最新的跨移动平台开发框架 自然是汲
  • 使用Python,matplotlib绘制Nomogram列线图

    使用Python matplotlib绘制Nomogram列线图 1 效果图 2 源码 参考 这篇博客将介绍如何使用Python matplotlib绘制列线图 写这篇博客源于博友的提问 期望使用matplotlib绘制列线图如下 翻官网文
  • 浏览器访问.m3u8文件

    浏览器播放m3u8文件
  • PostgreSQL - tablefunc

    文章目录 创建扩展 tablefunc函数 1 normal rand 产生一个正态分布随机值 高斯分布 的集合 2 crosstab 行转列 1 3 crosstab 行转列 2 4 connectby 官方文档地址 创建扩展 creat
  • 关于 android 远程控制(pc 控制手机)

    因为手机的触屏有问题 需要通过pc来控制手机 试用 vnc viewer 没有成功 而且它是基于 wifi 的 然后不放弃 继续查找 终于发现 androidscreencast Desktop app to control an andr
  • Electron将Web页面打包成桌面应用实例

    上一篇文章 Electron vue脚手架改造vue项目 介绍了如何将Vue项目构建成桌面应用的方法 这篇文章将继续介绍Electron构建桌面项目 不仅仅局限于Vue项目 使用Vue项目做案例 只是目前做的Vue项目比较多 拿其中一个练手
  • 修改MySQL/MariaDB数据库root用户名和密码

    MySQL 5 7以下版本 更改密码 mysql u root p Enter password mysql gt use mysql 选择数据库 Database changed mysql gt update user set pass
  • Execl “此单元格中的数字为文本格式,或者其前面有撇号” 设成数字格式

    如何一次性批量将数字前面加上 撇 Excel批量设置数字转化成 以文本形式存储的数字 Excel批量为数值列加绿色小三角 正解 1 在数值前加个单撇号 2 选中列 进行分列操作 具体操作如下 选中该列 点击 菜单栏 中的 数据 分列 下一步
  • 谈谈修改寄存器默认值的几种方法和实现

    一 DFF的类型介绍 寄存器默认值 也叫复位值 是当reset或者set有效时寄存器输出的值 对于一个DFF来说 如下图 当reset为0时 Q输出0 当set为0时 Q输出为1 外部使用时保证reset与set不同时为0 图一 也就是说
  • 通俗易懂的Vue异步更新策略及 nextTick 原理

    最近在学习一些底层方面的知识 所以想做个系列尝试去聊聊这些比较复杂又很重要的知识点 学习就好比是座大山 只有自己去登山 才能看到不一样的风景 体会更加深刻 今天我们就来聊聊Vue中比较重要的异步更新策略及 nextTick 原理 在聊话题之
  • MySQL基础使用:入门指南

    MySQL是一种流行的关系型数据库管理系统 广泛应用于各种应用程序开发中 掌握MySQL的基础使用对于开发人员来说是非常重要的 在本博客中 我们将介绍MySQL的基本概念 常用命令和示例 帮助您入门MySQL数据库的使用 一 MySQL的基
  • 修复ie浏览器主页被360篡改

    一 环境 win10 二 问题 打开ie浏览器 发现主页被360篡改了 360我没有装过 怀疑是其他软件修改的 分析 浏览器主页被篡改 一般都是注册表被修改了 或者是启动程序里面有加载篡改主页 首先 看是否启动程序里面有加载篡改了主页 用右
  • Flutter容器组件之尺寸限制类容器(ConstrainedBox,SizedBox,UnconstrainedBox)

    尺寸限制类容器 尺寸限制类容器用于限制容器大小 Flutter中提供了多种这样的容器 如ConstrainedBox SizedBox UnconstrainedBox AspectRatio等 1 ConstrainedBox Const
  • 区块链Blockchain

    区块链Blockchain 区块链是分布式数据存储 点对点传输 共识机制 加密算法等计算机技术的新型应用模式 所谓共识机制是区块链系统中实现不同节点之间建立信任 获取权益的数学算法 狭义来讲 区块链是一种按照时间顺序将数据区块以顺序相连的方
  • STM32F103 实验按键输入与串口实验

    目录 本文 在上一章的基础上 将介绍如下内容 按键输入 串口实验 上一篇 STM32F103实验跑马灯与蜂鸣器 https blog csdn net qq 40318498 article details 95940254 正文 要进入按
  • 快速搭建超轻量级图床——Cpolar+和树洞外链

    文章目录 1 前言 2 树洞外链网站搭建 2 1 树洞外链下载和安装 2 2 树洞外链网页测试 2 3 cpolar的安装和注册 3 本地网页发布 3 1 Cpolar临时数据隧道 3 2 Cpolar稳定隧道 云端设置 3 3 Cpola
  • 通俗理解决策树算法中的信息增益(最朴实的大白话,保准能看懂)

    信息增益 文章目录 信息增益 概念 例子 结论 在决策树算法的学习过程中 信息增益是特征选择的一个重要指标 它定义为一个特征能够为分类系统带来多少信息 带来的信息越多 说明该 特征越重要 相应的信息增益也就越大 概念 信息熵是代表随机变量的