信息熵与信息增益

2023-10-29

信息熵(information entropy)是度量样本集合纯度/不确定度最常用的指标之一。
但要注意,信息熵越小,表示不确定度越低,确定度越高,纯度越高
E n t ( D ) = − ∑ k = 1 ∣ γ ∣ p k l o g 2 p k Ent(D)=-\sum_{k=1}^{|\gamma|}{p_klog_2p_k} Ent(D)=k=1γpklog2pk

信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。
信息量的公式表示如下:
h ( x ) = − l o g 2 p ( x ) h(x)=-log_2p(x) h(x)=log2p(x)

由于概率范围为0-1,因此log2p(x)的范围在负无穷到0,而负号则让信息量变成正数。正好可以得出,一件事情发生的概率越小,信息量越大。
而信息熵则代表了多件不相关的事件发生所产生的信息量之和。

信息增益(information gain) 代表的是在一个条件下,信息复杂度(不确定性)减少的程度,也即纯度提高的程度。
G a i n ( D , a ) = E n t ( D ) − ∑ V v = 1 ∣ D v ∣ D E n t ( D v ) Gain(D, a)=Ent(D)-\sum_{V}^{v=1}{\frac{|D^v|}{D}Ent(D^v)} Gain(D,a)=Ent(D)Vv=1DDvEnt(Dv)
信息增益越大,表示信息的不确定度降低的越多,即信息的纯度越高。
在决策树的ID3算法中,追求的是信息熵越小越好,信息增益越大越好。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

信息熵与信息增益 的相关文章

  • QT中读取指定文件

    qt读取指定文件分为两步 第一步获取文件路径 第二部读取文件 文本对话框来获取路径 QString filename filename QFileDialog getOpenFileName nullptr 选择文件 nullptr 别忘记
  • 草稿

    文档信息 版权声明 自由转载 非商用 非衍生 保持署名 Creative Commons BY NC ND 3 0 博 主 lyc daniel 博主邮箱 lyc daniel 163 com
  • 怎么取消 Windows Server 2012 RDP 限制每个用户只能进行一个会话

    在 Windows Server 2008 2008 R2 上 如果希望多个远程用户使用同一个账号同时访问服务器的 Remote Desktop RDP 只需通过管理工具 远程桌面下的 远程桌面会话主机配置 进行设置即可 或是通过命令 在运
  • 关于Verilog中的几种赋值语句

    nanoty博客转载 1 连续赋值语句 Continuous Assignments 连续赋值语句是Verilog数据流建模的基本语句 用于对线网进行赋值 等价于门级描述 是从更高的抽象角度来对电路进行描述 连续赋值语句必须以关键词assi

随机推荐

  • 注释分析一个cusolver的官方示例:cuSolverDn_LinearSolver

    samples 7 CUDALibraries cuSolverDn LinearSolver cuSolverDn LinearSolver cpp 示例是求解如下方程 A x b where b ones m 1 根据A的不同 有三种求
  • 基于Pytorch的强化学习(DQN)之 Multi-agent 训练架构

    目录 1 引言 2 训练架构 2 1 Fully decentralized 2 2 Fully centralized 2 3 Centralized Decentralized 1 引言 我们上一次讲到了Multi agent的基本概念
  • 【Linux】网络编程 - 基础概念

    目录 一 OSI七层模型vsTCP IP五层模型 1 一些周边概念 2 OSI七层模型 3 TCP IP五层模型 4 网络传输流程图 二 什么是MAC地址 三 什么是IP IP地址 1 什么是IP 2 什么是IP地址 四 什么是端口号 一
  • 谈谈FileWriter

    FileWriter 的使用方法 使用 FileWriter 写入文件需要以下步骤 创建 FileWriter 对象 指定要写入的文件路径 使用 write String str 方法将数据写入文件中 关闭 FileWriter 对象 以下
  • BHAR事件研究方法stata代码和案例数据

    BHAR事件研究方法stata代码和案例数据 1 方法说明 BHAR Buy and Hold Abnormal Return 即购入 持有异常收益法 无论是短期事件研究 还是长期事件研究 都包含以下六大步骤 即定义事件以及事件研究窗口 选
  • java中分母为0报什么异常,分母为0一定会抛异常吗?,怎么抛异常

    分母为0一定会抛异常吗 怎么抛异常 现象描述 最近做了一个需求 用到了 预算 时间窗口数 其中预算是double类型 时间窗口数是int类型 其中时间窗口数我计算的有问题 会出现为0的情况 实际最小值应该为1 然后就出现了 一个double
  • Web网页中内嵌Activex的Activex插件开发

    转载自 http blog csdn net tttyd article details 5258096 源代码下载 http files cnblogs com tttyd Activex rar 由于在博主的博客中没有讲明工程的创建过程
  • AOP的环绕切点的应用:公共方法写基本的增删改查(此方法只需要在Controller层写,其他层不需要写代码了)

    在实际项目中碰到的好的切面加强的应用方式 1 获取切面加强目标方法的所有信息 对于ProceedingJoinPoint的应用 Proceedingjoinpoint 继承了 JoinPoint 是在JoinPoint的基础上暴露出 pro
  • Python读取csv文件(详解版,看了无师自通)

    前言 本文的文字及图片来源于网络 仅供学习 交流使用 不具有任何商业用途 如有问题请及时联系我们以作处理 PS 如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入 csv 文件
  • G711原理

    G 711是国际电信联盟ITU T定制出来的一套语音压缩标准 它代表了对数PCM logarithmic pulse code modulation 抽样标准 是主流的波形声音编解码标准 主要用于电话 主要用脉冲编码调制对音频采样 采样率为
  • 用爬虫抓取动态加载数据丨Python爬虫实战系列(6)

    提示 最新Python爬虫资料 代码练习 gt gt 戳我直达 前言 抓取动态加载数据 话不多说 开练 爬虫抓取动态加载数据 确定网站类型 首先要明确网站的类型 即是动态还是静态 检查方法 右键查看网页源码 gt 搜索 辛德勒的名单 关键字
  • sql自定义列名字统计数据

    SELECT 0 as status COUNT as statistic name1 AS copy FROM table WHERE status 0 UNION ALL SELECT 1 as status COUNT as stat
  • 20.内部类【Java温故系列】

    参考自 Java核心技术卷1 内部类 1 使用内部类访问对象状态 2 内部类的特殊语法规则 3 局部内部类 4 匿名内部类 5 静态内部类 内部类 inner class 是定义在另一个类中的类 使用内部类的原因如下 内部类方法可以访问该类
  • 基于Sekiro的jsRPC的使用和安装

    什么是jsRPC 说实话在介绍 JSRPC 我向大家推荐一个库 Selenium wire 感觉和JSrpc的原理很像 RPC指远程过程调用 APP里面的RPC大家比较熟悉了 那什么是jsRPC 顾名思义 就是指利用js手段实现代码远程控制
  • Java学习笔记36——多线程03

    生产者与消费者问题 生产者消费者 生产者和消费者模式概述 生产者消费者案例 生产者消费者 生产者消费者模式是一个十分经典的多线程协作的模式 弄懂生产者消费者问题能够让我们对多线程编程的理解更加深刻 生产者线程用于生产数据 消费者线程用于消费
  • node中使用jsonwebtoken实现身份认证

    在现代web应用中 用户身份认证是非常重要且必不可少的一环 而使用Node js和Express框架 可以方便地实现用户身份认证 而在这个过程中 jsonwebtoken这个基于JWT协议的模块可以帮助我们实现安全且可靠的身份认证机制 可以
  • zabbix语言无法选择中文--zabbix安装配置中文

    You are not able to choose some of the languages because locales for them are not installed on the web server 1 安装wget y
  • 数据结构--二叉排序树

    目录 二叉排序树的定义 二叉排序树的查找 二叉排序树的插入 二叉排序树的构造 二叉排序树的删除 查找效率分析 回顾 二叉排序树的定义 二叉排序树的查找 查找成功的情况 查找失败的情况 二叉排序树的插入 注意 1 二叉排序树不允许出现重复的值
  • Vue3的自定义指令,项目中的运用

    目录 一 什么是自定义指令 1 定义 2 什么时候使用自定义指定 二 Vue3中的自定义指令 1 全局自定义指令 2 组件自定义指令 三 指令钩子 1 钩子 2 钩子参数 四 自定义指令的常见用法 1 添加事件监听 2 操作DOM 一 什么
  • 信息熵与信息增益

    信息熵 information entropy 是度量样本集合纯度 不确定度最常用的指标之一 但要注意 信息熵越小 表示不确定度越低 确定度越高 纯度越高 E n t D