kl散度学习笔记python实现

2023-10-31

KL Divergence
KL（ Kullback–Leibler） Divergence中文译作KL散度，从信息论角度来讲，这个指标就是信息增益（Information Gain）或相对熵（Relative Entropy），用于衡量一个分布相对于另一个分布的差异性，注意，这个指标不能用作距离衡量，因为该指标不具有对称性，即两个分布PP和QQ，DKL(P|Q)DKL(P|Q)与DKL(Q|P)DKL(Q|P)计算的值一般不相等，若用作距离度量，一般需要对公式加以修改，后文讲到。
KL Divergence的计算公式为
对于离散分布
DKL(P|Q)=∑iP(i)logP(i)Q(i)
DKL(P|Q)=∑iP(i)log⁡P(i)Q(i)

对于连续分布
DKL(P|Q)=∫∞−∞p(x)logp(x)q(x)dx
DKL(P|Q)=∫−∞∞p(x)log⁡p(x)q(x)dx
程序
利用python 3计算:

import numpy as np
import scipy.stats

# 随机生成两个离散型分布
x = [np.random.randint(1, 11) for i in range(10)]
print(x)
print(np.sum(x))
px = x / np.sum(x)
print(px)
y = [np.random.randint(1, 11) for i in range(10)]
print(y)
print(np.sum(y))
py = y / np.sum(y)
print(py)

# 利用scipy API进行计算
# scipy计算函数可以处理非归一化情况，因此这里使用
# scipy.stats.entropy(x, y)或scipy.stats.entropy(px, py)均可
KL = scipy.stats.entropy(x, y)
print(KL)

# 编程实现
KL = 0.0
for i in range(10):
    KL += px[i] * np.log(px[i] / py[i])
# print(str(px[i]) + ' ' + str(py[i]) + ' ' + str(px[i] * np.log(px[i] / py[i])))

print(KL)

论文《Detecting Regions of Maximal Divergence for Spatio-Temporal Anomaly Detection》时，文中提到了这三种方法来比较时间序列中不同区域概率分布的差异。

KL散度、JS散度和交叉熵

三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。

对于概率分布P(x)和Q(x)

1）KL散度（Kullback–Leibler divergence）

又称KL距离，相对熵。

当P(x)和Q(x)的相似度越高，KL散度越小。

KL散度主要有两个性质：

（1）不对称性

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即D(P||Q)!=D(Q||P)。

（2）非负性

相对熵的值是非负值，即D(P||Q)>0。

2）JS散度（Jensen-Shannon divergence）

JS散度也称JS距离，是KL散度的一种变形。

但是不同于KL主要又两方面：

（1）值域范围

JS散度的值域范围是[0,1]，相同则是0，相反为1。相较于KL，对相似度的判别更确切了。

（2）对称性

即 JS(P||Q)=JS(Q||P)，从数学表达式中就可以看出。

3）交叉熵（Cross Entropy）

在神经网络中，交叉熵可以作为损失函数，因为它可以衡量P和Q的相似性。

交叉熵和相对熵的关系：

以上都是基于离散分布的概率，如果是连续的数据，则需要对数据进行Probability Density Estimate来确定数据的概率分布，就不是求和而是通过求积分的形式进行计算了。

个人理解：

1、KL散度本质是用来衡量两个概率分布的差异一种数学计算方式；由于用到比值除法不具备对称性；

2、神经网络训练时为何不用KL散度，从数学上来讲，它们的差异在于KL散度多减了一个 H(P)；P代表真实分布，Q代表估计的分布

从损失函数角度来看，在训练样本固定的情况下，H(P)是个常数，对梯度更新没有价值；所以两者的最优解是一样的；

KL散度的含义和性质：

在概率论或信息论中，KL散度( Kullback–Leibler divergence)，又称相对熵（relative entropy)，是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。有人将KL散度称为KL距离，但事实上，KL散度并不满足距离的概念，应为:1）KL散度不是对称的；2）KL散度不满足三角不等式。对一个离散随机变量或连续的随机变量的两个概率分布P和Q来说，KL散度的定义分别如下所示。

KL散度在信息论中有自己明确的物理意义，它是用来度量使用基于Q分布的编码来编码来自P分布的样本平均所需的额外的Bit个数。而其在机器学习领域的物理意义则是用来度量两个函数的相似程度或者相近程度，在泛函分析中也被频繁地用到[2]。在香农信息论中，用基于P的编码去编码来自P的样本，其最优编码平均所需要的比特个数（即这个字符集的熵）为：

用基于P的编码去编码来自Q的样本，则所需要的比特个数变为：

于是，我们即可得出P与Q的KL散度

可以利用Jensen不等式证明P与Q之间的KL散度不小于0：

参考资料：[1] KL散度的解释，https://baike.so.com/doc/4949446-5170752.html.

[2] KL散度与Jensen不等式的理解,https://zhuanlan.zhihu.com/p/28249050.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习基础

kl散度学习笔记python实现的相关文章

【深度学习基础】

最终效果如上图所示 xff1a 真不知道这一路有多艰难众所周知CHATGPT 可以做表格和公式 xff0c 但它输出的文本是直接渲染好的你是直接复制不了的 xff0c 你只能复制它出来的字体于是我尝试了各种想让它输出表格和文字的方
深度学习基础

深度学习介绍深度学习与机器学习的区别 xff1a 机器学习的特征工程步骤是要靠手动完成的 xff0c 而且需要大量的领域专业知识深度学习不需要更多的特征处理只需要进行图片的输入 xff0c 进入神经网络后 xff0c 输出结果深度学
深度学习入门资料整理

深度学习基础总结无一句废话附完整思维导图深度学习如何入门知乎深度学习入门基础讲义 shuzfan的博客 CSDN博客深度学习入门神经网络15分钟入门足够通俗易懂了吧知乎深度学习基础知识点梳理知乎
vscode中mmgeneration的分布式训练的调试文件设置

受知乎博主的启发没弄软连接直接把launch py的路径放到了program参数中了还需要把train py中的参数设置为默认值 launch json文件的代码使用 IntelliSense 了解相关属性悬停以查看现有属性的描述
深度学习——深度生成模型（GAN，VAE）

深度学习与PyTorch入门对抗生成网络GAN理论讲解及项目实战哔哩哔哩 bilibili 背景生成模型从某个分布中获取输入训练样本并学习表示该分布的模型作用产生真实数据艺术创作超分辨率图片 2 帮助我们发现数据集中的隐变
深度学习基础--池化--空间金字塔池化(spatial pyramid pooling,SPP)

空间金字塔池化 spatial pyramid pooling SPP 解决的问题先前方法输入图片会经过裁切 Crop 或者变形缩放 Warp 这都在一定程度上导致图片信息的丢失和变形限制了识别精确度 SPP可以输入任意大小的图片不
kl散度学习笔记python实现

KL Divergence KL Kullback Leibler Divergence中文译作KL散度从信息论角度来讲这个指标就是信息增益 Information Gain 或相对熵 Relative Entropy 用于衡量一个分布
机器学习基础（一）——人工神经网络与简单的感知器

机器学习基础一人工神经网络与简单的感知器 2012 07 04 19 57 20 转载标签杂谈分类 machine learning 从最开始做数据挖掘而接触人工智能的知识开始就不断听学长老师说起神经网络算法从这个角度来讲
Expected more than 1 value per channel when training, got input size torch.Size

Expected more than 1 value per channel when training got input size torch Size 训练的时候 batch size必须大于1 但是预测的时候 batch size可
卷积神经网络的深入理解-归一化篇（Batch Normalization具体实例）

卷积神经网络的深入理解归一化篇标准化归一化神经网络中主要用在激活之前卷积之后持续补充归一化在网络中的作用 1 线性归一化进行线性拉伸可以增加对比度 2 零均值归一化像素值均值方差 3 Batch Normalizat
【深度学习基础】损失函数

深度学习基础性能评估指标超参数介绍损失函数前言本文主要总结一下常见目标检测的损失函数以及一些基础的函数主要损失函数为mask rcnn涉及到的损失函数包括 MSE均方误差损失函数 Cross Entropy交叉熵损失函数目标检
深度学习09 -Transformer2 - 理论篇

参考文档详解Transformer 1 开局来一张Transformer的整体结构图 2 结构图每步分析 1 Encoder 1 Input Embedding 就是对输入的数据进行向量化编码可能是one hot等等 2 Positio
卷积层计算量(FLOPS)和参数量的计算

1 卷积参数量的计算若卷积层的输入featuremap的维度为Cin Hin Win 卷积核的大小为K1 K2 padding P1 P2 stride S1 S2 卷积核 filter 的数量为Cout 则输出特征图的大小为Cout H
机器学习（一）——K-近邻（KNN）算法

机器学习一 K 近邻 KNN 算法最近在看机器学习实战这本书因为自己本身很想深入的了解机器学习算法加之想学python 就在朋友的推荐之下选择了这本书进行学习一 K 近邻算法 KNN 概述最简单最初级的分类器是将全部的训练数
深度学习入门基础CNN系列——卷积计算

卷积计算卷积是数学分析中的一种积分变换的方法在图像处理中采用的是卷积的离散形式这里需要说明的是在卷积神经网络中卷积层的实现方式实际上是数学中定义的互相关 cross correlation 运算与数学分析中的卷积定义有所不同这
注意力&Transformer

注意力注意力分为两步计算注意力分布 alpha 其实就是打分函数进行打分然后softmax进行归一化根据 alpha 来计算输入信息的加权平均软注意力其选择
语义分割损失函数

这里面有几个损失函数 GitHub MichaelFan01 STDC Seg Source Code of our CVPR2021 paper Rethinking BiSeNet For Real time Semantic Segm
CNN中特征融合的一些策略

Introduction 特征融合的方法很多如果数学化地表示大体可以分为以下几种 X Y textbf X textbf Y X Y X
懒人式迁移服务器深度学习环境（完全不需要重新下载）

换服务器了想迁移原来服务器上的深度学习环境但又觉得麻烦懒得重新安装一遍anaconda pytorch 有没有办法能不费吹灰之力直接迁移接下来跟着我一起懒汉式迁移本方法适用于在同一内网下的两台服务器之间互相迁移不在同一局域网下的
mmpose 使用笔记

目录自己整理的可以跑通的代码图片demo 检测加关键点自己整理的可以跑通的代码最强姿态模型 mmpose 使用实例 CSDN博客图片demo python demo image demo py tests data coco 00

随机推荐

[创业之路-43] ：复盘与自省 - 创业初感悟（冲动-＞纠结-＞忐忑）与“不贪、不赌、不悔”做人做事三原则的成形

目录创业冲动冲动之后是纠结选择后的忐忑未来的应对之策复盘后的体悟做人做事三大基本原则1 不贪而心安做人做事三大基本原则2 不赌而敬畏做人做事三大基本原则3 不悔而未来收获创业冲动虽然对创业进行了很多零散知识上的准备和多
【WEB】关于网页设置 background-image: url死活显示不出来的解决办法

图片或者背景显示不出来大部分都是路径的问题这是我图片所在的文件夹相信很多有这个问题的小伙伴都是像我下面这样写的路径那么背景图是不会显示出来的解决办法如下图原因是在img的src中是以当前html网页做相对文件来设置引入图片
全网最详细Postman接口测试使用教程（实战干G货）

目录导读一前言二接口测试三抓包四 postman构造请求五其他的登录鉴权方式六总结一前言测试行业现在越来越卷不会点接口测试好像简历都已经拿不出手了但很多小伙伴都会头疼接口测试应该怎么入门那么多的接口测试
vue axios三层封装

utils文件下创建request js文件第一层封装引入axios文件 import axios from axios import qs from qs 声明公共的地址 axios defaults baseURL 设置超时 axi
使用Python进行基于属性的测试

When you write unit tests it s hard to find the right test cases You want to be certain that you covered all the interes
Acm Club 1326:算法2-8~2-11：链表的基本操作

题目描述链表是数据结构中一种最基本的数据结构它是用链式存储结构实现的线性表它较顺序表而言在插入和删除时不必移动其后的元素现在给你一些整数然后会频繁地插入和删除其中的某些元素会在其中某些时候让你查找某个元素或者输出当前链表中所有的
基于JT/T808协议、JT/T809协议、JT/T1078协议、苏标主动安全的车联网平台架构方案

JT808是定位协议通讯协议基础协议其他协议基于该协议进行扩展 JT809是转发协议监管协议第三方平台通过809向808进行数据获取与事件下发 JT1078是多媒体监控协议视频音频对讲可以通过809扩展实现上级也可以多媒体监
Android 关于微信原生登录和友盟第三方微信登录来获取code那些坑（40029问题）

如果你恰好集成了微信原生登录与友盟三方登录那么可以继续往下看了问题描述本来在APP端使用openid就可以了的结果未想到后台要我们传一个Code过去就是微信里面的Resp Error code这个 code 友盟登录里是直接获取
java 线程：概念与原理

本文转载至 http lavasoft blog 51cto com 62575 99150 一操作系统中线程和进程的概念现在的操作系统是多任务操作系统多线程是实现多任务的一种方式进程是指一个内存中运行的应用程序每个进程都有自己独
qt鼠标事件

一 qt的鼠标事件包含头文件
小程序 image标签默认宽高问题，如何实现高度自适应

微信小程序的图片image有默认的宽高 width 320px和height 240px 我遇到的业务场景是宽度100 高度自适应所以 1 宽度设置成100 img width 100 2 设置mode属性 mode widthFix
2019夏令营之行（下）南大软件+北邮网研院

夏令营上 https blog csdn net Cc Sonia article details 95238001 正如上篇博客所说北航计算机是我最满意的结果所以剩下的这两个夏令营我就没认真参加2333 7 17 7 20 南大软件
基于多进程并发-进程通讯之管道(pipe)

一管道 pipe 所谓的管道就是内核的串缓存 Pipe 一个进程从管道的端写的数据实际上是缓存在内核中的另端读取也就是从内核中读取这段数据特性有两种类型的管道匿名管道有名管道也叫命名管道简单实现有大小限制
【PTA】【数据结构与算法题目集】7-29 修理牧场（25分）【霖行】

PTA 数据结构与算法题目集 7 29 修理牧场 25分霖行题目题目链接 7 29 修理牧场 25 分农夫要修理牧场的一段栅栏他测量了栅栏发现需要N块木头每块木头长度为整数L i个长度单位于是他购买了一条很长的能锯成N块的
win/linux集群源码,Linux win/linux集群源码 - 下载 - 搜珍网

linux linux Bin linux Bin Control exe linux Bin Control zip linux Bin dat linux Bin dat WinDDOS dat linux Claer bat linu
[机缘参悟-76]：沟通技巧-职场中常见不合适语言的案例分析（尽量避免使用反问式语言）

目录第一部分针对他人的用词避免使用怎么这样的责难的词避免使用老实说这样过虚假的词避免说 xxx几点左右这种的不确定性词避免使用是xxx人的错这种强烈的否定性的词避免使用但是这一种强烈的转折性的词避免使用务
判断一个数是否偶数（深度思考）

当看到这个题很明显就能想到 if unm 2 0 return true else return false 那么如果继续优化我们都知道计算机都是2进制计算那么我们可以从二进制入手 2 gt 0010 4 gt 0100 3 gt
【SpringMVC】SpringMVC ：@RequestMapping注解

文章目录 1 美图 2 概述 3 使用 4 源码 4 0 RequestMapping 4 1 AbstractHandlerMethodMapping 1 美图 2 概述如果 Web 工程使用了 Spring MVC 那么它在启动阶
Vue连接数据库实现登录注册

在前端开发中经常需要将用户的注册和登录信息存储到数据库中然后再进行登录验证本文将介绍如何使用Vue连接数据库实现登录注册功能前提条件在开始之前需要安装并配置好以下环境 Vue js Node js MongoDB 安装依赖安装
kl散度学习笔记python实现

KL Divergence KL Kullback Leibler Divergence中文译作KL散度从信息论角度来讲这个指标就是信息增益 Information Gain 或相对熵 Relative Entropy 用于衡量一个分布

kl散度学习笔记python实现

kl散度学习笔记python实现 的相关文章

随机推荐

热门标签

kl散度学习笔记python实现的相关文章