PRML_频率与贝叶斯(一)

2023-11-04

我们从数据中能得到以下信息:

总体信息。总体所属分布或者所属的分布族带来的信息;

样本信息。从总体中抽样得来的样本给我们提供的信息;

  • 以上两种信息进行的统计推断称为经典统计学。它的观点是把样本看成来自具有一定概率分布的总体。

先验信息。在抽样之前,对总体的基本认知,一般来自经验或历史资料。

  • 利用以上三种信息进行的统计推断称为贝叶斯统计。它的观点是:任一未知量 θ \theta θ都可看做一个随机变量,应用一个概率分布去描述对 θ \theta θ的未知状况。这个概率分布是在抽样前就有的关于 θ \theta θ的先验信息的概率陈述。这个分布被称之为先验(Prior)分布。

关于未知量 θ \theta θ的一些讨论:

  1. 依赖于参数 θ \theta θ的密度函数在经典统计中记为 p ( x ; θ ) p(x;\theta) p(x;θ) p θ ( x ) p_{\theta}(x) pθ(x),它表示在参数空间 Θ = { θ } \Theta=\{\theta\} Θ={θ}中不同的 θ \theta θ对应不同的分布。可以在贝叶斯统计中记为 p ( x ∣ θ ) p(x|\theta) p(xθ),他表示在随机变量 θ \theta θ给定某个值时,总体指标 X X X的条件分布。
  2. 根据参数 θ \theta θ的先验信息确定先验分布 π ( θ ) \pi(\theta) π(θ)
  3. 从贝叶斯的观点看,样本 x = ( x 1 , ⋅ ⋅ ⋅ X n , ⋅ ⋅ ⋅ ) x=(x_1 ,···X_n,···) x=(x1,Xn,)的产生分两步进行。首先设想从先验分布 π ( θ ) \pi(\theta) π(θ)产生一个样本 θ \theta θ,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布 p ( x ∣ θ ) p(x|\theta) p(xθ)产生一个样本 x = ( x 1 , ⋅ ⋅ ⋅ x n , ⋅ ⋅ ⋅ ) x=(x_1,···x_n,···) x=(x1,xn,),这个样本是具体的,人们能看得到的,此样本 x x x发生的概率是与如下联合密函数成正比。 p ( x ∣ θ i ) = ∏ i = 1 n p ( x i ∣ θ i ) p(x|\theta^i)=\prod_{i=1}^n{p(x_i|\theta^i)} p(xθi)=i=1np(xiθi)这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为 L ( θ i ) L(\theta^i) L(θi)。频率学派和贝叶斯学派都承认似然函数,二派认位:在有了样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ x n , ⋅ ⋅ ⋅ ) x=(x_1,···x_n,···) x=(x1,xn,)后,总体和样本所含 θ \theta θ的信息都被包含在似然函数 L ( θ i ) L(\theta^i) L(θi)之中,可在使用似然函数做统计推断时,两派还是有差异的。
  4. 由于 θ \theta θ是设想出来的,他仍然是未知的,他是按先验分布 π ( θ ) \pi(\theta) π(θ)而产生的,要把先验信息进行综合,不能只考虑 θ \theta θ,而应对 θ \theta θ的一切可能加以考虑。故要用 π ( θ ) \pi(\theta) π(θ)参与进一步综合。这样一来,样本 x x x和参数 θ \theta θ的联合分布 h ( x , θ ) = p ( x ∣ θ ) π ( θ ) h(x,\theta)=p(x|\theta)\pi(\theta) h(x,θ)=p(xθ)π(θ)把三种可用的信息都综合进去了。
  5. 我们的任务是要对未知数 θ \theta θ做出统计推断。在没有样本信息时,人们只能根据先验分布对 θ \theta θ做出判断。在有样本观察值 x = ( x 1 , ⋅ ⋅ ⋅ x n , ⋅ ⋅ ⋅ ) x=(x_1,···x_n,···) x=(x1,xn,)后,我们应该依据 h ( x , θ ) h(x,\theta) h(x,θ) θ \theta θ作出推断。为此我们需要把 h ( x , θ ) h(x,\theta) h(x,θ)作如下分解: h ( x , θ ) = π ( θ ∣ x ) m ( x ) h(x,\theta)=\pi(\theta|x)m(x) h(x,θ)=π(θx)m(x)其中 m ( x ) m(x) m(x) x x x的边缘密度函数。 m ( x ) = ∫ θ h ( x , ∣ θ ) d θ = ∫ θ p ( x ∣ θ ) π ( θ ) m(x)=\int_\theta{h(x,|\theta)d\theta}=\int_\theta{p(x|\theta)\pi(\theta)} m(x)=θh(x,θ)dθ=θp(xθ)π(θ)他与 θ \theta θ无关,或者说是, m ( x ) m(x) m(x)中不含 θ \theta θ的任何信息。因此能用来对 θ \theta θ做出推断的仅是条件分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)。他的计算公式为 π ( θ ∣ x ) = h ( x ∣ θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ θ p ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{h(x|\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_\theta{p(x|\theta)\pi(\theta)}d\theta} π(θx)=m(x)h(xθ)=θp(xθ)π(θ)dθp(xθ)π(θ),这就是贝叶斯公式的密度函数形式。这个在样本 x x x给定下, θ \theta θ的条件分布被称为 θ \theta θ的后验分布。他是集中了总体、样本和先验三种信息中包含有 θ \theta θ的一切信息,而又是排除一切与 θ \theta θ无关的信息之后所得到的结果。故基于后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx) θ \theta θ进行统计推断是更为有效,也是合理的。
  6. θ \theta θ是离散随机变量时,先验分布可用先验分布列 p i ( θ i ) , i = 1 , 2 ⋅ ⋅ ⋅ \\pi(\theta_i),i=1,2··· pi(θi),i=1,2,表示。这时后验分布也是离散形式。 π ( θ i ∣ x ) = p ( x ∣ θ i ) π ( θ i ) ∑ i p ( x ∣ θ i ) π ( θ i ) , i = 1 , 2 , ⋅ ⋅ ⋅ \pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_i{p(x|\theta_i)\pi(\theta_i)}},i=1,2,··· π(θix)=ip(xθi)π(θi)p(xθi)π(θi),i=1,2,假如总体 X X X也是离散的,那么只要把密度安徽省农户 p ( x ∣ θ ) p(x|\theta) p(xθ)看作是概率函数 P ( X = x ∣ θ ) P(X=x|\theta) P(X=xθ)即可。

一般来说,先验分布 π ( θ ) \pi(\theta) π(θ)是反映人们在抽样分布前对 θ \theta θ的认识,后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)是反映人们在抽样后 θ \theta θ的认识。之间的差异是由于样本 x x x出现后人们对 θ \theta θ认识的一种调整。所以后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)可以看作是人们用总体信息和样本信息对先验分布 π ( θ ) \pi(\theta) π(θ)做调整的结果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PRML_频率与贝叶斯(一) 的相关文章

  • 矿场无盘服务器,七号矿场引领传输新时代

    随着时代的高速发展 Web3 0时代也即将到来 海量数据的产生是必然的 如何确保数据有足够的存储空间 保证数据的安全 这就是未来需要攻克的难点 那么 IPFS网络去中心化存储 信息加密保护 信息不能篡改等技术是现阶段发展所需的技术 With
  • javascript 的筛选方法(多种方法细解)

    filter 是一个数组方法 于创建一个新的数组 其中包含原始数组中满足指定条件的所有元素 返回满足条件的所有内容 放在新的数组里 const numbers 1 2 3 4 5 6 const evenNumbers numbers fi

随机推荐

  • FreeBSD下开启SSH

    ee etc inetd conf 将sshd前边的注释去掉 ee etc ssh sshd config 将PermitRootLogin yes的注释去掉 允许root登陆
  • Stm32学习(七)外部中断

    1 外部中断 1 stm32的每一个IO都可以作为外部中断输入 2 stm32的中断控制器支持19个外部中断 事件请求 线0 15 对应外部IO口的输入中断 线16 连接到PVD输出 线17 连接到RTC闹钟事件 线18 连接到USB唤醒事
  • 操作系统真相还原第0章笔记

    什么是陷入内核 应用程序处于特权级别3 操作系统内核处于特权级0 当用户程序访问系统资源时 无论是硬件 还是内核数据结构 它都需要进行系统调用 这样CPU便进入了内核态 也称为管态 内存访问为什么要分段 编译器在编译程序时 肯定要根据CPU
  • can‘t open file ‘create‘: [Errno 2] No such file or directory问题解决

    这里我提供一个思路吧 我在csdn跟哔哩哔哩都去查来着 因为完全是个小白 真的不会解决 但是他们的答案不能解决我的问题 这个是建立项目时候出的问题 这里创建的不成功 我一共修改了以下几点 有点瞎改 因为不会 1 我使用的是anaconda3
  • antd 验证cron表达式

    项目中使用了quartz 前端需要输入cron表达式并做验证 后端验证很方便 直接用CronExpression isValidExpression cronStr 验证即可 现有网上的资料 要么求大虾做cron的超强正则 要么写了一大堆j
  • pytorch中分析时间开销

    在需要计算代码前使用profiler进行声明 即可输出运行开销 from torch autograd import Variable import torch x Variable torch randn 1 1 requires gra
  • dataframe动态命名(读取不同文件并规律命名)

    读取不同的10个文件到dataframe 并需要分别命名为df 10 df 10 20 以此类推 arr 10 10 20 20 30 30 50 50 70 70 90 90 100 csv paths存储文件位置 定义一个字典d 具体如
  • Vue——vue3报错 <Suspense> slots expect a single root node.

    解决 如果有多组件嵌入时需要给每个组件一个 div 标签
  • springboot最新稳定版本、springcloud对应版本的选择

    1 登录springboot官网 查看当前最稳定版本 https spring io projects spring boot learn 可以看到目前为止最稳定的最新版本是2 4 0 2 登录springcloud官网 查看当前最新的稳定
  • 鸿蒙系统应用开发入门HelloWord(DevEco Studio怎么启动项目以及程序的运行过程)

    使用DevEco Studio新建项目之后 会自带HelloWorld 其他语言需要我们自己写 由于项目使用的模拟器不是在我们本地 而是部署在华为的服务器中 所以我们需要登录华为账号并实名认证才可以使用 登录并启动项目 DevEco Stu
  • JAX-RS (REST Web Services) 2.0 requires Java 1.6 or newer.

    maven 项目出现JAX RS REST Web Services 2 0 requires Java 1 6 or newer 错误 解决办法 这个是eclipse的bug 可见这个链接 https bugs eclipse org b
  • Eclipse中使用SVN

    我的个人博客地址 opiece me 欢迎大家的访问 1 在Eclipse里下载Subclipse插件 方法一 从Eclipse Marketplace里面下载 具体操作 打开Eclipse gt Help gt Eclipse Marke
  • 从0实现基于Linux socket聊天室-增加数据库功能-5

    之前更新过从0实现聊天室的4篇文章 很多粉丝朋友还是觉得内容相对简单 本文一口君会在原有代码基础上增加数据库操作功能 后续文章还会增加文件传输功能 前面文章链接 从0实现基于Linux socket聊天室 多线程服务器模型 1 从0实现基于
  • 卷积的利用

    视频 https www bilibili com video BV1vE411h7W2 from search seid 14520040502419023311 卷积 https www bilibili com video BV1A4
  • Java 8 lambda 函数式编程

    目录 简介 Lambda 表达式 解析1 解析2 自定义 lambda 表达式 例子1 一行输出多个值 例子2 数值计算 例子3 函数中使用自定义lambda表达式 简介 函数式编程就是类似于这样的东西 class MyTest publi
  • 运维攻城狮面试题汇总

    面试题汇总 什么是运维 什么是游戏运维 1 运维是指大型组织已经建立好的网络软硬件的维护 就是要保证业务的上线与运作的正常 在他运转的过程中 对他进行维护 他集合了网络 系统 数据库 开发 安全 监控于一身的技术 运维又包括很多种 有DBA
  • Qt响应按键按下

    1 Qt的键盘事件 void keyReleaseEvent QKeyEvent 按键释放事件 void keyPressEvent QKeyEvent 按键按下事件 2 Qt可以响应的按键事件 单个按键 组合键 例如 crtl c 注意
  • 如何用Python进行股票预测,数据分析带你从小白开始

    在开始这个话题之前请先记住一句友情提醒 股市有风险 投资需谨慎 我们写这个文章并不是鼓励大家去入市 小编本人也不买股票 我们只是在探索Python在股票分析和预测上面能发挥什么样的作用 对于和数据打交道的数据科学家来说 预测证券市场走势远比
  • C语言常见错误分析

    C语言常见错误分析 错误分类 语法错 逻辑错 运行错 0 忘记定义变量 main x 3 y 6 printf d n x y 1 C语言的变量一定要先定义才能使用 2 输入输出的数据的类型与所用格式说明符不一致 int a 3 float
  • PRML_频率与贝叶斯(一)

    我们从数据中能得到以下信息 总体信息 总体所属分布或者所属的分布族带来的信息 样本信息 从总体中抽样得来的样本给我们提供的信息 以上两种信息进行的统计推断称为经典统计学 它的观点是把样本看成来自具有一定概率分布的总体 先验信息 在抽样之前