Chapter 12 贝叶斯网络

2023-11-10

1 概率公式

条件概率： $P(A|B)=\frac{P(AB)}{P(B)}$

全概率公式： $P(A)=\sum_{i}P(A|B_{i})P(B_{i})$

贝叶斯公式(Bayes)： $P(B_{i}|A) =\frac{P(A|B_{i})P(B_{i})}{\sum_{j}P(A|B_{j})P(B_{j})}$

2 贝叶斯公式

2.1 贝叶斯公式带来的思考

给定某些样本 $D$ ，在这些样本中计算某结论 $A_{1},A_{2},...,A_{n}$ 出现的概率，即 $P(A_{i}|D)$

$maxP(A_{i}|D)=max\frac{P(D|A_{i})P(A_{i})}{P(D)}$ 贝叶斯公式

$max\frac{P(D|A_{i})P(A_{i})}{P(D)}=max(P(D|A_{i})P(A_{i}))$ 样本给定，则对于任何 $A_{i},P(D)$ 是常数，仅为归一化因子。

$max(P(D|A_{i})P(A_{i})) -> maxP(D|A_{i}$ ：忽略 $P(A_{i})$

$maxP(A_{i}|D) -> maxP(D|A_{i})$ ：若这些结论 $A_{1},A_{2},...,A_{n}$ 的先验概率相等（或近似），则可以由此推导。

2.2 贝叶斯公式的应用

金条问题：

设这三个箱子为B=1,B=2,B=3，两块贵金属为M=G(金条)，M=S(银条)

所以已知： $P(B=1)=P(B=2)=P(B=3)=\frac{1}{3}$

$P(M=G|B=1)=1,P(M=S|B=1)=0$

$P(M=G|B=2)=0,P(M=S|B=2)=1$

$P(M=G|B=3)=\frac{1}{2},P(M=S|B=3)=\frac{1}{2}$

问题就转化为求 $P(B=1|M=G)=?$

解答： $P(B=1|M=G)=\frac{P(B=1,M=G)}{P(M=G)}=\frac{\frac{1}{3}}{\frac{1}{3}+0+\frac{1}{3}\cdot \frac{1}{2}}=\frac{2}{3}$

2.3 贝叶斯网络

把某个研究系统中涉及到的随机变量，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络。
贝叶斯网络(Bayesian Network)，又称有向无环图模型，是一种概率图模型之一，根据概率图的拓扑结构，考察一组随机变量 $\left \{ X_{1},X_{2},...,X_{n} \right \}$ 及其 $n$ 组条件概率分布。
概率图模型分为马尔可夫网络模型（无向图）和贝叶斯网络模型（有向图）。
一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)”，另一个是‘果(children)”，两节点就会产生一个条件概率值。
一个简单的贝叶斯网络

2.4 全贝叶斯网络

每一对结点之间都有边连接

$p(x_{1},...,x_{K})=p(x_{K}|x_{1},...,x_{K-1})...p(x_{2}|x_{1})p(x_{1})$

$P(X_{1}=x_{1},...,X_{n}=x_{n})=\prod_{i=1}^{n}P(X_{i}=x_{i}|X_{i+1}=x_{i+1},...,X_{n}=x_{n})$

举例说明：当K=5时 $p(x_{1},...,x_{5})=p(x_{5}|x_{1}...x_{4})p(x_{4}|x_{1}...x_{3})p(x_{3}|x_{2}x_{1})p(x_{1})$

2.5 "正常"的贝叶斯网络

有些边缺失
如下图所示：直观上 $x_{1},x_{2}$ 独立， $x_{6},x_{7}$ 在 $x_{4}$ 给定条件下独立
$x_{1},x_{2},...,x_{7}$ 的联合分布为： $p(x_{1})p(x_{2})p(x_{3})p(x_{4}|x_{1},x_{2},x_{3})p(x_{5}|x_{1},x_{3})p(x_{6}|x_{4})p(x_{7}|x_{4},x_{5})$

举例说明：

例一：

由于呼吸困难（D）所造成的原因有肺癌（C）和支气管炎（B），所以才有上表（CPD）。

例二：

全部随机变量的联合分布为：
$P(j,m,a,\overline{b},\overline{e})=P(j|a)P(m|a)P(a|\overline{b},\overline{e})P(\overline{b})P(\overline{e})=0.9\times 0.7\times 0.001\times 0.999\times 0.998\approx 0.00063$

实际上，如果需要求联合分布，仅需给出拓扑图，以及各个随机变量之间的概率分布表即可。

2.6 “特殊”的贝叶斯网络

通过贝叶斯网络判定条件独立：

（1）情况一：tail-to-tail

由图可看出： $P(a,b,c)=P(c)\cdot P(a|c)\cdot P(b|c)$

所以： $P(a,b,c)/P(c)=P(a|c)P(b|c)$

又因为： $P(a,b|c)=P(a,b,c)/P(c)$

所以： $P(a,b|c)=P(a|c)P(b|c)$

即在c给定条件下，a和b被阻断，是独立的。

（2）情况二：head-to-tail

由于 $P(a,b,c)=P(a)\cdot P(c|a)\cdot P(b|c)$

所以有：

即在c给定条件下，a和b被阻断，是独立的。

（3）情况三：head-to-head

由于 $P(a,b,c)=P(a)\cdot P(b)\cdot P(c|a,b)$

所以有： $\sum_{c}P(a,b,c)=\sum_{c}P(a)\cdot P(b)\cdot P(c|a,b)$

从而： $P(a,b)=P(a)\cdot P(b)$

即在c未知的条件下，a和b被阻断，是独立的。

2.7 将上述结点推广至结点集

ps:有D-separation可知，在 $x_{i}$ 给定的条件下， $x_{i+1}$ 的分布和 $x_{1},x_{2}...x_{i-1}$ 条件独立。即： $x_{i+1}$ 的分布状态只和 $x_{i}$ 有关，和其他变量条件独立，这种顺次演变的随机过程模型，叫做马尔科夫模型。

$P(X_{n+1}=x|X_{0},X_{1},X_{2},...,X_{n})=P(X_{n+1}=x|X_{n})$

隐马尔科夫模型(HMM,Hidden Markov Model)可用标注问题，在语音识别、NLP、生物信息、模式识别等领域被实践证明是有效的算法。
HMM是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。
隐马尔科夫模型随机生成的状态的序列，称为状态序列；每个状态生成一个观测，由此产生的观测随机序列，称为观测序列。序列的每个位置可看做是一个时刻。空间序列也可使用该模型，如分析DNA。

2.8 贝叶斯网络的用途

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)