多元高斯分布(二)——更多关于多元高斯分布

2023-11-05

注意,本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中部分的内容进行翻译学习。

更多关于多元高斯分布

介绍

到目前为止的课堂上,多元高斯分布已经出现在许多应用中,比如线性回归的概率解释、高斯判别分析、高斯混合聚类,以及最近学习的因子分析。在本节的笔记中,我们试图揭开多元高斯函数在最近学习的因子分析课程中引入的一些奇特的性质。本节笔记的目的是让大家对这些性质的来源有一些直观的了解,这样你就可以在作业(提醒你写作业的线索!)中更加明确地使用这些性质。

1. 定义

我们称一个概率密度函数是一个均值为 μ ∈ R n \mu\in R^n μRn,协方差矩阵为 Σ ∈ S + + n \Sigma\in S_{++}^n ΣS++n 1 ^1 1一个多元正态分布(或高斯分布)(multivariate normal (or Gaussian) distribution), 其随机变量是向量值 x ∈ R n x\in R^n xRn,该概率密度函数可以通过下式表达:

上一小段上标1的说明(详情请点击本行)

1 复习一下线性代数章节中介绍的 S + + n S_{++}^n S++n是一个对称正定的 n × n n\times n n×n矩阵空间,定义为:

S + + n = { A ∈ R n × n : A = A T a n d x T A x > 0 f o r a l l x ∈ R n s u c h t h a t x ≠ 0 } S_{++}^n=\{A\in R^{n\times n}:A=A^T\quad and\quad x^TAx>0\quad for\quad all\quad x\in R^n\quad such\quad that\quad x\neq 0\} S++n={ARn×n:A=ATandxTAx>0forallxRnsuchthatx̸=0}

p ( x ; μ , Σ ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right) p(x;μ,Σ)=(2π)n/2Σ1/21exp(21(xμ)TΣ1(xμ))

我们可以写作 x ∼ N ( μ , Σ ) x\sim\mathcal{N}(\mu,\Sigma) xN(μ,Σ)

2. 高斯分布的特点

多元高斯在实践中非常方便,因为其如下的特点:

  • 特点 #1: 如果你知道以 x x x为随机变量的高斯分布的均值 μ \mu μ和协方差矩阵 Σ \Sigma Σ。则你可以直接写出关于 x x x的概率密度函数。

  • 特点 #2: 下列高斯积分具有闭式解(closed-form solutions):

∫ x ∈ R n p ( x ; μ , Σ ) d x = ∫ − ∞ ∞ ​ ⋯ ∫ − ∞ ∞ p ( x ; μ , Σ ) d x 1 … d x 2 = 1 ∫ x ∈ R n x i p ( x ; μ , σ ) d x = μ i ∫ x ∈ R n ( x i − μ i ) ( x j − μ j ) p ( x ; μ , σ ) d x = Σ i j \begin{aligned} \int_{x\in R^n}p(x;\mu,\Sigma)dx &= \int_{-\infin}^{\infin}\dots\int_{-\infin}^{\infin}p(x;\mu,\Sigma)dx_1\dots dx_2=1 \\ \int_{x\in R^n}x_ip(x;\mu,\sigma)dx &= \mu_i \\ \int_{x\in R^n}(x_i-\mu_i)(x_j-\mu_j)p(x;\mu,\sigma)dx &=\Sigma_{ij} \end{aligned} xRnp(x;μ,Σ)dxxRnxip(x;μ,σ)dxxRn(xiμi)(xjμj)p(x;μ,σ)dx=p(x;μ,Σ)dx1dx2=1=μi=Σij

  • 特点 #3: 高斯函数遵循一些封闭性质(closure properties:):
    • 独立高斯随机变量的和是高斯分布。
    • 联合高斯分布的边缘分布是高斯分布。
    • 联合高斯分布的条件是高斯分布。

乍一看,这些事实中的一些结论,尤其是第 1 1 1和第 2 2 2条,似乎要么是直观上显而易见的,要么至少是可信的。然而,我们可能不太清楚的是为什么这些特点如此有用。在本文档中,我们将提供一些直观解释说明如何在平常操作处理多元高斯随机变量时使用这些特点。

3. 封闭性质

在本节中,我们将详细讨论前面描述的每个封闭属性,我们将使用特点#1和#2来证明属性,或者至少给出一些关于属性正确性的直觉。

下面是我们本节将要介绍的内容的路线图:

独立高斯分布的和 联合高斯分布的边缘分布 联合高斯分布的条件分布
为什么是高斯函数的解释 不介绍 介绍 介绍
概率密度函数的结果 介绍 介绍 介绍
3.1 独立高斯分布的和是高斯分布

本规则的正式表述为:

设有 y ∼ N ( μ , Σ ) y\sim\mathcal{N}(\mu,\Sigma) yN(μ,Σ) z ∼ N ( μ ′ , Σ ′ ) z\sim\mathcal{N}(\mu',\Sigma') zN(μ,Σ)为独立高斯分布,其中随机变量 μ , μ ′ ∈ R n \mu,\mu'\in R^n μ,μRn Σ , Σ ′ ∈ S + + n \Sigma,\Sigma'\in S_{++}^n Σ,ΣS++n。则它们的和也同样是高斯分布:

y + z ∼ N ( μ + μ ′ , Σ + Σ ′ ) y+z\sim\mathcal{N}(\mu+\mu',\Sigma+\Sigma') y+zN(μ+μ,Σ+Σ)

在我们证明上面的结论前,先给出一些直观结果:

  1. 首先要指出的是上述规则中独立假设的重要性。为了了解为什么这很重要,假设 y ∼ N ( μ , σ ) y\sim\mathcal{N}(\mu,\sigma) yN(μ,σ)是服从于均值 μ \mu μ方差 σ \sigma σ的多元高斯分布,并且假设 z = − y z=-y z=y。很明显, z z z也是服从于与多元高斯分布(事实上, z ∼ N ( − μ , σ ) z\sim\mathcal{N}(-\mu,\sigma) zN(μ,σ)),但是 y + z y+z y+z等于零(不是高斯分布)!
  2. 第二件需要指出的事情是许多学生感到困惑的一点:如果我们把两个高斯概率密度函数(多维空间中的“肿块(bumps)”)加在一起,我们会得到一些峰(即“双峰(two-humped)”的概率密度函数)么?在这里,我们要注意到随机变量 y + z y + z y+z的概率密度函数并不是简单的将两个单独的概率密度函数的随机变量 y y y z z z相加,而是会变成 y y y z z z的卷积的概率密度函数。 2 ^2 2 然而证明“两个高斯概率密度函数的卷积得到一个高斯概率密度函数”超出了这门课的范围。
上一小段上标2的说明(详情请点击本行)

2 例如,如果 y y y z z z是单变量高斯函数(即: y ∼ N ( μ , σ 2 ) , z ∼ N ( μ , σ ′ 2 ) y\sim\mathcal{N}(\mu,\sigma^2),z\sim\mathcal{N}(\mu,\sigma'^2) yN(μ,σ2),zN(μ,σ2)),则它们的概率密度的卷积由下式给出:

p ( y + z ; μ , μ ′ , σ , σ ′ 2 ) = ∫ − ∞ ∞ p ( w ; μ , σ 2 ) p ( y + z − w ; μ ′ , σ ′ 2 ) d w = ∫ − ∞ ∞ 1 2 π σ exp ⁡ ( − 1 2 σ 2 ( w − μ ) 2 ) ⋅ 1 2 π σ ′ exp ⁡ ( − 1 2 σ ′ 2 ( y + z − w − μ ′ ) 2 ) d w \begin{aligned} p(y+z;\mu,\mu',\sigma,\sigma'^2) &=\int_{-\infin}^{\infin}p(w;\mu,\sigma^2)p(y+z-w;\mu',\sigma'^2)dw \\ &= \int_{-\infin}^{\infin}\frac 1{\sqrt{2\pi}\sigma}\exp\left(-\frac 1{2\sigma^2}(w-\mu)^2\right)\cdot \frac 1{\sqrt{2\pi}\sigma'}\exp\left(-\frac 1{2\sigma'^2}(y+z-w-\mu')^2\right)dw \end{aligned} p(y+z;μ,μ,σ,σ2)=p(w;μ,σ2)p(y+zw;μ,σ2)dw=2π σ1exp(2σ21(wμ)2)2π σ1exp(2σ21(y+zwμ)2)dw

转换一下思路,让我们用卷积给出高斯概率密度函数的观察结果,加上特点#1,来算出概率密度函数 p ( y + z ∣ μ , Σ ) p(y+z|\mu,\Sigma) p(y+zμ,Σ)的解析解。如果我们要计算卷积。我们该怎么做呢?回顾特点#1,高斯分布完全由它的均值向量和协方差矩阵指定。如果我们能确定这些值是什么,那么我们就能计算出其解析解了。

这很简单!对应期望而言,我们有:

E [ y i + z i ] = E [ y i ] + E [ z i ] = μ i + μ i ′ E[y_i+z_i]=E[y_i]+E[z_i]=\mu_i+\mu_i' E[yi+zi]=E[yi]+E[zi]=μi+μi

上式的结果根据期望的线性性质。因此, y + z y + z y+z的均值可以简单的写作 μ + μ ′ \mu+\mu' μ+μ。 同时,协方差矩阵的第 ( i , j ) (i, j) (i,j)项由下式给出:

E [ ( y i + z i ) ( y j + z j ) ] − E [ y i + z i ] E [ y j + z j ] = E [ y i y j + z i y j + y i z j + z i z j ] − ( E [ y i ] + E [ z i ] ) ( E [ y j ] + E [ z j ] ) = E [ y i y j ] + E [ z i y j ] + E [ y i z j ] + E [ z i z j ] − E [ y i ] E [ y j ] − E [ z i ] E [ y j ] − E [ y i ] E [ z j ] − E [ z i ] E [ z j ] = ( E [ y i y j ] − E [ y i ] E [ y j ] ) + ( E [ z i z j ] − E [ z i ] E [ z j ] ) + ( E [ z i y j ] − E [ z i ] E [ y j ] ) + ( E [ y i z j ] − E [ y i ] E [ z j ] ) \begin{aligned} &E[(y_i+z_i)(y_j+z_j)]-E[y_i+z_i]E[y_j+z_j] \\ &\qquad=E[y_iy_j+z_iy_j+y_iz_j+z_iz_j]-(E[y_i]+E[z_i])(E[y_j]+E[z_j]) \\ &\qquad=E[y_iy_j]+E[z_iy_j]+E[y_iz_j]+E[z_iz_j]-E[y_i]E[y_j]-E[z_i]E[y_j]-E[y_i]E[z_j]-E[z_i]E[z_j] \\ &\qquad=(E[y_iy_j]-E[y_i]E[y_j])+(E[z_iz_j]-E[z_i]E[z_j]) \\ &\qquad\qquad+(E[z_iy_j]-E[z_i]E[y_j])+(E[y_iz_j]-E[y_i]E[z_j]) \\ \end{aligned} E[(yi+zi)(yj+zj)]E[yi+zi]E[yj+zj]=E[yiyj+ziyj+yizj+zizj](E[yi]+E[zi])(E[yj]+E[zj])=E[yiyj]+E[ziyj]+E[yizj]+E[zizj]E[yi]E[yj]E[zi]E[yj]E[yi]E[zj]E[zi]E[zj]=(E[yiyj]E[yi]E[yj])+(E[zizj]E[zi]E[zj])+(E[ziyj]E[zi]E[yj])+(E[yizj]E[yi]E[zj])

利用 y y y z z z相互独立的事实,我们得到 E [ z i y j ] = E [ z i ] E [ y j ] E[z_iy_j]=E[z_i]E[y_j] E[ziyj]=E[zi]E[yj] E [ y i z j ] = E [ y i ] E [ z j ] E[y_iz_j]=E[y_i]E[z_j] E[yizj]=E[yi]E[zj]。因此,最后两项消去了,剩下:

E [ ( y i + z i ) ( y j + z j ) ] − E [ y i + z i ] E [ y j + z j ] = ( E [ y i y j ] − E [ y i ] E [ y j ] ) + ( E [ z i z j ] − E [ z i ] E [ z j ] ) = Σ i j + Σ i j ′ \begin{aligned} &E[(y_i+z_i)(y_j+z_j)]-E[y_i+z_i]E[y_j+z_j] \\ &\qquad=(E[y_iy_j]-E[y_i]E[y_j])+(E[z_iz_j]-E[z_i]E[z_j]) \\ &\qquad=\Sigma_{ij}+\Sigma_{ij}' \end{aligned} E[(yi+zi)(yj+zj)]E[yi+zi]E[yj+zj]=(E[yiyj]E[yi]E[yj])+(E[zizj]E[zi]E[zj])=Σij+Σij

由此,我们可以得出 y + z y + z y+z的协方差矩阵可以简单的写作 Σ + Σ ′ \Sigma+\Sigma' Σ+Σ

此刻,让我们回顾一下刚刚我们做了什么?利用一些简单的期望和独立性的性质,我们计算出了 y + z y + z y+z的均值和协方差矩阵。根据特点#1,我们可以立即写出 y + z y + z y+z的概率密度函数,而不需要做卷积! 3 ^3 3

3 当然,我们首先需要知道 y + z y + z y+z是高斯分布。

3.2 联合高斯分布的边缘分布是高斯分布

本规则的正式表述为:

假设

[ x A x B ] ∼ N ( [ μ A μ B ] , [ Σ A A Σ A B Σ B A Σ B B ] ) \begin{bmatrix}x_A\\x_B\end{bmatrix}\sim\mathcal{N}\begin{pmatrix}\begin{bmatrix}\mu_A\\\mu_B\end{bmatrix},\begin{bmatrix}\Sigma_{AA}&\Sigma_{AB}\\\Sigma_{BA}&\Sigma_{BB}\end{bmatrix}\end{pmatrix} [xAxB]N([μAμB],[ΣAAΣBAΣABΣBB])

其中 x A ∈ R m , x B ∈ R n x_A\in R^m,x_B\in R^n xARm,xBRn并选择均值向量和协方差矩阵子块的维数与 x A x_A xA x B x_B xB进行匹配。则边缘概率密度函数如下所示:

p ( x A ) = ∫ x B ∈ R n p ( x A , x B ; μ , Σ ) d x B p ( x B ) = ∫ x A ∈ R m p ( x A , x B ; μ , Σ ) d x A p(x_A)=\int_{x_B\in R^n}p(x_A,x_B;\mu,\Sigma)dx_B \\ p(x_B)=\int_{x_A\in R^m}p(x_A,x_B;\mu,\Sigma)dx_A p(xA)=xBRnp(xA,xB;μ,Σ)dxBp(xB)=xARmp(xA,xB;μ,Σ)dxA

上面式子都是高斯分布:

x A ∼ N ( μ A , Σ A A ) x B ∼ N ( μ B , Σ B B ) x_A\sim\mathcal{N}(\mu_A,\Sigma_{AA}) \\ x_B\sim\mathcal{N}(\mu_B,\Sigma_{BB}) xAN(μA,ΣAA)xBN(μB,ΣBB)

为了证明这个规则,我们只关注变量 x A x_A xA的边缘分布。

4 一般来说,对于一个高斯分布的随机向量 x x x,只要我们对均值向量的项和协方差矩阵的行/列按对应的方式进行置换,则总是可以对 x x x的项进行置换。因此,只看 x A x_A xA就足够了, x B x_B xB的结果也立即得到了。

首先,请注意计算边缘分布的均值和协方差矩阵很简单:只需从联合概率密度函数的均值和协方差矩阵中提取相应的子块。为了确保这是绝对清楚的,我们来看看 x A , i x_{A,i} xA,i x A , j x_{A,j} xA,j x A x_A xA的第 i i i个部分和 x A x_A xA的第 j j j个部分)之间的协方差。注意 x A , i x_{A,i} xA,i x A , j x_{A,j} xA,j同样也是下面式子的第 i i i个和第 j j j个部分:

[ x A x B ] \begin{bmatrix}x_A\\x_B\end{bmatrix} [xAxB]

(因为 x A x_A xA出现在这个向量的上部分)。要找到它们的协方差,我们只需简单的使用下面式子的那个协方差矩阵的第 ( i , j ) (i, j) (i,j)个元素即可:

[ Σ A A Σ A B Σ B A Σ B B ] \begin{bmatrix}\Sigma_{AA}&\Sigma_{AB}\\\Sigma_{BA}&\Sigma_{BB}\end{bmatrix} [ΣAAΣBAΣABΣBB]

( i , j ) (i, j) (i,j)个元素在可以在 Σ A A \Sigma_{AA} ΣAA子块矩阵中找到。事实上就是 Σ A A , i j \Sigma_{AA,ij} ΣAA,ij。对所有的 i , j ∈ { 1 , … , m } i,j\in \{1,\dots,m\} i,j{1,,m}使用这个参数,我们可以发现 x A x_A xA的协方差矩阵可以简化为 Σ A A \Sigma_{AA} ΣAA。类似的方法可以用来求 x A x_A xA的均值简化为 μ A \mu_A μA。因此,上面的论证告诉我们,如果我们知道 x A x_A xA的边缘分布是高斯分布,那么我们就可以用合适的均值子矩阵以及联合概率密度函数的协方差矩阵立即写出 x A x_A xA的概率密度函数。

上面的论证虽然简单,但多少有些不令人满意:我们如何才能真正确定 x A x_A xA是一个多元高斯分布?关于这一点的论述有点冗长,因此,与其节外生枝,不如先列出我们的推导过程:

  1. 明确写出边缘概率密度函数的积分形式。
  2. 通过对逆协方差矩阵进行分块来重写积分。
  3. 使用“平方和”参数来计算 x B x_B xB上的积分。
  4. 论述得到的概率密度函数是高斯的。

下面让我们分别研究一下上面提到的每一个步骤。

3.2.1 边缘概率密度函数的积分形式

假设我们想直接计算 x A x_A xA的密度函数。然后,我们需要计算积分:

p ( x A ) = ∫ x B ∈ R n p ( x A , x B ; μ , Σ ) d x B = 1 ( 2 π ) m + n 2 ∣ Σ A A Σ A B Σ B A Σ B B ∣ 1 / 2 ∫ x B ∈ R n exp ⁡ ( − 1 2 [ x A − μ A x B − μ B ] T [ Σ A A Σ A B Σ B A Σ B B ] − 1 [ x A − μ A x B − μ B ] ) d x B \begin{aligned} p(x_A) &= \int_{x_B\in R^n}p(x_A,x_B;\mu,\Sigma)dx_B \\ &= \frac{1}{(2\pi)^{\frac{m+n}{2}} \begin{vmatrix}\Sigma_{AA}&\Sigma_{AB}\\\Sigma_{BA}&\Sigma_{BB}\end{vmatrix}^{1/2}}\int_{x_B\in R^n}\exp\left(-\frac12\begin{bmatrix}x_A-\mu_A\\x_B-\mu_B\end{bmatrix}^T\begin{bmatrix}\Sigma_{AA}&\Sigma_{AB}\\\Sigma_{BA}&\Sigma_{BB}\end{bmatrix}^{-1}\begin{bmatrix}x_A-\mu_A\\x_B-\mu_B\end{bmatrix}\right)dx_B \end{aligned} p(xA)=xBRnp(xA,xB;μ,Σ)dxB=(2π)2m+nΣAAΣBAΣABΣBB1/21xBRnexp(21[xAμAxBμB]T[ΣAAΣBAΣABΣBB]1[xAμAxBμB])dxB

3.2.2 逆协方差矩阵的分块

为了进一步推导,我们需要把指数中的矩阵乘积写成稍微不同的形式。特别地,让我们定义下面这个矩阵:

V = [ V A A V A B V B A V B B ] = Σ − 1 V=\begin{bmatrix}V_{AA}&V_{AB}\\V_{BA}&V_{BB}\end{bmatrix}=\Sigma^{-1} V=[VAAVBAVABVBB]=Σ1

这里我们可能会有下面这种诱人的推导想法:

V = [ V A A V A B V B A V B B ] = [ Σ A A Σ A B Σ B A Σ B B ] − 1 “ = ” [ Σ A A − 1 Σ A B − 1 Σ B A − 1 Σ B B − 1 ] V=\begin{bmatrix}V_{AA}&V_{AB}\\V_{BA}&V_{BB}\end{bmatrix}=\begin{bmatrix}\Sigma_{AA}&\Sigma_{AB}\\\Sigma_{BA}&\Sigma_{BB}\end{bmatrix}^{-1}“=”\begin{bmatrix}\Sigma_{AA}^{-1}&\Sigma_{AB}^{-1}\\\Sigma_{BA}^{-1}&\Sigma_{BB}^{-1}\end{bmatrix} V=[VAAVBAVABVBB]=[ΣAAΣBAΣABΣBB]1=[ΣAA1ΣBA1ΣAB1ΣBB1]

然而,最右边的等号并不成立!我们将在稍后的步骤中讨论这个问题;不过,现在只要将 V V V定义为上述形式就足够了,而不必担心每个子矩阵的实际内容是什么。

利用 V V V的这个定义,积分扩展到下面的式子:

p ( x A ) = 1 Z ∫ x B ∈ R n exp ⁡ ( − [ 1 2 ( x A − μ A ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B ( x B − μ B ) + 1 2 ( x B − μ B ) T V B A ( x A − μ A ) + 1 2 ( x B − μ B ) T V B B ( x B − μ B ) ] ) d x B \begin{aligned} p(x_A)=\frac 1Z\int_{x_B\in R^n}\exp(-&[\frac 12(x_A-\mu_A)^TV_{AA}(x_A-\mu_A)+\frac 12(x_A-\mu_A)^TV_{AB}(x_B-\mu_B) \\ & +\frac 12(x_B-\mu_B)^TV_{BA}(x_A-\mu_A)+\frac 12(x_B-\mu_B)^TV_{BB}(x_B-\mu_B)])dx_B \end{aligned} p(xA)=Z1xBRnexp([21(xAμA)TVAA(xAμA)+21(xAμA)TVAB(xBμB)+21(xBμB)TVBA(xAμA)+21(xBμB)TVBB(xBμB)])dxB

其中 Z Z Z是一个常数,不依赖于 x A x_A xA x B x_B xB,我们暂时忽略它。如果你以前没有使用过分块矩阵,那么上面的展开对你来说可能有点神奇。这类似于当定义一个二次形式基于某个矩阵 A A A时,则可得:

x T A x = ∑ i ∑ j A i j x i x j = x 1 A 11 x 1 + x 1 A 12 x 2 + x 2 A 21 x 1 + x 2 A 22 x 2 x^TAx=\sum_i\sum_jA_{ij}x_ix_j=x_1A_{11}x_1+x_1A_{12}x_2+x_2A_{21}x_1+x_2A_{22}x_2 xTAx=ijAijxixj=x1A11x1+x1A12x2+x2A21x1+x2A22x2

花点时间自己研究一下,上面的矩阵推广也适用。

3.2.3 x B x_B xB上的积分

为了求积分,我们要对 x B x_B xB积分。然而,一般来说,高斯积分是很难手工计算的。我们能做些什么来节省计算时间吗?事实上,有许多高斯积分的答案是已知的(见特点#2)。那么,本节的基本思想是将上一节中的积分转换为一种形式,在这种形式中,我们可以应用特点#2中的一个结果,以便轻松地计算所需的积分。

这其中的关键是一个数学技巧,称为“配方法(completion of squares)”。考虑二次函数 。其中

1 2 x T A x + b T z + c = 1 2 ( z + A − 1 b ) T A ( z + A − 1 b ) + c − 1 2 b T A − 1 b \frac 12x^TAx+b^Tz+c=\frac 12(z+A^{-1}b)^TA(z+A^{-1}b)+c-\frac 12b^TA^{-1}b 21xTAx+bTz+c=21(z+A1b)TA(z+A1b)+c21bTA1b

下面使用单变量代数中的“配方法”来泛华的多元变量的等式:

1 2 a z 2 + b z + c = 1 2 a ( z + b z ) 2 + c − b 2 2 a \frac 12az^2+bz+c=\frac 12a(z+\frac bz)^2+c-\frac {b^2}{2a} 21az2+bz+c=21a(z+zb)2+c2ab2

若要将配方法应用于上述情形,令

z = x B − μ B A = V B B b = V B A ( x A − μ A ) c = 1 2 ( x A − μ A ) T V A A ( x A − μ A ) \begin{aligned} z &= x_B-\mu_B \\ A &= V_{BB} \\ b &=V_{BA}(x_A-\mu_A) \\ c &=\frac 12(x_A-\mu_A)^TV_{AA}(x_A-\mu_A) \end{aligned} zAbc=xBμB=VBB=VBA(xAμA)=21(xAμA)TVAA(xAμA)

然后,这个积分可以重写为

p ( x A ) = 1 Z ∫ x B ∈ R n e x p ( − [ 1 2 ( x B − μ B ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B ( x B − μ B ) + 1 2 ( x B − μ B ) T V B A ( x A − μ A ) + 1 2 ( x B − μ B ) T V B B ( x B − μ B ) ] ) d x B \begin{aligned} p(x_A)=\frac 1Z\int_{x_B\in R^n}exp(-&[\frac 12(x_B-\mu_B)^TV_{AA}(x_A-\mu_A)+\frac 12(x_A-\mu_A)^TV_{AB}(x_B-\mu_B) \\ & +\frac 12(x_B-\mu_B)^TV_{BA}(x_A-\mu_A)+\frac 12(x_B-\mu_B)^TV_{BB}(x_B-\mu_B)])dx_B \end{aligned} p(xA)=Z1xBRnexp([21(xBμB)TVAA(xAμA)+21(xAμA)TVAB(xBμB)+21(xBμB)TVBA(xAμA)+21(xBμB)TVBB(xBμB)])dxB

我们可以提出不包括 x B x_B xB的项,

p ( x A ) = exp ⁡ ( − 1 2 ( x A − μ A ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B V B B − 1 V B A ( x A − μ A ) ) ⋅ 1 Z ∫ x B ∈ R n exp ⁡ ( − 1 2 [ ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) T V B B ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) ] ) d x B \begin{aligned} p(x_{A})&=\exp\left(-\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)+\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A B} V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right) \\ &\quad \cdot \frac{1}{Z} \int_{x_{B} \in \mathbb{R}^{n}} \exp \left(-\frac{1}{2}\left[\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)^{T} V_{B B}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)\right]\right) d x_{B} \end{aligned} p(xA)=exp(21(xAμA)TVAA(xAμA)+21(xAμA)TVABVBB1VBA(xAμA))Z1xBRnexp(21[(xBμB+VBB1VBA(xAμA))TVBB(xBμB+VBB1VBA(xAμA))])dxB

现在,我们可以应用特点#2。特别的,我们知道通常情况下随机变量为 x x x多元高斯分布,如果设均值 μ \mu μ,协方差矩阵 Σ \Sigma Σ,则概率密度函数可以得到如下式子:

1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 ∫ R n exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) = 1 \frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \int_{\mathbf{R}^{n}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)=1 (2π)n/2Σ1/21Rnexp(21(xμ)TΣ1(xμ))=1

或等价与下式:

∫ R n exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) = ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 \int_{R^{n}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)=(2 \pi)^{n / 2}|\Sigma|^{1 / 2} Rnexp(21(xμ)TΣ1(xμ))=(2π)n/2Σ1/2

我们用这个事实来消去表达式中剩下的积分以得到 p ( x A ) p(x_A) p(xA)

p ( x A ) = 1 Z ⋅ ( 2 π ) n / 2 ∣ V B B ∣ 1 / 2 ⋅ exp ⁡ ( − 1 2 ( x A − μ A ) T ( V A A − V A B V B B − 1 V B A ) ( x A − μ A ) ) p\left(x_{A}\right)=\frac{1}{Z} \cdot(2 \pi)^{n / 2}\left|V_{B B}\right|^{1 / 2} \cdot \exp \left(-\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T}\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)\left(x_{A}-\mu_{A}\right)\right) p(xA)=Z1(2π)n/2VBB1/2exp(21(xAμA)T(VAAVABVBB1VBA)(xAμA))

3.2.4 论述得到的概率密度函数是高斯函数

这时我们几乎已经完成了全部计算!忽略前面的归一化常数,我们看到 x A x_A xA的概率密度函数是 x A x_A xA的二次形的指数。我们可以很快意识到概率密度函数就是均值向量为 μ A \mu_A μA,协方差矩阵为 ( V A A − V A B V B B − 1 V B A ) − 1 (V_{A A}-V_{A B} V_{B B}^{-1} V_{B A})^{-1} (VAAVABVBB1VBA)1的高数分布。虽然协方差矩阵的形式看起来有点复杂,但是我们已经完成了我们开始想要展示的概念——即 x A x_A xA有一个边缘高斯分布。利用前面的逻辑,我们可以得出这个协方差矩阵必须以某种方式消去 Σ A A \Sigma_{AA} ΣAA

但是,如果你好奇,也可以证明我们的推导与之前的证明是一致的。为此,我们对分块矩阵使用以下结果:

[ A B C D ] − 1 = [ M − 1 − M − 1 B D − 1 − D − 1 C M − 1 D − 1 + D − 1 C M − 1 B D − 1 ] \left[ \begin{array}{cc}{A} & {B} \\ {C} & {D}\end{array}\right]^{-1}=\left[ \begin{array}{cc}{M^{-1}} & {-M^{-1} B D^{-1}} \\ {-D^{-1} C M^{-1}} & {D^{-1}+D^{-1} C M^{-1} B D^{-1}}\end{array}\right] [ACBD]1=[M1D1CM1M1BD1D1+D1CM1BD1]

其中 M = A − B D − 1 C M=A-B D^{-1} C M=ABD1C。这个公式可以看作是 2 × 2 2\times 2 2×2矩阵显式逆矩阵的多变量推广:

[ a b c d ] − 1 = 1 a d − b c [ d − b − c a ] \left[ \begin{array}{ll}{a} & {b} \\ {c} & {d}\end{array}\right]^{-1}=\frac{1}{a d-b c} \left[ \begin{array}{cc}{d} & {-b} \\ {-c} & {a}\end{array}\right] [acbd]1=adbc1[dcba]

用这个公式,可以得出:

[ Σ A A Σ A B Σ B A Σ B B ] = [ V A A V A B V B A V B B ] − 1 = [ ( V A A − V A B V B B − 1 V B A ) − 1 − ( V A A − V A B V B B − 1 V B A ) − 1 V A B V B B − 1 − V B B − 1 V B A ( V A A − V A B V B B − 1 V B A ) − 1 ( V B B − V B A V A A − 1 V A B ) − 1 ] \begin{aligned} \left[ \begin{array}{cc}{\Sigma_{A A}} & {\Sigma_{A B}} \\ {\Sigma_{B A}} & {\Sigma_{B B}}\end{array}\right] &=\left[ \begin{array}{ll}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right]^{-1} \\ &=\left[ \begin{array}{cc}{\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}} & {-\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1} V_{A B} V_{B B}^{-1}} \\ {-V_{B B}^{-1} V_{B A}\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}} & {\left(V_{B B}-V_{B A} V_{A A}^{-1} V_{A B}\right)^{-1}}\end{array}\right] \end{aligned} [ΣAAΣBAΣABΣBB]=[VAAVBAVABVBB]1=[(VAAVABVBB1VBA)1VBB1VBA(VAAVABVBB1VBA)1(VAAVABVBB1VBA)1VABVBB1(VBBVBAVAA1VAB)1]

正如我们所期望的那样,我们马上就能得出 ( V A A − V A B V B B − 1 V B A ) − 1 = Σ A A \left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}=\Sigma_{A A} (VAAVABVBB1VBA)1=ΣAA

3.3 联合高斯分布的条件分布是高斯分布

本规则的正式表述为:

假设:

[ x A x B ] ∼ N ( [ μ A μ B ] , [ Σ A A Σ A B Σ B A Σ B B ] ) \left[ \begin{array}{l}{x_{A}} \\ {x_{B}}\end{array}\right]\sim\mathcal{N}\left(\left[ \begin{array}{l}{\mu_{A}} \\ {\mu_{B}}\end{array}\right], \left[ \begin{array}{cc}{\Sigma_{A A}} & {\Sigma_{A B}} \\ {\Sigma_{B A}} & {\Sigma_{B B}}\end{array}\right]\right) [xAxB]N([μAμB],[ΣAAΣBAΣABΣBB])

其中 x A ∈ R m , x B ∈ R n x_{A} \in \mathbf{R}^{m}, x_{B} \in \mathbf{R}^{n} xARm,xBRn,并选择均值向量和协方差矩阵子块的维数来匹配 x A x_A xA x B x_B xB。则条件概率密度函数为:

p ( x A ∣ x B ) = p ( x A , x B ; μ , Σ ) ∫ x A ∈ R m p ( x A , x B ; μ , Σ ) d x A p ( x B ∣ x A ) = p ( x A , x B ; μ , Σ ) ∫ x B ∈ R n p ( x A , x B ; μ , Σ ) d x B \begin{aligned} p\left(x_{A} | x_{B}\right) &=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{A} \in \mathbb{R}^{m}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \\ p\left(x_{B} | x_{A}\right) &=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{B} \in \mathbb{R}^{n}} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{B}} \end{aligned} p(xAxB)p(xBxA)=xARmp(xA,xB;μ,Σ)dxAp(xA,xB;μ,Σ)=xBRnp(xA,xB;μ,Σ)dxBp(xA,xB;μ,Σ)

同样是高斯分布:

x A ∣ x B ∼ N ( μ A + Σ A B Σ B B − 1 ( x B − μ B ) , Σ A A − Σ A B Σ B B − 1 Σ B A ) x B ∣ x A ∼ N ( μ B + Σ B A Σ A A − 1 ( x A − μ A ) , Σ B B − Σ B A Σ A A − 1 Σ A B ) \begin{array}{l}{x_{A}\left|x_{B} \sim \mathcal{N}\left(\mu_{A}+\Sigma_{A B} \Sigma_{B B}^{-1}\left(x_{B}-\mu_{B}\right), \Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)\right.} \\ {x_{B} | x_{A} \sim \mathcal{N}\left(\mu_{B}+\Sigma_{B A} \Sigma_{A A}^{-1}\left(x_{A}-\mu_{A}\right), \Sigma_{B B}-\Sigma_{B A} \Sigma_{A A}^{-1} \Sigma_{A B}\right)}\end{array} xAxBN(μA+ΣABΣBB1(xBμB),ΣAAΣABΣBB1ΣBA)xBxAN(μB+ΣBAΣAA1(xAμA),ΣBBΣBAΣAA1ΣAB)

和之前一样,我们只研究条件分布 x B ∣ x A x_B|x_A xBxA,另一个结果是对称的。我们的推导过程如下:

  1. 明确写出条件概率密度函数的表达式。
  2. 通过划分逆协方差矩阵重写表达式。
  3. 使用“平方和”参数。
  4. 论述得到的概率密度函数是高斯函数。

下面让我们分别研究一下上面提到的每一个步骤。

3.3.1 明确写出条件概率密度函数的表达式

假设我们想直接计算给定 x A x_A xA x B x_B xB的概率密度函数。则我们需要计算下式:

p ( x B ∣ x A ) = p ( x A , x B ; μ , Σ ) ∫ x B ∈ R m p ( x A , x B ; μ , Σ ) d x A = 1 Z ′ exp ⁡ ( − 1 2 [ x A − μ A x B − μ B ] T [ Σ A A Σ A B Σ B A Σ B B ] − 1 [ x A − μ A x B − μ B ] ) \begin{aligned} p\left(x_{B} | x_{A}\right) &=\frac{p\left(x_{A}, x_{B} ; \mu, \Sigma\right)}{\int_{x_{B} \in R^m} p\left(x_{A}, x_{B} ; \mu, \Sigma\right) d x_{A}} \\ &=\frac{1}{Z^{\prime}} \exp \left(-\frac{1}{2} \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]^{T} \left[ \begin{array}{cc}{\Sigma_{A A}} & {\Sigma_{A B}} \\ {\Sigma_{B A}} & {\Sigma_{B B}}\end{array}\right]^{-1} \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]\right) \end{aligned} p(xBxA)=xBRmp(xA,xB;μ,Σ)dxAp(xA,xB;μ,Σ)=Z1exp(21[xAμAxBμB]T[ΣAAΣBAΣABΣBB]1[xAμAxBμB])

其中 Z ′ Z' Z是一个归一化常数,我们用该常数表达不依赖于 x B x_B xB的因子。注意,这一次,我们甚至不需要计算任何积分——积分的值不依赖于 x B x_B xB,因此积分可以化简成归一化常数 Z ′ Z' Z

3.3.2 通过划分逆协方差矩阵重写表达式

和之前一样,我们用矩阵 V V V重新参数化概率密度函数,由此得到下式:

p ( x B ∣ x A ) = 1 Z ′ exp ⁡ ( − 1 2 [ x A − μ A x B − μ B ] T [ V A A V A B V B A V B B ] [ x A − μ A x B − μ B ] ) = 1 Z ′ exp ⁡ ( − [ 1 2 ( x A − μ A ) T V A A ( x A − μ A ) + 1 2 ( x A − μ A ) T V A B ( x B − μ B ) + 1 2 ( x B − μ B ) T V B A ( x A − μ A ) + 1 2 ( x B − μ B ) T V B B ( x B − μ B ) ] ) \begin{aligned} p\left(x_{B} | x_{A}\right) &=\frac{1}{Z^{\prime}} \exp \left(-\frac{1}{2} \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]^{T} \left[ \begin{array}{cc}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right] \left[ \begin{array}{c}{x_{A}-\mu_{A}} \\ {x_{B}-\mu_{B}}\end{array}\right]\right) \\ &=\frac{1}{Z^{\prime}} \exp (-[\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)+\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A B}\left(x_{B}-\mu_{B}\right) \\ &\qquad\qquad\qquad+\frac{1}{2}\left(x_{B}-\mu_{B}\right)^{T} V_{B A}\left(x_{A}-\mu_{A}\right)+\frac{1}{2}\left(x_{B}-\mu_{B}\right)^{T} V_{B B}\left(x_{B}-\mu_{B}\right) ] ) \end{aligned} p(xBxA)=Z1exp(21[xAμAxBμB]T[VAAVBAVABVBB][xAμAxBμB])=Z1exp([21(xAμA)TVAA(xAμA)+21(xAμA)TVAB(xBμB)+21(xBμB)TVBA(xAμA)+21(xBμB)TVBB(xBμB)])

3.3.3 使用“平方和”参数

回忆下面这个式子:

1 2 z T A z + b T z + c = 1 2 ( z + A − 1 b ) T A ( z + A − 1 b ) + c − 1 2 b T A − 1 b \frac{1}{2} z^{T} A z+b^{T} z+c=\frac{1}{2}\left(z+A^{-1} b\right)^{T} A\left(z+A^{-1} b\right)+c-\frac{1}{2} b^{T} A^{-1} b 21zTAz+bTz+c=21(z+A1b)TA(z+A1b)+c21bTA1b

假设 A A A是一个对称的非奇异矩阵。如前所述,要将平方的补全应用于上述情况,令:

z = x B − μ B A = V B B b = V B A ( x A − μ A ) c = 1 2 ( x A − μ A ) T V A A ( x A − μ A ) \begin{aligned} z &=x_{B}-\mu_{B} \\ A &=V_{B B} \\ b &=V_{B A}\left(x_{A}-\mu_{A}\right) \\ c &=\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right) \end{aligned} zAbc=xBμB=VBB=VBA(xAμA)=21(xAμA)TVAA(xAμA)

然后,可以将 p ( x B ∣ x A ) p(x_B | x_A) p(xBxA)的表达式重写为:

p ( x B ∣ x A ) = 1 Z ′ exp ⁡ ( − [ 1 2 ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) T V B B ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) + 1 2 ( x A − μ A ) T V A A ( x A − μ A ) − 1 2 ( x A − μ A ) T V A B V B B − 1 V B A ( x A − μ A ) ] ) \begin{array}{c}{p\left(x_{B} | x_{A}\right)=\frac{1}{Z^{\prime}} \exp \left(-\left[\frac{1}{2}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)^{T} V_{B B}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)\right.\right.} \\ {+\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A A}\left(x_{A}-\mu_{A}\right)-\frac{1}{2}\left(x_{A}-\mu_{A}\right)^{T} V_{A B} V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right) ] )}\end{array} p(xBxA)=Z1exp([21(xBμB+VBB1VBA(xAμA))TVBB(xBμB+VBB1VBA(xAμA))+21(xAμA)TVAA(xAμA)21(xAμA)TVABVBB1VBA(xAμA)])

将不依赖于 x B x_B xB的指数部分化简到归一化常数中,得到:

p ( x B ∣ x A ) = 1 Z ′ ′ exp ⁡ ( − 1 2 ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) T V B B ( x B − μ B + V B B − 1 V B A ( x A − μ A ) ) ) p\left(x_{B} | x_{A}\right)=\frac{1}{Z^{\prime \prime}} \exp \left(-\frac{1}{2}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)^{T} V_{B B}\left(x_{B}-\mu_{B}+V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)\right)\right) p(xBxA)=Z1exp(21(xBμB+VBB1VBA(xAμA))TVBB(xBμB+VBB1VBA(xAμA)))

3.3.4 论述得到的概率密度函数是高斯函数

看最后一个表达式,表达式 p ( x B ∣ x A ) p(x_B|x_A) p(xBxA)是均值为 μ B − V B B − 1 V B A ( x A − μ A ) \mu_B-V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right) μBVBB1VBA(xAμA),协方差矩阵为 V B B − 1 V_{B B}^{-1} VBB1的高斯概率密度函数。像往常一样,回忆一下矩阵等式:

[ Σ A A Σ A B Σ B A Σ B B ] = [ ( V A A − V A B V B B − 1 V B A ) − 1 − ( V A A − V A B V B B − 1 V B A ) − 1 V A B V B B − 1 − V B B − 1 V B A ( V A A − V A B V B B − 1 V B A ) − 1 ( V B B − V B A V A A − 1 V A B ) − 1 ] \left[ \begin{array}{cc}{\Sigma_{A A}} & {\Sigma_{A B}} \\ {\Sigma_{B A}} & {\Sigma_{B B}}\end{array}\right]= \left[ \begin{array}{c}{\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}}&-\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1} V_{A B} V_{B B}^{-1} \\ {-V_{B B}^{-1} V_{B A}\left(V_{A A}-V_{A B} V_{B B}^{-1} V_{B A}\right)^{-1}}&\left(V_{B B}-V_{B A} V_{A A}^{-1} V_{A B}\right)^{-1}\end{array}\right] [ΣAAΣBAΣABΣBB]=[(VAAVABVBB1VBA)1VBB1VBA(VAAVABVBB1VBA)1(VAAVABVBB1VBA)1VABVBB1(VBBVBAVAA1VAB)1]

从上式可以推出:

μ B ∣ A = μ B − V B B − 1 V B A ( x A − μ A ) = μ B + Σ B A Σ A A − 1 ( x A − μ A ) \mu_{B | A}=\mu_{B}-V_{B B}^{-1} V_{B A}\left(x_{A}-\mu_{A}\right)=\mu_{B}+\Sigma_{B A} \Sigma_{A A}^{-1}\left(x_{A}-\mu_{A}\right) μBA=μBVBB1VBA(xAμA)=μB+ΣBAΣAA1(xAμA)

反过来,我们也可以利用矩阵恒等式得到:

[ V A A V A B V B A V B B ] = [ ( Σ A A − Σ A B Σ B B − 1 Σ B A ) − 1 − ( Σ A A − Σ A B Σ A A − 1 Σ B B ) − 1 Σ A B Σ B B − 1 − Σ B B − 1 Σ B A ( Σ A A − Σ A B Σ B B − 1 Σ B A ) − 1 ( Σ B B − Σ B A Σ A A − 1 ∑ A B ) − 1 ] \left[ \begin{array}{cc}{V_{A A}} & {V_{A B}} \\ {V_{B A}} & {V_{B B}}\end{array}\right]= \left[ \begin{array}{c}{\left(\Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)^{-1}}&-\left(\Sigma_{A A}-\Sigma_{A B} \Sigma_{A A}^{-1} \Sigma_{B B}\right)^{-1} \Sigma_{A B} \Sigma_{B B}^{-1} \\ {-\Sigma_{B B}^{-1} \Sigma_{B A}\left(\Sigma_{A A}-\Sigma_{A B} \Sigma_{B B}^{-1} \Sigma_{B A}\right)^{-1}}&\left(\Sigma_{B B}-\Sigma_{B A} \Sigma_{A A}^{-1} \sum_{A B}\right)^{-1}\end{array} \right] [VAAVBAVABVBB]=[(ΣAAΣABΣBB1ΣBA)1ΣBB1ΣBA(ΣAAΣABΣBB1ΣBA)1(ΣAAΣABΣAA1ΣBB)1ΣABΣBB1(ΣBBΣBAΣAA1AB)1]

由此推出:

Σ B ∣ A = V B B − 1 = Σ B B − Σ B A Σ A A − 1 Σ A B \Sigma_{B | A}=V_{B B}^{-1}=\Sigma_{B B}-\Sigma_{B A} \Sigma_{A A}^{-1} \Sigma_{A B} ΣBA=VBB1=ΣBBΣBAΣAA1ΣAB

我们完成了!

4. 总结

在本节的笔记中,我们使用了多元高斯的一些简单性质(加上一些矩阵代数技巧)来证明多元高斯分布满足许多封闭性质。一般来说,多元高斯分布是概率分布非常有用的表示形式,因为封闭性保证了这一点:即我们所希望的那样使用多元高斯分布执行的大多数类型的操作都可以以封闭形式完成。从分析的角度来看,涉及多元高斯的积分在实际应用中是往往是很好计算的,因为我们可以依赖于已知的高斯积分来避免自己进行积分。

5. 练习

理解题:令 A ∈ R n × n A\in R^{n\times n} ARn×n是对称非奇异方阵, b ∈ R n , c b\in R^n,c bRn,c,证明:

∫ x ∈ R n exp ⁡ ( − 1 2 x T A x − x T b − c ) d x = ( 2 π ) n / 2 ∣ A ∣ 1 / 2 exp ⁡ ( c − b T A − 1 b ) \int_{x \in \mathbf{R}^{n}} \exp \left(-\frac{1}{2} x^{T} A x-x^{T} b-c\right) d x=\frac{(2 \pi)^{n / 2}}{|A|^{1 / 2} \exp \left(c-b^{T} A^{-1} b\right)} xRnexp(21xTAxxTbc)dx=A1/2exp(cbTA1b)(2π)n/2

参考资料

有关多元高斯的更多信息,请参见:
Bishop, Christopher M. Pattern Recognition and Machine Learning. Springer,2006.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

多元高斯分布(二)——更多关于多元高斯分布 的相关文章

  • java:最差产品奖

    import java util Scanner 注意类名必须为 Main 不要有任何 package xxx 信息 public class Main public static void main String args Scanner
  • dll文件反编译源代码 C#反编译 dotpeek反编译dll文件后export

    目录 背景 下载安装dotpeek 导入dll文件 export导出文件 参考 背景 项目合作的时候 使用前人的或者其他部门dll文件直接在机台运行 会出现很多问题 逻辑 效率等等 此时我们可以选择对他们的代码进行反编译和重构 重新梳理逻辑
  • Windows C++运行命令编程

    Windows C 运行命令编程 一 命令处理方式 二 popen函数 三 重定向的子进程 四 参考链接 一 命令处理方式 Windows下编程经常需要使用批处理指令 bat或cmd 因此如何执行命令和获取返回数据是一个关键点 对于控制台程
  • STM32+IAP方案的实现,IAP实现原理(详细解决说明)。

    此文档内容摘自 http www 51hei com stm32 4315 html 可参考文档 https blog csdn net gin love article details 82015646 基于STM32F103ZET6的U

随机推荐

  • 力扣 剑指 Offer 25. 合并两个排序的链表

    简单题 就不多写了 class Solution public ListNode mergeTwoLists ListNode l1 ListNode l2 ListNode head new ListNode t head while l
  • 一文读懂大语言模型

    以ChatGPT为代表的大语言模型被很多人认为是新一轮科技革命的起点 本文旨在通过概念性介绍 让普通人能够尽可能理解人工智能以及大语言模型的基本概念 从而了解这些技术能做以及不能做什么 原文 A Very Gentle Introducti
  • 关系表的构成要素主键_关系模型简述

    关系模型简述 关系模型是基于表的处理方式抽象形成的 是在对传统表及其操作进行数学化严格定义基础上 引入集合理论与逻辑学理论提出的 关系模型也是数据库的三大经典数据模型之一 也是现在大多数商品化数据库系统所仍然再用的数据模型 数据库标准语言也
  • 流媒体服务器在大屏系统,视频流媒体服务器

    视频流媒体服务器 内容精选 换一换 音视频传输协议众多 不同业务应该如何选择 RTSP RTMP RTP RTC HLS MSS DASH WEBRTC RIST SRT 在此我们就从业务发展的视角来理解各种流媒体协议 帮助大家有更加清晰的
  • 一行命令跑满Linux的CPU

    今天突发奇想 想看看Linux的CPU跑满的样子 其实一行命令就可以使CPU跑满 for i in seq 1 cat proc cpuinfo grep physical id wc l do dd if dev zero of dev
  • nestjs:创建唯一键报错 QueryFailedError: Duplicate key name ‘IDX_d87a44fac9965cb7cf94cba11c‘

    问题 如题 参考 MYSQL中唯一约束和唯一索引的区别 51CTO博客 mysql主键和唯一索引的区别 解决办法 原始代码 Index Column unique true mail string 创建唯一约束时会创建唯一索引 所以应该把
  • score在java中是什么意思_Score.java

    import java io File import java io FileInputStream import java util Properties import java util Scanner import org jsoup
  • windows编程--网络编程学习--winsock编程(2)

    Winsock是windows系统下利用Socket套接字进行网络编程的相关函数 是Windows下的网络编程接口 Winsock在常见的Windows平台上有两个主要的版本 即Winsock1和Winsock2 编写与Winsock1兼容
  • vue3使用Element-plus与TS(TypeScript)

    如果你有一个困扰就是为什么直接CV Element plus文档里的代码总是报各种错误 那你看这篇就对啦 针对Vue3哦 1 项目导入vscode后 安装Element plus npm install element plus save
  • Unreal Engine(虚幻引擎)渲染 – 正确使用方法

    我们已经讨论过 Unreal Engine 虚幻引擎 中可用的很多神奇工具 包括最近抢先体验的 Unreal Engine 5 多亏了 Epic 世界各地的开发人员和团队都可以轻松进行游戏开发 Epic 对电影和游戏界的最大贡献可能就是 U
  • 解决 iframe跨域、跨端口报错 Blocked a frame with origin from accessing a cross-origin frame

    前言 在不同的端口号 甚至是不同的ip进行iframe嵌套的时候 在父页面调用子页面的方法的时候 报错 SecurityError Blocked a frame with origin from accessing a cross ori
  • 深度学习环境配置 Ubuntu 18.04 + Anaconda + CUDA + Cudnn + Pytorch 【亲测可用】

    这套环境实在是太复杂坑太多 配了大半年 今天终于终于成功了 显卡驱动 直接用软件和更新安装470版本显卡驱动 出错几率最小 查看安装状态 nvidia smi 会出现显卡版本和CUDA支持 CUDA 首先感谢二位前辈的原贴 https bl
  • qt小笔记

    自己备忘的常见的qt小知识点 知识点 文件判断是否存在 可读 可写 可编辑 QString转成char 接上面 c str和 data 区别 1 拼接 2 格式化 3 数字转字符串 文版框输出数字转字符串函数QString number a
  • VGA系列之一:VGA显示器驱动篇

    在这周里边 学习的内容包括两个主要的部分 UART通信和VGA显示器 串口通信是这周的前半周讲的 下半周讲的是VGA 在我们的这篇文章中 先来讲下VGA 当然在VGA实验中 我们暂时只做了5个小实验 1 显示器显示3栏颜色 2 在第一个的基
  • iOS-加密算法

    一 散列算法 签名算法 摘要 散列算法 又称哈希函数 是一种单向加密算法 在信息安全技术中 经常需要验证消息的完整性 散列 Hash 函数提供了这一服务 它对不同长度的输入消息 产生固定长度的输出 因为其结果是不可逆的 既然是不可逆的 那么
  • 使用VC向word中插入图片

    发表于 2008 11 23 14 13 2913楼 得分 0 C C code pragma warning disable 4786 import C Program Files Common Files Microsoft Share
  • 通知 服务器维护,服务器维护通知

    服务器维护通知 内容精选 换一换 本章节介绍如何创建告警规则 用户可自定义监控目标与通知策略 及时了解云手机服务器 云手机 磁盘以及GPU卡的状况 从而起到预警作用 登录管理控制台 在管理控制台左上角 选择待创建告警规则的区域 在服务列表页
  • 【转载】解读USB-IF电池充电规范

    最近学电源管理驱动这一步分 对于电池充电规范不太理解 转载下来自己看 http www eechina com thread 4943 1 1 html 电池充电规范 原有USB2 0规范并没有考虑到使用USB接口为便携式设备的电池进行充电
  • 最基本的根据文本信息生成二维码的源代码

    public class TwoDimensionCode 生成二维码 QRCode 图片 param content 存储内容 param imgPath 图片路径 public void encoderQRCode String con
  • 多元高斯分布(二)——更多关于多元高斯分布

    注意 本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目 https github com Kivy CN Stanford CS 229 CN 中部分的内容进行翻译学习 更多关于多元高斯分布 介绍 到目前为止的课堂上 多元高斯分布已