我们从数据中能得到以下信息:
总体信息。总体所属分布或者所属的分布族带来的信息;
样本信息。从总体中抽样得来的样本给我们提供的信息;
- 以上两种信息进行的统计推断称为经典统计学。它的观点是把样本看成来自具有一定概率分布的总体。
先验信息。在抽样之前,对总体的基本认知,一般来自经验或历史资料。
- 利用以上三种信息进行的统计推断称为贝叶斯统计。它的观点是:任一未知量
θ
\theta
θ都可看做一个随机变量,应用一个概率分布去描述对
θ
\theta
θ的未知状况。这个概率分布是在抽样前就有的关于
θ
\theta
θ的先验信息的概率陈述。这个分布被称之为先验(
Prior
)分布。
关于未知量
θ
\theta
θ的一些讨论:
- 依赖于参数
θ
\theta
θ的密度函数在经典统计中记为
p
(
x
;
θ
)
p(x;\theta)
p(x;θ)或
p
θ
(
x
)
p_{\theta}(x)
pθ(x),它表示在参数空间
Θ
=
{
θ
}
\Theta=\{\theta\}
Θ={θ}中不同的
θ
\theta
θ对应不同的分布。可以在贝叶斯统计中记为
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ),他表示在随机变量
θ
\theta
θ给定某个值时,总体指标
X
X
X的条件分布。
- 根据参数
θ
\theta
θ的先验信息确定先验分布
π
(
θ
)
\pi(\theta)
π(θ)。
- 从贝叶斯的观点看,样本
x
=
(
x
1
,
⋅
⋅
⋅
X
n
,
⋅
⋅
⋅
)
x=(x_1 ,···X_n,···)
x=(x1,⋅⋅⋅Xn,⋅⋅⋅)的产生分两步进行。首先设想从先验分布
π
(
θ
)
\pi(\theta)
π(θ)产生一个样本
θ
\theta
θ,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)产生一个样本
x
=
(
x
1
,
⋅
⋅
⋅
x
n
,
⋅
⋅
⋅
)
x=(x_1,···x_n,···)
x=(x1,⋅⋅⋅xn,⋅⋅⋅),这个样本是具体的,人们能看得到的,此样本
x
x
x发生的概率是与如下联合密函数成正比。
p
(
x
∣
θ
i
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
i
)
p(x|\theta^i)=\prod_{i=1}^n{p(x_i|\theta^i)}
p(x∣θi)=∏i=1np(xi∣θi)这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为
L
(
θ
i
)
L(\theta^i)
L(θi)。频率学派和贝叶斯学派都承认似然函数,二派认位:在有了样本观察值
x
=
(
x
1
,
⋅
⋅
⋅
x
n
,
⋅
⋅
⋅
)
x=(x_1,···x_n,···)
x=(x1,⋅⋅⋅xn,⋅⋅⋅)后,总体和样本所含
θ
\theta
θ的信息都被包含在似然函数
L
(
θ
i
)
L(\theta^i)
L(θi)之中,可在使用似然函数做统计推断时,两派还是有差异的。
- 由于
θ
\theta
θ是设想出来的,他仍然是未知的,他是按先验分布
π
(
θ
)
\pi(\theta)
π(θ)而产生的,要把先验信息进行综合,不能只考虑
θ
\theta
θ,而应对
θ
\theta
θ的一切可能加以考虑。故要用
π
(
θ
)
\pi(\theta)
π(θ)参与进一步综合。这样一来,样本
x
x
x和参数
θ
\theta
θ的联合分布
h
(
x
,
θ
)
=
p
(
x
∣
θ
)
π
(
θ
)
h(x,\theta)=p(x|\theta)\pi(\theta)
h(x,θ)=p(x∣θ)π(θ)把三种可用的信息都综合进去了。
- 我们的任务是要对未知数
θ
\theta
θ做出统计推断。在没有样本信息时,人们只能根据先验分布对
θ
\theta
θ做出判断。在有样本观察值
x
=
(
x
1
,
⋅
⋅
⋅
x
n
,
⋅
⋅
⋅
)
x=(x_1,···x_n,···)
x=(x1,⋅⋅⋅xn,⋅⋅⋅)后,我们应该依据
h
(
x
,
θ
)
h(x,\theta)
h(x,θ)对
θ
\theta
θ作出推断。为此我们需要把
h
(
x
,
θ
)
h(x,\theta)
h(x,θ)作如下分解:
h
(
x
,
θ
)
=
π
(
θ
∣
x
)
m
(
x
)
h(x,\theta)=\pi(\theta|x)m(x)
h(x,θ)=π(θ∣x)m(x)其中
m
(
x
)
m(x)
m(x)是
x
x
x的边缘密度函数。
m
(
x
)
=
∫
θ
h
(
x
,
∣
θ
)
d
θ
=
∫
θ
p
(
x
∣
θ
)
π
(
θ
)
m(x)=\int_\theta{h(x,|\theta)d\theta}=\int_\theta{p(x|\theta)\pi(\theta)}
m(x)=∫θh(x,∣θ)dθ=∫θp(x∣θ)π(θ)他与
θ
\theta
θ无关,或者说是,
m
(
x
)
m(x)
m(x)中不含
θ
\theta
θ的任何信息。因此能用来对
θ
\theta
θ做出推断的仅是条件分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)。他的计算公式为
π
(
θ
∣
x
)
=
h
(
x
∣
θ
)
m
(
x
)
=
p
(
x
∣
θ
)
π
(
θ
)
∫
θ
p
(
x
∣
θ
)
π
(
θ
)
d
θ
\pi(\theta|x)=\frac{h(x|\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_\theta{p(x|\theta)\pi(\theta)}d\theta}
π(θ∣x)=m(x)h(x∣θ)=∫θp(x∣θ)π(θ)dθp(x∣θ)π(θ),这就是贝叶斯公式的密度函数形式。这个在样本
x
x
x给定下,
θ
\theta
θ的条件分布被称为
θ
\theta
θ的后验分布。他是集中了总体、样本和先验三种信息中包含有
θ
\theta
θ的一切信息,而又是排除一切与
θ
\theta
θ无关的信息之后所得到的结果。故基于后验分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)对
θ
\theta
θ进行统计推断是更为有效,也是合理的。
- 在
θ
\theta
θ是离散随机变量时,先验分布可用先验分布列
p
i
(
θ
i
)
,
i
=
1
,
2
⋅
⋅
⋅
\\pi(\theta_i),i=1,2···
pi(θi),i=1,2⋅⋅⋅,表示。这时后验分布也是离散形式。
π
(
θ
i
∣
x
)
=
p
(
x
∣
θ
i
)
π
(
θ
i
)
∑
i
p
(
x
∣
θ
i
)
π
(
θ
i
)
,
i
=
1
,
2
,
⋅
⋅
⋅
\pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_i{p(x|\theta_i)\pi(\theta_i)}},i=1,2,···
π(θi∣x)=∑ip(x∣θi)π(θi)p(x∣θi)π(θi),i=1,2,⋅⋅⋅假如总体
X
X
X也是离散的,那么只要把密度安徽省农户
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)看作是概率函数
P
(
X
=
x
∣
θ
)
P(X=x|\theta)
P(X=x∣θ)即可。
一般来说,先验分布
π
(
θ
)
\pi(\theta)
π(θ)是反映人们在抽样分布前对
θ
\theta
θ的认识,后验分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)是反映人们在抽样后
θ
\theta
θ的认识。之间的差异是由于样本
x
x
x出现后人们对
θ
\theta
θ认识的一种调整。所以后验分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)可以看作是人们用总体信息和样本信息对先验分布
π
(
θ
)
\pi(\theta)
π(θ)做调整的结果。