源于频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称MLE),是根据数据采样来估计概率分布参数的经典方法,在机器学习的对数几率回归、贝叶斯分类器等中有广泛的应用。
1 极大似然估计法
设总体的概率密度函数(或分布律)为
f
(
y
,
w
1
,
w
2
,
…
,
w
k
)
,
y
1
,
y
2
,
…
,
y
m
f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m}
f(y,w1,w2,…,wk),y1,y2,…,ym为从该总体中抽出来的样本。英文
y
1
,
y
2
,
…
,
y
m
y_{1}, y_{2}, \dots, y_{m}
y1,y2,…,ym相互独立同分布,于是,它们的联合概率密度函数(或联合概率)为
L
(
y
1
,
y
2
,
…
,
y
m
;
w
1
,
w
2
,
…
,
w
k
)
=
∏
i
=
1
m
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
L(y1,y2,…,ym;w1,w2,…,wk)=i=1∏mf(yi,w1,w2,…,wk)
其中,
w
1
,
w
2
,
…
,
w
k
w_{1}, w_{2}, \ldots, w_{k}
w1,w2,…,wk被看作固定但是未知的参数。当我们已经观测到一组样本观测值
y
1
,
y
2
,
…
,
y
m
y_{1}, y_{2}, \dots, y_{m}
y1,y2,…,ym时,要去估计未知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大,哪一组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是所谓的极大似然估计。
2 对数似然函数
通常记
L
(
y
1
,
y
2
,
…
,
y
m
;
w
1
,
w
2
,
…
,
w
k
)
=
L
(
w
)
L\left(y_{1}, y_{2}, \dots, y_{m} ; w_{1}, w_{2}, \dots, w_{k}\right)=L(w)
L(y1,y2,…,ym;w1,w2,…,wk)=L(w),并称其为似然函数。于是求
w
w
w的极大似然估计就归结为求
L
(
w
)
L(w)
L(w)的最大值点。由于连乘容易导致下溢,通常使用对数似然函数(log-likelihood)。
ln
L
(
w
)
=
ln
(
∏
i
=
1
m
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
)
=
∑
i
=
1
m
ln
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
\ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
lnL(w)=ln(i=1∏mf(yi,w1,w2,…,wk))=i=1∑mlnf(yi,w1,w2,…,wk)
由于对数似然函数是单调递增函数,其与
L
(
w
)
L(\boldsymbol{w})
L(w)有相同的最大值点。则求解
L
(
w
)
L(\boldsymbol{w})
L(w)最大值点就转化为求
ln
L
(
w
)
\ln L(\boldsymbol{w})
lnL(w)的最大值点,对于凸函数而言就很简单了。