多元线性回归-最小二乘法最大似然估计

2023-11-01

一、引言

设随机变量 y y y与一般变量 x 1 , x 2 , . . . , x p x_{1},x_{2},...,x_{p} x1,x2,...,xp的线性回归模型为：
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ε y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{p}x_{p}+\varepsilon y=β0+β1x1+β2x2+...+βpxp+ε
式中， β 0 , β 1 , . . . , β p \beta _{0},\beta _{1},...,\beta _{p} β0,β1,...,βp是要估计的参数， β 0 \beta _{0} β0为回归常数， β 1 , . . . , β p \beta _{1},...,\beta _{p} β1,...,βp为回归系数； x 1 , x 2 . . . , x p x _{1},x_{2}...,x _{p} x1,x2...,xp为解释变量； y y y为被解释变量； ε \varepsilon ε为残差。

对于实际问题，获得 n n n组观测数据 ( x i 1 , x i 2 , . . . , x i p ; y i ) , i = 1 , 2 , . . . , n (x_{i1},x_{i2},...,x_{ip}; y_{i}),i=1,2,...,n (xi1,xi2,...,xip;yi),i=1,2,...,n，则线性回归模型可以表示为：
{ y 1 = β 0 + β 1 x 11 + β 2 x 12 + . . . + + β p x 1 p + ε 1 y 2 = β 0 + β 1 x 21 + β 2 x 22 + . . . + + β p x 2 p + ε 2 . . . . . . y n = β 0 + β 1 x n 1 + β 2 x n 2 + . . . + + β p x n p + ε n \begin{cases} y_{1}=\beta _{0}+\beta _{1}x_{11}+\beta _{2}x_{12}+...++\beta _{p}x_{1p}+\varepsilon_{1} \\[2ex] y_{2}=\beta _{0}+\beta _{1}x_{21}+\beta _{2}x_{22}+...++\beta _{p}x_{2p}+\varepsilon_{2} \\[2ex] ......\\[2ex] y_{n}=\beta _{0}+\beta _{1}x_{n1}+\beta _{2}x_{n2}+...++\beta _{p}x_{np}+\varepsilon_{n} \\[2ex] \end{cases} ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧y1=β0+β1x11+β2x12+...++βpx1p+ε1y2=β0+β1x21+β2x22+...++βpx2p+ε2......yn=β0+β1xn1+β2xn2+...++βpxnp+εn
写成矩阵形式 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε，式中
y = [ y 1 y 2 . . . y n ] X = [ 1 x 11 . . . x 1 p 1 x 21 . . . x 2 p . . . . . . . . . . . . 1 x n 1 . . . x n p ] β = [ β 1 β 2 . . . β p ] ε = [ ε 1 ε 2 . . . ε n ] y=\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\ y_{n}\end{bmatrix} X=\begin{bmatrix}1 & x_{11}& ...& x_{1p}& \\ 1 & x_{21}& ...& x_{2p}& \\ ... & ...& ...& ... & \\ 1 & x_{n1}& ...& x_{np}& \end{bmatrix} \beta=\begin{bmatrix}\beta_{1}\\ \beta_{2}\\ ...\\ \beta_{p}\end{bmatrix} \varepsilon=\begin{bmatrix}\varepsilon_{1}\\ \varepsilon_{2}\\ ...\\ \varepsilon_{n}\end{bmatrix} y=⎣⎢⎢⎡y1y2...yn⎦⎥⎥⎤X=⎣⎢⎢⎡11...1x11x21...xn1............x1px2p...xnp⎦⎥⎥⎤β=⎣⎢⎢⎡β1β2...βp⎦⎥⎥⎤ε=⎣⎢⎢⎡ε1ε2...εn⎦⎥⎥⎤
X是 n × ( p + 1 ) n\times (p+1) n×(p+1)阶矩阵，是自变量的样本矩阵。

二、假设条件

假设条件	检验方法	失效后果
（1）样本观测样本数据是独立观测的；
（2）解释变量 x 1 , x 2 . . . , x p x _{1},x_{2}...,x _{p} x1,x2...,xp是确定性变量，不是随机变量；
（3）自变量和因变量是线性关系；	【散点图分析： y − x y- x y−x 散点图】	预测能力差
（4）随机变量残差（扰动项） ε 1 , ε 2 , . . . , ε n \varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n} ε1,ε2,...,εn独立同分布；	【异方差检验： ε − x \varepsilon-x ε−x 散点图、DW检验】	扰动项标准差估计不准， T检验失效
（5） ε i ∼ N ( 0 , σ 2 ) \varepsilon_{i}\sim N(0,\sigma ^{2}) εi∼N(0,σ2)，则 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma ^{2}) ε∼N(0,σ2)；	【QQ检验】	T检验失效
（6）解释变量和扰动项不存在线性关系；	【残差图分析： ε − x \varepsilon- x ε−x 散点图】	回归系数估计有偏
（7）解释变量之间不存在线性关系或强相关；	【膨胀系数判断】	回归系数的标准误被放大

三、回归参数估计

3.1 最小二乘估计

对于模型 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε，最小二乘法就是寻找 β 0 , β 1 , . . . , β p \beta _{0},\beta _{1},...,\beta _{p} β0,β1,...,βp，使离差平方和达到最小/极小值，则
Q ( β 0 ^ , β 1 ^ , . . . , β p ^ ) = m i n ∑ i = 1 n ( y i − β 0 − β 1 x i 1 + β 2 x i 2 + . . . + + β p x i p ) 2 Q(\widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}})=min\sum_{i=1}^n(y_{i}-\beta _{0}-\beta _{1}x_{i1}+\beta _{2}x_{i2}+...++\beta _{p}x_{ip})^2 Q(β0 ,β1 ,...,βp )=mini=1∑n(yi−β0−β1xi1+β2xi2+...++βpxip)2
β 0 ^ , β 1 ^ , . . . , β p ^ \widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}} β0 ,β1 ,...,βp 为回归参数的估计值。根据微分求极值原理，
{ ∂ Q ∂ β 0 = 0 ∂ Q ∂ β 1 = 0 ∂ Q ∂ β 2 = 0 . . . ∂ Q ∂ β p = 0 \begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{2}}=0 \\[2ex] ...\\[2ex] \frac{\partial Q}{\partial \beta _{p}}=0\\[2ex] \end{cases} ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧∂β0∂Q=0∂β1∂Q=0∂β2∂Q=0...∂βp∂Q=0
整理后得
β ^ = ( X T X ) − 1 X T y \widehat{\beta }=(X^{T}X)^{-1}X^{T}y β =(XTX)−1XTy
则
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + . . . + β p ^ x p \widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p} y =β0 +β1 x1+β2 x2+...+βp xp

3.2 最大似然估计

多元线性回归参数的最大似然估计与一元线性回归的思想一致，对于模型 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε，有 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma ^{2}) ε∼N(0,σ2)， X X X 是与 y y y 相关的非随机变量，则 y ∼ N ( X β , σ 2 ) y\sim N(X\beta,\sigma ^{2}) y∼N(Xβ,σ2)。此时最大似然函数
L = ( 2 π σ 2 ) − n / 2 e x p ( − 1 2 σ 2 ( y − X β ) T ( y − X β ) ) L=(2 \pi \sigma^2)^{-n/2}exp(-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta)) L=(2πσ2)−n/2exp(−2σ21(y−Xβ)T(y−Xβ))
取对数后
l n L = − n 2 l n ( 2 π ) − n 2 l n ( σ 2 ) − 1 2 σ 2 ( y − X β ) T ( y − X β ) ) lnL=-\frac{n}{2}ln(2 \pi )-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta)) lnL=−2nln(2π)−2nln(σ2)−2σ21(y−Xβ)T(y−Xβ))
这等价于使 ( y − X β ) T ( y − X β ) (y-X\beta)^T(y-X\beta) (y−Xβ)T(y−Xβ)达到最小值，与最小二乘法一致。参数的估计结果
β ^ = ( X T X ) − 1 X T y \widehat{\beta }=(X^{T}X)^{-1}X^{T}y β =(XTX)−1XTy
则
y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + . . . + β p ^ x p \widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p} y =β0 +β1 x1+β2 x2+...+βp xp

参考书：《应用回归分析》何晓群

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

统计分析与数据挖掘

统计学