多元线性回归-最小二乘法 最大似然估计

2023-11-01

一、引言

设随机变量 y y y与一般变量 x 1 , x 2 , . . . , x p x_{1},x_{2},...,x_{p} x1,x2,...,xp的线性回归模型为:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ε y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{p}x_{p}+\varepsilon y=β0+β1x1+β2x2+...+βpxp+ε
式中, β 0 , β 1 , . . . , β p \beta _{0},\beta _{1},...,\beta _{p} β0,β1,...,βp是要估计的参数, β 0 \beta _{0} β0为回归常数, β 1 , . . . , β p \beta _{1},...,\beta _{p} β1,...,βp为回归系数; x 1 , x 2 . . . , x p x _{1},x_{2}...,x _{p} x1,x2...,xp为解释变量; y y y为被解释变量; ε \varepsilon ε为残差。

对于实际问题,获得 n n n组观测数据 ( x i 1 , x i 2 , . . . , x i p ; y i ) , i = 1 , 2 , . . . , n (x_{i1},x_{i2},...,x_{ip}; y_{i}),i=1,2,...,n (xi1,xi2,...,xip;yi),i=1,2,...,n,则线性回归模型可以表示为:
{ y 1 = β 0 + β 1 x 11 + β 2 x 12 + . . . + + β p x 1 p + ε 1 y 2 = β 0 + β 1 x 21 + β 2 x 22 + . . . + + β p x 2 p + ε 2 . . . . . . y n = β 0 + β 1 x n 1 + β 2 x n 2 + . . . + + β p x n p + ε n \begin{cases} y_{1}=\beta _{0}+\beta _{1}x_{11}+\beta _{2}x_{12}+...++\beta _{p}x_{1p}+\varepsilon_{1} \\[2ex] y_{2}=\beta _{0}+\beta _{1}x_{21}+\beta _{2}x_{22}+...++\beta _{p}x_{2p}+\varepsilon_{2} \\[2ex] ......\\[2ex] y_{n}=\beta _{0}+\beta _{1}x_{n1}+\beta _{2}x_{n2}+...++\beta _{p}x_{np}+\varepsilon_{n} \\[2ex] \end{cases} y1=β0+β1x11+β2x12+...++βpx1p+ε1y2=β0+β1x21+β2x22+...++βpx2p+ε2......yn=β0+β1xn1+β2xn2+...++βpxnp+εn
写成矩阵形式 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε,式中
y = [ y 1 y 2 . . . y n ] X = [ 1 x 11 . . . x 1 p 1 x 21 . . . x 2 p . . . . . . . . . . . . 1 x n 1 . . . x n p ] β = [ β 1 β 2 . . . β p ] ε = [ ε 1 ε 2 . . . ε n ] y=\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\ y_{n}\end{bmatrix} X=\begin{bmatrix}1 & x_{11}& ...& x_{1p}& \\ 1 & x_{21}& ...& x_{2p}& \\ ... & ...& ...& ... & \\ 1 & x_{n1}& ...& x_{np}& \end{bmatrix} \beta=\begin{bmatrix}\beta_{1}\\ \beta_{2}\\ ...\\ \beta_{p}\end{bmatrix} \varepsilon=\begin{bmatrix}\varepsilon_{1}\\ \varepsilon_{2}\\ ...\\ \varepsilon_{n}\end{bmatrix} y=y1y2...ynX=11...1x11x21...xn1............x1px2p...xnpβ=β1β2...βpε=ε1ε2...εn
X是 n × ( p + 1 ) n\times (p+1) n×(p+1)阶矩阵,是自变量的样本矩阵。

二、假设条件

假设条件 检验方法 失效后果
(1)样本观测样本数据是独立观测的;
(2)解释变量 x 1 , x 2 . . . , x p x _{1},x_{2}...,x _{p} x1,x2...,xp是确定性变量,不是随机变量;
(3)自变量和因变量是线性关系; 【散点图分析: y − x y- x yx 散点图】 预测能力差
(4)随机变量残差(扰动项) ε 1 , ε 2 , . . . , ε n \varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n} ε1,ε2,...,εn独立同分布; 【异方差检验: ε − x \varepsilon-x εx 散点图、DW检验】 扰动项标准差估计不准, T检验失效
(5) ε i ∼ N ( 0 , σ 2 ) \varepsilon_{i}\sim N(0,\sigma ^{2}) εiN(0,σ2),则 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma ^{2}) εN(0,σ2) 【QQ检验】 T检验失效
(6)解释变量和扰动项不存在线性关系; 【残差图分析: ε − x \varepsilon- x εx 散点图 】 回归系数估计有偏
(7)解释变量之间不存在线性关系或强相关; 【膨胀系数判断】 回归系数的标准误被放大

三、回归参数估计

3.1 最小二乘估计

对于模型 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε,最小二乘法就是寻找 β 0 , β 1 , . . . , β p \beta _{0},\beta _{1},...,\beta _{p} β0,β1,...,βp,使离差平方和达到最小/极小值,则
Q ( β 0 ^ , β 1 ^ , . . . , β p ^ ) = m i n ∑ i = 1 n ( y i − β 0 − β 1 x i 1 + β 2 x i 2 + . . . + + β p x i p ) 2 Q(\widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}})=min\sum_{i=1}^n(y_{i}-\beta _{0}-\beta _{1}x_{i1}+\beta _{2}x_{i2}+...++\beta _{p}x_{ip})^2 Q(β0 ,β1 ,...,βp )=mini=1n(yiβ0β1xi1+β2xi2+...++βpxip)2
β 0 ^ , β 1 ^ , . . . , β p ^ \widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}} β0 ,β1 ,...,βp 为回归参数的估计值。根据微分求极值原理,
{ ∂ Q ∂ β 0 = 0 ∂ Q ∂ β 1 = 0 ∂ Q ∂ β 2 = 0 . . . ∂ Q ∂ β p = 0 \begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{2}}=0 \\[2ex] ...\\[2ex] \frac{\partial Q}{\partial \beta _{p}}=0\\[2ex] \end{cases} β0Q=0β1Q=0β2Q=0...βpQ=0
整理后得
β ^ = ( X T X ) − 1 X T y \widehat{\beta }=(X^{T}X)^{-1}X^{T}y β =(XTX)1XTy

y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + . . . + β p ^ x p \widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p} y =β0 +β1 x1+β2 x2+...+βp xp

3.2 最大似然估计

多元线性回归参数的最大似然估计与一元线性回归的思想一致,对于模型 y = X β + ε y=X\beta+\varepsilon y=Xβ+ε,有 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma ^{2}) εN(0,σ2) X X X 是与 y y y 相关的非随机变量,则 y ∼ N ( X β , σ 2 ) y\sim N(X\beta,\sigma ^{2}) yN(Xβ,σ2)。此时最大似然函数
L = ( 2 π σ 2 ) − n / 2 e x p ( − 1 2 σ 2 ( y − X β ) T ( y − X β ) ) L=(2 \pi \sigma^2)^{-n/2}exp(-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta)) L=(2πσ2)n/2exp(2σ21(yXβ)T(yXβ))
取对数后
l n L = − n 2 l n ( 2 π ) − n 2 l n ( σ 2 ) − 1 2 σ 2 ( y − X β ) T ( y − X β ) ) lnL=-\frac{n}{2}ln(2 \pi )-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta)) lnL=2nln(2π)2nln(σ2)2σ21(yXβ)T(yXβ))
这等价于使 ( y − X β ) T ( y − X β ) (y-X\beta)^T(y-X\beta) (yXβ)T(yXβ)达到最小值,与最小二乘法一致。参数的估计结果
β ^ = ( X T X ) − 1 X T y \widehat{\beta }=(X^{T}X)^{-1}X^{T}y β =(XTX)1XTy

y ^ = β 0 ^ + β 1 ^ x 1 + β 2 ^ x 2 + . . . + β p ^ x p \widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p} y =β0 +β1 x1+β2 x2+...+βp xp

参考书:《应用回归分析》何晓群

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

多元线性回归-最小二乘法 最大似然估计 的相关文章

  • 样本方差的快速计算-遍历一遍样本集

    在统计学中 经常需要样本的方差计算 比较麻烦的方式是 1 第一次遍历计算出样本的平均值 2 第二次遍历才能计算出样本的方差 上述方法在样本较少的情况下 非常合适 但如果样本非常大 这种方式就不可取了 而且如果样本是持续增长的 就都不适用了
  • 统计学1:基本知识——均值、方差、标准差

    总体 Population 抽样 Sample 均值 mean i
  • 标准化与标准计分

    其实就是衡量 含金量 的一种方法 标准计分其实就是 距离 标准差 貌似和离差很像 离差就是 距离 标准差 10 50 对于分数来说 如果与平均分的距离越大 含金量就越高呢 在组数据中 可以求分均值 中位数以及标准差了 以考试成绩为例 现在
  • 参数显著性检验的p值小于显著性水平不等于其具有经济学意义

    在做简单线性回归或者多元线性回归时 如何评估参数的统计意义和经济意义是我们研究问题的两个重要方面 理论意义和经济意义是如何显示在数字上的呢 以下是笔者在做相关或者线性回归课题时学习整理出来的 在此分享记录 参数的t统计量足够大 或者p值足够
  • 期望、方差、协方差与相关系数

    1 利用切比雪夫不等式可以证明方差为0意味着随机变量的取值集中在一点上 2 从协方差可以得到两个变量增减的趋势 称为相关性 3 不相关 比 独立 更弱的概念 独立 必导致 不相关 不相关 不一定导致 独立 4 相关系数是相应标准化变量的协方
  • 回归分析

    线性回归分析的内容 能否找到一个线性组合来说明一组自变量和因变量的关系 如果能的话 这种关系的强度有多大 也就是利用自变量的线性组合来预测因变量的能力有多强 整体解释能力是否具有统计上的显著性意义 在整体解释能力显著的情况下 哪些自变量有显
  • 统计学中常见的分布汇总及相关概念

    常见分布 统计学中有很多常见的分布 在此对这些分布进行梳理 离散型随机变量分布 1 离散型均匀分布 若随机变量有n个不同值 具有相同概率 则我们称之为离散均匀分布 通常发生在我们不确定各种情况发生的机会 且认为每个机会都相等 例如 投掷骰子
  • 回归分析中,证明:总离差平方和=回归平方和+误差平方和。

    证明 总离差平方和 回归平方和 误差平方和 S S T S S R S S E S S T S S R S S E SST
  • 统计学基础面点

    文章目录 1 T检验 F检验 卡方检验 2 方差分析 3 多重共线性 4 参数估计 5 假设检验 6 大数定律和中心极限定理 总结一下统计学的基础概念和考点给即将秋招的统计学er以及baozi 1 T检验 基本概念 t检验 亦称studen
  • 深入浅出统计学(十一)总体和样本的估计

    基本概念 问题 章节理解 上一章主要讲解如何用样本估计总体参数 这一章主要是讲解如何用总体估计样本的概率分布
  • python q-q图 和PP图

    转载于https www cnblogs com king lps p 7840268 html以供学习 侵权即删 一 QQ图 分位数图示法 Quantile Quantile Plot 简称 Q Q 图 统计学里Q Q图 Q代表分位数 是
  • 数据分析之非参数检验与二元逻辑回归结果不一致的原因

    在对两组数据进行非参数检验时 各项属性间无统计学差异 但以分类变量作为因变量使用二元逻辑回归进行分析时 其中存在属性p值小于0 05 即该变量对因变量的影响具有显著性 导致该情况的原因 可能是由于两个检验方法所用的假设和检验策略不同所致 非
  • 伪似然估计(Pseudo Maximum Likelihood Estimation)

    伪似然估计 和 剖面似然估计 伪似然估计 参考文献 Gong G and Samaniego F J 1981 pseudo Maximum Likelihood Estimation Theory and Applications The
  • 机器学习与数学基础知识(一)

    最近 朋友分享给我一套 七月在线 的机器学习视频 我几经思量之后 决定从视频量最少的数学基础部分开始看起 今天学习完了第一个视频 长达2小时 感觉老师讲的挺不错的 以前自己就对机器学习很感兴趣 做了一些了解和尝试性地学习 也看了一点经典的林
  • 统计学学习笔记:L1-总体、样本、均值、方差

    目录 一 总体和样本 二 集中趋势分析 2 1 均值 2 1 1 样本均值 2 1 2 总体均值 2 2 众数 中位数 三 离散趋势分析 3 1 总体方差 3 2 样本方差 3 3 标准差 一 总体和样本 比如要计算全国男性的平均身高 但是
  • 【统计学】分类数据分析 相关分析 方差分析 比较 研究思路 spss

    分类数据分析是针对类别型变量之间是否有影响进行的分析 而相关分析是类别型变量之间有影响的前提下 研究变量间相关的程度 以及正相关还是负相关 方差分析稍有不同 是研究分类型变量对数值型变量的影响 而不是类别型变量之间的关系 上统计学课的时候这
  • 《5分钟说完一个概念》:什么是Bootstrap采用

    想知道中国人的平均身高 群体均值 群体方差为 每次抽样 1000 人 抽样了 次 每次抽样的 1000人 的平均身高是一次随机抽样 这
  • 高斯混合模型的终极理解

    高斯混合模型GMM是一个非常基础并且应用很广的模型 对于它的透彻理解非常重要 网上的关于GMM的大多资料介绍都是大段公式 而且符号表述不太清楚 或者文笔非常生硬 本文尝试用通俗的语言全面介绍一下GMM 不足之处还望各位指正 首先给出GMM的
  • 方差分析 / 主成分分析 / 因子分析 / 聚类分析

    一 方差分析 水平 因素的不同状态 分组是按照因素的不同水平划分的 因变量 在分组试验中 对试验对象所观测记录的变量 它是受各因素影响的变量 常见的方差分析类型 单因素方差分析 多因素方差分析 单因素方差分析 是指检验由单一因素影响一个因变
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化

随机推荐