回归分析

2023-10-31

线性回归分析的内容
能否找到一个线性组合来说明一组自变量和因变量的关系
如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强
整体解释能力是否具有统计上的显著性意义
在整体解释能力显著的情况下,哪些自变量有显著意义
回归分析的一般步骤
确定回归方程中的解释变量(自变量)和被解释变量(因变量)
确定回归方程
对回归方程进行各种检验
利用回归方程进行预测

一元线性回归模型的数学模型:

Y = β0 + β1X

        其中x为自变量;y为因变量;   β0为截距,即常量;   β1为回归系数,表明自变量对因变量的影响程度。

用最小二乘法求解方程中的两个参数,得到:



多元线性回归方程:

     y=β01x12x2+...+βkxk

n β 1 β 2 β k 为偏回归系数。

l 回归方程的拟合优度

        回归直线与各观测点的接近程度称为回归方程的拟合优度,也就是样本观测值聚集在回归线周围的紧密程度

1离差平方和的分解:

    

建立直线回归方程可知:y的观测值的总变动 可由 来反映,称为总变差。引起总变差的原因有两个:

n 由于 x 的取值不同,使得与 x 有线性关系的 y 值不同;
n 随机因素的影响。

总离差平方和(SST)=剩余离差平方和(SST) +回归离差平方和(SSR)

    其中;SSR是由xy的直线回归关系引起的,可以由回归直线做出解释;SSE是除了xy的线性影响之外的随机因素所引起的Y的变动,是回归直线所不能解释的。

n β 1 表示在其他自变量保持不变的情况下,自变量 x 1 变动一个单位所引起的因变量 y 的平均变动。

2、可决系数
        回归平方和在总离差平方和中所占的比例可以作为一个统计指标,用来衡量 X Y 的关系密切程度以及回归直线的代表性好坏,称为可决系数
n 对于多元线性回归方程:
      
        在多元线性回归分析中,引起判定系数增加的原因有两个:一个是方程中的解释变量个数增多,另一个是方程中引入了对被解释变量有重要影响的解释变量。如果某个自变量引入方程后对因变量的线性解释有重要贡献,那么必然会使误差平方和显著减小,并使平均的误差平方和也显著减小,从而使调整的判定系数提高。所以在多元线性回归分析中,调整的判定系数比判定系数更能准确的反映回归方程的拟合优度

回归方程的显著性检验(方差分析 F 检验)

        回归方程的显著性检验是要检验被解释变量与所有的解释变量之间的线性关系是否显著。

回归系数的显著性检验( t 检验)

        回归系数的显著性检验是要检验回归方程中被解释变量与每一个解释变量之间的线性关系是否显著。


残差分析

        残差是指由回归方程计算得到的预测值与实际样本值之间的差距,定义为:

       

对于线性回归分析来讲,如果方程能够较好的反映被解释变量的特征和规律性,那么残差序列中应不包含明显的规律性。残差分析包括以下内容:残差服从正态分布,其平均值等于 0 ;残差取值与 X 的取值无关;残差不存在自相关;残差方差相等。     

1、对于残差均值和方差齐性检验可以利用残差图进行分析。如果残差均值为零,残差图的点应该在纵坐标为0的中心的带状区域中随机散落。如果残差的方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了异方差现象。

ps:残存的正态性检验除了残差直方图、P-P图之外还可以用非参数检验的单一样本KS检验(柯尔莫哥洛夫-斯摩洛夫检验),检验标准化残差分布与标准正态分布有无显著差异;


ps:残差的方差齐性可以观察标准化残差与标准化预测值的散点图,是否均匀分布在【-2,2】区间上(因为正态分布的面积比例为:均值加减1个标准差的面积为68%,加减2个标准差的面积为96%,3个标准差的面积为99%),且不存在明显趋势,趋势可以通过spearman等级相关系数来判断,检验不显著则异方差现象不明显,可以认为方差齐。


2 DW 检验。 DW 检验用来检验残差的自相关DW=2 表示无自相关,在 0-2 之间说明存在正自相关,在 2-4 之间说明存在负的自相关。一般情况下, DW 值在 1.5-2.5 之间即可说明无自相关现象。

多重共线性分析
           多重共线性是指解释变量之间存在线性相关关系的现象

1、容忍度:


         其中, R2是第i个解释变量与方程中其他解释变量间的复相关系数的平方,表示解释变量之间的线性相关程度。容忍度的取值范围在0-1之间,越接近0表示多重共线性越强,越接近1表示多重共线性越弱。

2、方差膨胀因子VIF。方差膨胀因子是容忍度的倒数。VIF越大多重共线性越强,当VIF大于等于10时,说明存在严重的多重共线性。   

3、特征根和方差比。根据解释变量的相关系数矩阵求得的特征根中,如果最大的特征根远远大于其他特征根,则说明这些解释变量间具有相当多的重复信息。如果某个特征根既能够刻画某解释变量方差的较大部分比例(0.7以上),又能刻画另一解释变量方差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。

4、条件指数。指最大特征根与第i个特征根比的平方根。通常,当条件指数在0-10之间时说明多重共线性较弱;当条件指数在10-100之间说明多重共线性较强;当条件指数大于100时说明存在严重的多重共线性。


注:多元回归分析中,变量的筛选一般有向前筛选、向后筛选、逐步筛选三种基本策略。

向前筛选( Forward )策略:解释变量不断进入回归方程的过程。首先,选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验;然后,在剩余的变量中寻找与被解释变量偏相关系数最高且通过检验的变量进入回归方程,并对新建立的回归方程进行各种检验;这个过程一直重复,直到再也没有可进入方程的变量为止。
向后筛选( Backward )策略:变量不断剔除出回归方程的过程。首先,所有变量全部引入回归方程,并对回归方程进行各种检验;然后,在回归系数显著性检验不显著的一个或多个变量中,剔除 t 检验值最小的变量,并重新建立 回归方程和进行各种检验;如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束。否则按上述方法再一次剔除最不显著的变量,直到再也没有可剔除的变量为止。
逐步筛选( Stepwise )策略:在向前筛选策略的基础上结合向后筛选策略,在每个变量进入方程后再次判断是否存在应该剔除出方程的变量。因此,逐步筛选策略在引入变量的每一个阶段都提供了再剔除不显著变量的机会。


【转】【SPSS】多元回归分析的一般步骤

【多元回归分析的前提条件】
(1)因变量与自变量的关系是“一次”,即“线性”。现实中这种关系本质上往往是非线性的。
(2)残差相互独立
(3)方差齐性,残差的方差为常数或因变量的方差为常数。
(4)残差服从正态分布,或因变量围绕其均值服从正态分布。


【操作步骤】
(1)处理数据,做序列图。
(2)因变量的自相关和偏相关检验观察趋势,通过Correlations表对因自变量的相关性有大致的了解。
(3)建立回归分析模型。一般采用进入法,进行最小二乘估计。

主要的分析指标:①R方、调整后的R方:判断模型的解释程度;
                ②DW值:是否在2附近,判断是否存在自相关,残差散点图也可以看自相关;

                       ③ANOVA:未解释的残差;
                ④F检验:显著性系数是否在要求的显著性水平之下,小于就不拒绝自变量对因变量有显著影响的原假设;
                ⑤相关系数,看常数项、自变量的系数估计值、标准差;
                ⑥t检验,小于0.05,则不决绝原假设,自变量显著;
                ⑦VIF,容差大于10,存在严重的共线性。
(4)异方差检验。通过残差散点图检验。保存模型的残差值,计算残差绝对值,对自变量和残差绝对值进行双变量相关分析,检验是否存在异方差。p值大于0.05,认为0.05水平下,不存在异方差。
(5)处理可能存在的问题。
     ①序列相关。可以采用Cochrane-Orcutt iterative least squares(COILS)方法进行自回归运算。也可同过ARIMA解决自相关的问题。
     ②共线性。如果回归分析的目的仅仅是用于预测或估计因变量的数值,则共线性不会对预测值的精度造成影响;如果回归分析的目的是找出变量之间的因果关系,则不允许有多重共线性,因为这时的回归方程的系数是不准确的,甚至系数的符号与实际分析都会相反;高阶模型或自变量有关联的模型通常都会存在共线性问题,减低的方法是采用数据变换的方式对原始数据进行处理。或者逐个删除存在共线性的自变量。
     ③异方差。解决异方差性最简便的方法是对变量进行变换,如取对数。如果通过函数变换的方式还不能解决问题,则只有通过所谓加权最小二乘法(Weighted least squares)的方法。


2 、可决系数(判定系数
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

回归分析 的相关文章

  • 朴素贝叶斯Naive Bayes-机器学习ML

    参考 1 统计学习方法 李航 2 先验概率与后验概率的区别 http blog csdn net ouyang linux007 article details 7566339 3 朴素贝叶斯方法 Naive Bayes 原理和实现 htt
  • 【重庆邮电大学协办】2023年第六届数据挖掘与知识发现国际会议(DMKD 2023)

    重庆邮电大学协办 2023年第六届数据挖掘与知识发现国际会议 DMKD 2023 重要信息 会议网址 www icdmkd org 会议时间 2023年6月24 26日 召开地点 中国 重庆 截稿时间 2023年5月24日 录用通知 投稿后
  • 依分布收敛的定义细节

    1 定义 依分布收敛的定义是这样的 随机变量序列 X n n 1 X n n 1 infty Xn n 1 若它们的累积分布函数cdf序列 F n n 1 F n n 1 infty Fn n 1 与某个随机变量 X X X的cdf F F
  • kd树

    参考 1 统计学习方法 李航 2 https baike baidu com item kd tree 2302515 fr aladdin 3 http www jianshu com p ffe52db3e12b 4 http blog
  • 什么是结构因果模型

    结构因果模型 结构因果模型简介 定义 历史 因果关系之梯 关联 干预 反事实 因果 因果和相关 类型 必要因 充分因 促成因 模型 因果图 模型元素 连接方式 链 叉 对撞 节点类型 中介变量 混杂因子 工具变量 孟德尔随机化 关联 独立性
  • 统计学中常见的分布汇总及相关概念

    常见分布 统计学中有很多常见的分布 在此对这些分布进行梳理 离散型随机变量分布 1 离散型均匀分布 若随机变量有n个不同值 具有相同概率 则我们称之为离散均匀分布 通常发生在我们不确定各种情况发生的机会 且认为每个机会都相等 例如 投掷骰子
  • (大全)预后Cox 列线图Nomogram 校正曲线calibration curve 时间依赖ROC survivalROC C指数C-index 两ROC比较

    Cox模型 等比例风险检验 Nomogram C index 校准曲线 时间 ROC曲线 内置包数据运行 预期结果看图 部分代码加上自己的理解 可以直接复制到R运行 加载包 我用 R 3 6版本的 library cmprsk 已经包含在这
  • 回归分析中,证明:总离差平方和=回归平方和+误差平方和。

    证明 总离差平方和 回归平方和 误差平方和 S S T S S R S S E S S T S S R S S E SST
  • 收藏!关于数据科学中数学和统计学的完全指南

    全文共6409字 预计学习时长19分钟 图源 Unsplash 数据科学家是程序员中最擅长统计学 统计学家中最擅长编程的人 乔什 威尔斯 Josh Wills 数学很重要 数学与我们周围的一切事物息息相关 从形状 图案 颜色到花朵中花瓣的数
  • 【EI会议】2022年人工智能与统计学前沿国际会议(CFAIS 2022)

    2022年人工智能与统计学前沿国际会议 CFAIS 2022 重要信息 会议网址 www cfais org 会议时间 2022年12月16 18日 召开地点 中国北京 截稿时间 2022年10月31日 录用通知 投稿后2周内 收录检索 E
  • 蓄水池抽样算法(Reservoir Sampling)

    蓄水池抽样算法 Reservoir Sampling 问题描述 问题分析 代码实现 数学证明 问题描述 给定一个数据流 数据流长度N很大 且长度不可预知 问如何在仅遍历一次数据的情况下 如何等概率 抽取m个样本 问题分析 首先明确概念 等概
  • 权重确定方法之主成分分析法

    什么是权重呢 所谓权重 是指某指标在整体评价中的相对重要程度 权重越大则该指标的重要性越高 对整体的影响就越高 权重要满足两个条件 每个指标的权重在0 1之间 所有指标的权重和为1 权重的确定方法有很多 这里我们学习用主成分分析确定权重 一
  • 统计学第九周:参数估计python实现

    统计学第九周 参数估计复习 参数估计 根据从总体中随机取样获得样本 根据取样样本来估计总体分布中参数的过程 方法 估计形式上分 点估计与区间估计 估计的方法有矩法估计 最小二乘法估计 似然估计 贝叶斯估计等等 问题一般有 未知参数的估计量
  • 决策树(Decision Tree)-机器学习ML

    参考 1 统计学习方法 李航 2 https baike baidu com item E5 86 B3 E7 AD 96 E6 A0 91 10377049 fr aladdin 3 http www jianshu com p 6eec
  • 移动通信原理B-------例题解答2

    移动通信原理B例题解答2 移动通信原理B 例题解答2 一 题目 若一发射机发射载频为1850Mhz 一辆汽车以每小时72Km h的速度运动 计算在以下情况下接收机的载波频率 1 汽车沿直线朝向发射机运动 2 汽车沿直线背向发射机运动 3 汽
  • R语言系统教程(一):向量及其相关操作

    R语言系统教程 一 向量及其相关操作 前言 1 1 向量 Vector 赋值 1 10 4 5 6 3 1 6 4 21 7 运算 常用函数 1 2 Generate常用向量 Vector 等差数列 等间隔函数 重复函数 1 3 逻辑向量
  • R语言实用案例分析-1

    在日常生活和实际应用当中 我们经常会用到统计方面的知识 比如求最大值 求平均值等等 R语言是一门统计学语言 他可以方便的完成统计相关的计算 下面我们就来看一个相关案例 1 背景 最近西安交大大数据专业二班 开设了Java和大数据技术课程 班
  • statsmodels中的summary解读(OLS)

    Dep varible y 输出y变量的名称 Model OLS 使用的参数确定的模型OLS Method Least Squares 使用最小二乘法确定参数 Date Sat 10 Aug 2019 日期 Time 18 10 04 时间
  • TCGA各种肿瘤数据的20多种不同玩法/挖掘方法

    肿瘤基因组图谱 The Cancer Genome Atlas TCGA 计划是由美国国家癌症研究院 National Cancer Institute NCI 和美国国家人类基因组研究所 National Human Genome Res
  • 看书标记【R语言数据分析与挖掘实战】4

    第四章 数据预处理 4 1 数据清洗 缺失值处理 使用is na 判断缺失值是否存在 complete cases 可以识别样本数据是否完整从而判断缺失情况 删除法 na omit 函数移除所有含有缺失数据的行 data p 删除p列 替换

随机推荐

  • javaMail SMTPSendFailedException: java邮件发送常见的异常类型

    421 HL REP 该IP发送行为异常 存在接收者大量不存在情况 被临时禁止连接 请检查是否有用户发送病毒或者垃圾邮件 并核对发送列表有效性 421 HL ICC 该IP同时并发连接数过大 超过了网易的限制 被临时禁止连接 请检查是否有用
  • 【Linux入门指北】第六篇 Linux常用的开发工具

    文章目录 前言 一 Linux编辑器 vi vim 1 vi vim介绍 2 vi vim 各种模式间的相互切换 3 一般模式 4 编辑模式 4 命令行模式 二 Linux软件包管理器 yum RPM 1 yum介绍 2 YUM本地源 系统
  • JavaEE-制作JSTL标签 详解

    使用定制标签库使得JSP程序更加简洁 可读性和可维护性大大的提高了 因此JSP定制标签的优势是非常明显的 它被认为是JSP所有特性中最被看好的特性 我们要编写一个标签 向请求者的浏览器输出 Hello World 同时该标签是一个没有体内容
  • 红队渗透靶场之W1R3S靶场(超详细!)

    W1R3S考察知识 nmap的基本使用 目录爆破工具的使用 CMS漏洞的利用 Linux用户的简单提权 W1R3S靶场搭建 W1R3S靶场下载地址 https download vulnhub com w1r3s w1r3s v1 0 1
  • 用Python做一个简单的视频播放器

    相关文件 关注小编 私信小编领取就好啦 开发工具 Python版本 3 7 8 相关模块 pyqt5模块 以及一些python自带的模块 搭建环境 安装Python并添加到环境变量 pip安装需要的相关模块即可 原理介绍 这里我们主要利用P
  • LLVM IR 即 LLVM Language Reference Manual 15 翻译: 001节

    Abstract This document is a reference manual for the LLVM assembly language LLVM is a Static Single Assignment SSA based
  • 实例六个,八段代码,详解Python中的for循环

    Python 支持循环 它的语法与其他语言 如 JavaScript 或 Java 有些不同 下面的代码块演示如何在 Python 中使用for循环来遍历列表中的元素 下面的这段代码可以通过行替换的行来指定打印的 你在打印的 将输出显示在同
  • html文本中加空格的四种方式

    一 使用 nbsp 这种是不换行空格 会一直累加到后面 缺点是会受到字体宽度的影响 很明显 两个 nbsp 邓等于一个中文宽度 二 使用 emsp 推荐使用这种方式 同样是不换行空格 可以一直累加的同时所占的宽度正好是一个汉字 而且受字体宽
  • 获取英雄联盟全皮肤(极速版)

    如何实现英雄联盟全皮肤 话接上回 虽然我们能获得全皮肤 但是呢 速度确实是有点慢 但是没关系 这次小编就带着大家给爬虫提提速 首先 我们要明白怎么给爬虫加速 这就要提到多进程和多线程了 多进程 1 多进程 一个应用程序默认有一个进程 主进程
  • 如何完全、干净地卸载Oracle 11g数据库?

    移除Oracle 11g Oracle 11g的卸载过程分为停掉服务 卸载Oracle产品 删除注册表项 删除环境变量和重启计算机5个步骤 1 1 停止服务列表的五 六 个服务 按win r 在 运行 框中输入services msx命令
  • CentOS8服务篇8:NFS服务器配置与管理

    一 安装NFS服务器 进入到超级用户 执行 yum y install nfs utils rpcbind 就开始安装NFS和RPC了 二 关闭服务器防火墙 systemctl stop firewalld 三 临时关闭SELinux se
  • Rancher2.x的安装与使用入门

    Rancher2 x的安装与使用入门 文章目录 Rancher2 x的安装与使用入门 一 Rancher简介 二 Rancher安装 1 机器准备 2 docker安装 3 Rancher安装 三 Web设置 四 使用RKE构建K8S集群
  • rabbitMQ无法发送消息问题

    今天查看rabbitmq的管理平台 发现connection处于blocked状态 队列无法接受消息 后面发现是内存满了 清了下内存正常了
  • 计算机科学书籍

    下面开始详细了解下书籍 1 计算机程序的构造和解释 数据科学家告诉你哪些计算机科学书籍是你应该看的 麻省理工已经不再使用这本书来教计算机科学导论了 用Python替代Scheme 而Scheme是这本书使用的语言 这背后的原因可能是这个世界
  • Redis 学习笔记(一)-- Redis 基础知识

    Redis 上篇 Linux学习 1 什么是NoSQL 百度百科 https baike baidu com item NoSQL 8828247 fr aladdin NoSQL Not Only SQL 泛指非关系型的数据库 区别于关系
  • vue websocket 实现客服聊天功能(基础实现)

    本文章主要介绍如何实现一个基本的聊天 后续会添加表情包 传照片等功能 其实刚开始接触的时候 我最大的疑惑是聊天功能的前期是否需要搭建什么框架 下载一些什么东西之类的 结果就是 其实websocket可以直接使用 然后前后端搭配 也是免费的
  • OpenVAS的安装、使用及实战(GVM,Metasploit使用)

    目录 简介 环境 openvas的组件构成 安装OpenVAS 失败 安装GVM 使用GVM 更新NVT特征库 WEB页面 登录 报告生成格式 内置扫描配置方案 实战 新建任务 漏洞报告 www dvssc com service com
  • 链表面试题-单链表带环和环的入口点问题

    带环问题 判断链表是否带环 如果带环则环长是多少 求环的入口点 1 判断单链表是否带环 思路 设置一个快指针 每次走两步 再设置一个慢指针每次走一步 然后判断是否有交点即可 就好比你在环形跑道和别人赛跑 不管你俩速度如何 只要他比你快 总会
  • cuda-cnn之mnist文件读取(1)

    https github com zhxfl CUDA CNN 第一步是通过readMnistData读取训练样本和测试样本 mnist train images idx3 ubyte 训练样本 mnist train labels idx
  • 回归分析

    线性回归分析的内容 能否找到一个线性组合来说明一组自变量和因变量的关系 如果能的话 这种关系的强度有多大 也就是利用自变量的线性组合来预测因变量的能力有多强 整体解释能力是否具有统计上的显著性意义 在整体解释能力显著的情况下 哪些自变量有显