SPSS知识点复习

2023-11-17

一、T检验

对连续变量使用的方法:T检验、方差检验

1.均值(Means)过程:

完成数据分组输出描述统计量

2.T检验:

用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著

前提:总体服从正态分布、样本量不超过30

3.单样本T检验:

推断该总体的均值是否与指定的检验值之间存在显著性差异。

假设-》t统计量-》统计量观测值和概率P-》比较P和显著性水平α(P<a:有差异)

α=0.05

实例:药物溶解

4.独立样本T检验:

利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。

前提: 独立;正态;方差齐性

假设-》t统计量-》统计量观测值(F、t)和概率P-》比较P和显著性水平α(P(F)<a:方差不同;P(t)<a:有差异)

fa=0.05,ta=0.01

实例:两个老师的教学质量

5.配对样本T检验

利用来自两个不同总体的配对样本,推断两个总体的均值是否存在显著差异。

配对:1)两样本的观察值数目相等;2)两样本的观察值的顺序不能随意更改【例:干预前、干预后】

t-》P-》a(P<a:有差异)

a=0.01

实例:对贫血儿童进行干预后的血红蛋白数

二、非参数检验

在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。

1.优缺点

优点:

1、对数据的要求不严格,对资料的分布类型要求较宽松;

2、检验方法灵活,使用用途广泛;

3、非参数检验的计算相对简单,易于理解和掌握

缺点:

1、当资料满足参数检验的条件时,非参数检验会降低检验的功效;

2、非参数检验主要使用了登记或符号秩,而不是使用原始数据,降低了检验的有效性。

2.卡方检验

通过分析实际的频数理论的频数之间的差别或者吻合程度,

来推断总体是否服从某种理论分布,或者某种假设分布。

x²越小越接近期望

案例:小白鼠显形致死性实验

3.游程检验

 推断数据序列中两类事件的发生过程是否随机。

游程:分类变量中有相同取值的几个连续记录

1:序列:110001101111有几个游程?答:5个

三、相关、回归

1.相关系数

0-》完全不相关,

绝对值为1-》完全相关,

大于0-》正相关,

小于0-》负相关,

取值范围[-1,1]

Ø最小二乘法

     通过最小化误差的平方和寻找数据的最佳函数匹配,即各实测点到回归直线的纵向距离的平方和最小。通过最小二乘法,可以很好的使拟合曲线处于样本数据的中心位置。

Ø信息熵

    度量样本纯度的指标

Ø信息增益

    当选择某个特征对数据集进行分类时,分类后的数据集信息熵(不确定度)会比分类前的小,其差值表示为信息增益,用于衡量某个特征对分类结果的影响大小

相关的分类:

双变量相关:两个变量的三点呈直线的趋势

偏变量相关:两个变量的真实相关程度与方向(消除受其他变量的影响,与协方差分析类似)

距离相关:不同变量之间的相似性和差异性性分析

2.回归

利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

注意事项:

欠拟合(underfitting):

    拟合函数和训练集误差较大

适度拟合(justright):

    拟合函数和训练集误差较小

过拟合(overfitting):

    拟合函数完美匹配训练集数据

(过拟合可通过决策树:剪枝、神经网络:正则化)

回归的分类:线性回归、逻辑回归、多项式回归

(1)线性回归方程:

    Y=a+bX

    其中:  a:回归直线在纵轴上的截距

                b:回归系数,即直线的斜率

Ø似然函数

    概率:

    用于在已知一些参数的情况下,预测接下来的观测所得到的结果

    似然性:

    用于在已知某些观测所得到的结果下,对有关事务的性质的参数进行估计。

实例:黑球白球

模型本身不确定,有概率出现的:贝叶斯方法

3.逻辑回归Logistic

将回归结果输出值映射为结果值(0,1)

分类:二项分类逻辑回归、有序逻辑回归、多项分类逻辑回归

4.回归和相关的区别

1.相关:2个变量-》正态分布;回归:应变量-》正态分布

2.相关:相互关系;回归:依存关系

3.相关:线性关系密切程度及相关方向;回归:应变量随自变量变化的关系

四、方差分析

检验两组以上总体均数是否相等(两组-》T检验)

通过比较不同变异来源的均方和误差均方,判断各样本所属总体方差是否相等

  基本思想

  通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。

  分类

  单因素方差分析(水平>=3)【实例:3个不同电池生产企业】、

多因素方差分析、

协方差分析:对非研究影响因素的分析【与偏变量相关类似】、

多元方差分析、重复测量方差分析等

五、主成分分析

1.主成分分析

是利用降维的思想,

将多个互相关联的数值变量转化为少数几个综合指标的统计方法,

综合指标就是多个变量的主成分,是原始变量的线性组合。

主成分个数确定方法:

1、累计贡献率:70%以上;

2、特征根不小于1

2.因子分析

一种用来在众多变量中辨别、分析和归结出变量间的相互关系,并用简单的变量(因子)来描述这种关系的数据分析方法

多个观测变量--》少数几个不相关的综合指标

3.区别与联系

①都从原始变量中通过它们实际内部相关性来获取新变量;

②因子分析的公因子比主成分分析的主成分更有解释性

③实质:主成分:线性变换,无假设检验;因子:统计模型,可假设检验

④SPSS操作:主成分:不用旋转;因子:需要旋转

六、时间序列分析

    系统中某一变量的观测值按时间顺序排列成一个数值序列,展示研究对象在一定时间内的变动过程。

    特点

    趋势性、平稳性、季节性

指数平滑法:与前一期指数平滑值加权平均

ARIMA模型:允许变动

七、聚类与判别

1.区别

共同点:都是研究样品或者变量进行分类

聚类:

    分析事先并不知道研究对象的类别,它根据研究对象本身提供的信息,通过统计手段做出分类决策,有一定的探索性

判别:

    事先已知研究对象的类别,根据有关类别的信息建立判别函数,再利用判别函数判断位置类别个体属于何种类别

2.聚类算法

(1)K-Means(非监督学习)

计算距离(点到质心)的方法:

①欧几里得距离:

②余弦相似度:

(2)层次算法

将每条数据都当做是一个分类,每次迭代的时候合并距离最近的两个分类,直到剩下一个分类为止

Ø误差平方和SSE

执行聚类分析后,对每个点都要计算一个误差值,即非质心点到最近的质心的距离。将这些距离值相加求和,作为SSE去评估一个聚类的质量

Ø离群值的影响:

要么单独一类,要么在分析前剔除掉

ØANOVA在聚类分析中的作用:

判断用于聚类的变量是否对于聚类结果有贡献,方差分析检验结果越显著的变量,说明对聚类结果越有影响。对于不显著的变量,可以考虑从模型中剔除。(与单因素方差联系,方差分析,剔除不显著变量)

3.判别

八、神经网络

    模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。

梯度下降法

α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离

感知机

感知机就是一个将两类物体分开的超平面。

反向传播算法--BP算法

一场以误差(Error)为主导的反向传播(Back Propagation)运动,旨在得到最优的全局参数矩阵,进而将多层神经网络应用到分类或者回归任务中去

(猜数字游戏)

流程:

九、基本数理知识

自由度:

      计算某一统计量时,取值不受限制的变量个数

二项分布:

      重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。

秩:

      基于样本值的大小在全体样本中所占的位次的统计量,如将样本混合排序后,就可以得到每个数据在这个数据的位置,若数据在总体数据上的位置相同,称之为结。

残差:

      指实际观察值与估计值(拟合值)之间的差,回归残差是真实误差的估计;

众数:

      出现次数最多的那个数,众数可能不止一个数

泊松分布:

      适合于描述单位时间(或空间)内随机事件发生的次数

差分:

      差分反映了离散量中的一种变化,比如一阶差分,就是指当自变量从x变到x+1时,函数y的改变量y(x+1)-y(x),称为函数在点x的一阶差分。

协方差

    衡量两个变量在变化过程中是同向变化还是反向变化,以及变化程度如何

    协方差为正:说明XY同向变化,协方差越大说明同向程度越高;

    协方差为负:说明XY反向运动,协方差越小说明反向程度越高

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

SPSS知识点复习 的相关文章

  • 期末考试复习笔记(标红表示重要)

    目录 相关系数的比较 数据的类型 回归模型的统计检验与统计意义 参数检验 非参数检验 统计距离 量表 李克特量表 权重 聚类图分析 聚类分析简介 聚类的用途 聚类方法 两步聚类法 TwoStep Cluster 箱线图分析 中心位置的作用
  • 【机器学习】线性回归【上】朴素最小二乘估计

    有任何的书写错误 排版错误 概念错误等 希望大家包含指正 由于字数限制 分成两篇博客 机器学习 线性回归 上 朴素最小二乘估计 机器学习 线性回归 下 正则化最小二乘估计 提醒 下文中的 alpha 和 lambda
  • 损失与损失函数L1、L2、MSE

    损失 是一个数值 表示对样本而言模型预测的准确程度 如果模型的预测完全正确 则损失为零 反之损失会很大 训练模型的目标是从所有的样本当中 找到一组损失较小的权重与偏差 其 损失较小 的考量取决于具体需要 损失函数 L1损失 基于模型预测的值
  • Applications(4)

    CONTENTS Other Applications In this section we cover a few other types of applications of deep learning that are differe
  • 【统计模拟及其R实现】逆变换 / 筛选法 / 合成法 上机习题答案(超详细)

    课本 统计模拟及其R实现 肖枝红 朱强 武汉大学出版社 参考课件 第三章 随机数 浙江大学数学科学学院 目录 1 逆变换法 2 筛选法 3 合成法 1 逆变换法 题目1 用逆变换方法生成如下密度函数的随机变量 要求写出R程序 Cauchy概
  • 概率论--数学期望与方差--协方差(详解)

    目录 数学期望与方差 离散型随机变量的数学期望 注意 连续型随机变量的数学期望 方差 常用随机变量服从的分布 二项分布 正态分布 随机向量与随机变量的独立性 随机向量 随机变量的独立性 协方差 协方差的定义 协方差的意义 协方差矩阵 数学期
  • 概率论【离散型二维变量与连续性二维变量(上)】--猴博士爱讲课

    5 离散型二维变量与连续性二维变量 上 1 8 已知二维离散型分布律 求 离散型直接看表 做题方法参考如下 2 8 已知二维离散型分布律 判断独立性 如果满足p xy p x p y 那么相互独立 则我们只需要验证每一个p xy p x p
  • 测度与积分 Measures and Integration学习笔记

    学习笔记1 可测空间 可测空间 Measurable Spaces sigma algebra 希望能坚持学习下去 可测空间 Measurable Spaces
  • CS109: Probability for Computer Scientists笔记1

    维生素C吃多了会上火 个人CSDN博文目录 CS109 Probability for Computer Scientists Summer 2022笔记合集
  • 【人工智能】5.不确定性推理

    一 不确定推理预备知识 1 不确定性推理的含义 不确定性推理实际上是一种从不确定的初始证据出发 通过运用不确定性知识 最终推出具有一定程度的不确定性但却又是合理或基本合理的结论的思维过程 2 不确定推理基本问题 1 不确定性的表示 知识的不
  • 概率论基础(sigma域、测度)

    一 样本空间 事件 样本空间 Omega 指一个实验的可能结果的集合 omega in Omega 称为 样本
  • 方差分析(ANOVA)的基本原理及R实现(单因素)

    方差分析 analysis of variance ANOVA 几乎是在统计学分析中最常用的方法 通过分析各变量的主效应 main effect 和交互效应 interaction effect 从而发现因变量 dependent vari
  • 宋浩概率论笔记(七)参数估计

    数一概率论大题的核心内容 关键是公式的背诵 需要特别重视
  • 【概率论】大数定律

    概要 首先介绍了切比雪夫不等式 然后介绍大数定律概念和3种大数定律及证明 切比雪夫不等式 已知随机变量X的期望EX和方差DX 对 可得的一个上界 解释 不论X服从什么分布 X在E x 的 邻域内取值的概率不小于1 Dx 2 证明 本质 随机
  • 【Basis】狄利克雷分布

    初次看狄利克雷分布 比较懵 主要是它有很多先行知识 所以我先介绍狄利克雷分布用到的多项式分布 gamma 函数 beta分布 然后再介绍狄利克雷分布 参考文献见文章末 目录 一 多项式分布 multinomial distribution
  • Laplace smoothing in Naïve Bayes algorithm(拉普拉斯平滑)

    在这里转载只是为了让不能够科学搜索的同学们看到好文章而已 个人无收益只是分享知识 顺手做个记录罢了 原网址 https towardsdatascience com laplace smoothing in na C3 AFve bayes
  • 统计学三大分布(卡方、t、F)即相应概率密度图的R语言实现

    三大统计分布 1 2 chi 2 2分布 设随机变量 X 1
  • GraphPad Prism 9.2 Mac 2021最新安装使用教程

    GraphPad Prism集生物统计 化学统计 以及科技绘图于一身 其中医学所能用到的绘图需要它几乎都能满足 Prism 现在被各种生物学家以及社会和物理科学家广泛使用 超过110个国家的超过20万名科学家依靠 Prism 来分析 绘制和
  • 决策树之用信息增益选择最优特征

    决策树之用信息增益选择最优特征 熵 熵的定义 熵 sh ng 热力学中表征物质状态的参量之一 用符号S表示 其物理意义是体系混乱程度的度量 在决策树中 信息增益是由熵构建而成 表示的是 随机变量的不确定性 不确定性越大 代表着熵越大 随机变
  • 【杂谈】概率与随机以及手游抽卡机制的科普

    原文 NGA的一篇随机科普 其中包含了对手游抽卡机制的探讨 本文摘选了我自己感兴趣的部分 真随机 先说点题外话 请先看这个问题 一杯热水和一杯冷牛奶哪个热量更高 很显然这个问题从物理学和营养学的层面会得出相反的答案 先不考虑物理学层面说 一

随机推荐

  • Tauri 应用中发送 http 请求

    最近基于 Tauri 和 React 开发一个用于 http https 接口测试的工具 Get Tools 其中使用了 tauri 提供的 fetch API 在开发调试过程中遇到了一些权限和参数问题 在此记录下来 权限配置 在 taur
  • vue中的input输入框按回车键自动搜索

    vue中的input输入框按回车键自动搜索 在input标签内部增加 keyup enter事件即可 事件名为按钮点击名称
  • python之文件夹拷贝(亲测可用)

    效果 import os import shutil def copy dir src path dst path source path os path abspath src path target path os path abspa
  • centos7 mysql 机器重启后pid文件丢失导致mysql 服务无法重启

    1 首先执行命令vim etc my cnf 查看pid存储的路径 pid file xxxxxx 2 到对应的路径下查看发现已经丢失了 mysqld pid创建在系统的run目录下 该目录是运行在内存中的 因此服务器重启后文件不存在 3
  • CentOS 7 下 minikube 部署 && 配置

    CentOS 7 下 minikube 部署 配置 文章目录 CentOS 7 下 minikube 部署 配置 下载 安装 下载安装脚本 安装 minikube 启动 minikube 环境 安装 kubectl 工具 启动 miniku
  • 在Caffe中调用TensorRT提供的MNIST model

    在TensorRT 2 1 2中提供了MNIST的model 这里拿来用Caffe的代码调用实现 原始的mnist mean binaryproto文件调整为了纯二进制文件mnist tensorrt mean binary 测试结果与使用
  • 【Git】git push origin master时发生的各类错误汇总

    文章目录 一 常见的git命令 二 错误一 三 错误二 四 错误三 五 问题解决 一 常见的git命令 使用 git 命令时 您可以执行一系列操作来管理代码仓库 下面是一些常用的 git 命令及其功能 git init 在当前目录初始化一个
  • 【计算机网络】网络层:网际控制报文协议ICMP

    ICMP允许主机或路由器报告差错情况和提供有关异常情况的报告 不是高层协议 是IP层的协议 分为差错报告报文和查询报文两类 ICMP报文作为IP层数据报的数据 加上数据报的首部 组成IP数据报发送出去 ICMP报文直接封装在以太帧 数据链路
  • apache commons-io read-file

    文章目录 依赖
  • asp.net google地图+百度地图绘制行政区域图

    直接贴代码
  • 小白应该如何快速入门阿里云服务器,新手使用ECS的方法

    简介 相信阿里云服务器ECS已被广大的企业和个人站长所使用 但对于之前没有使用过阿里云服务器的新手小白来说 无疑是一头雾水 今天呢 服务器吧小编就给刚接触阿里云ECS的新手小白带来快速入门阿里云服务器的方法 相信阿里云服务器ECS已被广大的
  • MySQL8新增管理端口

    简介 用过MySQL数据库朋友一定对 ERROR 1040 HY000 Too many connections 这个报错不陌生 出现这个报错的原因有两种情况 一种是单个用户的连接数超过 max user connections 参数定义值
  • 【考研复习】24王道数据结构课后习题代码|2.3线性表的链式表示

    文章目录 总结 01 递归删除结点 02 删除结点 03 反向输出 04 删除最小值 05 逆置 06 链表递增排序 07 删除区间值 08 找公共结点 09 增序输出链表 10 拆分链表 尾插 11 拆分链表 头插 12 删除相同元素 1
  • Python 生成随机的六位数

    首先给出代码 然后再分析代码中函数的意思 1 生成随机的六位数 import random str for i in range 6 ch chr random randrange ord 0 ord 9 1 str ch print st
  • 深度包检测(DPI)的记录

    20210301 0 引言 大概一年半之前 让学生整理过关于DPI的内容 当时让他部署过nDPI的DPDK版本 当时给我的DPI的材料也没仔细看 这里直接贴到这里来 材料中的内容应该也是从别的地方复制粘贴的 基本上就是一些显而易见的材料 1
  • LLVM编译

    欢迎到我的博客来阅读这篇文章 https qiu weidong github io 2022 05 01 llvm build Windows下编译LLVM 安装Visual Studio 首先需要下载Visual Studio Inst
  • JAVA与C++的区别详解

    转自 微点阅读 https www weidianyuedu com JAVA和C 都是面向对象语言 也就是说 它都能够实现面向对象思想 封装 继乘 多态 而由于c 为了照顾大量的C语言使用者 而兼容了C 使得自身仅仅成为了带类的C语言 多
  • 火山翻译亮相飞书未来无限大会,打造全新翻译体验

    5月19日下午 2021春季飞书未来无限大会在北京召开 火山翻译携带火山同传 VolctransGlass AR智能翻译眼镜现身大会展厅 让观众了解前沿翻译技术和方案 并体验机器翻译如何在日常生活 工作和重要会议上帮助人们实现无障碍交流 本
  • 2019.9.27 csp-s模拟测试53 反思总结

    这个起名方式居然还有后续 为什么起名不是连续的 T1想了半天 搞出来了 结果数组开小 其实是没注意范围 T2概率期望直接跳 后来翻回来写发现自己整个理解错了期望的含义 何 T3错误想到赛道修建结果来了个错误贪心 关于T2破罐子破摔输出k居然
  • SPSS知识点复习

    一 T检验 对连续变量使用的方法 T检验 方差检验 1 均值 Means 过程 完成数据分组输出描述统计量 2 T检验 用t分布理论来推论差异发生的概率 从而比较两个平均数的差异是否显著 前提 总体服从正态分布 样本量不超过30 3 单样本