均值已知检验方差_方差分析怎么做?用3个假设来验证流程

2023-11-10

- 点击上方 “中国统计网” 订阅我吧!-

53060058878f2bfef6c7dd5b6229f46a.gif

背 景

假如你们现在针对用户提出了三种提高客单价的策略A、B、C,现在想看一下这三种策略最后对提高客单价的效果有什么不同,那我们怎么才能知道这三种策略效果有什么不同?最简单的方法就是做一个实验,我们可以随机挑选一部分用户,然后把这些用户分成三组A、B、C组,A组用户使用A策略、B组用户使用B策略、C组用户使用C策略,等策略实施一段时间以后,我们来看一下这三组分别的客单价是什么水平?哪组平均客单价高,就说明哪组策略有效果。真的可以得出这的结论吗?是可以,但是不够严谨。

为什么说不够严谨呢?是因为我们用来做实验的用户是随机挑选的,有可能客单价高的那部分用户(比如高价值用户)本身就要比其他用户群体的客单价高,那为了避免这种可能是因为随机抽样造成的结果不一致问题,我们就需要去证明下,到底是不是因为随机挑选的原因,如果不是,我们就可以去比较各组的平均客单价,哪组客单价较高,就说明哪组策略更有效果。

我们的最终目的其实就是为了比较各组的平均客单价,但是在比较均值之前,我们需要先证明下各组之间的结果不同是因为策略的原因还是随机挑选的原因,我们把这个过程叫做方差分析。

三个假设

方差分析有三个假设:

  • 每组样本数据对应的总体应该服从正态分布

  • 每组样本数据对应的总体方差要相等,方差相等又叫方差齐性

  • 每组之间的值是相互独立的,就是A、B、C组的值不会相互影响

正态检验主要有两种大的方法,一种是统计检验的方法:主要有基于峰度和偏度的SW检验、基于拟合度的KS、CVM、AD检验;另一种是用描述的方法:Q-Q图和P-P图、茎叶图,利用四分位数间距和标准差来判断。

方差齐性的主要判断方法有:方差比、Hartley检验、Levene检验、BF法。

由于篇幅问题,关于上面涉及到的方法以后专门来讲,有兴趣的同学可以先自行查阅。

方差分析流程

1. 建立假设

H0:各组的客单价均值相等
H1:各组的客单价均值不相等或不全等

检验水准为0.05

2. 计算检验统计量F值

F值 = 组间方差/组内方差。我们主要是通过比较F值的大小来判断各组之间是否存在显著差异。

所谓的组间方差就是用来反映组与组之间的差异程度,组内方差就是用来反映各组内部数据的差异程度。

如果各组之间的客单价相等,即假设H0成立,也就意味着各组之间是没啥区别的,也就是组间方差会很小甚至为0,与之对应的方差很大的概率会很低,所以如果F值越大,表明在假设H0成立的前提下出现出现这一结果的概率越小,相当于我们前面提到的小概率事件,如果一旦小概率事件发生了,我们就有理由去拒绝原假设。

要来计算方差,我们需要先计算平方和。为了让大家能够更加理解,我们来举个例子来讲解各个指标怎么计算。

现在有两组数据:

第一组:80、85、96
第二组:110、125、130、145、160

第一组和第二组的总算术平均值为:
(80+85+96+110+125+130+145+160)/8 = 116.375。

第一组的算术平均值:(80+85+96)/3 = 87

第二组的算术平均值:

(110+125+130+145+160)/5 = 134

组间平方和(SSA):
= 第一组平均值与总体平均值的平方和×第一组样本数+第二组平均值与总体平均值的平方和×第二组样本数

= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875

组内平方和(SSE):
= 第一组平方和 + 第二组平方和
=(80-87)^2+(85-87)^2+(96-87)^2

+(110-134)^2+(125-134)^2+(130-134)^2

+(145-134)^2+(160-134)^2
=134+1470=1604

总体平方和(SST):
=所有样本数据与总体平均值之间的平方和
=(80-116.375)^2+(85-116.375)^2+(96-116.375)^2

+(110-116.375)^2+(125-116.375)^2+(130-116.375)^2

+(145-116.375)^2+(160-116.375)^2
=5745.875

通过以上数据,我们可以看出 SST = SSA + SSE。

总平方和会有一个问题,就是随着数据量越大,这个值会越大,所以我们引入另外一个概念:均方。均方=平方和/自由度,其中自由度是样本数-1。

组间均方(MSA) = SSA/自由度 = 4141.875/(2-1) = 4141.875
组内均方(MSE) = SSE/自由度 = 1604/(8-2) = 267.333

MSA又称为组间方差,MSE称为组内方差。

F = MSA/MSE = 4141.875/267.333 = 15.4933

3. 确定边界值并做出决策

此时我们就可以通过查F表,来获得置信度为95%时的F边界值:

如果F如果F≥F边界值表面各组数据之间存在明显差异,拒绝H0假设,接受H1假设。

如果我们证实了各组数据之间是存在明显差异的,这个时候就可以去拿各组的均值来进行比较,均值越大,可以说明策略效果越好。

F值表:
https://wenku.baidu.com/view/3165819af71fb7360b4c2e3f5727a5e9846a2743.html

一般最后我们都可以得到下面这么一个表:

b55b6ccdaa1220070367f57c8cfcfb7d.png

以上就是简单的方差分析的基本原理与流程,也是单因素方差分析(单因素,就是只有策略这一个维度),还有双因素方差分析,就是不止考虑策略这一个维度,还需要别的维度,比如时间、地域之类的,还有交叉作用的双因素分析,就是不止策略和地域分别的影响,这两者结合在一起可能会产生第三种影响。关于方差分析的更多内容,我们之后再来分享。

End.

来源:俊红的数据分析之路

· 零基础入职数据分析就业班 ·

课程形式主为“直播+录播”

课程专享:月考测试通关+课程项目作业+1v1职场生涯规划+班主任辅导学习+资深讲师答疑

课程结束后能熟练掌握SQL、Python、Excel、PPT等数据分析工具

金3银4招聘季,爱数据带你成功入职数据分析!

e0f9cbaf0e827db906d9f827061245df.png

5a76f9fa2f78a446aac950712385e640.gif 点击“阅读原文”入职数据分析
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

均值已知检验方差_方差分析怎么做?用3个假设来验证流程 的相关文章

  • 解决Mac应用程序软件不出现在Launchpad里面的方法

    新装了几个软件 可是打开Lauchpad之后却在里面找不到 尝试重置Launchpad方式 1 分别输入终端命令即可 rm Library Application Support Dock db killall Dock
  • ASP.NET 清除模式窗口数据缓存

    使用模式窗口showModalDialog 弹出页面在asp net中经常用到 用的最多的就是点击 修改 按钮 弹出修改页面 修改成功之后 关闭修改页面 刷新父页面 目前存在的一个问题是 刷新完父页面之后 再点击修改按钮弹出修改页面 修改页
  • Java 枚举

    枚举的每一个成员变量就是枚举类型自身的一个实例 枚举的实例在编译的时候就能确定枚举类型有多少个 实例对象 每一个枚举都继承自java lang Enum类 枚举的每个成员默认都是 public static final 的 当定义一个 枚举
  • gf框架使用sqlite3数据库后交叉编译cgo适配arm64-linux

    gf框架使用sqlite3数据库后交叉编译cgo适配arm64 linux 文章目录 gf框架使用sqlite3数据库后交叉编译cgo适配arm64 linux 1 前言 2 解决方案 3 wsl Windows交叉编译cgo工程 3 1
  • 期末考试复习笔记(标红表示重要)

    目录 相关系数的比较 数据的类型 回归模型的统计检验与统计意义 参数检验 非参数检验 统计距离 量表 李克特量表 权重 聚类图分析 聚类分析简介 聚类的用途 聚类方法 两步聚类法 TwoStep Cluster 箱线图分析 中心位置的作用
  • Redis数据类型-List

    一 概述 Java中 数组 Arraylist 链表 linkedList 数组的特点 根据索引取值速度是极快的 和数据量的大小无关 数组的增删改查 效率极低 数据量越大 效率越低 链表的特点 链表的元素增删 效率极高 和数据量的大小无关
  • 超详细!Jmeter性能测试(一)

    Jmeter 性能测试 一 首先开发会给你一个接口文档 我们这边是做支付方面的 所以我们要求给下单支付接口做下压测 由于我们这边接口都是有加密参数的 所以都是直接在JAVA工程包里直接跑的 因为这次是做压测 所以我们要用上Jmeter这个工
  • VC++ OpenCV4.x二维码识别

    自OpenCV4 x开始 二维码识别已经悄然进入 再也不用看zbar脸色了 以下是官网发布的源码 include opencv2 objdetect hpp include opencv2 imgproc hpp include openc
  • Node.Js篇 NodeJs使用MongoDB

    目录 介绍 概念解析 安装 启动时注意事项 NodeJs操作Mongo 介绍 MongoDB 是一个基于分布式文件存储的数据库 由 C 语言编写 旨在为 WEB 应用提供可扩展的高性能数据存储解决方案 MongoDB 是一个介于关系数据库和
  • 酷开科技打造更好体验服务用户

    智能电视以其海量资源 智慧大屏 高清画质等特点在国内快速普及 然而 随着用户量的增加 用户群体的需求多元化 导致消费者对智能电视的应用要求越来越高 不仅希望智能电视内容丰富 最好还能拥有 多合一 的功能 好在 一些科技企业关注到市场痛点 致
  • 全连接层、卷积层、深度可分离卷积的参数量计算

    一 全连接层参数的计算 若输入大小为32 32 3的图片 第一层全连接层有500个节点 则地一层全连接网络的个参数量为 32 32 3 500 500 约为150万个参数 参数量多 导致计算速度缓慢且容易造成过拟合 于是卷积操作便横空出世
  • Taro编译微信小程序实现顶部自定义导航栏

    需求 使用taro开发微信小程序的过程中 涉及到小程序的需要自定义顶部导航栏 导航栏渐变色 微信小程序中只能够设置固定的颜色 渐变颜色以及添加其他按钮的操作就不能够通过小程序自带的api来实现 思路 配置自定义导航栏设置 获取顶部状态栏高度
  • 一个进程可以创建多少线程?

    理论上 一个进程可用虚拟空间是2G 默认情况下 线程的栈的大小是1MB 所以理论上一个进程可以创建2048个线程 当然更改编译器的设置可以创建多余2048个线程 因此 一个进程可以创建的线程数由可用虚拟空间和线程的栈的大小共同决定 只要虚拟
  • PTA Python习题 计算工资

    题目要求 编写函数pay 带两个输入参数 小时工资和上周员工工作了的小时数 函数计算并返回员工的工资 加班工资的计算方法如下 大于40小时但小于或等于60小时按平时小时薪酬的1 5倍给薪 大于60小时则按平时小时薪酬的2倍给薪 函数接口定义
  • 【恒指早盘分析】期货交易绝非你想的那么简单

    对期货而言 这个市场是绝对平等的 它不需要八面玲珑的关系 不靠权势 只凭借勤奋努力来实现梦想 实现真正的财务自由 因此 对每一位立志于靠智慧生活的人来说 期货投资是一个极好的发展领域 从平时的练习和实践中 可以得到身 心 技的全面塑造和修行
  • Google Mock - GoogleTest(九)

    本文翻译自 https github com google googletest blob master googlemock docs CheatSheet md 一 定义一个模拟类 1 模拟一个正常的类 就是接口类 给 1 2 3 4

随机推荐

  • 数字经济时代下的软硬件基础设施建设与发展

    随着全球数字化新时代的到来 软件正在被重新定义 程序员的世界的代码走向各行各业 智慧城市 载人航天 潜海探月 数字新时代的加快到来 也为开发者拥有无限想象力提供了新机遇 一 云计算 云计算 大数据和人工智能 这三个东西已非常火 并且它们之间
  • 【C++初阶】list的模拟实现 附源码

    一 list介绍 list底层是一个双向带头循环链表 这个我们以前用C语言模拟实现过 gt 双向带头循环链表 下面是list的文档介绍 list文档介绍 我们会根据 list 的文档来模拟实现 list 的增删查改及其它接口 二 list模
  • 【深入理解C++】三种继承方式、函数遮蔽

    文章目录 1 三种继承方式 2 函数遮蔽 1 三种继承方式 继承可以让子类拥有父类的所有成员 成员变量和成员函数 public继承 父类 继承方式 子类 public public public protected public prote
  • Ideal必备宝藏插件

    Ideal必备宝藏插件 1 CodeGlance 代码迷你缩放图插件 方便拉到对应的代码 2 Codota代码提示工具 3 Alibaba Java Coding Guidelines 阿里巴巴的编码规约检查插件 4 Lombok 实体类插
  • UmiJS学习

    UmiJS4学习笔记 起步 官网学习 https umijs org 开发环境 Umi js 需要使用 Node js来进行开发 因此请先确保电脑已经安装了 Node js 且版本在 14 以上 安装pnpm npm install pnp
  • mysql Using where; Using join buffer (Block Nested Loop)

    SELECT FROM t1 INNER JOIN t2 ON t1 id t2 CODE sql执行很慢 explain 发现Using join buffer Block Nested Loop 产生的原因有可能是 JOIN 的字段类型
  • JavaScript-MD5加密

    代码 或者 示例 var hash md5 value 2063c1608d6e0baf80249c42e2be5804 var hash md5 111111 96e79218965eb72c92a54
  • 精通CSS-添加样式

    精通CSS 添加样式 一 CSS 选择符 1 子选择符与同辈选择符 2 通用选择符 3 属性选择符 4 伪元素 5 伪类 6 结构化伪类 7 表单伪类 二 层叠 三 特殊性 1 利用层叠次序 四 继承 五 为文档应用样式 1 link 与
  • macOS下更改默认的Python版本

    本机环境 macOS11 6 macOS默认已经安装了python 只不过版本是Python2 7 其相比Python 3缺少了很多特性 而且速度也比Python 3慢 因此建议大家安装Python 3 python download 这里
  • 国内镜像下载Android10源码并编译(实测)

    1 安装ubuntu 不会的百度 一大把 2 安装编译环境必要软件 sudo apt get install git core gnupg flex bison build essential zip curl zlib1g dev gcc
  • unity 中带贴图以及动画的模型文件转为 lowpoly 风格的方法

    本篇讲述的是使用代码来修改的方法 其实unity已经给我们提供了设置的方法 Normals选择Calculate Smoothing Angle调整为0即可 这里的内容是在这篇文章的基础上进行的修改 https blog csdn net
  • winget安装提示:执行此命令时发生意外错误: InternetOpenUrl() failed. 0x80072efd

    问题 当我们使用 Winget 包管理器安装软件时总是提示以下错误 执行此命令时发生意外错误 InternetOpenUrl failed 0x80072efd unknown error 解决方法 DNS是一种将网址转化为IP地址的重要工
  • 蓝桥杯C/C++ 基础练习 矩阵乘法 C语言

    题目 思路分析 题目要求输入N阶矩阵 可以动态定义二维数组A N N 来存储该矩阵A 由于矩阵A的M次幂也是N阶矩阵 那么需要定义另一个数组B N N 来存储该矩阵 在继续分析之前需要明确矩阵的乘法规则 举例如下图图1 不清楚者可自行百度
  • Rockchip

    1 Graphics介绍 1 1 使用X11 Graphics Xserver 是在常规桌面 Linux 平台上使用的显示系统 Rockchip 有一个定制的 Xserver 可以实现 glamor 2D acceleration Xser
  • 《面向对象程序设计》授课计划2022-2023-02

    面向对象程序设计授课计划 可参照此计划 在课前预习 待完善 授课内容 课本章节 PPT 课堂 PPT 课本配套 一 课程介绍 课程要求 编程语言 面向对象简介 C 简介 实验环境 CH1 OOP00 BeforeTheClassStarts
  • BP神经网络公式推导及实现(MNIST)

    BP神经网络的基础介绍见 http blog csdn net fengbingchun article details 50274471 这里主要以公式推导为主 BP神经网络又称为误差反向传播网络 其结构如下图 这种网络实质是一种前向无反
  • Journal of Proteome Research

    题目 Improving Silkworm Genome Annotation Using a Proteogenomics Approach 期刊 Journal of Proteome Research 发表时间 June 28 201
  • 数组根据某个条件筛选出符合的数据,生成一个新的数组

    前言 使用vue结构 把一个数组重新组合 一 数组重新组合 得到符合条件的新的数组 代码如下 示例 menuList icon el icon search index 11 title 协议管理 subs index homes agre
  • 测试四:jmeter使用过程遇到的问题

    1 查看结果树的条数设置 如果用1000个并发量测20个接口则响应的数据量太多想要查看到每一个的响应树结果 结果只显示了一部分 发现可以通过修改配置文件来增加响应的条数 全局搜索并修改配置文件为view results max result
  • 均值已知检验方差_方差分析怎么做?用3个假设来验证流程

    点击上方 中国统计网 订阅我吧 背 景 假如你们现在针对用户提出了三种提高客单价的策略A B C 现在想看一下这三种策略最后对提高客单价的效果有什么不同 那我们怎么才能知道这三种策略效果有什么不同 最简单的方法就是做一个实验 我们可以随机挑