分类数据与方差分析
1. 分类数据
χ
2
\chi^2
χ2 统计量:这个统计量主要用于测定两个分类变量之间的相关程度。若用
f
0
f_0
f0 表示观察值频数,用
f
e
f_e
fe 表示期望值频数,则
χ
2
\chi^2
χ2 统计量可以写为:
χ
2
=
∑
(
f
0
−
f
e
)
2
f
e
\chi^2=\sum\frac{(f_0-f_e)^2}{f_e}
χ2=∑fe(f0−fe)2
χ
2
\chi^2
χ2 统计量由如下特征:首先,
χ
2
≥
0
\chi^2\ge0
χ2≥0 , 因为它是对平方结果的汇总;其次,
χ
2
\chi^2
χ2 统计量的分布与自由度有关;最后,
χ
2
\chi^2
χ2统计量描述了观察值与期望值的接近程度。两者越接近,即
f
0
−
f
1
f_0 - f_1
f0−f1 的绝对值越小,计算出的
χ
2
\chi^2
χ2 值就越小;
χ
2
\chi^2
χ2 检验正是通过对
χ
2
\chi^2
χ2 的计算结果与
χ
2
\chi^2
χ2 分布中的临界值进行比较,做出是否拒绝原假设的统计决策。利用
χ
2
\chi^2
χ2 统计量可以对分类数据进行拟合优度检验和独立性检验。
2. 拟合优度检验
拟合优度检验是用
χ
2
\chi^2
χ2 统计量进行显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行比较,判断期望频数与观察频数是否由显著性差异。
3. 独立性检验
拟合优度检验是对一个分类变量的检验,有时我们会遇到两个分类变量的问题。看这两个分类变量是否存在关系,对于两个分类变量的分析,我们称为独立性检验。分析过程可以通过列联表的方式呈现,故有人把这种分析称为列联分析。
列联表:是由两个以上的变量进行的交叉分类的频数分布表。
独立性检验: 就是分析列联表中行变量和列变量是否相互独立。
方差分析
概念:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型变量是否由显著性影响。在方差分析中,所要检验的对象称为因素或因子。因素的不同表现称为水平或处理。每个因子水平下得到的样本数据称为观测值。
假定:
- 每个总体都应该服从正态分布。
- 每个总体的方差
σ
2
\sigma^2
σ2 必须相同。
- 观测值是独立的。
1. 单因素方差分析
根据所分析的分类型自变量的多少,方差分析可以分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时称为单因素方差分析。单因素方差分析研究的是一个分类型变量对一个数值型因变量的影响。例如,要研究不同行业被投诉次数是否相等,这里只涉及一个行业,因而属于反因素方差分析。
分析步骤:
- 提出假设:
H
0
:
μ
1
=
μ
2
=
.
.
.
.
.
.
=
μ
n
H_0 : \mu_1 = \mu_2 = ......=\mu_n
H0:μ1=μ2=......=μn
H
1
:
μ
i
H_1: \mu _i
H1:μi 不全相等
- 构造检验的统计量
- 计算各误差平方和
- 计算统计量
- 统计决策
2. 双因素方差分析
当方差分析中涉及两个分类型变量时,称为双因素方差分析。双因素方差分析又分为了无重复双因素和可重复双因素,以两个因素是否又相互作用为区分。分析步骤和单因素方差分析步骤基本相似。