(史上最全总结)总体方差,样本方差,标准差,抽样方差,标准误差,均方误差,协方差 ...........

2023-10-27

文章目录

数学期望 \color{blue}数学期望 数学期望
总体和样本 \color{blue}总体和样本 总体和样本
方差 \color{blue} 方差 方差
1. 总体方差 \color{blue}1.总体方差 1.总体方差
2. 样本方差 \color{blue}2.样本方差 2.样本方差
3. 标准差 \color{blue}3.标准差 3.标准差
4. 抽样方差 \color{blue}4.抽样方差 4.抽样方差
5. 标准误差 \color{blue}5.标准误差 5.标准误差
6. 均方差 \color{blue}6.均方差 6.均方差
7. 均方误差 \color{blue}7.均方误差 7.均方误差
8. 均方根误差 \color{blue}8.均方根误差 8.均方根误差
9. 协方差 \color{blue}9.协方差 9.协方差
10. 极差 \color{blue}10.极差 10.极差

数学期望 \color{blue}数学期望 数学期望

1.概念:

在概率论和统计学中,数学期望 (mean)(或 均值,亦简称期望)是试验中每次可能结果的 概率 乘以其结果的总和,是最基本的数学特征之一。它反映随机变量 平均取值 的大小。

需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的 平均数 。期望值并不一定包含于变量的输出值集合里。

大数定律 规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值

2. 离散型随机变量的期望:

离散型随机变量的一切可能的取值 X i X_i Xi 与对应的概率 p ( X i ) p(X_i) p(Xi) 乘积之和称为该离散型随机变量的数学期望(若该求和绝对收敛),则记为 E ( X ) E(X) E(X)

若离散型随机变量 X X X 的取值为 X 1 X_1 X1 , X 2 X_2 X2 , X 3 X_3 X3 , … \ldots , X i X_i Xi … \ldots p ( X 1 ) p(X_1) p(X1) , p ( X 2 ) p(X_2) p(X2) , p ( X 3 ) p(X_3) p(X3) , … \ldots , p ( X i ) p(X_i) p(Xi) , … \ldots 则为 X X X 对应取值的概率。

E ( X ) = X 1 ∗ p ( X 1 ) + X 2 ∗ p ( X 2 ) + X 3 ∗ p ( X 3 ) + … + X i ∗ p ( X i ) E(X) = X_1*p(X_1)+X_2*p(X_2)+X_3*p(X_3)+\ldots+X_i*p(X_i) E(X)=X1p(X1)+X2p(X2)+X3p(X3)++Xip(Xi)

E ( X ) = ∑ i = 1 ∞ X i ∗ p ( X i ) \color{red}{E(X) = \sum_{i=1}^\infty X_i*p(X_i)} E(X)=i=1Xip(Xi)

3. 连续型随机变量的期望:

设连续性随机变量X的概率密度函数为 f ( x ) f(x) f(x),若积分绝对收敛,则称积分的值 ∫ − ∞ ∞ x f ( x )   d x \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x xf(x)dx 为随机变量的数学期望,记为 E ( X ) E(X) E(X)

E ( X ) = ∫ − ∞ ∞ x f ( x )   d x \color{red}{E(X) = \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x} E(X)=xf(x)dx

若随机变量 X 的分布函数 F ( x ) F(x) F(x) 可表示成一个非负可积函数 f ( x ) f(x) f(x) 的积分,则称 X X X 为连续性随机变量, f ( x ) f(x) f(x) 称为 X X X 的概率密度函数。

参考百度百科:https://baike.baidu.com/item/%E6%95%B0%E5%AD%A6%E6%9C%9F%E6%9C%9B

总体和样本 \color{blue}总体和样本 总体和样本

在这里插入图片描述
这里介绍了下基本概念,过多的性质这里就不介绍了,大家感兴趣的话,可以自己去查资料或者看课本。
在这里插入图片描述

方差 \color{blue}方差 方差

概率论中方差用来度量随机变量和其数学期望(均值)之间的偏离程度
统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差用 V a r ( X ) Var(X) Var(X) 或者 D ( X ) D(X) D(X) 表示:

D ( X ) = E [ X − E ( X ) ] 2 = E [ X 2 − 2 X E ( X ) + ( E X ) 2 ] = E ( X 2 ) − 2 ( E X ) 2 + ( E X ) 2 = E ( X 2 ) − ( E X ) 2 (1) \color{red} \begin{aligned} D(X) &= E[X-E(X)]^2 \\ &= E[X^2-2XE(X)+(EX)^2] \\ &= E(X^2)-2(EX)^2+(EX)^2 \\ &= E(X^2)-(EX)^2\tag{1} \end{aligned} D(X)=E[XE(X)]2=E[X22XE(X)+(EX)2]=E(X2)2(EX)2+(EX)2=E(X2)(EX)2(1)

① . 总体方差(有偏估计) \color{blue}①. 总体方差 (有偏估计) ①.总体方差(有偏估计)

σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \color{red}\sigma^2 = \frac{\sum_{i=1}^N(X_i-\mu)^2}{N} σ2=Ni=1N(Xiμ)2

σ 2 \sigma^2 σ2 为总体方差, N N N 为总体的个数, X i X_i Xi为变量, μ \mu μ 为总体均值。

我们中学其实就已经学到了这个标准定义的方差,除数为总体样例的个数 n n n

② . 样本方差(无偏估计) \color{blue}②. 样本方差 (无偏估计) ②.样本方差(无偏估计)

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 \color{red}{S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2} S2=n11i=1n(XiX)2

S 2 S^2 S2 为样本方差, n ( n < < N ) n(n<<N) nn<<N 为样本的个数, X i X_i Xi 为变量, X ‾ \overline{X} X 为样本均值

在实际工作中总体方差 σ 2 \sigma^2 σ2 几乎算不出来,我们一般用 S 2 S^2 S2代替 σ 2 \sigma^2 σ2
这里 μ 为什么要用 X ‾ 代替呢? \color{fuchsia}这里 \mu为什么要用 \overline{X}代替呢? 这里μ为什么要用X代替呢?

同理总体均值 μ \mu μ 也很难得到,所以只能使用样本均值 X ‾ \overline{X} X 代替,但是这样肯定就会有误差,那么误差是大还是小?又差多少呢 ?这就是下面的问题了。

为什么样本方差的除数不是 n , 而是 ( n − 1 ) 呢? \color{fuchsia}{为什么样本方差的除数不是n,而是 (n-1)呢?} 为什么样本方差的除数不是n,而是(n1)呢?

简单的来说, X ‾ \overline{X} X 是用 n n n 个样本所求到的平均数,因此样本平均数 X ‾ \overline{X} X 一旦确定下来,就只有 n − 1 n-1 n1 个数不受约束,第 n n n 个数已经可以被均值和前面 n − 1 n-1 n1 个数确定下来了,所以第 n n n 个数也就没有啥信息量了,没用了(自由度由 n n n 变成了 n − 1 n-1 n1)。

证明:

首先我们并不知道样本方差与总体方差之间具体相差多少, 这里便使用下式来对 σ 2 \sigma^2 σ2 进行估计:
S 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n ∑ i = 1 n [ ( X i − μ ) − ( X ‾ − μ ) ] 2 = 1 n ∑ i = 1 n [ ( X i − μ ) 2 − 2 ( X i − μ ) ( X ‾ − μ ) + ( X ‾ − μ ) 2 ] = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ‾ − μ ) ∑ i = 1 n ( X i − μ ) + 1 n ∑ i = 1 n ( X ‾ − μ ) 2 (2) \color{red} \begin{aligned} S^2 & =\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)-(\overline{X}-\mu)]^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2] \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-\frac{2}{n}(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+\frac{1}{n}\sum_{i=1}^n(\overline{X}-\mu)^2 \tag{2} \end{aligned} S2=n1i=1n(XiX)2=n1i=1n[(Xiμ)(Xμ)]2=n1i=1n[(Xiμ)22(Xiμ)(Xμ)+(Xμ)2]=n1i=1n(Xiμ)2n2(Xμ)i=1n(Xiμ)+n1i=1n(Xμ)2(2)

其中 ( X ‾ − μ ) \color{red}(\overline{X}-\mu) (Xμ) 为常数,并且
( X ‾ − μ ) = 1 n ∑ i = 1 n X i − μ = 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n μ = 1 n ∑ i = 1 n ( X i − μ ) (3) \color{red}(\overline{X}-\mu) = \frac{1}{n}\sum_{i=1}^nX_i-\mu = \frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^n\mu = \frac{1}{n}\sum_{i=1}^n(X_i-\mu) \tag{3} (Xμ)=n1i=1nXiμ=n1i=1nXin1i=1nμ=n1i=1n(Xiμ)(3)

所以
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ‾ − μ ) 2 + 1 n ( X ‾ − μ ) 2 ∑ i = 1 n 1 = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ‾ − μ ) 2 + ( X ‾ − μ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 (4) \color{red} \begin{aligned} S^2 & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+\frac{1}{n}(\overline{X}-\mu)^2\sum_{i=1}^n1 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+(\overline{X}-\mu)^2 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2 \tag{4} \end{aligned} S2=n1i=1n(Xiμ)22(Xμ)2+n1(Xμ)2i=1n1=n1i=1n(Xiμ)22(Xμ)2+(Xμ)2=n1i=1n(Xiμ)2(Xμ)2(4)

如果总体均值 μ 已知,则样本方差 [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] 的期望等于总体方差 σ 2 \color{fuchsia}{如果总体均值 \mu 已知,则样本方差 [\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2] 的期望等于总体方差 \sigma^2} 如果总体均值μ已知,则样本方差[n1i=1n(Xiμ)2]的期望等于总体方差σ2

因此
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] − E [ ( X ‾ − μ ) 2 ] = σ 2 − E [ ( X ‾ − μ ) 2 ] (5) \color{red} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2] \\ & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]-E[(\overline{X}-\mu)^2] \\ & = \sigma^2-E[(\overline{X}-\mu)^2] \tag{5} \end{aligned} E(S2)=E[n1i=1n(Xiμ)2(Xμ)2]=E[n1i=1n(Xiμ)2]E[(Xμ)2]=σ2E[(Xμ)2](5)

从上式可得,只有当样本均值 X ‾ 等于总体均值 μ 时,样本方差的期望才等于总体方差 \color{fuchsia}{从上式可得,只有当样本均值\overline{X}等于总体均值\mu时,样本方差的期望才等于总体方差} 从上式可得,只有当样本均值X等于总体均值μ时,样本方差的期望才等于总体方差

最终可推出
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 ] < = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = σ 2 \color{red} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2]<=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]=\sigma^2 \end{aligned} E(S2)=E[n1i=1n(XiX)2]<=E[n1i=1n(Xiμ)2]=σ2

由此可见用样本方差估计的话,会低估 ( 小于 ) 总体方差,那又会低估多少呢? \color{fuchsia}{由此可见用样本方差估计的话,会低估(小于)总体方差,那又会低估多少呢?} 由此可见用样本方差估计的话,会低估(小于)总体方差,那又会低估多少呢?

E ( S 2 ) = σ 2 − E [ ( X ‾ − μ ) 2 ] (由(5)式可得) \color{red} \begin{aligned} E(S^2) & = \sigma^2-E[(\overline{X}-\mu)^2] \tag{由(5)式可得} \end{aligned} E(S2)=σ2E[(Xμ)2]((5)式可得)

由于样本均值的期望等于总体均值,则可推出 \color{fuchsia}{由于样本均值的期望等于总体均值,则可推出} 由于样本均值的期望等于总体均值,则可推出

E [ ( X ‾ − μ ) 2 = E [ ( X ‾ − E ( X ‾ ) ) 2 = D ( X ‾ ) = D [ 1 n ∑ i = 1 n X i ] = 1 n 2 D [ ∑ i = 1 n X i ] = 1 n 2 ∑ i = 1 n D ( X i ) = n σ 2 n 2 = σ 2 n (由(1)式可得) \color{red} \begin{aligned} E[(\overline{X}-\mu)^2 & = E[(\overline{X}-E(\overline{X}))^2 \\ & = D(\overline{X}) \\ & = D[\frac{1}{n}\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}D[\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}\sum_{i=1}^nD(X_i) \\ & = \frac{n\sigma^2}{n^2} \\ & = \frac{\sigma^2}{n} \tag{由(1)式可得} \end{aligned} E[(Xμ)2=E[(XE(X))2=D(X)=D[n1i=1nXi]=n21D[i=1nXi]=n21i=1nD(Xi)=n2nσ2=nσ2((1)式可得)
最终可推出

E ( S 2 ) = σ 2 − σ 2 n = n − 1 n σ 2 \color{red} \begin{aligned} E(S^2) = \sigma^2-\frac{\sigma^2}{n} = \frac{n-1}{n}\sigma^2 \end{aligned} E(S2)=σ2nσ2=nn1σ2

由此可见低估了 1 n σ 2 \color{fuchsia}{由此可见低估了\frac{1}{n}\sigma^2} 由此可见低估了n1σ2

再将上面式子进行恒等变形

n n − 1 E ( S 2 ) = σ 2 n n − 1 ∗ E [ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 ] = σ 2 E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = σ 2 \color{red} \begin{aligned} \frac{n}{n-1}E(S^2) = \sigma^2 \\ \frac{n}{n-1}*E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2] = \sigma^2 \\ E[\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 ]= \sigma^2 \end{aligned} n1nE(S2)=σ2n1nE[n1i=1n(XiX)2]=σ2E[n11i=1n(XiX)2]=σ2

因此可以用以下式子对总体方差进行估算,也就是最终样本方差的除数是 n − 1 n-1 n1 的原因
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 \color{red} \begin{aligned} S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \end{aligned} S2=n11i=1n(XiX)2

参考链接:https://www.zhihu.com/question/20099757
https://blog.csdn.net/Frankgoogle/article/details/80260969

上面谈到的有偏估计和无偏估计怎么理解,这里就不细说了,有兴趣的可以看看这个链接:https://www.zhihu.com/question/22983179

在这里插入图片描述

③ . 标准差(均方差,记作 S D ) \color{blue}③.标准差(均方差,记作SD) ③.标准差(均方差,记作SD

随机变量 X X X 标准差定义

σ = E [ X − E ( X ) ] 2 = E ( X 2 ) − ( E X ) 2 \color{red}\sigma = \sqrt{E[X-E(X)]^2} = \sqrt{E(X^2)-(EX)^2} σ=E[XE(X)]2 =E(X2)(EX)2
总体方差对应的标准差

σ = ∑ i = 1 N ( X i − μ ) 2 N \color{red}\sigma = \sqrt{\frac{\sum_{i=1}^N(X_i-\mu)^2}{N}} σ=Ni=1N(Xiμ)2

样本方差对应的标准差

S = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 \color{red}S = \sqrt{\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}} S=n1i=1n(XiX)2
在这里插入图片描述

④ . 抽样方差(样本均值的方差) \color{blue}④.抽样方差(样本均值的方差) ④.抽样方差(样本均值的方差)

假如我们的总体容量为 N N N,我们将分成 k k k 个样本,设其中一个样本的容量为 n n n

我们前面讲到的样本方差是将容量为 n n n 的样本作为一个整体,样本中的第 1 , 2 , 3 , … , n 1,2,3,\ldots,n 1,2,3,,n 个体作为变量所求的方差。

这里我们则是将一个样本的均值定义为一个变量(样本均值记为 Y ‾ \overline{Y} Y Y ‾ \overline{Y} Y 做为一个随机变量), k k k 个样本均值作为一个整体,最后求到 Y ‾ \overline{Y} Y 的总体方差,也就是抽样方差。

⑤ . 标准误差(标准误,样本均值的标准误差) \color{blue}⑤.标准误差(标准误,样本均值的标准误差) ⑤.标准误差(标准误,样本均值的标准误差)

Y ‾ \overline{Y} Y 的总体标准差称为标准误差(就是抽样方差开个根号),记作 S E ( Y ‾ ) SE(\overline{Y}) SE(Y)

抽样方差和总体方差的关系:

如果已知总体的标准差 ( σ 2 ) ,那么抽取无限多份大小为 n 的样本 , \color{fuchsia}如果已知总体的标准差(\sigma^2),那么抽取无限多份大小为 n 的样本, 如果已知总体的标准差(σ2),那么抽取无限多份大小为n的样本,
每个样本各有一个平均值,所有样本平均值的方差可证明为 \color{fuchsia}每个样本各有一个平均值,所有样本平均值的方差可证明为 每个样本各有一个平均值,所有样本平均值的方差可证明为
(注意!不是一份样本里观察值的方差(那是 S 2 )) \color{fuchsia}(注意!不是一份样本里观察值的方差(那是 S^2 )) (注意!不是一份样本里观察值的方差(那是S2))

σ Y ‾ 2 = σ 2 n \color{red}\sigma_{\overline{Y}}^2 = \frac{\sigma^2}{n} σY2=nσ2

在现实中人们更喜欢用两边的算术平方根

S D ( Y ‾ ) = σ Y ‾ = σ n \color{red}SD(\overline{Y}) = \sigma_{\overline{Y}} = \frac{\sigma}{\sqrt{n}} SD(Y)=σY=n σ

由于 σ \sigma σ 在现实中往往很难得到,所以通常用 S S S(样本的标准差)来代替

S E ( Y ‾ ) = S n \color{red}SE(\overline{Y}) = \frac{S}{\sqrt{n}} SE(Y)=n S

σ Y ‾ 2 : 样本均值的方差 \sigma_{\overline{Y}}^2 : 样本均值的方差 σY2:样本均值的方差
S D ( Y ‾ ) : 样本均值的标准“差” SD(\overline{Y}) : 样本均值的标准“差” SD(Y):样本均值的标准
S E ( Y ‾ ) : 样本均值的标准“误” SE(\overline{Y}) : 样本均值的标准“误” SE(Y):样本均值的标准

参考:https://zhuanlan.zhihu.com/p/106706044
https://zh.wikipedia.org/zh-hans/%E6%A0%87%E5%87%86%E8%AF%AF%E5%B7%AE

总结一下

因为每进行一次抽样就能得到一个样本均值 Y ‾ ,所以 Y ‾ 同样是一个随机变量。 \color{fuchsia}因为每进行一次抽样就能得到一个样本均值 \overline{Y},所以 \overline{Y} 同样是一个随机变量。 因为每进行一次抽样就能得到一个样本均值Y,所以Y同样是一个随机变量。
这个新随机变量的总体方差叫做“抽样方差”( S a m p l i n g V a r i a n c e ) \color{fuchsia}这个新随机变量的总体方差叫做“抽样方差”(Sampling Variance) 这个新随机变量的总体方差叫做抽样方差SamplingVariance
这个新随机变量的总体标准差叫做“标准误”( S t a n d a r d E r r o r ) \color{fuchsia}这个新随机变量的总体标准差叫做“标准误”(Standard Error) 这个新随机变量的总体标准差叫做标准误StandardError

具体怎么应用这里就不细说 … \ldots 篇幅有限,大家有兴趣的话可以自己去去找找资料。
在这里插入图片描述

⑥ . 均方差(也称标准差,上面说过了) \color{blue}⑥.均方差(也称标准差,上面说过了) ⑥.均方差(也称标准差,上面说过了)

⑦ . 均方误差(记作: M S E ) \color{blue}⑦.均方误差(记作:MSE) ⑦.均方误差(记作:MSE

均方误差:各个数据估计值偏离数据真实值的平方和的平均数(误差平方和的平均数)

M S E = ∑ i = 1 n ( X i − x i ) 2 n \color{red}MSE = \frac{\sum_{i=1}^n(X_i-x_i)^2}{n} MSE=ni=1n(Xixi)2

X i : 数据的估计值 X_i: 数据的估计值 Xi:数据的估计值
x i : 数据的真实值 x_i: 数据的真实值 xi:数据的真实值

均方误差在机器学习中可以当作模型的损失函数,用来预测和回归。均方误差越小,模型预测的正确率越高,反之正确率则越低

⑧ . 均方根误差(记作: R M S E ) \color{blue}⑧.均方根误差(记作:RMSE) ⑧.均方根误差(记作:RMSE

均方误差的算术平方根

R M S E = ∑ i = 1 n ( X i − x i ) n \color{red}RMSE = \sqrt{\frac{\sum_{i=1}^n(X_i-x_i)}{n}} RMSE=ni=1n(Xixi)

⑨ . 协方差 \color{blue}⑨.协方差 ⑨.协方差

维基百科定义:在概率论和统计学中,协方差(Covariance)用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况,即变量与自身的协方差。

为什么说方差是协方差的特殊情况呢?

前面我们讲到了方差的表达式

D ( X ) = E [ X − E ( X ) ] 2 = E [ X − E ( X ) ] [ X − E ( X ) ] \color{red}D(X)=E[X-E(X)]^2 = E[X-E(X)][X-E(X)] D(X)=E[XE(X)]2=E[XE(X)][XE(X)]

根据定义,协方差是衡量两个随机变量的联合变化程度,设两个随机变量分别为 X , Y X,Y X,Y
协方差为

C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] \color{red}Cov(X,Y) = E[X-E(X)][Y-E(Y)] Cov(X,Y)=E[XE(X)][YE(Y)]

协方差表示的是两个变量的总体的误差;当 X = Y X=Y X=Y 时,表示的就是只有一个变量总体的误差的方差,所以方差是协方差中两个随机变量相等时的一种特殊情况。

C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) − E ( X ) E ( Y ) + E ( X ) E ( Y ) = E ( X Y ) − E ( X ) E ( Y ) \color{red} \begin{aligned} Cov(X,Y) & = E[X-E(X)][Y-E(Y)] \\ & = E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ & = E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y) \\ & = E(XY)-E(X)E(Y) \end{aligned} Cov(X,Y)=E[XE(X)][YE(Y)]=E[XYXE(Y)YE(X)+E(X)E(Y)]=E(XY)E(X)E(Y)E(X)E(Y)+E(X)E(Y)=E(XY)E(X)E(Y)

一般我们都会用 E ( X Y ) − E ( X ) E ( Y ) E(XY)-E(X)E(Y) E(XY)E(X)E(Y) 来计算协方差

性质:

1. C o v ( X , X ) = D ( X ) \color{fuchsia}1.Cov(X,X) = D(X) 1.Cov(X,X)=D(X)
2. C o v ( X , Y ) = C o v ( Y , X ) \color{fuchsia}2.Cov(X,Y) = Cov(Y,X) 2.Cov(X,Y)=Cov(Y,X)
3. C o v ( a X , b Y ) = a b C o v ( X , Y ) \color{fuchsia}3.Cov(aX,bY) = abCov(X,Y) 3.Cov(aX,bY)=abCov(X,Y)

对于随机变量序列 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn Y 1 , . . . , Y m Y_1, ..., Y_m Y1,...,Ym,有

4. C o v ( ∑ i = 1 n X i , ∑ j = 1 n Y j ) = ∑ i = 1 n ∑ j = 1 n C o v ( X , Y ) \color{fuchsia}4.Cov(\sum_{i=1}^nX_i,\sum_{j=1}^nY_j) = \sum_{i=1}^n\sum_{j=1}^nCov(X,Y) 4.Cov(i=1nXi,j=1nYj)=i=1nj=1nCov(X,Y)
5. C o v ( X , k 1 Y 1 + k 2 Y 2 + … + k n Y n ) = k 1 C o v ( X , Y 1 ) + ⋯ + k n C o v ( X , Y n ) \color{fuchsia}5.Cov(X,k_1Y_1+k_2Y_2+\ldots+k_nY_n) = k_1Cov(X,Y_1)+\dots+k_nCov(X,Y_n) 5.Cov(X,k1Y1+k2Y2++knYn)=k1Cov(X,Y1)++knCov(X,Yn)
6. X , Y 变化方向相同时(比如同时变大或者同时变小) , 协方差为正。 \color{fuchsia}6.X,Y变化方向相同时(比如同时变大或者同时变小),协方差为正。 6.X,Y变化方向相同时(比如同时变大或者同时变小),协方差为正。
7. X , Y 变化方向不相同时(比如同一个变大,另一个变小) , 协方差为负。 \color{fuchsia}7.X,Y变化方向不相同时(比如同一个变大,另一个变小),协方差为负。 7.X,Y变化方向不相同时(比如同一个变大,另一个变小),协方差为负。
8. 当 X , Y 独立时, C o v ( X , Y ) = 0 \color{fuchsia}8.当 X,Y 独立时,Cov(X,Y) = 0 8.X,Y独立时,Cov(X,Y)=0

因为当 X , Y X,Y X,Y 独立时,则有 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y),所以 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0。但是反过来协方差等于 0 , X , Y X,Y X,Y 并不一定独立。

⑩ . 极差(全距) \color{blue}⑩.极差(全距) ⑩.极差(全距)

这个最简单了,就是最大值减去最小值的差值
在这里插入图片描述
有什么遗漏或者错误的地方欢迎大家指正!!!(有点标题党了哈哈哈)

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

(史上最全总结)总体方差,样本方差,标准差,抽样方差,标准误差,均方误差,协方差 ........... 的相关文章

  • 概率论--数学期望与方差--协方差(详解)

    目录 数学期望与方差 离散型随机变量的数学期望 注意 连续型随机变量的数学期望 方差 常用随机变量服从的分布 二项分布 正态分布 随机向量与随机变量的独立性 随机向量 随机变量的独立性 协方差 协方差的定义 协方差的意义 协方差矩阵 数学期
  • 概率论【离散型二维变量与连续性二维变量(上)】--猴博士爱讲课

    5 离散型二维变量与连续性二维变量 上 1 8 已知二维离散型分布律 求 离散型直接看表 做题方法参考如下 2 8 已知二维离散型分布律 判断独立性 如果满足p xy p x p y 那么相互独立 则我们只需要验证每一个p xy p x p
  • 抽样技术--不等概率抽样

    文章目录 不等概抽样 放回不等概抽样 只抽取一个样本单元的不等概抽样 估计量 有放回不等概整群抽样 两阶段有放回不等概抽样 多阶段有放回不等概抽样 不放回不等概抽样 两阶段不放回不等概抽样 不等概抽样 提高估计精度 放回的PPS抽样简化方差
  • 【统计学】分类数据分析 相关分析 方差分析 比较 研究思路 spss

    分类数据分析是针对类别型变量之间是否有影响进行的分析 而相关分析是类别型变量之间有影响的前提下 研究变量间相关的程度 以及正相关还是负相关 方差分析稍有不同 是研究分类型变量对数值型变量的影响 而不是类别型变量之间的关系 上统计学课的时候这
  • R语言实用案例分析-1

    在日常生活和实际应用当中 我们经常会用到统计方面的知识 比如求最大值 求平均值等等 R语言是一门统计学语言 他可以方便的完成统计相关的计算 下面我们就来看一个相关案例 1 背景 最近西安交大大数据专业二班 开设了Java和大数据技术课程 班
  • FDR计算

    FDR计算 FDR的计算很简单 我折腾了一上午主要是因为遇到了以下几个问题 问题 FDR是什么 有什么用 怎么计算 我把几个模型的P值都合并成一个表了 所以每次运算FDR时 我需挑选特定的对象 我有多个模型 所以我想着要如何构建循环 FDR
  • VAE(变分自编码器) 详解

    近期看论文要用到VAE 看了很多资料 有这样一种感觉 要么过度过于偏向数学原理 要么只是讲了讲网络结构 本文将两者结合 以简洁易懂的语言结合代码实现来介绍VAE 1 解决问题 VAE是变分推断 variational inference 以
  • R notes (1): lm()

    R notes lm Reference Fitting Linear Models Usage Arguments Details Reference https www rdocumentation org packages stats
  • 看书标记【统计学习理论与方法】1

    第一章 概率论基础 在R中 分布函数名为func 则形如dfunc的函数就提供了相应的概率分布函数 dfunc x p1 p2 形如pfunc的函数提供了相应的累积分布函数 pfunc q p1 p2 分位数函数 p为由概率构成的向量 qf
  • 统计学:方差分析和相关分析的区别和联系

    区别 方差分析目的是检验因素是否对总体起作用 方法是不同的分组施加不同的因素水平 然后看组间差距是否明显大于组内差距 若明显大于则认为因素对总体起作用 具体过程中 方差分析只读取因变量数据 而不读取自变量数值 相关分析是检验变量之间是否有依
  • 概率论与数理统计--排列组合(一)

    排列 从n个不同元素中 任取m m n m与n均为自然数 下同 个元素按照一定的顺序排成一列 叫做从n个不同元素中取出m个元素的一个排列 从n个不同元素中取出m m n 个元素的所有排列的个数 叫做从n个不同元素中取出m个元素的排列数 用符
  • 【概率论】非连续型随机变量及概率分布

    非离散型随机变量 非离散型分布函数 设是一个随机变量 是任意实数 随机变量的分布函数 如果已知X的分布函数F x 就可以求出X落在任一区间 x1 x2 内的概率 分布函数的性质 1 2 是单调不减的 3 一维连续型随机变量概率密度 非负函数
  • 宋浩概率论笔记(七)参数估计

    数一概率论大题的核心内容 关键是公式的背诵 需要特别重视
  • 【概率论】大数定律

    概要 首先介绍了切比雪夫不等式 然后介绍大数定律概念和3种大数定律及证明 切比雪夫不等式 已知随机变量X的期望EX和方差DX 对 可得的一个上界 解释 不论X服从什么分布 X在E x 的 邻域内取值的概率不小于1 Dx 2 证明 本质 随机
  • 多维随机变量及其分布(四):

    一 二维随机变量及其分布函数 1 二维随机变量 设随机变量 Z X Y 则有 Z X Y 一个随机变量是有两个随机变量决定的 2 联合分布函数的基本性质 单调性 F x y 分别对x 或y是单调不减的 即 对任意固定的y 当 x1 lt x
  • GraphPad Prism 9.2 Mac 2021最新安装使用教程

    GraphPad Prism集生物统计 化学统计 以及科技绘图于一身 其中医学所能用到的绘图需要它几乎都能满足 Prism 现在被各种生物学家以及社会和物理科学家广泛使用 超过110个国家的超过20万名科学家依靠 Prism 来分析 绘制和
  • 【数学建模笔记 24】数学建模的时间序列模型

    24 时间序列模型 定义 时间序列是按时间顺序排列的 随时间变化且相互关联的数据序列 分析时间序列的方法构成数据分析的一个重要领域 即时间序列分析 一个时间序列往往是以下几类变化形式的叠加 长期趋势变动 T t T t Tt 朝一定方向的变
  • 2021.9.5笔试题

    第一题 题目 找x y target 数字特别大 可能会溢出 代码 include
  • 【杂谈】概率与随机以及手游抽卡机制的科普

    原文 NGA的一篇随机科普 其中包含了对手游抽卡机制的探讨 本文摘选了我自己感兴趣的部分 真随机 先说点题外话 请先看这个问题 一杯热水和一杯冷牛奶哪个热量更高 很显然这个问题从物理学和营养学的层面会得出相反的答案 先不考虑物理学层面说 一
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化

随机推荐

  • c语言练习题55:IP 地址⽆效化

    IP 地址 效化 题 描述 给你 个有效的 IPv4 地址 address 返回这个 IP 地址的 效化版本 所谓 效化 IP 地址 其实就是 代替了每个 例 1 输 address 1 1 1 1 输出 1 1 1 1 例 2 输 add
  • Oracle:number类型的使用

    一 number m n 创建测试表 create table t1 a number b number 9 c number 9 2 d number 9 1 e number 6 f number 7 2 g number 7 2 插入
  • 深入理解数据结构——堆栈应用(括号匹配)

    include
  • Feed流系统设计

    Feed流系统简介 Feed 是一种数据格式 用于给订阅的用户提供持续更新的内容 内容大多是基于时间线的方式呈现 从上往下流动 通常称为Feed流 移动互联网时代 国内最具代表性的Feed流类产品包括微信 微博 抖音 它们各具特点 产品 特
  • ChatGLM-6B-PT,P-Tuning

    本仓库实现了对于 ChatGLM 6B 模型基于 P Tuning v2 的微调 P Tuning v2 将需要微调的参数量减少到原来的 0 1 再通过模型量化 Gradient Checkpoint 等方法 最低只需要 7GB 显存即可运
  • 华为ensp模拟器--通过IKE动态协商方式建立IPSec隧道的实验(不对对等体存活进行检测)

    组网需求 如图1所示 在Router1和Router3之间建立一个安全隧道 对PC 1代表的子网 10 1 1 x 与PC2代表的子网 20 1 1 x 之间的数据流进行安全保护 安全协议采用ESP协议 加密算法采用DES 认证算法采用SH
  • 利用linux系统安装caffe_fastrcnn参考链接

    1 2 3 4 5
  • Code Llama系列教程之 微调 CodeLlama 34B 以进行聊天(打造自己的代码AI)

    虽然 Meta 的 Llama2 在 AI 领域引起了广泛关注 但 34b 模型却缺席了相当长一段时间 对于许多人来说 这个 34b 模型是运行本地 LLM 的理想选择 因为它与使用 4 位量化的单个 4090 GPU 兼容 我一直在热切地
  • TCP报文格局详解

    TCP和谈只定义了一种报文格局 建立 拆除连接 传输数据应用同样的报文 TCP报文格局 TCP报文段首部 20个字节 源端口和目标端口 各占2个字节 16比特的端标语加上32比特的IP地址 共同构成相当于传输层办事接见点的地址 即 插口 这
  • (十九)STM32——输入捕获

    目录 学习目标 成果展示 内容 获取 配置 代码 总结 学习目标 本节内容我们要介绍的是输入捕获 其实也和定时器那部分知识是有关系的 所谓输入捕获 通俗一点来讲 其实就是通过检测上升沿和下降沿来计算你的输入持续时间 具体怎么去检测和捕获呢
  • c++实现图的操作(最小生成树和最短路径)

    题目描述 1 图的深度优先搜索演示 要求 图采用邻接表存储结构 编程实现图的创建 图的深度优先搜索递归算法 2 图的广度优先搜索演示 要求 图采用邻接表存储结构 编程实现图的创建 图的深度优先搜索递归算法 3 求带权无向图的最小生成树问题
  • VueRouter4简介

    第十四节 VueRouter4 x简介 基本用法 路由懒加载 打包分析 动态路由 路由嵌套 相关Api 一 简介和基本用法 1 简介 官网地址 https next router vuejs org zh introduction html
  • 详解随机梯度下降法(Stochastic Gradient Descent,SGD)

    深度学习最常用的优化方法就是随机梯度下降法 但是随机梯度下降法在某些情况下会失效 这是为什么呢 带着这个问题我们接着往下看 一个经典的例子就是假设你现在在山上 为了以最快的速度下山 且视线良好 你可以看清自己的位置以及所处位置的坡度 那么沿
  • 递归的本质理解

    什么是递归 函数里面调用函数本身 这就是递归 public int factorial int n if n lt 1 return 1 return n factorial n 1 先有 递 再有 归 递 是将问题拆分成子问题来解决 子问
  • vue 高德地图 实时路况

    先放效果图 1 准备工作 路况信息只需要使用web端即可实现 2 代码部分 1 在 public index html中引入 2 在需要用到地图的页面中
  • c语言valotile关键字

    volatile 是一种类型修饰符 提醒编译器他后面所定义的变量随时都有可能改变 因此编译后的程序每次需要存储或读取这个变量的时候 都会直接从变量地址中 内存中 读取数据 如果没有volatile关键字 则编译器可能优化读取和存储 可能暂时
  • Python爬虫案例:爬取世界大学排行榜,做数据可视化

    前言 闲的一匹 高三生没多久就要高考了 还有四个月 也是快了 咱来看看世界大学的排行榜 采集一下 做个可视化 看看有没有你心仪的学校 嘿嘿 知识点 动态数据抓包 requests发送请求 结构化 非结构化数据解析 开发环境 python 3
  • CCF-CSP真题《202212-3 JPEG 解码》思路+python,c++满分题解

    想查看其他题的真题及题解的同学可以前往查看 CCF CSP真题附题解大全 试题编号 202212 3 试题名称 JPEG 解码 时间限制 1 0s 内存限制 512 0MB 问题描述 问题背景 四年一度的世界杯即将画上尾声 在本次的世界杯比
  • RT-Thread 中龙芯1C的网络lwip升级到2.1.0

    RT Thread 龙芯1C 智龙开发板 的网络lwip升级到2 1 0 1 硬件平台 智龙开发板V3 42 2 软件平台 RT Thread 4 0 0 其中LWIP 2 1 0 3 问题描述 一直使用 RT Thread 软件平台 配套
  • (史上最全总结)总体方差,样本方差,标准差,抽样方差,标准误差,均方误差,协方差 ...........

    文章目录 数学期望 color blue 数学期望 数学期望 总体和样本 color blue 总体和样本 总体和样本