【抽样技术】CH2 简单随机抽样

2023-11-01

目录

前言

一、定义

二、概述

1.总体

2.单元

3.抽样比

4.样本抽取原则

5.在抽样理论中的地位与作用

三、参数估计

1.参数表示

2.对总体特征的估计思路

3.对总体均值的估计

(1)引理

 (2)对总体均值的估计

4.方差和协方差的估计

5.区间估计

6.样本量的确定

(1)费用

(2)步骤

(3)精度(​编辑 ​编辑 ​编辑)

(4)估计总体均值时样本量的确定方法

 7.对总体比例的估计

(1)总体比例的估计量

(2)总体比例估计量的方差

(3)估计总体比例时样本量的确定

8.总体总值的简单估计

(1)总体总值的简单估计

(2)总体总值简单估计量的性质

(3)估计总体总值时估计量的确定

9.放回简单随机抽样的估计

10.设计效应( )

(1)定义

(2)的作用

(3)设计效应和样本量的确定

四、附表——抽样理论&数理统计的比较


前言

        学习一种抽样方法必须掌握的五个要点:

  • 该抽样方法的定义
  • 实施抽样的方法
  • 利用该抽样方法所得数据进行参数估计的方法
  • 估计量的性质:期望、方差
  • 估计量方差(精度)的估计方法

一、定义

1.从总体的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N个单元中,一次整批抽取gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等,这种抽样成为简单随机抽样(s.r.s)

2.从总体的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N个单元中,逐个不放回地抽取单元,每次抽到尚未入样的任何一个单元的概率都相等,直到抽足gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n个单元为止,这样所得的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n个单元组成一个简单随机样本。(现实中采用的方法)

【注】

  • 对于简单随机抽样,依次抽到一组特定样本单元的概率为:

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%28%20y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%20y_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%2C%5Ccdots%20%2C%20y_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20proof%3A

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2Cy_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%29P%28y_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%7Cy_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%29%5Ccdots%20P%28y_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%7Cy_%7B1%7D%3DY_%7Bi_%7B1%7D%2C%5Ccdots%20%2Cy_%7Bn-1%7D%3DY_%7Bi_%7Bn-1%7D%7D%7D%29%3D%5Cfrac%7B1%7D%7BN%7D*%5Cfrac%7B1%7D%7BN-1%7D*%5Ccdots%20*%5Cfrac%7B1%7D%7BN-n+1%7D%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D

之前课本中gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20X%2CYgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20r.vgif.latex?%5Cdpi%7B100%7D%20%5Csmall%20x%2Cy为其具体值(非随机);在抽样课程中,gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20X%2CY为总体真值(非随机),gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20x%2Cy为样本值,是gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20r.v.。前面提到的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D一般较大,若从gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D种可能的样本中随机抽取一种,需要先列出所有可能的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D种样本,不现实。 

  • 不考虑顺序,则抽中一组特定样本的概率为:

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7Dn%21%3D%5Cfrac%7B1%7D%7BC_%7BN%7D%5E%7Bn%7D%7D

  • 对于样本量n=1和n=2两种特殊情形(N个总体单元中抽取n个样本单元的简单随机抽样)

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%28%20y_%7Bk%7D%3DY_%7Bs%7D%29%3D%5Cfrac%7B1%7D%7BN%7D%2CP%28%20y_%7Bk%7D%3DY_%7Bs%7D%2C%20y_%7Bj%7D%3DY_%7Bt%7D%29%3D%5Cfrac%7B1%7D%7BN%28N-1%29%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20k%2Cj%3D1%2C%5Ccdots%20%2Cngif.latex?%5Cdpi%7B100%7D%20%5Csmall%20s%2Ct%3D1%2C%5Ccdots%20%2CN%2Ck%5Cneq%20j%2Cs%5Cneq%20t

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7Dproof%3A%20%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20P%28y_%7Bk%7D%3DY_%7Bs%7D%29%3D%5Csum_%7Ball%28i_%7B1%7D%2C%5Ccdots%20%2Ci_%7Bn%7D%29%2Cbut%2Ci_%7Bk%7D%3Ds%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D%5Cbinom%7BN-1%7D%7Bn-1%7D%28n-1%29%21%3D%5Cfrac%7B1%7D%7BN%7D%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20P%28y_%7Bk%7D%3DY_%7Bs%7D%2Cy_%7Bj%7D%3DY_%7Bt%7D%29%3D%5Csum_%7Ball%28i_%7B1%7D%2C%5Ccdots%20%2Ci_%7Bn%7D%29%2Cbut%2Ci_%7Bk%7D%3Ds%2Ci_%7Bj%7D%3Dt%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D%5Cbinom%7BN-2%7D%7Bn-2%7D%28n-2%29%21%3D%5Cfrac%7B1%7D%7BN%28N-1%29%7D%7D

不计第几次抽样,抽中某特定单元的概率相等,都为gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7B1%7D%7BN%7D

二、概述

1.总体

  • 具体总体
  • 有限总体
  • 与抽样框存在一一对应关系的实际调查总体

2.单元

        构成抽样总体的抽样单元并不总是等同于个体,个体是不可再分的单元,抽样单元可能包含很多个体。

3.抽样比

        样本容量gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n相对于总体规模gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N的比例gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20f%3D%5Cfrac%7Bn%7D%7BN%7D

4.样本抽取原则

  • 排除主观因素,按随机原则取样
  • 每个抽样单元被抽中的概率都是已知或事先可以计算的
  • 总体各单元的入样概率相等
  • 对于不放回抽样,总体各单元的入样概率之和等于样本量gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n

5.在抽样理论中的地位与作用

优点:

  • 简单直观、理论成熟
  • 抽样调查的基础

缺点:

  • N很大时难以获得抽样框
  • 样本分散时不易实施
  • 很少单独使用,除非没有其他信息(常结合其他抽样方法使用)

三、参数估计

1.参数表示

总体真值 样本值
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbar%7BY%7D%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%3D%5Cfrac%7BY_%7B1%7D+Y_%7B2%7D+%5Ccdots%20%2CY_%7BN%7D%7D%7BN%7D gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbar%7By%7D%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%3D%5Cfrac%7By_%7B1%7D+y_%7B2%7D+%5Ccdots%20%2Cy_%7Bn%7D%7D%7Bn%7D
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%3DY_%7B1%7D+Y_%7B2%7D+%5Ccdots%20+Y_%7BN%7D gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20y%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%3Dy_%7B1%7D+y_%7B2%7D+%5Ccdots+%20y_%7Bn%7D

gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%3D%5Cfrac%7BA%7D%7BN%7D%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D

示性变量gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y_%7B1%7D%3D0gif.latex?%5Cdpi%7B100%7D%20%5Csmall%201(当gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y_%7Bi%7D符合条件时取值为1)

1
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20R%3D%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%7D%7B%5Csum_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%7D%3D%5Cfrac%7B%5Cbar%7BY%7D%7D%7B%5Cbar%7BX%7D%7D gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Chat%7BR%7D%3D%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%7D%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dx_%7Bi%7D%7D%3D%5Cfrac%7B%5Cbar%7By%7D%7D%7B%5Cbar%7Bx%7D%7D
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Csigma%20%5E2%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28Y_%7Bi%7D-%5Cbar%7BY%7D%29%5E2 gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20s%20%5E2%3D%5Cfrac%7B1%7D%7Bn-1%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%28y_%7Bi%7D-%5Cbar%7By%7D%29%5E2
gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20S%20%5E2%3D%5Cfrac%7B1%7D%7BN-1%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28Y_%7Bi%7D-%5Cbar%7BY%7D%29%5E2%3D%5Cfrac%7BN%7D%7BN-1%7D%5Csigma%20%5E2

【注】总体参数上面带符号“^”表示由样本得到的总体参数的估计。估计量的方差用大写的gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V表示,对gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V%28Y%29的样本估计值用gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V%28%5Chat%7BY%7D%29表示。

2.对总体特征的估计思路

  • 利用样本的目标变量观测值对其总体参数进行直接估计
  • 借助与目标变量高度相关的辅助变量对目标变量总体参数进行区间估计,如比率估计、回归估计等

3.对总体均值的估计

(1)引理

  • 【引理2.1】从大小为gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元入样的概率为gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7Bn%7D%7BN%7D,两个特定单元都入样的概率为\pi _{i}=\frac{n(n-1)}{N(N-1)}

{\color{Blue} proof:}

{\color{Blue} \pi_{ij}=\frac{\binom{2}{2}\binom{N-2}{n-2}}{\binom{N}{n}}=\frac{n(n-1)}{N(N-1)}}

【注】简单随机抽样下,所有可能的\binom{N}{n}个样本中,包含某个特点单元的样本数为?同时包含两个特定不同单元的样本数为?

  • 【引理2.2】从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元Y_{i},引入随机变量a_{i},i=1,2,\cdots ,N,如下,a_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示Y_{i}被抽中,0表示未被抽中。则:

E(a_{i})=\frac{n}{N}=f,i=1,2,\cdots ,N

V(a_{i})=\frac{n}{N}\frac{N-n}{N}=f(1-f),i=1,2,\cdots ,N

cov(a_{i},a_{j})=-\frac{n}{N(N-1)}(1-\frac{n}{N})=-\frac{f(1-f)}{N-1},i=1,2,\cdots ,N;i\neq j

 (2)对总体均值的估计

【定理2.1】对于简单随机抽样,\bar{y}\bar{Y}的无偏估计(估计量无偏性),即E(\bar{y})=\bar{Y}

证明:从总体规模为N的总体中抽取一个样本量为n的简单随机样本。 若对总体中的每个单元Y_{i},引入随机变量a_{i},i=1,2,\cdots ,N,如下,a_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示Y_{i}被抽中,0表示未被抽中。则\bar{y}可表达为\bar{y}=\frac{1}{n}\sum_{i=1}^{N}a_{i}Y_{i},式中Y_{i},i=1,2,\cdots ,N是常数,故E(\bar{y})=\frac{1}{n}\sum_{i=1}^{N}Y_{i}E(a_{i})=\frac{1}{n}\sum_{i=1}^{N}Y_{i}\frac{n}{N}=\frac{1}{n}\frac{n}{N}\sum_{i=1}^{N}Y_{i}=\bar{Y}

【推论2.1】对于简单随机抽样,\hat{Y}=N\bar{y}的期望为E(\hat{Y})=E(N\hat{y})=N\hat{Y}=Y

【推论2.2】对于简单随机抽样,\hat{P}=p的期望为E(\hat{P})=E(p)=p

【推论2.3】对于简单随机抽样,n较大时,\hat{R}=r的期望为E(\hat{R})=E(r)\approx R

【定理2.2】对于简单随机抽样,\bar{y}的方差V(\bar{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2,式中f=\frac{n}{N}为抽样比,1-f为有限总体校正系数(fpc)

{\color{Blue}proof: }

【注】简单估计量估计精度影响因素V(\bar{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2。估计量的方差V(\bar{y})是衡量估计量精度的度量。影响估计量方差的因素包括样本量n,总体大小N和总体方差S^2。通常N很大,当f<0.05时,可将1-f近似取为1。总体方差是我们无法改变的,因此在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。

4.方差和协方差的估计

【Th】s^2=\frac{1}{n-1}\sum_{i=1}^{N}(y_{i}-\bar{y})^2s^2的无偏估计

{\color{Blue} proof:}

\Rightarrow1】对于简单随机抽样,v(\bar{y})=\frac{1-f}{n}s^2V(\bar{y})的无偏估计

\Rightarrow 2v(\hat{Y})=v(N\bar{y})=N^2\frac{1-f}{n}s^2V(\hat{Y})=N^2\frac{1-f}{n}s^2的无偏估计

5.区间估计

        由中心极限定理,\small \frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}}\sim N(0,1)\small P(\left |\frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}} \right |\leqslant u _{\frac{\alpha }{2}})=P(\left |\bar{y}-\bar{Y} \right |\leqslant u _{\frac{\alpha }{2}}\sqrt{V(\bar{y})})=1-\alpha。总体均值的置信区间为\small \bar{y}-u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}\leqslant \bar{Y}\leqslant \bar{y}+u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})},其中\small u_{\frac{\alpha }{2}}是标准正态分布的上\small \frac{\alpha }{2}分位数,\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}称为绝对误差限。用v(\bar{y})=\frac{1-f}{n}s^2估计\small V(\bar{y})=\frac{1-f}{n}s^2,因而\small \bar{Y}的置信区间为\small \left [ \bar{y}-u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s, \bar{y}+u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s\right ]。进行多次抽样后,根据各次的样本算得的置信区间包含总体均值\small \bar{Y}的比例约为\small 1-\alpha\small 1-\alpha称为置信水平或置信度,反应抽样调查的信度水平。绝对误差限\small d=u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s为置信区间的半长。

        \small Var(\bar{y})的估计:\small var(\bar{y})=\frac{1-f}{n}s^2\small Var(\bar{Y})的估计:\small var(\bar{Y})=N^2\frac{1-f}{n}s^2

        \small \bar{y}的区间估计:\small \left [ \bar{y}-u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s, \bar{y}+u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s\right ]

        \small \hat{Y}的区间估计:\small \left [ N\bar{y}-u_{\frac{\alpha }{2}}N\sqrt{\frac{1-f}{n}}s, N\bar{y}+u_{\frac{\alpha }{2}}N\sqrt{\frac{1-f}{n}}s\right ]

6.样本量的确定

(1)费用

        \small C=c_{0}+c_{1}n。即总费用=固定费用+可变费用。固定费用包含设计费、分析费、办公费、管理费、场租费……;\small c_{1},即平均调查一个样本单元的费用包括访问员费、交通费、礼品费、电话费……

(2)步骤

  • 明确估计量的精度要求(绝对误差限\small d或相对误差限\small r
  • 找出样本量与精度之间的关系
  • 估计所需的样本量数值,即求解\small n
  • 如超出预算,调整精度值重新计算样本量

(3)精度(\small margin \small of \small error)

  • 允许最大绝对误差(绝对误差限)\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}
  • 以相对误差限\small r来表示\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}

\small P(\left | \frac{\bar{y}-\bar{Y}}{\bar{Y}} \right |\leqslant r)=1-\alpha\small P(\left | \frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}} \right |\leqslant u_{\frac{\alpha }{2}})=1-\alpha \Rightarrow P(\left | \frac{\bar{y}-\bar{Y}}{\bar{Y}} \right |\leqslant \frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}})=1-\alpha

  • 绝对误差限与估计量标准差的关系为:\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}=u_{\frac{\alpha }{2}}S(\bar{y})
  • 相对误差限与绝对误差限(估计量方差)的关系为:\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}=u_{\frac{\alpha }{2}}\frac{\sqrt{V(\bar{y})}}{E\bar{y}}=u_{\frac{\alpha }{2}}C(\bar{y})\small E\bar{y}=\bar{Y}在估计量无偏可以替换,其中\small C(\bar{y})称为变异系数

 (4)估计总体均值时样本量的确定方法

  • 按绝对误差限确定样本量

        设在\small 1-\alpha置信度下,给定绝对误差限为\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})},即\small d^2={u_{\frac{\alpha }{2}}}^2\frac{1}{n}(1-\frac{n}{N})S^2,得出\small n=\frac{​{​{u_{\frac{\alpha }{2}}}^2}S^2}{d^2+\frac{1}{N}{​{u_{\frac{\alpha }{2}}}^2}S^2}=\frac{n_{0}}{1+\frac{n_{0}}{N}},N很大时,\small n\approx n_{0}=\frac{​{​{u_{\frac{\alpha }{2}}}^2S^2}}{d^2}。其中,\small n_{0}为有放回抽样或无限总体条件下达到该精度至少需要的样本量。

  • 按相对误差限确定样本量

        设在\small 1-\alpha的置信度下,给定相对误差限为\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}},平方得\small r^2{\bar{Y}}^2={​{u_{\frac{\alpha }{2}}}^2}\frac{1}{n}(1-\frac{n}{N})S^2,得出\small n=\frac{​{​{u_{\frac{\alpha }{2}}}^2S^2}}{r^2{\bar{Y}}^2+\frac{1}{N}{​{u_{\frac{\alpha }{2}}}^2S^2}}\small N很大时,\small n\approx \frac{​{​{u_{\frac{\alpha }{2}}}^2S^2}}{r^2{\bar{Y}}^2}

 7.对总体比例的估计

        估计具有某类特征的单元占总体单元数N中的比例P。

        将总体单元按是否具有这种特征划分为两类,设总体中有A个单元具有这个特征,如果对每个单元都定义指标值\small Y_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示第\small i个单元具有所考虑的特征。\small P=\frac{A}{N}=\frac{1}{N}\sum_{i=1}^{N}Y_{i}=\bar{Y}

(1)总体比例的估计量

        总体比例\small P=\frac{A}{N}=\frac{\sum_{i=1}^{N}Y_{i}}{N}的估计量为样本比例\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n},其中\small y_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.,1表示第\small i个单元具有所考虑的特征。

        样本比例\small p是总体比例\small P的无偏估计。\small Ep=E\bar{y}=\bar{Y}=P

(2)总体比例估计量的方差

        总体比例的估计量\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}的方差\small V(p)=\frac{PQ}{n}\frac{N-n}{N-1}

        总体比例估计量\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}的方差\small V(p)=\frac{PQ}{n}\frac{N-n}{N-1}v(p)=\frac{1-f}{n-1}pq估计。(抽样比很小时近似为\frac{pq}{n-1}

        总体比例P的区间估计为\left [ p-{u_{\frac{\alpha }{2}}\sqrt{\frac{(1-f)pq}{n-1}}} , p+{u_{\frac{\alpha }{2}}\sqrt{\frac{(1-f)pq}{n-1}}}\right ]

(3)估计总体比例时样本量的确定

        当待估参数是P时,估计量是p

  • 给定p的绝对误差限d

d^2={​{u_{\frac{\alpha }{2}}}^2}V(p)={​{u_{\frac{\alpha }{2}}}^2}\frac{PQ}{n}\frac{N-n}{N-1}

n(N-1)d^2={​{u_{\frac{\alpha }{2}}}^2}PQN-{​{u_{\frac{\alpha }{2}}}^2}PQn

n=\frac{​{​{u_{\frac{\alpha }{2}}}^2}PQN}{​{​{u_{\frac{\alpha }{2}}}^2}PQ+(N-1)d^2}=\frac{\frac{​{u_{\frac{\alpha }{2}}}^2}{d^2}PQ}{1+\frac{1}{N}(\frac{​{u_{\frac{\alpha }{2}}}^2PQ}{d^2}-1)}

n_{0}=\frac{​{u_{\frac{\alpha }{2}}}^2}{d^2}PQ,则n=\frac{n_{0}}{1+\frac{n_{0}-1}{N}}

n_{0}为放回抽样或无限总体情形下达到该精度最少所需样本量

8.总体总值的简单估计

        总体总值为总体均值的N倍,即Y=N\bar{Y}=\sum_{i=1}^{N}Y_{i},只要有了总体均值的估计结果,就可以很容易地推出总体总值的估计结果。

(1)总体总值的简单估计

        N倍的样本均值是总体总值的简单估计量,即\hat{Y}=N\bar{y}=\frac{N}{n}\sum_{i=1}^{n}y_{i}

(2)总体总值简单估计量的性质

        由于总体总值是总体均值的N倍,其简单估计量也是总体均值估计量的N倍,而N是固定常数,所以总体总值的简单估计量的性质由总体均值的简单估计量的性质来决定。

        容易证明:

E(\hat{Y})=E(N\bar{y})=NE(\bar{y})=N\bar{Y}=Y

V(\hat{Y})=N^2V(\bar{y})=\frac{N^2(1-f)}{n}S^2的无偏估计为v(\hat{y})=N^2v(\bar{y})=\frac{N^2(1-f)}{n}s^2

(3)估计总体总值时估计量的确定

d=u_{\frac{\alpha }{2}}\sqrt{Var(\hat{Y})}=Nu_{\frac{\alpha }{2}}\sqrt{var(\bar{y})}

d^2=N^2{​{u_{\frac{\alpha }{2}}}^2}var(\bar{y})=N^2{​{u_{\frac{\alpha }{2}}}^2}(\frac{1}{n}-\frac{1}{N})s^2

n=\frac{​{​{u_{\frac{\alpha }{2}}}^2}s^2}{\frac{​{u_{\frac{\alpha }{2}}}^2s^2}{N}+\frac{d^2}{N^2}}

9.放回简单随机抽样的估计

        现实中有许多情况下,抽样是放回的,即从总体中抽中的单元每次都要放回总体中去。例如在城市中对行人、车辆的调查等抽样都是有放回的,有可能重复抽中某些单位。

        对于每次抽到的结果(视为随机变量)y_{i}都有

  • E(y_{i})=\sum_{i=1}^{N}\frac{1}{N}Y_{i}=\bar{Y}
  • V(y_{i})=\sum_{i=1}^{N}\frac{1}{N}(Y_{i}-\bar{Y})^2=\sigma ^2
  • 方差Var(\bar{y})=\frac{1}{n}\sigma ^2(与无限总体情形下均值估计量方差结果相同)
  • 样本方差s^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_{i}-\bar{y})^2是无限总体方差\sigma ^2的无偏估计量
  • 方差V(\bar{y})的一个无偏估计是v(\bar{y})=\frac{s^2}{n}

10.设计效应(design effect,deff

(1)定义

        所采用抽样技术的参数估计量方差与相同样本量下简单随机抽样的参数估计量方差之比。

  • 值越大,说明估计效率越低

(2)deff的作用

  • 评价抽样设计的一个依据

        如果deff<1,则抽样设计比简单随机抽样的效率高

        如果deff>1,则抽样设计比简单随机抽样的效率低

  • 计算样本量

        如多阶段抽样的deff大约在2\sim 2.5之间。n=n^{'}(deff)n^{'}为简单随机抽样下满足估计量精度要求所需样本量。

(3)设计效应和样本量的确定

 有放回抽样的方差:V_{srswr}=\frac{N-1}{N}\frac{s^2}{n}

不放回抽样的方差:V_{srswr}=\frac{N-n}{N}\frac{s^2}{n}

有放回抽样的设计效应:deff=\frac{N-1}{N-n}>1

        所以,要满足一定的估计精度,采用放回简单随机抽样比采用不放回简单随机抽样需要更大的样本量。

         deff常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量n^{'}比较容易得到。

        所考虑的抽样设计的样本量=简单随机抽样时满足方差要求时的样本量*deff

n=n^{'}*deff

四、附表——抽样理论&数理统计的比较

抽样理论 数理统计
假设

有限总体,样本之间不独立有\binom{N}{n}种可能的样本

无限总体,样本之间独立,可取无限种可能的样本
符号 \bar{y} \bar{y}
定义 \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i} \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}
期望 E(\bar{y})=E(\frac{1}{n}\sum_{i=1}^{n})=\frac{1}{n}\sum_{i=1}^{n}E(y_{i})=\frac{1}{n}[n\mu ]=\mu E(\bar{y})=E(\frac{1}{n}\sum_{i=1}^{n})=\frac{1}{n}\sum_{i=1}^{n}E(y_{i})=\frac{1}{n}[n\mu ]=\mu
方差 V(\bar{y})=\frac{1-f}{n}S^2 V(\bar{y})=E[\bar{y}_{i}-\mu ]=E[\frac{1}{n}\sum_{i=1}^{n}-\mu ]=\frac{1}{n}{E(y_{i}-\mu )}^2=\frac{\sigma ^2}{n}

抽样

理论

&

数理

统计

相同之处 不同之处
定义

都是根据从一个总体中

抽样得到的样本,然后

定义样本均值为:

\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}

        抽样理论中样本是从有限总体中按不放回的抽样方法得到的,样本中的样本点不会重复;

        数理统计中的样本是从无限总体中利用有放回的抽样方法得到的,样本点有可能是重复的。

性质

(1)样本均值的期望都等于总体均值,也就是抽样理论和数理统计中的样本均值都是无偏估计

(2)不论总体原来是何种分布,在样本量足够大的条件下,样本均值近似服从正态分布

(1)抽样理论中,各个样本之间是不独立的;数理统计中的各个样本之间是相互独立的

(2)抽样理论中的样本均值的方差为V(\bar{y})=\frac{1-f}{n}S^2,其中S^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_{i}-\bar{Y})^2=\frac{N}{N-1}\sigma ^2

(3)数理统计中样本均值的方差为\frac{\sigma ^2}{n},其中\sigma ^2=\frac{1}{N}\sum_{i=1}^{N}(Y_{i}-\bar{Y})^2


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【抽样技术】CH2 简单随机抽样 的相关文章

  • Linux·直接I/O原理

    在介绍直接 I O 之前 先来介绍下直接I O这种机制产生的原因 毕竟已经有了缓存I O Buffered I O 那肯定能够像到缓存I O有缺陷吧 就按照这个思路来 什么是缓存 I O Buffered I O 缓存 I O 又被称作标准
  • 【备战面试】面试题打卡——Mysql相关面试题总结

    写在前面 这里是温文艾尔的学习之路 如果对你有帮助 给博主一个免费的点赞以示鼓励把QAQ 博客主页 温文艾尔的学习小屋 更多文章 请关注温文艾尔主页 文章发布日期 2022 03 01 java学习之路 欢迎各位 点赞 评论收藏 冲冲冲 上

随机推荐

  • Hadoop三大组件之Yarn

    本文主要介绍了Hadoop三大组件之Yarn的一些知识 文章目录 一 概述 二 Yarn的基础架构 三 Yarn的工作机制图解 四 Yarn调度器 容量调度器 Yarn的默认调度器 yarn default xml 参数配置 容量调度器特点
  • 纯html5例子,八个炫酷的html5例子

    1 HTML5 Canvas火焰燃烧动画 如同掉落的火球 这次要分享的是一款超级绚丽的HTML5火焰动画 画面上是一个熊熊燃烧的小火球 小球燃烧的火焰非常逼真 会比较消耗CPU 另外这个动画是在HTML5 Canvas上实现的 修改起来也非
  • 【2021-11-19】Android Gradle Build Failed 你的主机中的软件中止了一个已建立的连接 / 远程主机强迫关闭了一个现有的连接 且无法更改 Gradle 版本 的解决方法

    如果软件使用的 Gradle 及其插件的版本较旧 如 Android Gradle Plugin 3 5 0 Gradle 6 8 则存在此 bug 关闭 Wi Fi 热点及其它网络共享 再将项目 Build 一次 升级到较新的 Gradl
  • 服务端QPS&TPS

    背景 生产环境项目预上线之前 通常需要进行服务端性能测试 简称压测 压测进行中 压测结束后 怎么分析系统的各项指标 瓶颈等 这里需要了解相关信息的概念 从而有针对的优化项目代码 实现方式 规避风险等 1 QPS queries per se
  • Vue-引用组件,不显示

    引用了Header vue 组件到页面 结果不显示 原因 这是语义化的词会导致无法解析 解决方法 1 使用组件是小写 把首字母大写 2 换个组件名字
  • Batch与Patch 代表什么

    Batch是批量的大小 就是你训练的时候每次输入多少张图片 Patch是图像块的大小 比如说原图1024 1024 随机从图中裁剪出256 256大小的块 就是patch 更准确来说 patch 指一个二维图片中的其中一个小块 即一张二维图
  • cuda编程性能 分析工具 nvprof的使用

    ubuntu环境上 安装cuda 会自动安装一些工具nvcc nvprof nvcc gdb 1 编译生成可执行文件 2 nvprof test 可以把性能分析数据输出到文件中 nvprof test o test nvvp 可以把在nvi
  • C++的三种实例化对象方式

    一 隐式创建 class CEmployee private int age int id public CEmployee cout lt lt 这是构造函数 lt lt endl CEmployee int id this gt id
  • C++ Qt常用面试题整理(不定时更新)

    目录 1 Qt基础知识 1 Qt信号槽机制的优势和不足 2 static和const的使用 3 指针常量 常量指针 常指针常量 4 指针和引用的异同 5 如何理解多态 6 虚函数表 7 常用数据结构 8 Tcp 2 C 基础 1 C语言和C
  • react项目路由组件懒加载和路由传值方式

    项目实战 使用useRoutes配置路由 结合插槽配置用户登录检测 用户登录成功进入login 直接系统主界面 路由模块抽离 整体代码外移 path admin element
  • IGBT选型和设计注意事项

    认识IGBT IGBT 绝缘栅双极型晶体管 是由 BJT 双极型三极管和绝缘栅型场效应管 MOS 组成的复合全控型电压驱动式功率半导体器件 兼有 MOSFET 金氧半场效晶体管的高输入阻抗和电力晶体管 GTR 的低导通压降两方面的优点 具有
  • 谷歌地图-----添加文本标注

    由于谷歌地图没有直接的类似百度地图API中的BMap Label 方法 var label new google maps Marker label color FFF 文本颜色 fontSize 14px 文本字体大小 text 我的文本
  • P5[3-1]GPIO输出端口(简介+结构+配置+电路+软件设计原理)

    注 GPIO命名是GPIOA GPIOB 每个GPIO都有16个引脚 PA0 PA1 PA15 寄存器就是特殊的存储器 内核通过APB2总线对寄存器进行读写 完成输出电平和读取电平功能 每一位对应一个引脚 输出寄存器写1 对应引脚输出高电平
  • Js 正则 大于0的数

    const reg 1 9 d d 1 6 0 d 1 6 以下正则也是正确的 const reg d 1 9 0 d 1 6 0 d 1 6 大于0 小数不限 const reg 1 9 0 9 0 d 1 9 d
  • vue中使用el-table组件进行分页多选,回显、切换分页记住上一页所勾选和取消的选项

    需求 1 table表格多选 并且切换分页之后能记住上一页的选项 2 回显数据 切换分页之后再切换回来依然能回显数据 3 点击选项 未保存数据 切换页面后再切换回来初始化数据勾选状态 4 全选 取消全选数据正常变化 5 使用了dialog来
  • IDEA隐藏不想看见的文件

    比如我在使用idea创建spring boot工程时会出现图中箭头指向的文件 但是我又不想看到它们 可以通过设置将其隐藏 单击文件 打开设置 在搜索框中输入File Types然后打开 在箭头所指的地方下面的输入框中输入你要隐藏的文件名 也
  • 函数对象简述

    使用方式 函数与函数对象 函数指针与函数对象 使用方式 函数对象 简而言之 就是类对于 运算符的重载 使我们可以像使用函数那样使用对象 示例如下 ifndef TOOBIG H define TOOBIG H template
  • 【完全开源】小安派-Audio 外置音频开发板

    目录 一 概述 二 系统框图 三 电源管理模块 四 外置语音模块 五 GPIO引脚设计 六 资料 一 概述 小安派 Audio AiPi Audio 是安信可团队专门为Ai M61 32S设计的音频驱动开发板 搭配BL618芯片 其外置ES
  • PyCharm中导入库的方法

    两种方法 1 搜索添加 列表中是已经存在的库 若需要添加库 点击 搜索 待库安装完成 即可使用 2 利用终端命令 输入代码 回车 即可完成 numpy库为例 我的是已经存在了
  • 【抽样技术】CH2 简单随机抽样

    目录 前言 一 定义 二 概述 1 总体 2 单元 3 抽样比 4 样本抽取原则 5 在抽样理论中的地位与作用 三 参数估计 1 参数表示 2 对总体特征的估计思路 3 对总体均值的估计 1 引理 2 对总体均值的估计 4 方差和协方差的估