【抽样技术】CH2 简单随机抽样

1.从总体的 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N$ 个单元中，一次整批抽取 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n$ 个单元，使任何一个单元被抽中的概率都相等，任何n个不同单元组成的组合被抽中的概率也都相等，这种抽样成为简单随机抽样（s.r.s）。

2.从总体的 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N$ 个单元中，逐个不放回地抽取单元，每次抽到尚未入样的任何一个单元的概率都相等，直到抽足 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n$ 个单元为止，这样所得的 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n$ 个单元组成一个简单随机样本。（现实中采用的方法）

【注】

对于简单随机抽样，依次抽到一组特定样本单元的概率为：

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%28%20y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%20y_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%2C%5Ccdots%20%2C%20y_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D$

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20proof%3A$

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2Cy_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%29P%28y_%7B2%7D%3DY_%7Bi_%7B2%7D%7D%7Cy_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%29%5Ccdots%20P%28y_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%7Cy_%7B1%7D%3DY_%7Bi_%7B1%7D%2C%5Ccdots%20%2Cy_%7Bn-1%7D%3DY_%7Bi_%7Bn-1%7D%7D%7D%29%3D%5Cfrac%7B1%7D%7BN%7D*%5Cfrac%7B1%7D%7BN-1%7D*%5Ccdots%20*%5Cfrac%7B1%7D%7BN-n+1%7D%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D$

之前课本中 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20X%2CY$ 为 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20r.v$ ， $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20x%2Cy$ 为其具体值（非随机）；在抽样课程中， $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20X%2CY$ 为总体真值（非随机）， $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20x%2Cy$ 为样本值，是 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20r.v.$ 。前面提到的 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D$ 一般较大，若从 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D$ 种可能的样本中随机抽取一种，需要先列出所有可能的 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbinom%7BN%7D%7Bn%7D$ 种样本，不现实。

不考虑顺序，则抽中一组特定样本的概率为：

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7Dn%21%3D%5Cfrac%7B1%7D%7BC_%7BN%7D%5E%7Bn%7D%7D$

对于样本量n=1和n=2两种特殊情形（N个总体单元中抽取n个样本单元的简单随机抽样）

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%28%20y_%7Bk%7D%3DY_%7Bs%7D%29%3D%5Cfrac%7B1%7D%7BN%7D%2CP%28%20y_%7Bk%7D%3DY_%7Bs%7D%2C%20y_%7Bj%7D%3DY_%7Bt%7D%29%3D%5Cfrac%7B1%7D%7BN%28N-1%29%7D$

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20k%2Cj%3D1%2C%5Ccdots%20%2Cn$ ， $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20s%2Ct%3D1%2C%5Ccdots%20%2CN%2Ck%5Cneq%20j%2Cs%5Cneq%20t$

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7Dproof%3A%20%7D$

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20P%28y_%7Bk%7D%3DY_%7Bs%7D%29%3D%5Csum_%7Ball%28i_%7B1%7D%2C%5Ccdots%20%2Ci_%7Bn%7D%29%2Cbut%2Ci_%7Bk%7D%3Ds%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D%5Cbinom%7BN-1%7D%7Bn-1%7D%28n-1%29%21%3D%5Cfrac%7B1%7D%7BN%7D%7D$

$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%7B%5Ccolor%7BBlue%7D%20P%28y_%7Bk%7D%3DY_%7Bs%7D%2Cy_%7Bj%7D%3DY_%7Bt%7D%29%3D%5Csum_%7Ball%28i_%7B1%7D%2C%5Ccdots%20%2Ci_%7Bn%7D%29%2Cbut%2Ci_%7Bk%7D%3Ds%2Ci_%7Bj%7D%3Dt%7DP%28y_%7B1%7D%3DY_%7Bi_%7B1%7D%7D%2C%5Ccdots%20%2Cy_%7Bn%7D%3DY_%7Bi_%7Bn%7D%7D%29%3D%5Cfrac%7B%28N-n%29%21%7D%7BN%21%7D%5Cbinom%7BN-2%7D%7Bn-2%7D%28n-2%29%21%3D%5Cfrac%7B1%7D%7BN%28N-1%29%7D%7D$

不计第几次抽样，抽中某特定单元的概率相等，都为 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7B1%7D%7BN%7D$ 。

二、概述

1.总体

具体总体
有限总体
与抽样框存在一一对应关系的实际调查总体

2.单元

构成抽样总体的抽样单元并不总是等同于个体，个体是不可再分的单元，抽样单元可能包含很多个体。

3.抽样比

样本容量 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n$ 相对于总体规模 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N$ 的比例 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20f%3D%5Cfrac%7Bn%7D%7BN%7D$ 。

4.样本抽取原则

排除主观因素，按随机原则取样
每个抽样单元被抽中的概率都是已知或事先可以计算的
总体各单元的入样概率相等
对于不放回抽样，总体各单元的入样概率之和等于样本量 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20n$

5.在抽样理论中的地位与作用

优点：

简单直观、理论成熟
抽样调查的基础

缺点：

N很大时难以获得抽样框
样本分散时不易实施
很少单独使用，除非没有其他信息（常结合其他抽样方法使用）

三、参数估计

1.参数表示

总体真值	样本值
$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbar%7BY%7D%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%3D%5Cfrac%7BY_%7B1%7D+Y_%7B2%7D+%5Ccdots%20%2CY_%7BN%7D%7D%7BN%7D$	$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cbar%7By%7D%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%3D%5Cfrac%7By_%7B1%7D+y_%7B2%7D+%5Ccdots%20%2Cy_%7Bn%7D%7D%7Bn%7D$
$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%3DY_%7B1%7D+Y_%7B2%7D+%5Ccdots%20+Y_%7BN%7D$	$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20y%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%3Dy_%7B1%7D+y_%7B2%7D+%5Ccdots+%20y_%7Bn%7D$
$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20P%3D%5Cfrac%7BA%7D%7BN%7D%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D$ 示性变量 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y_%7B1%7D%3D0$ 或 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%201$ （当 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20Y_%7Bi%7D$ 符合条件时取值为1）	$1$
$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20R%3D%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7BN%7DY_%7Bi%7D%7D%7B%5Csum_%7Bi%3D1%7D%5E%7BN%7DX_%7Bi%7D%7D%3D%5Cfrac%7B%5Cbar%7BY%7D%7D%7B%5Cbar%7BX%7D%7D$	$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Chat%7BR%7D%3D%5Cfrac%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dy_%7Bi%7D%7D%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7Dx_%7Bi%7D%7D%3D%5Cfrac%7B%5Cbar%7By%7D%7D%7B%5Cbar%7Bx%7D%7D$
$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Csigma%20%5E2%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28Y_%7Bi%7D-%5Cbar%7BY%7D%29%5E2$	$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20s%20%5E2%3D%5Cfrac%7B1%7D%7Bn-1%7D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%28y_%7Bi%7D-%5Cbar%7By%7D%29%5E2$
$gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20S%20%5E2%3D%5Cfrac%7B1%7D%7BN-1%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28Y_%7Bi%7D-%5Cbar%7BY%7D%29%5E2%3D%5Cfrac%7BN%7D%7BN-1%7D%5Csigma%20%5E2$

【注】总体参数上面带符号“^”表示由样本得到的总体参数的估计。估计量的方差用大写的 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V$ 表示，对 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V%28Y%29$ 的样本估计值用 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20V%28%5Chat%7BY%7D%29$ 表示。

2.对总体特征的估计思路

利用样本的目标变量观测值对其总体参数进行直接估计
借助与目标变量高度相关的辅助变量对目标变量总体参数进行区间估计，如比率估计、回归估计等

3.对总体均值的估计

（1）引理

【引理2.1】从大小为 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20N$ 的总体中抽取一个样本量为n的简单随机样本，则总体中每个特定单元入样的概率为 $gif.latex?%5Cdpi%7B100%7D%20%5Csmall%20%5Cfrac%7Bn%7D%7BN%7D$ ，两个特定单元都入样的概率为 $\pi _{i}=\frac{n(n-1)}{N(N-1)}$ 。

${\color{Blue} proof:}$

${\color{Blue} \pi_{ij}=\frac{\binom{2}{2}\binom{N-2}{n-2}}{\binom{N}{n}}=\frac{n(n-1)}{N(N-1)}}$

【注】简单随机抽样下，所有可能的 $\binom{N}{n}$ 个样本中，包含某个特点单元的样本数为？同时包含两个特定不同单元的样本数为？

【引理2.2】从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元 $Y_{i}$ ，引入随机变量 $a_{i},i=1,2,\cdots ,N$ ，如下， $a_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.$ ，1表示 $Y_{i}$ 被抽中，0表示未被抽中。则：

$E(a_{i})=\frac{n}{N}=f,i=1,2,\cdots ,N$

$V(a_{i})=\frac{n}{N}\frac{N-n}{N}=f(1-f),i=1,2,\cdots ,N$

$cov(a_{i},a_{j})=-\frac{n}{N(N-1)}(1-\frac{n}{N})=-\frac{f(1-f)}{N-1},i=1,2,\cdots ,N;i\neq j$

（2）对总体均值的估计

【定理2.1】对于简单随机抽样， $\bar{y}$ 是 $\bar{Y}$ 的无偏估计（估计量无偏性），即 $E(\bar{y})=\bar{Y}$

证明：从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元 $Y_{i}$ ，引入随机变量 $a_{i},i=1,2,\cdots ,N$ ，如下， $a_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.$ ，1表示 $Y_{i}$ 被抽中，0表示未被抽中。则 $\bar{y}$ 可表达为 $\bar{y}=\frac{1}{n}\sum_{i=1}^{N}a_{i}Y_{i}$ ，式中 $Y_{i},i=1,2,\cdots ,N$ 是常数，故 $E(\bar{y})=\frac{1}{n}\sum_{i=1}^{N}Y_{i}E(a_{i})=\frac{1}{n}\sum_{i=1}^{N}Y_{i}\frac{n}{N}=\frac{1}{n}\frac{n}{N}\sum_{i=1}^{N}Y_{i}=\bar{Y}$

【推论2.1】对于简单随机抽样， $\hat{Y}=N\bar{y}$ 的期望为 $E(\hat{Y})=E(N\hat{y})=N\hat{Y}=Y$

【推论2.2】对于简单随机抽样， $\hat{P}=p$ 的期望为 $E(\hat{P})=E(p)=p$

【推论2.3】对于简单随机抽样，n较大时， $\hat{R}=r$ 的期望为 $E(\hat{R})=E(r)\approx R$

【定理2.2】对于简单随机抽样， $\bar{y}$ 的方差 $V(\bar{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2$ ，式中 $f=\frac{n}{N}$ 为抽样比， $1-f$ 为有限总体校正系数（fpc）

${\color{Blue}proof: }$

【注】简单估计量估计精度影响因素 $V(\bar{y})=\frac{N-n}{Nn}S^2=\frac{1-f}{n}S^2$ 。估计量的方差 $V(\bar{y})$ 是衡量估计量精度的度量。影响估计量方差的因素包括样本量 $n$ ，总体大小 $N$ 和总体方差 $S^2$ 。通常N很大，当 $f<0.05$ 时，可将 $1-f$ 近似取为1。总体方差是我们无法改变的，因此在简单随机抽样的条件下，只有通过加大样本量来提高估计量的精度。

4.方差和协方差的估计

【Th】 $s^2=\frac{1}{n-1}\sum_{i=1}^{N}(y_{i}-\bar{y})^2$ 是 $s^2$ 的无偏估计

${\color{Blue} proof:}$

【 $\Rightarrow1$ 】对于简单随机抽样， $v(\bar{y})=\frac{1-f}{n}s^2$ 是 $V(\bar{y})$ 的无偏估计

【 $\Rightarrow 2$ 】 $v(\hat{Y})=v(N\bar{y})=N^2\frac{1-f}{n}s^2$ 是 $V(\hat{Y})=N^2\frac{1-f}{n}s^2$ 的无偏估计

5.区间估计

由中心极限定理， $\small \frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}}\sim N(0,1)$ ， $\small P(\left |\frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}} \right |\leqslant u _{\frac{\alpha }{2}})=P(\left |\bar{y}-\bar{Y} \right |\leqslant u _{\frac{\alpha }{2}}\sqrt{V(\bar{y})})=1-\alpha$ 。总体均值的置信区间为 $\small \bar{y}-u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}\leqslant \bar{Y}\leqslant \bar{y}+u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}$ ，其中 $\small u_{\frac{\alpha }{2}}$ 是标准正态分布的上 $\small \frac{\alpha }{2}$ 分位数， $\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}$ 称为绝对误差限。用 $v(\bar{y})=\frac{1-f}{n}s^2$ 估计 $\small V(\bar{y})=\frac{1-f}{n}s^2$ ，因而 $\small \bar{Y}$ 的置信区间为 $\small \left [ \bar{y}-u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s, \bar{y}+u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s\right ]$ 。进行多次抽样后，根据各次的样本算得的置信区间包含总体均值 $\small \bar{Y}$ 的比例约为 $\small 1-\alpha$ 。 $\small 1-\alpha$ 称为置信水平或置信度，反应抽样调查的信度水平。绝对误差限 $\small d=u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s$ 为置信区间的半长。

$\small Var(\bar{y})$ 的估计： $\small var(\bar{y})=\frac{1-f}{n}s^2$ ， $\small Var(\bar{Y})$ 的估计： $\small var(\bar{Y})=N^2\frac{1-f}{n}s^2$ 。

$\small \bar{y}$ 的区间估计： $\small \left [ \bar{y}-u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s, \bar{y}+u_{\frac{\alpha }{2}}\sqrt{\frac{1-f}{n}}s\right ]$

$\small \hat{Y}$ 的区间估计： $\small \left [ N\bar{y}-u_{\frac{\alpha }{2}}N\sqrt{\frac{1-f}{n}}s, N\bar{y}+u_{\frac{\alpha }{2}}N\sqrt{\frac{1-f}{n}}s\right ]$

6.样本量的确定

（1）费用

$\small C=c_{0}+c_{1}n$ 。即总费用=固定费用+可变费用。固定费用包含设计费、分析费、办公费、管理费、场租费……； $\small c_{1}$ ，即平均调查一个样本单元的费用包括访问员费、交通费、礼品费、电话费……

（2）步骤

明确估计量的精度要求（绝对误差限 $\small d$ 或相对误差限 $\small r$ ）
找出样本量与精度之间的关系
估计所需的样本量数值，即求解 $\small n$
如超出预算，调整精度值重新计算样本量

（3）精度( $\small margin$ $\small of$ $\small error$ )

允许最大绝对误差（绝对误差限） $\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}$
以相对误差限 $\small r$ 来表示 $\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}$

$\small P(\left | \frac{\bar{y}-\bar{Y}}{\bar{Y}} \right |\leqslant r)=1-\alpha$ ， $\small P(\left | \frac{\bar{y}-\bar{Y}}{\sqrt{V(\bar{y})}} \right |\leqslant u_{\frac{\alpha }{2}})=1-\alpha \Rightarrow P(\left | \frac{\bar{y}-\bar{Y}}{\bar{Y}} \right |\leqslant \frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}})=1-\alpha$

绝对误差限与估计量标准差的关系为： $\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}=u_{\frac{\alpha }{2}}S(\bar{y})$
相对误差限与绝对误差限（估计量方差）的关系为： $\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}=u_{\frac{\alpha }{2}}\frac{\sqrt{V(\bar{y})}}{E\bar{y}}=u_{\frac{\alpha }{2}}C(\bar{y})$ 。 $\small E\bar{y}=\bar{Y}$ 在估计量无偏可以替换，其中 $\small C(\bar{y})$ 称为变异系数。

（4）估计总体均值时样本量的确定方法

按绝对误差限确定样本量

设在 $\small 1-\alpha$ 置信度下，给定绝对误差限为 $\small d=u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}$ ，即 $\small d^2={u_{\frac{\alpha }{2}}}^2\frac{1}{n}(1-\frac{n}{N})S^2$ ，得出 $\small n=\frac{{{u_{\frac{\alpha }{2}}}^2}S^2}{d^2+\frac{1}{N}{{u_{\frac{\alpha }{2}}}^2}S^2}=\frac{n_{0}}{1+\frac{n_{0}}{N}}$ ，N很大时， $\small n\approx n_{0}=\frac{{{u_{\frac{\alpha }{2}}}^2S^2}}{d^2}$ 。其中， $\small n_{0}$ 为有放回抽样或无限总体条件下达到该精度至少需要的样本量。

按相对误差限确定样本量

设在 $\small 1-\alpha$ 的置信度下，给定相对误差限为 $\small r=\frac{d}{\bar{Y}}=\frac{u_{\frac{\alpha }{2}}\sqrt{V(\bar{y})}}{\bar{Y}}$ ，平方得 $\small r^2{\bar{Y}}^2={{u_{\frac{\alpha }{2}}}^2}\frac{1}{n}(1-\frac{n}{N})S^2$ ，得出 $\small n=\frac{{{u_{\frac{\alpha }{2}}}^2S^2}}{r^2{\bar{Y}}^2+\frac{1}{N}{{u_{\frac{\alpha }{2}}}^2S^2}}$ ， $\small N$ 很大时， $\small n\approx \frac{{{u_{\frac{\alpha }{2}}}^2S^2}}{r^2{\bar{Y}}^2}$ 。

7.对总体比例的估计

估计具有某类特征的单元占总体单元数N中的比例P。

将总体单元按是否具有这种特征划分为两类，设总体中有A个单元具有这个特征，如果对每个单元都定义指标值 $\small Y_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.$ ，1表示第 $\small i$ 个单元具有所考虑的特征。 $\small P=\frac{A}{N}=\frac{1}{N}\sum_{i=1}^{N}Y_{i}=\bar{Y}$ 。

（1）总体比例的估计量

总体比例 $\small P=\frac{A}{N}=\frac{\sum_{i=1}^{N}Y_{i}}{N}$ 的估计量为样本比例 $\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}$ ，其中 $\small y_{i}=\left\{\begin{matrix} 1\\ 0 \end{matrix}\right.$ ，1表示第 $\small i$ 个单元具有所考虑的特征。

样本比例 $\small p$ 是总体比例 $\small P$ 的无偏估计。 $\small Ep=E\bar{y}=\bar{Y}=P$

（2）总体比例估计量的方差

总体比例的估计量 $\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}$ 的方差 $\small V(p)=\frac{PQ}{n}\frac{N-n}{N-1}$ 。

总体比例估计量 $\small p=\frac{a}{n}=\frac{\sum_{i=1}^{n}y_{i}}{n}$ 的方差 $\small V(p)=\frac{PQ}{n}\frac{N-n}{N-1}$ 用 $v(p)=\frac{1-f}{n-1}pq$ 估计。（抽样比很小时近似为 $\frac{pq}{n-1}$ ）

总体比例 $P$ 的区间估计为 $\left [ p-{u_{\frac{\alpha }{2}}\sqrt{\frac{(1-f)pq}{n-1}}} , p+{u_{\frac{\alpha }{2}}\sqrt{\frac{(1-f)pq}{n-1}}}\right ]$ 。

（3）估计总体比例时样本量的确定

当待估参数是 $P$ 时，估计量是 $p$ 。

给定 $p$ 的绝对误差限 $d$

$d^2={{u_{\frac{\alpha }{2}}}^2}V(p)={{u_{\frac{\alpha }{2}}}^2}\frac{PQ}{n}\frac{N-n}{N-1}$

$n(N-1)d^2={{u_{\frac{\alpha }{2}}}^2}PQN-{{u_{\frac{\alpha }{2}}}^2}PQn$

$n=\frac{{{u_{\frac{\alpha }{2}}}^2}PQN}{{{u_{\frac{\alpha }{2}}}^2}PQ+(N-1)d^2}=\frac{\frac{{u_{\frac{\alpha }{2}}}^2}{d^2}PQ}{1+\frac{1}{N}(\frac{{u_{\frac{\alpha }{2}}}^2PQ}{d^2}-1)}$

若 $n_{0}=\frac{{u_{\frac{\alpha }{2}}}^2}{d^2}PQ$ ，则 $n=\frac{n_{0}}{1+\frac{n_{0}-1}{N}}$

$n_{0}$ 为放回抽样或无限总体情形下达到该精度最少所需样本量

8.总体总值的简单估计

总体总值为总体均值的N倍，即 $Y=N\bar{Y}=\sum_{i=1}^{N}Y_{i}$ ，只要有了总体均值的估计结果，就可以很容易地推出总体总值的估计结果。

（1）总体总值的简单估计

N倍的样本均值是总体总值的简单估计量，即 $\hat{Y}=N\bar{y}=\frac{N}{n}\sum_{i=1}^{n}y_{i}$ 。

（2）总体总值简单估计量的性质

由于总体总值是总体均值的N倍，其简单估计量也是总体均值估计量的N倍，而N是固定常数，所以总体总值的简单估计量的性质由总体均值的简单估计量的性质来决定。

容易证明：

$E(\hat{Y})=E(N\bar{y})=NE(\bar{y})=N\bar{Y}=Y$

$V(\hat{Y})=N^2V(\bar{y})=\frac{N^2(1-f)}{n}S^2$ 的无偏估计为 $v(\hat{y})=N^2v(\bar{y})=\frac{N^2(1-f)}{n}s^2$

（3）估计总体总值时估计量的确定

$d=u_{\frac{\alpha }{2}}\sqrt{Var(\hat{Y})}=Nu_{\frac{\alpha }{2}}\sqrt{var(\bar{y})}$

$d^2=N^2{{u_{\frac{\alpha }{2}}}^2}var(\bar{y})=N^2{{u_{\frac{\alpha }{2}}}^2}(\frac{1}{n}-\frac{1}{N})s^2$

$n=\frac{{{u_{\frac{\alpha }{2}}}^2}s^2}{\frac{{u_{\frac{\alpha }{2}}}^2s^2}{N}+\frac{d^2}{N^2}}$

9.放回简单随机抽样的估计

现实中有许多情况下，抽样是放回的，即从总体中抽中的单元每次都要放回总体中去。例如在城市中对行人、车辆的调查等抽样都是有放回的，有可能重复抽中某些单位。

对于每次抽到的结果（视为随机变量） $y_{i}$ 都有

$E(y_{i})=\sum_{i=1}^{N}\frac{1}{N}Y_{i}=\bar{Y}$
$V(y_{i})=\sum_{i=1}^{N}\frac{1}{N}(Y_{i}-\bar{Y})^2=\sigma ^2$
方差 $Var(\bar{y})=\frac{1}{n}\sigma ^2$ （与无限总体情形下均值估计量方差结果相同）
样本方差 $s^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_{i}-\bar{y})^2$ 是无限总体方差 $\sigma ^2$ 的无偏估计量
方差 $V(\bar{y})$ 的一个无偏估计是 $v(\bar{y})=\frac{s^2}{n}$

10.设计效应（ $design$ $effect,deff$ ）

（1）定义

所采用抽样技术的参数估计量方差与相同样本量下简单随机抽样的参数估计量方差之比。

值越大，说明估计效率越低

（2） $deff$ 的作用

评价抽样设计的一个依据

如果 $deff<1$ ，则抽样设计比简单随机抽样的效率高

如果 $deff>1$ ，则抽样设计比简单随机抽样的效率低

计算样本量

如多阶段抽样的 $deff$ 大约在 $2\sim 2.5$ 之间。 $n=n^{'}(deff)$ ， $n^{'}$ 为简单随机抽样下满足估计量精度要求所需样本量。

（3）设计效应和样本量的确定

有放回抽样的方差： $V_{srswr}=\frac{N-1}{N}\frac{s^2}{n}$

不放回抽样的方差： $V_{srswr}=\frac{N-n}{N}\frac{s^2}{n}$

有放回抽样的设计效应： $deff=\frac{N-1}{N-n}>1$

所以，要满足一定的估计精度，采用放回简单随机抽样比采用不放回简单随机抽样需要更大的样本量。

$deff$ 常用于复杂抽样样本量的确定；在一定精度条件下，简单随机抽样所需的样本量 $n^{'}$ 比较容易得到。

所考虑的抽样设计的样本量=简单随机抽样时满足方差要求时的样本量* $deff$

$n=n^{'}*deff$

四、附表——抽样理论&数理统计的比较

	抽样理论	数理统计
假设	有限总体，样本之间不独立有 $\binom{N}{n}$ 种可能的样本	无限总体，样本之间独立，可取无限种可能的样本
符号	$\bar{y}$	$\bar{y}$
定义	$\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$	$\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$
期望	$E(\bar{y})=E(\frac{1}{n}\sum_{i=1}^{n})=\frac{1}{n}\sum_{i=1}^{n}E(y_{i})=\frac{1}{n}[n\mu ]=\mu$	$E(\bar{y})=E(\frac{1}{n}\sum_{i=1}^{n})=\frac{1}{n}\sum_{i=1}^{n}E(y_{i})=\frac{1}{n}[n\mu ]=\mu$
方差	$V(\bar{y})=\frac{1-f}{n}S^2$	$V(\bar{y})=E[\bar{y}_{i}-\mu ]=E[\frac{1}{n}\sum_{i=1}^{n}-\mu ]=\frac{1}{n}{E(y_{i}-\mu )}^2=\frac{\sigma ^2}{n}$

抽样

理论

数理

统计

相同之处

不同之处

定义

都是根据从一个总体中

抽样得到的样本，然后

定义样本均值为：

$\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$

抽样理论中样本是从有限总体中按不放回的抽样方法得到的，样本中的样本点不会重复；

数理统计中的样本是从无限总体中利用有放回的抽样方法得到的，样本点有可能是重复的。

性质

(1)样本均值的期望都等于总体均值，也就是抽样理论和数理统计中的样本均值都是无偏估计

(2)不论总体原来是何种分布，在样本量足够大的条件下，样本均值近似服从正态分布

(1)抽样理论中，各个样本之间是不独立的；数理统计中的各个样本之间是相互独立的

(2)抽样理论中的样本均值的方差为 $V(\bar{y})=\frac{1-f}{n}S^2$ ，其中 $S^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_{i}-\bar{Y})^2=\frac{N}{N-1}\sigma ^2$

(3)数理统计中样本均值的方差为 $\frac{\sigma ^2}{n}$ ，其中 $\sigma ^2=\frac{1}{N}\sum_{i=1}^{N}(Y_{i}-\bar{Y})^2$

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

抽样技术

数据分析