本章讨论简单随机抽样和分层随机抽样下比率估计和回归估 计的构造及性质。要求:
①掌握总体比率、比率估计量及回归估计量的概念。
②了解比率估计量、回归估计量的偏倚、方差及方差的估计量。
③掌握应用比率估计量及回归估计量的条件。
抽样调查从本质上看是利用不完整的并且带有随机干扰的信息 给出总体目标量的估计。在实际问题中,我们在抽样调查之前对总 体及调查单位往往不是一无所知的,而是事先掌握某些可以利用的 总体辅助信息。这些辅助信息对提高估计精度有积极作用,如不充分利用必将造成信息资源的浪费。基于这种考虑利用已知的辅助变量信息构造比率估计量就可使估计精度加以改进。
前两章讨论了只涉及一个调查变量的总体指标(总体目标量)的估计问题,但在许多实际问题中常常会涉及到两个调查变量(指标)Y和X。除了要对
进行估计外,还常常要估计两个变量的总体总值或总体均值之比,称为总体比率。
定义:总体比率指两个变量的总体总值或总体均值之比,令R为总体比率,则R
需要应用比率估计的情况
(1) 利用双变量样本对总体比率进行估计需应用比率估计量,此时两个变量均为调查变量。
(2) 一个变量为调查变量,另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总值、总体均值等目标量进行估计时,利用已知的辅助变量信息构造比率估计量可以改进估计的精度。
一、比率估计量
定义: (总体比率R的比率估计)在简单随机抽样下,若分别以y, x表示样本总值,以
表示样本均值,以
表示样本比率,则
称为R的比率估计。
定义:(总体均值、总体总值的比率估计)在简单随机抽样下,若X是与Y高度相关的辅助变量,且总体均值
或总体总值X已知,则
分别称为总体均值
、总体总值
的比率估计量。
复杂估计量与简单估计量的比较
前两章所讨论的估计量都是只使用调查变量样本信息的线性估计量,称为简单估计量。
比率估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂估计量。
由于比率估计量使用的信息比简单估计量多,因而有可能比简单估计量有更高的精度。
二、比率估计量的偏差与方差
比率估计量的偏差
比率估计量是有偏估计量,样本量比较大时,
,
分别为
的近似无偏估计量。
比率估计量的方差
结论
比率估计量的方差主要取决于
与
之间的差异,当差异很小时,估计量方差将很小。换言之,比率估计量将有很高的精度。这告诉我们,只有当两个变量大致成正比例关系时,应用比率估计量才能使估计精度有较大改进。
三、比率估计量方差的估计与置信区间
比率估计量方差的估计
比率估计量的置信区间
对于一般的n,比率估计量呈右偏分布。但当n>30,
,
,可以用正态分布构造置信区间。
R的置信区间为
其中
是标准正态分布的上α/2上侧分位点,0<α<1。类似可得
与
Y的置信区间
解:要估计的是总体比率R。
即该地区人均每天食品支出7.33元, 区间估计为[6.28, 8.38]元。
四、比率估计量优于简单估计量的条件
比率估计量
的方差为
简单估计量
的方差为
两者比较可知,
的条件是
,即
结论
并非任何情况下比率估计量都优于简单估计量,只有当调查变量与辅助变量有较高的正相关性时,比率估计量才能使估计精度有较大提高。若
,则
>0.5时比率估计量就比简单估计量精度高。
五、多元比率估计
对于调查变量Y,若有p个具有正相关性的辅助变量
,则可构造多元比率估计。
设
是
的基于第k个辅助变量的比率估计,则
的多元比率估计量为
其中
是相应变量的样本总值,
是辅助变量总体均值,
是适当选取的权,满足
例2:为精确地估计某地区皮棉总产量,在该地区301个村庄中简单随机抽取18个村庄,在调查皮棉产量
的同时记录了皮棉种植面积
和良种比例
。
该地区皮棉种植总面积为
=7450公顷,采用良种的平均比例为
=40.10%。对调查数据经过计算得如下结果:
=13.7987,
=24.43899,
=38.4444,
=35.4858,
=74.6789187,
=174.9671,
=42.26167,
=46.5118。 现以种植面积和良种比例为辅助变量对皮棉产量进行比率估计。
解:先考虑一元比率估计,即只以种植面积或只以良种比例为辅助变量。得:
再考虑二元比率估计。
由此可见,二元比率估计比两个一元比率估计精度都高,这是由于它 使用了更多的正相关性辅助信息的缘故。
六、乘积估计
当辅助变量X与调查变量Y呈负相关关系时,不能应用比率估计而应改用乘积估计,
乘积估计优于简单估计的条件是
此时,
。
一、定义
当调查变量与辅助变量有大致正比例关系时,可采用比率估计量来估计
(或Y )当
与
的回归直线不通过原点时,
与
不成正比例关系比率估计不能使用,应改用回归估计。
定义:在简单随机抽样下,总体均值
和总体总值Y的回归估计量定义为
其中
分别为调查变量、辅助变量的样本均值,
是辅助变量的总体均值,β称为回归系数。
当
与
具有线性回归关系
时,可得
的经验回归值为:
其中b是回归系数β的估计量.回归值的均值为:
因此用
估计
就是用
的回归值的均值对
进行估计。
回归估计与简单估计、比率估计的关系
(1) 当β=0时,
=
,即为简单估计量;
(2)当β=
时,
,即为比率估计量。
结论:简单估计量和比率估计量可视为回归估计量的特例。
二、β为设定常数情形
设
是设定常数,取
则回归估计量
回归估计
的性质
(1)
是
的无偏估计;
(2)
的方差为
(3)
的一个无偏估计是:
如何设定
的值
取值不同会影响
的方差。
的方差公式中
是关于
的非负二次函数,故
时,
达到最小值,且最小值为
B称为有限总体回归系数
三、β取样本回归系数情形
若β需根据样本确定,一个合理的选择是取β为样本回归系数
此时
的回归估计量
为一复杂估计量,不再具有无偏性。
回归估计
的性质
(1)当n充分大时,
(2)
的方差为
(3)
的方差的近似估计为
四、回归估计与比率估计及简单估计的大样本比较
回归估计与简单估计比较
当样本量n大时,回归估计
的近似方差为
简单估计
的方差为
由于0≤ρ≤1,因此对于大的样本量n,总有
,就是说在大样本下回归估计总是优于简单估计,仅在
时两者效果相同。
回归估计与比率估计比较
当样本量n大时,回归估计
的方差为
比率估计
的方差为
的充分必要条件为
因此对于大的样本量n,总有
,就是说在大样本下回归估计总是优于比率估计,仅在y关于x的总体回归系数B等于总体比率R时,两者效果相同。
例1:某地区有规模以下工业企业127个,共有固定资产价值6794.5万元,从中随机抽取20个企业调查工业产值及固定资产价值,资料如下表所示。试估计该地区规模以下工业总产值及其抽样标准误。
解:(1)由调查资料直观可以看出,工业产值
与固定资产价值
有线性相关关系,故可采用回归估计量对工业产值进行估计。
故该地区规模以下工业总产值的回归估计为
其抽样标准误的估计为
(2)若采用简单估计,则规模以下工业总产值的估计为
(3)若采用比率估计,则规模以下工业总产值的估计为
可见回归估计的精度比简单估计和比率估计都高
一、分别比率估计与联合比率估计
构造分层比率估计时有两种可行方法:
(1) 对每层样本构造比率估计,然后通过加权或求和给出总体均值或总值的估计量,称为分别比率估计量;
(2) 对两个指标的总体均值分别求出分层估计,然后用它们构造比率估计,称为联合比率估计量。
分别比率估计
定义:设
是第h层的样本均值,
分别为第h层调查指标均值
及总值
的比率估计,
及
分别是第h层辅助指标均值和总值,则
及Y 的分别比率估计量分别为:
性质:
(1)近似无偏性:当每层样本量
都比较大时,
都是近似无偏估计,从而
也是近似无偏估计。
(2)估计量的方差
其中
是第h层抽样比,
分别为总体第h层方差、相关系数及比率。
联合比率估计
定义:利用分层随机样本首先给出两个变量总体均值
及
的分层样本估计量,即
然后求联合比率
,再给出总体目标量的估计量。即
性质:
(1) 近似无偏性:当总样本量n比较大时,
是近似无偏估计。
(2)估计量的方差
其中R为总体比率。
二、分别回归估计与联合回归估计
分别回归估计
定义:在分层随机抽样下,总体均值
及总体总值Y的分别回归估计量为:
性质:
(1) 无偏性:当各层回归系数
取设定值时,
是无偏估计;当各层回归系数需由样本估计时,
是近似无偏估计。
(2)估计量的方差
当
取设定值时,
当
取估计值时,
联合回归估计
性质:
(1) 当回归系数β事先设定时,
分别为总体均值
与总体总值Y的无偏估计,且
的方 差为
(2)当回归系数β需由样本估计时,取为
此时,
是总体均值Y的有偏估计,其近似方差为
三、各种估计量的比较
分别比率估计和分别回归估计必须使用总体各层的辅助变量均值或总
值的信息,而联合比率估计和联合回归估计不要求使用总体各层的辅助变
量信息,只要求使用总体的辅助变量均值或总值的信息,分别估计量比联
合估计量对总体信息的使用更详细一些。
结论:
(1) 当各层样本量都比较大时,分别比率估计精度比联合比率估计高,分
别回归估计精度比联合回归估计高;
(2) 当各层样本量较小时,分别比率估计、分别回归估计将有较大偏差,
从而均方误差比较大。此时如果总样本量比较大,则采用联合比率估计、
联合回归估计更好一些。