第九章二阶与多阶抽样 在整群抽样中,如果抽中的群内所含的次级单元个数相 当地多,此时对该群作普查会感到“心有奈而力不足”。特 别当群内的次级单元差异不大,即比较大,这种情形下 对群内所有的次级单元一一访问似乎完全没有必要,一个省 时省钱又省力的念头会在调查者的头脑中油然而生,何不在 抽到的群内再作一定方式的抽样呢?这种在选中的初级单元 中再进行抽样的方法称为二阶抽样。倘若在抽取的次级单元 中又包含许多更次一级的单元,在这些单元中继续抽样就自 然地称为三阶抽样。 二阶抽样与分层抽样、整群抽样的一个共同特点是:将 总体分为若干个群;所不同的是:分层抽样是每个群内都进 行抽样,整群抽样是抽若干个群再在群内普査,而二阶抽样 则是抽若干个群再在群内抽样。因此,可将分层抽样与整群 抽样看作是二阶抽样的特殊情况
第九章 二阶与多阶抽样 二阶抽样与分层抽样、整群抽样的一个共同特点是:将 总体分为若干个群;所不同的是:分层抽样是每个群内都进 行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样 则是抽若干个群再在群内抽样。因此,可将分层抽样与整群 抽样看作是二阶抽样的特殊情况。 在整群抽样中,如果抽中的群内所含的次级单元个数相 当地多,此时对该群作普查会感到“心有余而力不足”。特 别当群内的次级单元差异不大,即 比较大,这种情形下 对群内所有的次级单元一一访问似乎完全没有必要,一个省 时省钱又省力的念头会在调查者的头脑中油然而生,何不在 抽到的群内再作一定方式的抽样呢?这种在选中的初级单元 中再进行抽样的方法称为二阶抽样。倘若在抽取的次级单元 中又包含许多更次一级的单元,在这些单元中继续抽样就自 然地称为三阶抽样。 c
抽样形式第一阶段第二阶段 分层抽样 抽全部 抽部分 整群抽样 抽部分 抽全部 二阶抽样 抽部分 抽部分 二阶与多阶抽样的优点 、它具有实施上的方便,比如在编制抽样框时那些没有被 抽到的群或次一级群内的单元就没有必要也去编制抽样框。 仅需对那些已抽中的单元才去准备下一级单元的抽样框,而 且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽 样本身创造了有利的条件
抽样形式 第一阶段 第二阶段 分层抽样 整群抽样 二阶抽样 抽全部 抽部分 抽部分 抽全部 抽部分 抽部分 二阶与多阶抽样的优点: 1、它具有实施上的方便,比如在编制抽样框时那些没有被 抽到的群或次一级群内的单元就没有必要也去编制抽样框。 仅需对那些已抽中的单元才去准备下一级单元的抽样框,而 且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽 样本身创造了有利的条件
2、能够满足各级政府部门对抽样调查资料的需求。因为各 级政府领导都关心全国和本地区、本部门的社会经济发展状 况,希望抽样调查能同时满足全国性和地方性的需要。因而 采用二阶或多阶抽样,在一定程度上能够满足各级政府、部 门对调查资料的需求。 3、有利于减少抽样误差、提高抽样估计精度。这种抽样调査 方法,可以使每个一阶样本单位分布比较均匀,具有很好的 代表性;对于方差大的阶段多抽些样本单位以提高精度。 另外,多阶抽样方法可以用到关于散料的抽样。所谓散 料是指连续松散的不易区分为个体或抽样单元的材料。例如 ,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元 常常需要人为划分,一般取自然单位,诸如一公斤、一杯子 等;而初级单元则为包装袋、一卡车、一个车皮等。这种数 量众多的散料的质量检测采用二阶或多阶抽样也许是最有效 的手段。为方便,本章主要讨论二阶抽样
另外,多阶抽样方法可以用到关于散料的抽样。所谓散 料是指连续松散的不易区分为个体或抽样单元的材料。例如 ,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元 常常需要人为划分,一般取自然单位,诸如一公斤、一杯子 等;而初级单元则为包装袋、一卡车、一个车皮等。这种数 量众多的散料的质量检测采用二阶或多阶抽样也许是最有效 的手段。为方便,本章主要讨论二阶抽样。 2、能够满足各级政府部门对抽样调查资料的需求。因为各 级政府领导都关心全国和本地区、本部门的社会经济发展状 况,希望抽样调查能同时满足全国性和地方性的需要。因而 采用二阶或多阶抽样,在一定程度上能够满足各级政府、部 门对调查资料的需求。 3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查 方法,可以使每个一阶样本单位分布比较均匀,具有很好的 代表性;对于方差大的阶段多抽些样本单位以提高精度
§1初级单元大小相等的二阶抛样 先作一些基本假设: (1)初级单元中包含的次级单元个数同为M,因此在 抽中的初级单元中再抽取的次级单元个数也相等,记为m。 (2)两个阶段的抽样方法都是简单随机抽样 (3)在抽中的若干初级单元中作第二阶抽样是相互独 立进行的。 再引进一些必要的记号: y—表示第初级单元中第J个次级单元 i=1,2,…,NV;j=1,2,…,M yz表示样本中第初级单元中第j个次级单元的观测值 i=1,2 n,J ··mt
先作一些基本假设: (1)初级单元中包含的次级单元个数同为 M,因此在 抽中的初级单元中再抽取的次级单元个数也相等,记为 m。 §1 初级单元大小相等的二阶抽样 (2)两个阶段的抽样方法都是简单随机抽样。 (3)在抽中的若干初级单元中作第二阶抽样是相互独 立进行的。 再引进一些必要的记号: Yij ——表示第 初级单元中第 个次级单元 i N j M = = 1,2, , ; 1,2, , i j ij y ——表示样本中第 初级单元中第 个次级单元的观测值 i n j m = = 1,2, , ; 1,2, , i j
r1=∑Y—第i初级单元总和 =立/M一第初级单元平均值 F=∑∑V N ∑F一总体平均值 i=1 1 S= N-1 ∑(1-Y)2一总体中初级单元群间方差 N M S2 ∑∑(x-1)2初级单元(群内的方差 N(M-1i=i= 将Y改为y,N改为n,M改为m,则为相应的样本指标值
1 M i ij j Y Y = = —第 i 初级单元总和 Y Y M i i = —第 i 初级单元平均值 1 1 1 1 1 N M N ij i i j i Y Y Y NM N = = = = = —总体平均值 2 2 2 1 1 1 ( ) ( 1) N M ij i i j S Y Y N M = = = − − —初级单元(群)内的方差 2 2 1 1 1 ( ) 1 N i i S Y Y N = = − − —总体中初级单元(群)间方差 将 Y 改为 y ,N改为n,M改为m,则为相应的样本指标值
第i群内次级单元间的方差记为: 1 M-1 ∑(G=F2-+-+-+- 显然有S2=∑s2—所有S2的平均数 = 1、估计量及其方差 总体平均数Y的估计是用样本平均数进行估计的 节=∑=二∑∑ n i=1j=1 容易证明,这个估计量y是Y的无偏估计
第 i 群内次级单元间的方差记为: 2 2 2 1 1 ( ) 1 M i ij i j S Y Y M = = − − 显然有 ——所有 的平均数。 2 2 2 2 1 1 N i i S S N = = 2 S2i 1、估计量及其方差 总体平均数 Y 的估计是用样本平均数进行估计的 1 1 1 1 1 n n m i ij i i j y y y n nm = = = = = 容易证明,这个估计量 y 是 Y 的无偏估计
其方差为: Var(y) fi S2+= 1 十 (9.1) 1心 nnn 其左n,,+fM*-+一 方差的无偏估计为: 1-f1 v(y)= f1(1-f2) S (92) 总体平均数95%的置信区间为 -1.96×√叭(),+196×v( 总体总数产的估计为:j=MM…y 方差的无偏估计为:vj)=(MM)2·v() 总体总数95%的置信区间为 (-196×(),+196X√)
其方差为: 1 2 2 2 1 2 1 1 ( ) f f Var y S S n nm − − = + (9.1) 其中 1 , n f N = 2 m f M = 方差的无偏估计为: 1 1 2 2 2 1 2 1 (1 ) ( ) f f f v y s s n nm − − = + (9.2) 总体总数 Y 的估计为: y NM y = 方差的无偏估计为: 2 v y NM v y ( ) ( ) ( ) = 总体平均数95%的置信区间为 ( 1.96 ( ) , 1.96 ( )) y v y y v y − + 总体总数95%的置信区间为 ( 1.96 ( ) , 1.96 ( )) y v y y v y − +
例91:新华书店某柜台上月共用去发票70本,每本100张, 现随机从中抽出10本,每本随机抽出15张发票,得到数据 如下表:给出上月柜台营业总额的估计及其方差。 ∑y 1375.2511280.25 25.02 135.02 2408301211599 27.22 71.58 3323.40 8752.76 21.56 127.16 4502.501783375 33.50 71.43 5234.003953.00 15.60 21.61 638775102.50 25.85 97.37 284.20 6573.04 18.95 84.75 8256.60482236 17.11 30.79 9314.10 6921.01 20.94 24.55 10280.50 5827.25 18.70 41.56
例9.1:新华书店某柜台上月共用去发票70本,每本100张, 现随机从中抽出10本,每本随机抽出15张发票,得到数据 如下表:给出上月柜台营业总额的估计及其方差。 i 15 1 ij j y = 1 2 3 4 5 6 7 8 9 10 375.25 408.30 323.40 502.50 234.00 387.75 284.20 256.60 314.10 280.50 15 2 1 ij j y = 11280.25 12115.99 8752.76 17833.75 3953.00 11302.50 6573.04 4822.36 6921.01 5827.25 25.02 27.22 21.56 33.50 15.60 25.85 18.95 17.11 20.94 18.70 135.02 71.58 127.16 71.43 21.61 97.37 84.75 30.79 24.55 41.56 i y 2 2i s
解:N-70,n=10,M=100,m-15f=f2=0.15 1 1 nm i=1 j=1 10×1 10×15 37525+…+280.50]=22444 j=MM…j=70×100×22.444=157108 故上月柜台营业总额的估计为15710800元 =n120形=29721208 )=1hs2+(=2=2.61 nn
解:N=70,n=10,M=100,m=15 10 15 1 1 1 1 1 1 10 15 n m ij ij i j i j y y y nm = = = = = = 1 [375.25 280.50] 22.444 10 15 = + + = 1 1 7 f = f 2 = 0.15 y NM y = = = 70 100 22.444 157108 故上月柜台营业总额的估计为157108.00元 2 2 1 1 1 ( ) 29.76 1 n i i s y y n = = − = − 2 2 2 2 1 1 70.58 n i i s s n = = = 1 1 2 2 2 1 2 1 (1 ) ( ) 2.61 f f f v y s s n nm − − = + =
v(j)=(MM)2w()=(70×100)2×2.61 标准差为()=70×100×261=11308.85元 营业总额95%的置信区间为 (-196×(),+196×√) =(13494265,17927335)
标准差为 v y( ) 70 100 2.61 11308.85 = = 元 营业总额95%的置信区间为 2 2 v y NM v y ( ) ( ) ( ) (70 100) 2.61 = = ( 1.96 ( ) , 1.96 ( )) y v y y v y − + = (134942.65 , 179273.35)