第八章整群抽样 设想国家教育部想了解上海中学生的体质状况,抽样调 查是既省钱支省时的苏法,显然上海地区的中学生均是总体 的单元,从全体学生中随机无放回地抽取若干样本是理想的 概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦 事,况且一个合理的有代表性的样本一般应该遍布全市,在 对如此分散的中学生样本逐个进行访问,其工作量之大可想 而知。一个方便的方法是在上海地区按学校抽样,在抽得的 几所学校中对该校所有中学生进行普遍调查。这就是本章要 讲述的整群抽样。 若总体可分为N个初级单元(称为群),每个初级单 元包含若干次级单元。按照某种方式从总体中抽取n个初级 单元,对这些单元中的所有次级单元全部进行调查。这种抽 样方法称为整群抽样
设想国家教育部想了解上海中学生的体质状况,抽样调 查是既省钱又省时的办法,显然上海地区的中学生均是总体 的单元,从全体学生中随机无放回地抽取若干样本是理想的 概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦 事,况且一个合理的有代表性的样本一般应该遍布全市,在 对如此分散的中学生样本逐个进行访问,其工作量之大可想 而知。一个方便的方法是在上海地区按学校抽样,在抽得的 几所学校中对该校所有中学生进行普遍调查。这就是本章要 讲述的整群抽样。 第八章 整群抽样 若总体可分为 N个初级单元(称为群),每个初级单 元包含若干次级单元。按照某种方式从总体中抽取 n个初级 单元,对这些单元中的所有次级单元全部进行调查。这种抽 样方法称为整群抽样
在实际工作中,整群抽样方法被广泛采用。例如,在社 会经济调查中的人口调查、家计调查、农林牧业调查以及工 业产品质量检验等等都经常采用整群抽样调查。 采用整群抽样调查的原因有二。其一是在某些情况下, 往往由于不适合采用一个个地抽取样本单位,不得不采用整 群抽样。例如,某些工业产品的质量检验,事实上不能逐个 抽取样本单位来进行,只能在某一时间内,成批地抽取产品 来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的 考虑也会选择整群抽样。例如,职工家庭生活水平调查中, 如果不是以居委会为群进行整群抽样调查,而是以居民户为 单位抽样,这些被抽到的居民户一般分散地居住,必然增加 交通费、延长调查时间等。所以出于对工作时间、经费等客 观条件的考虑,也得采用整群抽样调查
在实际工作中,整群抽样方法被广泛采用。例如,在社 会经济调查中的人口调查、家计调查、农林牧业调查以及工 业产品质量检验等等都经常采用整群抽样调查。 采用整群抽样调查的原因有二。其一是在某些情况下, 往往由于不适合采用一个个地抽取样本单位,不得不采用整 群抽样。例如,某些工业产品的质量检验,事实上不能逐个 抽取样本单位来进行,只能在某一时间内,成批地抽取产品 来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的 考虑也会选择整群抽样。例如,职工家庭生活水平调查中, 如果不是以居委会为群进行整群抽样调查,而是以居民户为 单位抽样,这些被抽到的居民户一般分散地居住,必然增加 交通费、延长调查时间等。所以出于对工作时间、经费等客 观条件的考虑,也得采用整群抽样调查
整群抽样作为一种抽样组织形式,具有以下的优点 1、调查单位比较集中,进行调查比较方便,可以减少 调查人员来往于调查单位之间的时间和费用。例如,在进行 农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五 的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。 2、设计和组织抽样比较方便。例如,调查农村居民住 户,不必列出农村所有居民住户的抽样框,可以利用现成的 行政区域,如县、乡、村,将农村划分为若干群,这给抽样 设计方案带来很大方便。尤其是对那些无法事先掌握总体单 位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些
整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少 调查人员来往于调查单位之间的时间和费用。例如,在进行 农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五 的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。 2、设计和组织抽样比较方便。例如,调查农村居民住 户,不必列出农村所有居民住户的抽样框,可以利用现成的 行政区域,如县、乡、村,将农村划分为若干群,这给抽样 设计方案带来很大方便。尤其是对那些无法事先掌握总体单 位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些
例如,在一个有500个村庄、10000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于100但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000分布 均匀,代表性一般要差一些,抽样误差较大。 当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异
当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异。 例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大
倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素。 §1群大小相等的整群抽桿 首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。 首先引进一些必要的记号: 表示第i群中第j个次级单元 =1,2,…,N;j=1,2, yn-表示样本中第i群中第J个次级单元的观测值 i=1,2,…,B;=1,2,…,M
倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素。 §1 群大小相等的整群抽样 首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。 首先引进一些必要的记号: Yij ——表示第 群中第 个次级单元 i N j M = = 1,2, , ; 1,2, , i j ij y ——表示样本中第 群中第 个次级单元的观测值 i n j M = = 1,2, , ; 1,2, , i j
1=∑-第群总和Y=Y/M第i群平均值 N M F=M>>一总体平均值 S2=M-1220-)一总体差异平方和 M N-1 ∑(1-1)2-群间差异平方和 ∑∑(-)2群内差异平方和 "N(M-1)台台 将Y改为y,则为相应的样本指标值
1 M i ij j Y Y = = —第 i 群总和 Y Y M i i = —第 i 群平均值 1 1 1 N M ij i j Y Y NM = = = —总体平均值 2 2 1 1 1 ( ) 1 N M ij i j S Y Y NM = = = − − —总体差异平方和 2 2 1 ( ) 1 N b i i M S Y Y N = = − − —群间差异平方和 2 2 1 1 1 ( ) ( 1) N M w ij i i j S Y Y N M = = = − − —群内差异平方和 将Y 改为y ,则为相应的样本指标值
它们之间的关系为: S (N-1)2+N(M-1)S2l(8.1) M-1 将Y改为y,n代替N,由于是整群抽样,M仍为M,不难 得到样本方差平方和的关系式: (n-1)b+n(M-1)l (82) mM-1 S可作为S2的估计,但不是无偏估计。这是因为次级单元是 在抽到的群内普查,此时样本不是简单随机的。 由于群的选取是简单随机的,因此S与52分别是Sb与S2的 无偏估计,于是得到S2的无偏估计为: M、y(N-1)2+NM-1)s2l(a 8.3)
它们之间的关系为: 2 2 2 1 [( 1) ( 1) ] 1 S N S N M S b w NM = − + − − (8.1) 将 改为 , 代替 ,由于是整群抽样, 仍为 ,不难 得到样本方差平方和的关系式: Y y n N M M 2 2 2 1 [( 1) ( 1) ] 1 b w s n s n M s nM = − + − − (8.2) 可作为 的估计,但不是无偏估计。这是因为次级单元是 在抽到的群内普查,此时样本不是简单随机的。 2 s 2 S 由于群的选取是简单随机的,因此 与 分别是 与 的 无偏估计,于是得到 的无偏估计为: 2 b s 2 w s 2 Sb 2 Sw 2 S 2 2 2 1 ˆ [( 1) ( 1) ] 1 S N s N M s b w NM = − + − − (8.3)
当N相当大时,该估计可近似写为: 2Sb+(M-1) (8.4) M 从(8.2)式可知,若n也足够大的话,S也可写成(8.4形式, 此时,s就可以看作是S2的近似无偏估计了。 再引进一个群内相关的记号,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个P有关。P的定义为: EC-rCikY EVA (8.5)
2 2 2 ( 1) ˆ b w s M s S M + − (8.4) 当 N 相当大时,该估计可近似写为: 从(8.2)式可知,若n 也足够大的话, 也可写成(8.4)形式, 此时, 就可以看作是 的近似无偏估计了。 2 s 2 S 2 s 再引进一个群内相关的记号 ,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个 有关。 的定义为: c c c 2 ( )( ) ( ) ij ik c ij E Y Y Y Y E Y Y − − = − (8.5)
具体计算得 2∑∑(-Y)(Vk-万) i=l j<k (8.6) ++,(M-D)(M1)S2 -(a2+b2)≤2mb≤(a2+b2) 计算可得-1≤p≤1,p在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 用群内方差S2与群间方差2来表示: 1+(M-1)0= M(N-1)S2 (MM-1)s2 (8.7) 当N足够大时,近似有 p≈(S2-s2)/(M-1s2 (8.8)
具体计算得 1 2 2 ( )( ) ( 1)( 1) M M ij ik i j k c Y Y Y Y M NM S = − − = − − (8.6) 2 2 2 2 − + + ( ) 2 ( ) a b ab a b 计算可得 , 在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 用群内方差 与群间方差 来表示: 1 1 − c c 2 Sb 2 Sw 2 2 ( 1) 1 ( 1) ( 1) b c M N S M NM S − + − = − (8.7) 当N足够大时,近似有 2 2 2 ( ) ( 1) c b − − S S M S (8.8)
又S2= (MM-1)(-p)S2 (8.9) MN 当N足够大时,近似有 P ≈1一 8.10) 2 由(8.8)以及(8.10)可得P的估计 (8.11) +(M-1)s 由(81)可以发现,考虑N相当大时,当P2≈0,Sb与S 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果P≤0,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差
当N足够大时,近似有 又 2 2 ( 1)(1 ) c w NM S S MN − − = (8.9) 2 2 1 w c S S − (8.10) 由(8.8)以及(8.10)可得 c 的估计 2 2 2 2 ˆ ( 1) b w c b w s s s M s − + − (8.11) 由(8.11)也可以发现,考虑N相当大时,当 , 与 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果 ,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差! 0 c 2 Sb 2 Sw 0 c