《抽样调查理论与方法》课程教学资源（PPT课件讲稿）第八章整群抽样 §1 群大小相等的整群抽样 §2 群大小不等的整群抽样

设想国家教育部想了解上海中学生的体质状况,抽样调查是既省钱又省时的办法,显然上海地区的中学生均是总体的单元,从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦事,况且一个合理的有代表性的样本一般应该遍布全市,在对如此分散的中学生样本逐个进行访问,其工作量之大可想而知。一个方便的方法是在上海地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查。

团购合买资源类别：文库，文档格式：PPT，文档页数：29，文件大小：994.5KB

第八章整群抽样设想国家教育部想了解上海中学生的体质状况,抽样调查是既省钱支省时的办法,显然上海地区的中亭生均是总体的单元,从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦事,况且一个合理的有代表性的样本一般应该遍布全市,在对如此分散的中学生样本逐个进行访问,其工作量之大可想而知。一个方便的方法是在上海地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。若总体可分为N个初级单元(称为群),每个初级单元包含若干次级单元。按照某种方式从总体中抽取n个初级单元,对这些单元中的所有次级单元全部进行调查。这种抽样方法称为整群抽样

设想国家教育部想了解上海中学生的体质状况，抽样调查是既省钱又省时的办法，显然上海地区的中学生均是总体的单元，从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法，但是编制全体中学生的抽样框本身是件麻烦事，况且一个合理的有代表性的样本一般应该遍布全市，在对如此分散的中学生样本逐个进行访问，其工作量之大可想而知。一个方便的方法是在上海地区按学校抽样，在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。第八章整群抽样若总体可分为 N个初级单元（称为群），每个初级单元包含若干次级单元。按照某种方式从总体中抽取 n个初级单元，对这些单元中的所有次级单元全部进行调查。这种抽样方法称为整群抽样

在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。采用整群抽样调査的原因有二。其一是在某些情况下, 往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中, 如果不是以居委会为群进行整群抽样调査,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑,也得采用整群抽样调查

在实际工作中，整群抽样方法被广泛采用。例如，在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。采用整群抽样调查的原因有二。其一是在某些情况下，往往由于不适合采用一个个地抽取样本单位，不得不采用整群抽样。例如，某些工业产品的质量检验，事实上不能逐个抽取样本单位来进行，只能在某一时间内，成批地抽取产品来检验。其二，即使抽样调查能够一个个地取样，但由于经济的考虑也会选择整群抽样。例如，职工家庭生活水平调查中，如果不是以居委会为群进行整群抽样调查，而是以居民户为单位抽样，这些被抽到的居民户一般分散地居住，必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑，也得采用整群抽样调查

整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少调套人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。 2、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更为合适。然而,整群抽样由于调查单位只能集中在若干群上,而不能均匀分布在总体的各个部分,因此,它的精度比起简单随机抽样来要低一些

整群抽样作为一种抽样组织形式，具有以下的优点： 1、调查单位比较集中，进行调查比较方便，可以减少调查人员来往于调查单位之间的时间和费用。例如，在进行农村居民户收入情况调查时，在一个县抽千分之五的村庄，对其所有居民户进行调查，明显地比从全县直接抽千分之五的农户进行调查，更便于组织，节省人力、旅途往返时间及费用。 2、设计和组织抽样比较方便。例如，调查农村居民住户，不必列出农村所有居民住户的抽样框，可以利用现成的行政区域，如县、乡、村，将农村划分为若干群，这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体，采用整群抽样更为合适。然而，整群抽样由于调查单位只能集中在若干群上，而不能均匀分布在总体的各个部分，因此，它的精度比起简单随机抽样来要低一些

例如,在一个有500个村庄、10000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布均匀,代表性一般要差一些,抽样误差较大。当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元之间的差异应当大(注意:这一点与分层抽样中总体内层的划分有着极大的差别),这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元,例如本章开头所说的各所中学它们互相之间关于学生的体质很相似,但在一个学校里每个学生之间有一定的差异

当然我们可以通过多抽几个群来弥补这一缺陷，但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性，应当使群与群之间尽可能地差异小，而群内单元之间的差异应当大（注意：这一点与分层抽样中总体内层的划分有着极大的差别），这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处，那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群，每个群的规模大小如何又是一个新问题，通常我们面临的总体会有自然的初级单元，例如本章开头所说的各所中学它们互相之间关于学生的体质很相似，但在一个学校里每个学生之间有一定的差异。例如，在一个有500个村庄、100000个农户的县，抽取 1％的农户就是1000户，而抽1％的村庄则只有5个村庄，也许抽到的5个村庄农户多于1000，但由于样本单位只集中在 5个村庄，显然不如在全县范围内简单随机抽取1000户分布均匀，代表性一般要差一些，抽样误差较大

倘若需要我们自行划分群,一般还要考虑到组织管理上的方便、精度上的要求以及费用的多少等等因素 §1群大小相等的整群抛桿首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等,假定关于群的抽取是随机无放回的。首先引进一些必要的记号: 表示第群中第j个次级单元 i=1,2,…,N;=1,2,,M yz表示样本中第群中第个次级单元的观测值 i=1,2,…,B;j=1,2,…,M

倘若需要我们自行划分群，一般还要考虑到组织管理上的方便、精度上的要求以及费用的多少等等因素。 §1 群大小相等的整群抽样首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等，假定关于群的抽取是随机无放回的。首先引进一些必要的记号： Yij ——表示第群中第个次级单元 i N j M = = 1,2, , ; 1,2, , i j ij y ——表示样本中第群中第个次级单元的观测值 i n j M = = 1,2, , ; 1,2, , i j

=∑V一第i群总和F=Y/M一第i群平均值 Y MM ∑∑V一总体平均值 S2=M122x0-1)一总体差异平方和 S3=12(x1-Y)2一群间异平方和 S2= ∑∑(X-)2一群内差异平方和 N(M-1)红将Y改为y,则为相应的样本指标值

1 M i ij j Y Y = =  —第 i 群总和 Y Y M i i = —第 i 群平均值 1 1 1 N M ij i j Y Y NM = = =   —总体平均值 2 2 1 1 1 ( ) 1 N M ij i j S Y Y NM = = = − −   —总体差异平方和 2 2 1 ( ) 1 N b i i M S Y Y N = = − −  —群间差异平方和 2 2 1 1 1 ( ) ( 1) N M w ij i i j S Y Y N M = = = − −   —群内差异平方和将Y 改为y ，则为相应的样本指标值

它们之间的关系为: S=M-/N-1)S2+N(M-1)S21(81) 将Y改为y,n代替N,由于是整群抽样,M仍为M,不难得到样本方差平方和的关系式: (n-Osh+n(M-1)sw (8.2) nM-1 S可作为S2的估计,但不是无偏估计。这是因为次级单元是在抽到的群内普查,此时样本不是简单随机的。由于群的选取是简单随机的,因此sb与s2分别是S2与S2的无偏估计,于是得到S2的无偏估计为: 2 I(N-1)s2+N(M-1)2l(8.3) M

它们之间的关系为： 2 2 2 1 [( 1) ( 1) ] 1 S N S N M S b w NM = − + − − (8.1) 将改为，代替，由于是整群抽样，仍为，不难得到样本方差平方和的关系式： Y y n N M M 2 2 2 1 [( 1) ( 1) ] 1 b w s n s n M s nM = − + − − (8.2) 可作为的估计，但不是无偏估计。这是因为次级单元是在抽到的群内普查，此时样本不是简单随机的。 2 s 2 S 由于群的选取是简单随机的，因此与分别是与的无偏估计，于是得到的无偏估计为： 2 b s 2 w s 2 Sb 2 Sw 2 S 2 2 2 1 ˆ [( 1) ( 1) ] 1 S N s N M s b w NM = − + − − (8.3)

当N相当大时,该估计可近似写为: 22+(M-1)2 (8.4) M 从(82)式可知,若n也足够大的话,S也可写成(84)形式, 此时,s2就可以看作是S的近似无偏估计了再引进一个群内相关的记号,这个概念的重要性在于它可以度量群内次级单元的差异程度,因为我们已经知道群内单元的差异大就可能保证样本的代表性,如何划分群实质上是一个抽样方案的设计问题。易见设计的效应好还是差在相当程度上与这个P有关。P的定义为: ECYi-YOk-Y (8.5) E(Y-1)2

2 2 2 ( 1) ˆ b w s M s S M + −  (8.4) 当 N 相当大时，该估计可近似写为：从(8.2)式可知，若n 也足够大的话，也可写成(8.4)形式，此时，就可以看作是的近似无偏估计了。 2 s 2 S 2 s 再引进一个群内相关的记号，这个概念的重要性在于它可以度量群内次级单元的差异程度，因为我们已经知道群内单元的差异大就可能保证样本的代表性，如何划分群实质上是一个抽样方案的设计问题。易见设计的效应好还是差在相当程度上与这个有关。的定义为：  c  c  c 2 ( )( ) ( ) ij ik c ij E Y Y Y Y E Y Y  − − = − (8.5)

具体计算得 2∑(-Y)(k-F) i=l j<k P -+-*--(-1)MM-1)S2 (8.6) ∴-(a2+b)s2mb≤(a+b) 计算可得-1sp≤1,P在一定程度上反映了群内单元的差异,当然这种差异一般是相对于群间差异而言的。它可以用群内方差S2与群间方差S来表示: 1+(M-M-1)2 (8.7) (MM-1)S 当N足够大时,近似有 p≈(S2-s2)/(M-1)S2 (8.8)

具体计算得 1 2 2 ( )( ) ( 1)( 1) M M ij ik i j k c Y Y Y Y M NM S  =  − − = − −   (8.6) 2 2 2 2 − +   + ( ) 2 ( ) a b ab a b 计算可得，在一定程度上反映了群内单元的差异，当然这种差异一般是相对于群间差异而言的。它可以用群内方差与群间方差来表示： 1 1 −   c  c 2 Sb 2 Sw 2 2 ( 1) 1 ( 1) ( 1) b c M N S M NM S  − + − = − (8.7) 当N足够大时，近似有 2 2 2 ( ) ( 1) c b  − − S S M S (8.8)

又 s(MWM-1)(1-2)3 MN (8.9) 当N足够大时,近似有 SZ ≈1 (8.10) 由(88)以及(810)可得P的估计 Sb一 (8.11) 2+(M-1)2 由(8.1)也可以发现,考虑N相当大时,当p2≈0,Sb2与S形几乎相等,也就是说群间方差几乎与群内方差一样,实际上指出了我们对群的划分完全是随机进行的。如果P≤0,那么群间的方差远远大于群内方差,群内单元差异相对不显著将引起样本的代表性差,从而精度一定会差!

当N足够大时，近似有又 2 2 ( 1)(1 ) c w NM S S MN − −  = (8.9) 2 2 1 w c S S   − (8.10) 由(8.8)以及(8.10)可得  c 的估计 2 2 2 2 ˆ ( 1) b w c b w s s s M s  −  + − (8.11) 由(8.11)也可以发现，考虑N相当大时，当，与几乎相等，也就是说群间方差几乎与群内方差一样，实际上指出了我们对群的划分完全是随机进行的。如果，那么群间的方差远远大于群内方差，群内单元差异相对不显著将引起样本的代表性差，从而精度一定会差！ 0 c  2 Sb 2 Sw 0 c

点击下载完整版文档（PPT格式）

共29页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录