第四章分层抽样 §1分居抽样及估量 简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N较小,当总体 容量N较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 根据调查的要求,将总体N划分为若干个子总体N,N2, …,N(通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为k层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本 总体如何分层是一门学问
§1 分层抽样及估计量 简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N 较小,当总体 容量N 较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 第四章 分 层 抽 样 根据调查的要求,将总体 N 划分为若干个子总体 (通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为 k 层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本。 , , N1 N2 Nk , 总体如何分层是一门学问
一般来说,按照调查的目的要求,从地区、民族、指标 的反映程度等因素出发考虑分层。因为一项社会经济调查, 常常不仅需对总体的有关参数进行估计,而且对一定群体的 相应参数也需要估计。例如,调查全国的消费物价指数,同 时想知道各省市的消费物价指数,根据这种要求自然以全国 所有省市作为层来进行抽样。如果我们希望在样本中有某些 子总体的代表,比如前面所讲的民族的代表,那么分层就要 考虑到这些子总体作为独立的层。 应当注意,按照某种因素或特征进行分层时,各层之间 具有明显的区分界限将会提高估计的精度。样本既然考虑到 各种类型的代表性,那么这样获取的样本就更能代表总体, 直观告诉我们,这种样本用来估计总体会达到较小的误差
一般来说,按照调查的目的要求,从地区、民族、指标 的反映程度等因素出发考虑分层。因为一项社会经济调查, 常常不仅需对总体的有关参数进行估计,而且对一定群体的 相应参数也需要估计。例如,调查全国的消费物价指数,同 时想知道各省市的消费物价指数,根据这种要求自然以全国 所有省市作为层来进行抽样。如果我们希望在样本中有某些 子总体的代表,比如前面所讲的民族的代表,那么分层就要 考虑到这些子总体作为独立的层。 应当注意,按照某种因素或特征进行分层时,各层之间 具有明显的区分界限将会提高估计的精度。样本既然考虑到 各种类型的代表性,那么这样获取的样本就更能代表总体, 直观告诉我们,这种样本用来估计总体会达到较小的误差
各层中的抽样是独立进行的。这一事实还包括在各层中 所采取的抽样手段完全可以不相同,在一个层进行简单随机 抽样,在另一层则可采用更复杂一些的抽样,完全视各层的 情况不茼而定,这种因地制宜的手段将便样本太可能反映总 体的特性以及子总体的特性。 现在考虑分层抽样的具体估计方法,首先引进一些符号 1、符号 总体N=子总体N∪子总体V2∪…∪子总体N N=∑N h=1 第h层的单元标志值记为Yn(i=12,,Nn),从该层抽 取的样本记为Jn(i=1,2,…,m),第h层子总体的总体平均 数为V,子总体之和为Fn,样本平均数记为,其和
各层中的抽样是独立进行的。这一事实还包括在各层中 所采取的抽样手段完全可以不相同,在一个层进行简单随机 抽样,在另一层则可采用更复杂一些的抽样,完全视各层的 情况不同而定,这种因地制宜的手段将使样本尽可能反映总 体的特性以及子总体的特性。 现在考虑分层抽样的具体估计方法,首先引进一些符号 1、符号 总体N= 子总体N1 子总体N2 子总体Nk = = k h N Nh 1 第 h 层的单元标志值记为 ,从该层抽 取的样本记为 ,第 h 层子总体的总体平均 数为 ,子总体之和为 ,样本平均数记为 ,其和 ( 1,2, , ) hi Nh Y i = ( 1,2, , ) hi nh y i = Yh Yh ~ h y h y ~
再记W=N/N,表示第h层在总体中的权重,一般假定它 是已知的。f6=m1/N表示h层中的抽样比 S=∑(xm-1)/(N4-1)第h层层内方差 i=1 s=∑(h-)2/(n1-1)第h层样本方差 i=1 2、参数的估计量 假定我们想估计总体的平均数Y,获取的样本是分层 随机样本。将Y写为: F=1∑x=1∑∑m=EN=∑W =1i=1 h=1 h=1 (4.1)
再记 ,表示第 h 层在总体中的权重,一般假定它 是已知的。 表示 h 层中的抽样比。 Wh = Nh N h h Nh f = n ( ) ( 1) 1 2 2 = − − = h N i Sh Yhi Yh N h 第 h 层层内方差 ( ) ( 1) 1 2 2 = − − = h n i sh yhi yh n h 第 h 层样本方差 2、参数的估计量 假定我们想估计总体的平均数 ,获取的样本是分层 随机样本。将 写为: Y Y = = = = = k h N i hi N i i h Y N Y N Y 1 1 1 1 1 = = k h Nh Yh N 1 1 = = k h Wh Yh 1 (4.1)
从盒子模型观点看,这是一个大盒子装有k个小盒子,第h 个小盒子中的单元值是Yn1,Yn2,…,Y,小盒子的平均数 是Y,方差是S22该小盒子在大盒子里所占的权为形,分 层随机抽样是指从每个小盒子里按一定份额nb(=1,2,…,k n1+n2+…+nk=n)作随机无放回抽样。 由第三章知道,y是Y的无偏估计量,因此,由(41)式 可知,Y的一个无偏估计量自然地选为: x=∑W h (或 ∑N (4.2) N 总体总和Y的无偏估计可选为: =M N·∑W=∑N(4.3) h=1 =1
从盒子模型观点看,这是一个大盒子装有 k 个小盒子,第h 个小盒子中的单元值是 ,小盒子的平均数 是 ,方差是 ,该小盒子在大盒子里所占的权为 ,分 层随机抽样是指从每个小盒子里按一定份额 ( )作随机无放回抽样。 h h hNh Y 1 ,Y 2 , ,Y Yh 2 Sh Wh nh n1 + n2 ++ nk = n h = 1,2, ,k 由第三章知道, 是 的无偏估计量,因此,由(4.1)式 可知, 的一个无偏估计量自然地选为: h y Yh Y = = k h st h h y W y 1 = = k h h h N y N 1 1 (或 ) (4.2) = = = = = k h h h k h s t s t h h y N y N W y N y 1 1 ~ (4.3) 总体总和 Y 的无偏估计可选为: ~
估计量y的方差为: par(,)=Vr(∑W) h=1 由于各个小盒子的抽样过程是相互独立的,故各个y相互 独立,由独立随机变量之和的方差计算公式,有 par(,)=∑ Wear()=∑ 11 W2 N h h W 2 ∑ W2·S h h=1 h 2c2 ∑ h h ∑ (4.4) kW恰好为从各个小盒子里随机有放 t=1 N (44式的第一项∑ 回抽样时得到的y的方差计算公式,而现在是无放回抽样
1 ( ) ( ) k st h h h Var y Var W y = = 由于各个小盒子的抽样过程是相互独立的,故各个 相互 独立,由独立随机变量之和的方差计算公式,有 h y 2 1 ( ) ( ) k st h h h Var y W Var y = = 2 2 1 1 1 ( ) k h h h h h W S = n N = − 2 2 1 k h h h h W S = n = 2 2 1 k h h h h W S = N − 2 2 1 k h h h h W S = n = 2 1 k h h h W S = N − (4.4) (4.4)式的第一项 恰好为从各个小盒子里随机有放 2 2 1 k h h h h W S = n 回抽样时得到的 yst的方差计算公式,而现在是无放回抽样 估计量 yst 的方差为:
因此第二项∑N表示考虑有限总体修正因子引起的 方差减少。 如果不用分层抽样,而用大盒子中的简单随机抽样的平均 数来估计总体平均数,此时方差为 丿ar(y)=( 2 oS 而(N-12=2-1)2=∑∑(m-F)2 i=1 k N =∑∑(Im-+F-F)2 h=1i=1 ∑∑(-)+∑N(-1) h=1i=1 h=1 ∑(N-1)s2+∑N(-F)2(4.5) h=1 h=1
因此第二项 表示考虑有限总体修正因子引起的 方差减少。 2 1 k h h h W S = N 如果不用分层抽样,而用大盒子中的简单随机抽样的平均 数来估计总体平均数,此时方差为: 1 1 2 Var y S ( ) ( ) n N = − 而 2 2 1 ( 1) ( ) N i i N S Y Y = − = − 2 1 1 ( ) k Nh hi h i Y Y = = = − 2 1 1 ( ) k Nh hi h h h i Y Y Y Y = = = − + − 2 1 1 ( ) k Nh hi h h i Y Y = = = − 2 1 ( ) k h h h N Y Y = + − 2 1 ( 1) k h h h N S = = − 2 1 ( ) k h h h N Y Y = + − (4.5)
(4.5)式两端各除以(N-1),假如各层的单元数N都很大,当 近似认为:Nh≈Nn-1Nh=Wn (4.) 因此直接来自总体的简单随机抽样平均数的方差大约为: 丿ar(y)=(- nN h ∑WS+∑W(x-1)}(4. h=1 (47)式花括弧内第一项为各个小盒子方差的加权和,而第二 项则表示了各小盒子之间的差异平方和。比较(44)和(47), 若取n/n=W,那么易见44式变为 Var()=(- NcWsA 因此ar(-m(n)≈(2-1)E形2-)2>0(48 nN
(4.5)式两端各除以(N-1),假如各层的单元数 都很大,当 近似认为: Nh 1 1 1 h h h h N N N W N N N − = − − (4.6) 因此直接来自总体的简单随机抽样平均数的方差大约为: 2 2 1 1 1 1 ( ) ( ) ( ) k k h h h h h h Var y W S W Y Y n N = = = − + − (4.7) (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 若取 n n W h h = ,那么易见(4.4)式变为 2 1 1 1 ( ) ( ) k st h h h Var y W S n N = = − 2 1 1 1 ( ) ( ) ( ) ( ) 0 k st h h h Var y Var y W Y Y n N = 因此 − − − (4.8)
也即至少当n/n=W时,分层抽样的误差比简单随机抽样 的误差小。相差的部分几乎恰恰只与各层之间的差异平方 和有关。分层抽样的优点在于通过各层的独立抽样过程而 减少了由于各层之间的差异所造成的误差。 设想一下,如果各小盒子之间没有任何差异,那么各小 盒子的平均数应当一致,此时各层之间的差异平方和为零 因而分层抽样与简单随机抽样的误差相同,也就是说,分层 与不分层并无不同之处。这个事实告诉我们,为了取得分层 的效果,必须注意层与层之间要有较显著的差异。当然并不 是讲在总体中分辨不出各有特色的层时就一定不用分层抽样 不过那时的得益在于组织管理上的方便而不表现在精度上 上述讨论是在所有的N都较大的假设下,利用近似式 (460进行的,如不考虑近似因素,仍误n/n=W,则有
也即至少当 n n W h h = 时,分层抽样的误差比简单随机抽样 的误差小。相差的部分几乎恰恰只与各层之间的差异平方 和有关。分层抽样的优点在于通过各层的独立抽样过程而 减少了由于各层之间的差异所造成的误差。 设想一下,如果各小盒子之间没有任何差异,那么各小 盒子的平均数 应当一致,此时各层之间的差异平方和为零 因而分层抽样与简单随机抽样的误差相同,也就是说,分层 与不分层并无不同之处。这个事实告诉我们,为了取得分层 的效果,必须注意层与层之间要有较显著的差异。当然并不 是讲在总体中分辨不出各有特色的层时就一定不用分层抽样 不过那时的得益在于组织管理上的方便而不表现在精度上。 Yh 上述讨论是在所有的 都较大的假设下,利用近似式 (4.6)进行的,如不考虑近似因素,仍设n n W h h = ,则有 Nh
Var()-var(y) = N"N-1 ∑NA-F )2-∑(N-N)S2 =1 N h=1 (4.9) 是否会有∑N-Y)2<N∑(N-N)S2呢?这种情 况的发生实上意味着分层在精度上不如简单随机抽样。 其实,∑N4(万-)2恰好表示各层之间差异平方和 =1 N2N-NAS=2-H在一定程度上表示各层内 差异的平方和。 如果分层使得各层的中心离总体中心比较近,而各层中单元 又比较分散,那么不利于分层抽样的“不幸现象”就会发生
2 2 1 1 ( ) ( ) 1 1 1 1 ( ) ( ) ( ) 1 st k k h h h h h h Var y Var y N Y Y N N S n N N N = = − = − − − − − (4.9) 2 2 1 1 1 ( ) ( ) k k h h h h h h N Y Y N N S = = N 是否会有 − − 呢?这种情 况的发生实质上意味着分层在精度上不如简单随机抽样。 2 1 ( ) k h h h N Y Y = 其实, − 恰好表示各层之间差异平方和 2 1 1 ( ) k h h h N N S N = − 2 1 (1 ) k h h h W S = = − 在一定程度上表示各层内 差异的平方和。 如果分层使得各层的中心离总体中心比较近,而各层中单元 又比较分散,那么不利于分层抽样的“不幸现象”就会发生