《抽样调查理论与方法》课程教学资源（PPT课件讲稿）第十章系统抽样 §1 系统抽样的若干习性 §2 估计量与方差 §3 方差与总体单元排列顺序的关系 §4 具有线性趋势的总体的抽样方法改进

众所周知,计算机在抽样过程中起着十分重要的作用。例如,前面提出利用计算机产生随机数,当然我们知道它产生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中选择使用计算机将是十分方便的。

团购合买资源类别：文库，文档格式：PPT，文档页数：23，文件大小：506KB

第十章系统抽样众所周知,计算机在抽样过程中起着十分重要的作用。多例如,前面提出利用讦算机产生随机数,当然我们知道它生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中选择使用计算机将是十分方便的。所谓系统抽样,就是将总体中N个单元按照随机方式( 有时也按某种特定的规则)编号为1,2,…,N,若想抽取 n个样本,不妨假设Nn=k为整数,利用计算机可以立即将这N个单元排成n行k列的矩阵,再从1~k之间随机地产生个随机数i,则取第i列的全体单元作为样本。这种方法看起来似乎很“机械”,因此有时候也称为“机械抽样” 然而由于数值“i”是随机产生的,那么所得到的样本具有一定的随机性

第十章系统抽样所谓系统抽样，就是将总体中N个单元按照随机方式（有时也按某种特定的规则）编号为1，2，…，N，若想抽取 n 个样本，不妨假设N/n=k为整数，利用计算机可以立即将这N个单元排成n 行k 列的矩阵，再从1～k之间随机地产生一个随机数i ，则取第 i 列的全体单元作为样本。这种方法看起来似乎很“机械”，因此有时候也称为“机械抽样” 。然而由于数值“i ”是随机产生的，那么所得到的样本具有一定的随机性。众所周知，计算机在抽样过程中起着十分重要的作用。例如，前面提出利用计算机产生随机数，当然我们知道它产生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中选择使用计算机将是十分方便的

但在实际中,总体的N个单元的编号并非完全随机的, 常常带有一定的规律性,例如按照居住地区、工作性质等等的编号,有时也常常利用一些个体原有的编号诸如学生的学号等。此时,系统抽样的随机性就与最有代表性的简单随机抽样存在一定的差距。 §1系统抛桿的痞干习性考察N=nk这种最简单的情形,从总体中实施容量为n的系统抽样相当于从k列中随机地任取一列,显然每一列被选中圆的概率是一样的,从而总体中每个单元入样的概率均相等, 这是N=nk时系统抽样的基本习性

但在实际中，总体的N个单元的编号并非完全随机的，常常带有一定的规律性，例如按照居住地区、工作性质等等的编号，有时也常常利用一些个体原有的编号——诸如学生的学号等。此时，系统抽样的随机性就与最有代表性的简单随机抽样存在一定的差距。考察N=nk这种最简单的情形，从总体中实施容量为n 的系统抽样相当于从k 列中随机地任取一列，显然每一列被选中的概率是一样的，从而总体中每个单元入样的概率均相等，这是N=nk时系统抽样的基本习性。 §1 系统抽样的若干习性

当N≠m时,用上述计算机排列抽样的方法就不能保证各单元入样的概率相同,因为有些列有n个单元,有些列不足n个单元,当列不足n时,通常在后再接上Y1,2,依原来顺序再排列下去,直到第n行填满单元为止,这样任取的一列恰好保证有n个样本。但是,这样产生的后果是增大了某些单元入样的概率。但当n足够大时(例如n≥50), 这时N/n不为整数所带来的问题并不大,因此,在以后需要n比较大时,我们总是假设N是n的整数倍。我们注意到一个有趣的事实:当用计算机将N个单元排成k列n行时,实际上相当于将总体分为k层(或群),系统抽样相当于从k个群中随机地抽出一个群进行整群抽样。这是最简单的整群抽样!因此,在讨论系统抽样的参数估计时,很多场合将引用整群抽样的一些现成结果

当时，用上述计算机排列抽样的方法就不能保证各单元入样的概率相同，因为有些列有n 个单元，有些列不足 n 个单元，当列不足n 时，通常在后再接上，依原来顺序再排列下去，直到第n 行填满单元为止，这样任取的一列恰好保证有 n 个样本。但是，这样产生的后果是增大了某些单元入样的概率。但当n 足够大时（例如），这时不为整数所带来的问题并不大，因此，在以后需要 n 比较大时，我们总是假设N 是 n 的整数倍。 N nk  YN 1 2 Y Y, , N n n  50 我们注意到一个有趣的事实：当用计算机将N 个单元排成 k 列 n 行时，实际上相当于将总体分为k 层（或群），系统抽样相当于从k 个群中随机地抽出一个群进行整群抽样。这是最简单的整群抽样！因此，在讨论系统抽样的参数估计时，很多场合将引用整群抽样的一些现成结果

系统抽样在实际工作中很受调研工作者的欢迎。首先在于它的实施方便,同时还能保证样本一定程度的代表性。有时候使用系统抽样不必重新编制抽样框,尤其是在被调查单元具有自然顺序排列的时侯,例如流水线上生产的产品每隔 k个抽查一次,只要第一件受检查产品确定以后,余下的抽查工作将有条不紊地进行。比如,对上海地区的车辆进行某种特性的抽样检测就可以对车辆牌照采用系统抽样,譬如车牌号码尾数为39的车辆必须到检测所参加测试就是每100个单元中抽一个系统抽样如果总体中单元原来的排列呈现一定的规律性甚至周期性,依赖于这些排列的系统抽样会产生效果很差的可能。系统抽样的另一个不足之处在于,在实际中被认为行之有效的系统抽样一般不是严格的概率抽样,估算估计量的方差有较大困难

系统抽样在实际工作中很受调研工作者的欢迎。首先在于它的实施方便，同时还能保证样本一定程度的代表性。有时候使用系统抽样不必重新编制抽样框，尤其是在被调查单元具有自然顺序排列的时侯，例如流水线上生产的产品每隔 k 个抽查一次，只要第一件受检查产品确定以后，余下的抽查工作将有条不紊地进行。比如，对上海地区的车辆进行某种特性的抽样检测就可以对车辆牌照采用系统抽样，譬如车牌号码尾数为39的车辆必须到检测所参加测试就是每100 个单元中抽一个系统抽样如果总体中单元原来的排列呈现一定的规律性甚至周期性，依赖于这些排列的系统抽样会产生效果很差的可能。系统抽样的另一个不足之处在于，在实际中被认为行之有效的系统抽样一般不是严格的概率抽样，估算估计量的方差有较大困难

§2估计量与方差既然将总体单元排列成n×k的矩阵,因此总体中各单元的下标也有所改动以便于讨论与表达,见下表: 12 k行平均 12 lk 2 21 Y2 2k F, 2 Y 2 nk 列平均2…卫 k

§2 估计量与方差既然将总体单元排列成的矩阵，因此总体中各单元的下标也有所改动以便于讨论与表达，见下表： n k  Y Y Y Y • • • • 1 2 i k Y1• Y2• Yn• 1 2 i k Y Y Y Y 11 12 1 1 i k Y Y Y Y 21 22 2 2 i k Y Y Y Y n n ni nk 1 2 1 2 n 行平均列平均

设系统样本为上表中的第i列,“i”随机等概率确定的那么总体平均数就用该列的平均数进行估计: 三∑F(10 j=1 这是只抽一个群的整群抽样估计,因此yy是Y的无偏估计其方差为: 11 Var(w)=K Kit( ∑(.-) i=1 (10.2) 利用 (N-1)S2=∑∑(-1)=∑∑(n-.+Y,-1) i=l j i=1j=1 ∑∑(V-)2+n2-万

设系统样本为上表中的第i 列，“ i ”随机等概率确定的那么总体平均数就用该列的平均数进行估计：这是只抽一个群的整群抽样估计，因此 ysy 是 Y 的无偏估计 1 1 n sy i ji j y Y Y n • = = =  (10.1) 其方差为： 2 2 1 1 1 1 1 ( ) ( ) ( ) 1 k k sy i i i i k Var y Y Y Y Y k k k • • = = − =  − = − −   (10.2) 利用 2 2 2 1 1 1 1 ( 1) ( ) ( ) k n k n ji ji i i i j i j N S Y Y Y Y Y Y • • = = = = − = − = − + −   2 2 1 1 1 ( ) ( ) k n k ji i i i j i Y Y n Y Y • • = = = = − + −  

可得vamr(y)= N-1 S nk ∑∑(Vn i=1j=1 N 2 wSy (0.3) N 其中S2= k(n-1) ∑∑(n-1.)2表示按列所分的层在各层内的方差(之和)部分。与容量为n的简单随机抽样的方差r(y)=-S2比较 Nn Var(sv)-var(y) (S2-S2y)(10.4) n (10.3)式告诉我们,系统内(或层内)方差越大,yy的方差就越小;如果划分的层或系统内的差异趋于相当小,Var(y)

可得 2 2 1 1 1 1 ( ) ( ) k n sy ji i i j N Var y S Y Y nk nk • = = − = − −   其中 2 2 表示按列所分的层在 1 1 1 ( ) ( 1) k n wsy ji i i j S Y Y k n • = = = − −   各层内的方差（之和）部分。与容量为 n 的简单随机抽样的方差 ( ) 2 比较 N n Var y S Nn − = 1 1 2 2 wsy N n S S N n − −  − (10.3) 1 2 2 ( ) ( ) ( ) sy wsy n Var y Var y S S n − − = − (10.4) (10.3)式告诉我们，系统内（或层内）方差越大，的方差就越小；如果划分的层或系统内的差异趋于相当小， sy y ( ) Var ysy

N-1 则趋于极大值 S2,倘若各系统内无差异,则yy的 N 误差达到最大且与系统内各单元的个数n无关,这一点完全符合直观。相反地,如果系统内的方差总大于总体的方差, 说明我们的系统抽样样本比简单随机样本更具有代表性(在相同容量下),此时系统抽样的精度优于简单随机抽样的精度。在N=m时,我们已经指出系统抽样实际上是在群的大小相等情形下的只抽一个群的整群抽样,因此完全可以利用整群抽样估计量的方差表示式,而在那里我们用到了群内( 或层内、系统内)的相关系数P,所以可以用相关系数来表示ar(y)

则趋于极大值，倘若各系统内无差异，则的 N 1 2 S N − sy y 误差达到最大且与系统内各单元的个数n 无关，这一点完全符合直观。相反地，如果系统内的方差总大于总体的方差，说明我们的系统抽样样本比简单随机样本更具有代表性（在相同容量下），此时系统抽样的精度优于简单随机抽样的精度。在时，我们已经指出系统抽样实际上是在群的大小相等情形下的只抽一个群的整群抽样，因此完全可以利用整群抽样估计量的方差表示式，而在那里我们用到了群内（或层内、系统内）的相关系数，所以可以用相关系数来表示。 N nk =   ( ) Var ysy

例10—1:构造一个虚拟总体(N=25),数据如下表,利用系统抽样抽取n=5的样本估计总体平均数,现考虑按行以及按列进行的系统抽样,比较其样本平均数与方差有何不同列行 12345行平均数行方差 18 16 21 19 54 2 23 17 22 1131 20.8 55.2 3 25 15 13 40 32 25 129.5 4 30 23 16 14 28 22.2 50.2 5 17263319 29 24.8 45.2 列平均数21198202.8282F=2236/内平均方差66.82 列方差59520.7635144718.7列内平均s2=6124 方差61.42

例10—1：构造一个虚拟总体(N＝25)，数据如下表，利用系统抽样抽取n＝5 的样本估计总体平均数，现考虑按行以及按列进行的系统抽样，比较其样本平均数与方差有何不同。行列 1 2 3 4 5 1 2 3 4 5 10 18 16 30 21 23 17 22 11 31 25 15 13 40 32 30 23 16 14 28 17 26 33 19 29 21 19.8 20 22.8 28.2 59.5 20.7 63.5 144.7 18.7 19 20.8 25 22.2 24.8 54 55.2 129.5 50.2 45.2 行平均数列平均数行方差列方差行内平均方差66.82 列内平均方差61.42 Y = 22.36 2 S = 61.24

比较几种不同抽样的效果,均取n=5 (1)简单随机抽样 mr(y)=-S2=9.7984 n (2)以行为群的系统抽样 N-1 n Var(y=----s (行内平均方差) N 5.3344 (3)以列为群的系统抽样 Jr()=2s2-×(列内平均方差) N =9.6544

比较几种不同抽样的效果，均取n=5 （1）简单随机抽样 1 2 ( ) 9.7984 f Var y S n − = = （2）以行为群的系统抽样 1 1 1 2 ( ) ( ) 5.3344 sy N n Var y S N n − − = −  = 行内平均方差（3）以列为群的系统抽样 2 1 1 2 ( ) ( ) 9.6544 sy N n Var y S N n − − = −  = 列内平均方差

点击下载完整版文档（PPT格式）

共23页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录