第六章二重抽样 §1二重抽样简述 我们知道在进行抽样设计时,往往要求先掌握关于总体 的一些知识。比如分层抽样时,必须知道各层的权重。又如 进行比估计和回归估计时,必须事先知道辅助变量的总体总 和或者均值。有时候,我们对这些知识一无所知,似乎不能 利用一些好的抽样方法。其实不然,只要获取那些知识的代 价并不算大,我们就可以先进行一次抽样,获得辅助信息的 知识,然后再进行第二次抽样。第二次抽样就可以使用分层 抽样或者比估计等方法了。这就是二重抽样。 很多情况就是如此,第一次抽样的实施是非常方便的。 例如,进行上海市大学毕业生就业意愿调查时,试图将大学 生按生源地分成本市和外地两层,但没有掌握来自本市或者 外地学生的比例。这时,可以先进行一次抽样调查,而这次 调查并不需要找学生本人,只要对各校学生花名册抽样即可
我们知道在进行抽样设计时,往往要求先掌握关于总体 的一些知识。比如分层抽样时,必须知道各层的权重。又如 进行比估计和回归估计时,必须事先知道辅助变量的总体总 和或者均值。有时候,我们对这些知识一无所知,似乎不能 利用一些好的抽样方法。其实不然,只要获取那些知识的代 价并不算大,我们就可以先进行一次抽样,获得辅助信息的 知识,然后再进行第二次抽样。第二次抽样就可以使用分层 抽样或者比估计等方法了。这就是二重抽样。 第六章 二重抽样 §1 二重抽样简述 很多情况就是如此,第一次抽样的实施是非常方便的。 例如,进行上海市大学毕业生就业意愿调查时,试图将大学 生按生源地分成本市和外地两层,但没有掌握来自本市或者 外地学生的比例。这时,可以先进行一次抽样调查,而这次 调查并不需要找学生本人,只要对各校学生花名册抽样即可
二重抽样也称为二相抽样。这种抽样的主要特点是先后 进行二次抽样,每次抽取一个样本。实际进行时,两次抽样 也可以是同时进行的,只是对样本中大多数个体或者单元仅 调查一些简单的辅助信意,进行详细调查的只是这些样本中 的一部分。 第一步抽样通常是从总体中抽取一个比较大的样本,称 为第一重样本。对第一重样本的调查主要是获取有关总体的 某些辅助信息,为下一步的第二重抽样估计提供条件。第二 重抽样抽取的样本相对较小,对它的调查才是主要调查。通 常这个第二重样本是从第一重样本中抽取的,也就是第一重 样本的一个子样本,当然,它也可以从总体中独立抽取。本 章中除第五节外,我们都限定第二重样本是从第一重样本中 随机抽取的,并且进一步假定第一重抽样是简单随机抽样
二重抽样也称为二相抽样。这种抽样的主要特点是先后 进行二次抽样,每次抽取一个样本。实际进行时,两次抽样 也可以是同时进行的,只是对样本中大多数个体或者单元仅 调查一些简单的辅助信息,进行详细调查的只是这些样本中 的一部分。 第一步抽样通常是从总体中抽取一个比较大的样本,称 为第一重样本。对第一重样本的调查主要是获取有关总体的 某些辅助信息,为下一步的第二重抽样估计提供条件。第二 重抽样抽取的样本相对较小,对它的调查才是主要调查。通 常这个第二重样本是从第一重样本中抽取的,也就是第一重 样本的一个子样本,当然,它也可以从总体中独立抽取。本 章中除第五节外,我们都限定第二重样本是从第一重样本中 随机抽取的,并且进一步假定第一重抽样是简单随机抽样
二重抽样的用途很多,以下对几个方面进行叙述 当为了提高抽样效率,打算使用某些抽样或者估计方法, 但又不知道某些必要的辅助信息时,重抽样可以发挥很大 作用。分层抽样需要事先将总体单元分成层,进行估计时需 要知道层权,在构造比估计或回归估计时要求知道辅助变量 的总体总和或均值。在缺少这种辅助信息的情况下,就可以 使用二重抽样先抽一个大样本以获取这些信息,然后再对较 小的第二重样本进行实际调查并利用第一重样本中所得信息 改善估计量的精度。这里有一个费用问题,一般情况下,第 一重抽样的费用应该是非常低廉的,由此而增加的费用可以 通过提高估计量的精度而得到益处进行补偿,否则采用二重 抽样就不值得了。 有时候,调查的总体只是一个大总体中的小总体,但我 们对这个小总体却知之甚少,甚至连小总体的单元数都不知 道。在这种情况下,就可以使用二重抽样,从总体单元中筛 选主调查的对象
二重抽样的用途很多,以下对几个方面进行叙述。 当为了提高抽样效率,打算使用某些抽样或者估计方法, 但又不知道某些必要的辅助信息时,二重抽样可以发挥很大 作用。分层抽样需要事先将总体单元分成层,进行估计时需 要知道层权,在构造比估计或回归估计时要求知道辅助变量 的总体总和或均值。在缺少这种辅助信息的情况下,就可以 使用二重抽样先抽一个大样本以获取这些信息,然后再对较 小的第二重样本进行实际调查并利用第一重样本中所得信息 改善估计量的精度。这里有一个费用问题,一般情况下,第 一重抽样的费用应该是非常低廉的,由此而增加的费用可以 通过提高估计量的精度而得到益处进行补偿,否则采用二重 抽样就不值得了。 有时候,调查的总体只是一个大总体中的小总体,但我 们对这个小总体却知之甚少,甚至连小总体的单元数都不知 道。在这种情况下,就可以使用二重抽样,从总体单元中筛 选主调查的对象
例如,调查的总体是老年痴呆症患者的全体,它仅是老 年人口中的一部分,一开始我们并不知道如何把这个总体从 老年人口中区分出来进行调查。我们只能从老年人口中抽取 个样本,然后对这个样本中的老车痴呆症患者再进行抽样 调查。又如,在一项办公自动化设备使用情况的调查中,要 求调查单位的微机、复印机、传真机等办公设备的使用情况, 但我们事先也不能确定哪家单位一定有这些设备。碰到类似 这种情况,就可以使用二重抽样,先从总体中抽出一个大的 样本来,进行相对比较简单的调查测试,筛选出满足条件的 对象,从中再抽样进行主调查。 在大多数抽样调查中,调查的总体指标往往不是一个而 是多个。不同的指标往往有不同的精度要求,调查的难易程 度也不一样,它们并不需要相同的样本量。为了节约调查费 用,对那些个体指标差异大的、精度要求高的指标,调查 个较大样本;而对指标值差异小或者估计精度要求较低的指 标,可以仅调查一个较小的样本
例如,调查的总体是老年痴呆症患者的全体,它仅是老 年人口中的一部分,一开始我们并不知道如何把这个总体从 老年人口中区分出来进行调查。我们只能从老年人口中抽取 一个样本,然后对这个样本中的老年痴呆症患者再进行抽样 调查。又如,在一项办公自动化设备使用情况的调查中,要 求调查单位的微机、复印机、传真机等办公设备的使用情况, 但我们事先也不能确定哪家单位一定有这些设备。碰到类似 这种情况,就可以使用二重抽样,先从总体中抽出一个大的 样本来,进行相对比较简单的调查测试,筛选出满足条件的 对象,从中再抽样进行主调查。 在大多数抽样调查中,调查的总体指标往往不是一个而 是多个。不同的指标往往有不同的精度要求,调查的难易程 度也不一样,它们并不需要相同的样本量。为了节约调查费 用,对那些个体指标差异大的、精度要求高的指标,调查一 个较大样本;而对指标值差异小或者估计精度要求较低的指 标,可以仅调查一个较小的样本
例如,在住户家庭开支调查中,对高档耐用消费品、旅 游及婚丧嫁娶一类开支的调查就需要有较大的样本量,而对 家庭日用品、粮食、油盐酱醋一类开支则仅需要较小的样本 量。对这类调査若菜用二重抽样既能葆证精度,又节约了调 查费用。 在一些连续定期进行的抽样调查中,同一单元不同时间 的指标值往往存在着相关关系,利用这种相关关系采用回归 估计可以提高精度。因此,在很多实际的抽样调查中,在后 一次调查的样本中大部分单元是前一次调查样本的单元。如 此处理,不仅可以提高精度,而且还可以节约费用,为调查 工作带来很多方便。但是,样本又不能一直不变,因为长期 使用同样的单元调查对象会产生厌倦情绪,或者样本的代表 性发生问题,从而影响调查质量。为降低这种样本老化所带 来的负面影响,通常采用样本轮换方法。二重抽样可以用来 研究样本轮换中的某些问题
例如,在住户家庭开支调查中,对高档耐用消费品、旅 游及婚丧嫁娶一类开支的调查就需要有较大的样本量,而对 家庭日用品、粮食、油盐酱醋一类开支则仅需要较小的样本 量。对这类调查若采用二重抽样既能保证精度,又节约了调 查费用。 在一些连续定期进行的抽样调查中,同一单元不同时间 的指标值往往存在着相关关系,利用这种相关关系采用回归 估计可以提高精度。因此,在很多实际的抽样调查中,在后 一次调查的样本中大部分单元是前一次调查样本的单元。如 此处理,不仅可以提高精度,而且还可以节约费用,为调查 工作带来很多方便。但是,样本又不能一直不变,因为长期 使用同样的单元调查对象会产生厌倦情绪,或者样本的代表 性发生问题,从而影响调查质量。为降低这种样本老化所带 来的负面影响,通常采用样本轮换方法。二重抽样可以用来 研究样本轮换中的某些问题
§2二重分展抛样 进行分层抽样时,必须首先按照某种方式把总体所有单 元分成若干层,已知每一层的层权(该层单元占总体的比例 然后在客层中独立地进行抽样。如果对总体分层的情况不甚 了解,但如果知道层权,也还可以使用事后分层技术。如果 连层权都不知道,那么二重分层抽样或许是解决问题的一个 好办法。所谓二重分层抽样就是说先对总体按简单随机方式 进行第一重抽样,抽得一个大样本,把这个大样本看作是 个总体(子总体),对其进行分层,对这个子总体进行分层抽 样。 重分层抽样具体步骤如下:先从总体中抽出一个大样 本,记假y,y2,…,Jn}按照某种标志,把它分成L层 这种标志是易于观察的。第h层的第j个指标值记为y,nh 是这个大样本中第h层的单元数,有 n=∑h (6.1) =1
§2 二重分层抽样 进行分层抽样时,必须首先按照某种方式把总体所有单 元分成若干层,已知每一层的层权(该层单元占总体的比例) 然后在各层中独立地进行抽样。如果对总体分层的情况不甚 了解,但如果知道层权,也还可以使用事后分层技术。如果 连层权都不知道,那么二重分层抽样或许是解决问题的一个 好办法。所谓二重分层抽样就是说先对总体按简单随机方式 进行第一重抽样,抽得一个大样本,把这个大样本看作是一 个总体(子总体),对其进行分层,对这个子总体进行分层抽 样。 二重分层抽样具体步骤如下:先从总体中抽出一个大样 本,记作 ,按照某种标志,把它分成 L 层 这种标志是易于观察的。第 h层的第 j个指标值记为 , 是这个大样本中第 h层的单元数,有 1 2 { , , , } n y y y hj y nh 1 L h h n n = = (6.1)
并且可以得到大样本中各层的层权: h=1,2,…,L(6,2) 根据第三章第四节百分数的估计,我们知道o是总体层权 Wn=N/N的一个无偏估计。 此时,我们仅是对大样本的很容易进行的分层标志或者某些 辅助信息进行了观察,而对指标值y的主调查并未进行。由 于经费或者其它条件的限制,不能对大样本中的每一个指标 值y进行观察,而是把大样本作为总体看待,对它进行分层 抽样。记抽得的样本为 { y 11951 9219 ∴y2n2 99n199 YE 69 ,VL1, VLn y是从第h层中按简单随机抽样所得样本的第j个单元的指 标值
并且可以得到大样本中各层的层权: 根据第三章第四节百分数的估计,我们知道 是总体层权 的一个无偏估计。 h W N N h h = 1,2, , h h n h L n = = (6.2) 1 2 11 1 21 2 1 1 { , , , , , , , , , , , , , } n n h hn L Ln h L y y y y y y y y 此时,我们仅是对大样本的很容易进行的分层标志或者某些 辅助信息进行了观察,而对指标值 的主调查并未进行。由 于经费或者其它条件的限制,不能对大样本中的每一个指标 值 进行观察,而是把大样本作为总体看待,对它进行分层 抽样。记抽得的样本为: i y i y hj y 是从第 h 层中按简单随机抽样所得样本的第j 个单元的指 标值
这里有n<mn=n<n,是第二重抽样的样本容量 h=1 是其中第h层子样本容量。 考虑对总体平均数Y的估计,记第一重样本的平均值为: / 由第四章第一节的知识得知,下述从第二重样本中所得的估 计量: L J stD (6.3) h=1 是第一重样本平均值y的无偏估计,这里 n=∑y(64 是第h层的平均值 h j=l
这里有 ,n 是第二重抽样的样本容量, nh 1 , L h h h h n n n n n = = 是其中第 h 层子样本容量。 考虑对总体平均数 Y 的估计,记第一重样本的平均值为: 1 1 n i i y y n = = 由第四章第一节的知识得知,下述从第二重样本中所得的估 计量: 是第一重样本平均值 y 的无偏估计,这里 是第 h 层的平均值。 1 L stD h h h y y = = (6.3) 1 1 nh h hj h j y y n = = (6.4)
由第三章第二节的知识得知,y又是总体平均数Y的无偏 估计。因此,JD也是Y的无偏估计。 二重分层抽样的总体平均数的估计量y与分层抽样的 估计量v形式上基本一致。只是y来自于对第一重样本的分 层抽样,b仅是总体层权W的估计。因此,它的估计精度要 比Jx差一些。对y的方差(y)下面近似的无偏估计量 v(2m)=∑ 11 22 0,S stD h nN h=1 (6.5) 要求n>1。当两重抽样比mn/nn/N都可忽略时有 22 (m0)=∑当+∑(n-)2(6 =1 n =1
由第三章第二节的知识得知, 又是总体平均数 的无偏 估计。因此, 也是 的无偏估计。 Y Y y stD y 二重分层抽样的总体平均数的估计量 与分层抽样的 估计量 形式上基本一致。只是 来自于对第一重样本的分 层抽样, 仅是总体层权 的估计。因此,它的估计精度要 比 差一些。对 的方差 有下面近似的无偏估计量 stD y st y h y h Wh st y stD y ( ) V ystD 要求 nh 1 。当两重抽样比 n n h h n N 都可忽略时有 2 2 2 1 1 1 1 1 1 ( ) ( ) L L stD h h h h stD h h h h v y s y y n n n N = = = − + − − (6.5) 2 2 2 1 1 1 ( ) ( ) L L h h stD h h stD h h h s v y y y n n = = = + − (6.6)
例61某城市欲调查该市个体商业户全年的销售总额。已知 该城市注册登记的个体商业户有8000户,由于他们之间经营 规模大小差别较大,拟采用分层抽样,但又缺乏现成的分层 资料,故采用了二重分层抽样方法。第一重样本量r=1000 根据其自报的销售额可分为四层:第一层为3万元以下;第二 层为3~10万元;第三层为10~20万元;第四层为20万元以上 然后在第一重样本分层的基础上,在各层中分别抽取第二重 样本。∑=n=200,对这200户个体商业户作了详细的调 查核实,取得有关数据整理成表6-1。 试估计该城市全年个体商业户的销售总额及其抽样标准误差
例6.1 某城市欲调查该市个体商业户全年的销售总额。已知 该城市注册登记的个体商业户有8000户,由于他们之间经营 规模大小差别较大,拟采用分层抽样,但又缺乏现成的分层 资料,故采用了二重分层抽样方法。第一重样本量 根据其自报的销售额可分为四层:第一层为3万元以下;第二 层为3~10万元;第三层为10~20万元;第四层为20万元以上 然后在第一重样本分层的基础上,在各层中分别抽取第二重 样本。 ,对这200户个体商业户作了详细的调 查核实,取得有关数据整理成表6-1。 试估计该城市全年个体商业户的销售总额及其抽样标准误差 n =1000 4 1 200 h h n n = = =