第七章不等概率抽样 到目前为止,我们所讨论的两种抽样方法一简单随机抽 样和分层抽样都有一个共同的特点:总体或层中每个个体被 抽中入样的概率都是相同的。对于各单元所处地位几乎“ 平等”的总体,这种抽样原则既公正又方便。但在许多社 会经济活动中并非所有单元地位相同,这时就需要采用不等 概率抽样方法 例如,要了解上海地区钢铁企业的景气状况,总体有上 钢一厂、三厂、五厂……等等,再加上宝钢。由于宝钢规模 极大,它是否景气对整个上海地区钢铁工业起着至关重要的 作用。而在抽样中将它与其它规模较小的单位处于同等地位 就会既不公正又使抽样推断结果有较大可能发生大的偏差。 这个例子提示我们,若对总体单元进行不等概率抽样,使得 “大”单元入样概率大,“小”单元入样概率小,这里的“ 大”、“小”与我们所关心的调查指标有着密切的关系
到目前为止,我们所讨论的两种抽样方法—简单随机抽 样和分层抽样都有一个共同的特点:总体或层中每个个体被 抽中入样的概率都是相同的。对于各单元所处地位几乎 “ 平等” 的总体,这种抽样原则既公正又方便。但在许多社 会经济活动中并非所有单元地位相同,这时就需要采用不等 概率抽样方法。 第七章 不等概率抽样 例如,要了解上海地区钢铁企业的景气状况,总体有上 钢一厂、三厂、五厂……等等,再加上宝钢。由于宝钢规模 极大,它是否景气对整个上海地区钢铁工业起着至关重要的 作用。而在抽样中将它与其它规模较小的单位处于同等地位 就会既不公正又使抽样推断结果有较大可能发生大的偏差。 这个例子提示我们,若对总体单元进行不等概率抽样,使得 “大”单元入样概率大,“小”单元入样概率小,这里的“ 大” 、 “小”与我们所关心的调查指标有着密切的关系
不等概率抽样又分为有放回与无放回两种情况。我们最 关心也是最重要的情形是抽样容量n固定时,单元入样的概 率(不放回抽样)或每次抽样的概率(有放回抽样)与单元 的夭小严格成比例。这种情况下的有放回抽样称为抽样 不放回抽样称为兀pS抽样 §1回的不等概率抽样 1、多项抽样、PDS抽样及其实施方法 既然是不等概率抽样,那么就应该在抽样之前给总体中 的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽 取中,设第i个单元入样的概率为Z(0≤2≤1i=1,2,…,N) 且∑z1=1,按此规定有放回地独立抽取n次,形成所谓 的多项抽样
不等概率抽样又分为有放回与无放回两种情况。我们最 关心也是最重要的情形是抽样容量 n固定时,单元入样的概 率(不放回抽样)或每次抽样的概率(有放回抽样)与单元 的大小严格成比例。这种情况下的有放回抽样称为 抽样 不放回抽样称为 ps 抽样。 pps §1 放回的不等概率抽样 1、多项抽样、 pps 抽样及其实施方法 既然是不等概率抽样,那么就应该在抽样之前给总体中 的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽 取中,设第 个单元入样的概率为 且 ,按此规定有放回地独立抽取 n 次,形成所谓 的多项抽样。 i (0 1, 1,2, , ) Z Z i N i i = 1 1 N Z i i = =
假设第i个单元在n次抽样中被抽中t次,则t1,2,…,tN) 是一个随机向量,其联合分布为: →t!t!…t 222…E∑4=n1(1 这是我们熟悉的多项分布,多项抽样其名正出于此。 多项分布(7.1)具有如下性质: E(=nZ var(t1)=nz;(1-Z)i=1,2,…,N Cov(t,1)=-m221i≠ 倘若单元有一个数值度量其大小,诸如职工人数、工厂产值 商店销售额等,或者感兴趣的调查指标在上一次普查时的数 据也可以作为其单元大小的一种度量。记M为第i个单元的 “大小”,并诞=∑M1
假设第 个单元在 n次抽样中被抽中 次,则 是一个随机向量,其联合分布为: i i t 1 2 ( , , , ) N t t t 这是我们熟悉的多项分布,多项抽样其名正出于此。 1 2 1 2 1 2 ! ! ! ! t t tN N N n Z Z Z t t t 1 N i i t n = = (7.1) 多项分布(7.1)具有如下性质: ( ) ( ) (1 ) 1, 2, , ( , ) i i i i i i j i j E t nZ Var t nZ Z i N Cov t t nZ Z i j = = − = = − 倘若单元有一个数值度量其大小,诸如职工人数、工厂产值 商店销售额等,或者感兴趣的调查指标在上一次普查时的数 据也可以作为其单元大小的一种度量。记 为第 个单元的 “大小”,并记 Mi i 0 1 N Mi i M = =
则可取Z1=M1/M0 此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,郎为pDs抽样。 多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以ps抽样为例。 (1)代码法 它适合于N不太大的情形。假定所有的M为整数,倘若 在实际中存在M不是整数的话,则可以乘以一个倍数使一切 M为整数(对一般的多项抽样,也总可找到整数M。,使一切 MZ成为整数)。对于具整数M的第i个单元赋予一个与M 相等的代码数,见表7—1
多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以pps抽样为例。 则可取 Z M M i i = 0 此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。 (1)代码法 它适合于 N不太大的情形。假定所有的 为整数,倘若 在实际中存在 不是整数的话,则可以乘以一个倍数使一切 为整数(对一般的多项抽样,也总可找到整数 ,使一切 成为整数)。对于具整数 的第 个单元赋予一个与 相等的代码数,见表7—1。 Mi Mi Mi M0 M Z0 i Mi i Mi
表7-1 pps抽样时各单元的代码数 单元单元大小M 代码数 M 12 2 M M+1,M1+2,…,M1+M2 N ∑M+1,∑M1+2…∑M+M=M 每次抽样前,先在整数1,2,…,M0里面随机等可能的选 取一个整数,设为m,若代码m属于第j个单元拥有的代码 数,则第j个单元入样。整个过程重复n次,得到n个单元 入样(当然存在重复的可能性)构成pps样本
单元 i 单元大小 Mi 代码数 1 2 N 1 2 N M M M 1 1 1 0 1 1 1 1, 2, , N N N i i i N i i i M M M M M − − − = = = + + + = 1,2, ,M1 M M M M 1 1 1 2 + + + 1, 2, , 表7—1 pps 抽样时各单元的代码数 每次抽样前,先在整数 里面随机等可能的选 取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码 数,则第 j个单元入样。整个过程重复 n次,得到 n个单元 入样(当然存在重复的可能性)构成 pps 样本。 1,2, , M0
例7.1设某总体共有N=8个单元,相应M及代码如表所示 Mi 30×M 累计 代码 2/5 12 12 1~12 12345678 1/2 15 2713~27 2/3 20 28~47 4/3 40 87 48~87 8/5 48 13588~135 3/5 18 153136~153 2/3 20 173154~173 1 30 203174~203 ∑ Mn=203
例7.1 设某总体共有N=8个单元,相应 Mi 及代码如表所示 1 2 3 4 5 6 7 8 i Mi 2/5 1/2 2/3 4/3 8/5 3/5 2/3 1 30 Mi 12 15 20 40 48 18 20 30 累计 12 27 47 87 135 153 173 203 代码 1~12 13~27 28~47 48~87 88~135 136~153 154~173 174~203 M0 = 203
若取n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第3个单元入样一次,第5个单 元入样2次。 一■ (2) Lahiri(拉希里)方法 当N相当大时,累计的M将很大,给代码法的实施带 来很多不方便。 Lahiri提出下列方法:令M=max{M1} 1≤isN 每次抽取1~N中一个随机整数i及1~M内一个随机整数 m,如果M1≥m,则第i个单元入样;若M1<m,则按前面 步骤重抽(i,m),显然,第i个单元的入样与否受到m的影 响,只有M1≥m时它才入样,因此第i个单元入样的概率与 M的大小成正比,此时Z1=M/M0
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。 (2)Lahiri(拉希里) 方法 当 N 相当大时,累计的 将很大,给代码法的实施带 来很多不方便。Lahiri提出下列方法:令 每次抽取 1~N 中一个随机整数 及 1~ 内一个随机整数 ,如果 ,则第 个单元入样;若 ,则按前面 步骤重抽 ,显然,第 个单元的入样与否受到 的影 响,只有 时它才入样,因此第 个单元入样的概率与 的大小成正比,此时 * 1 max{ }i i N M M = i i i i ( , ) i m * M m M m i M m i M m i Mi Z M M i i = 0 M0 m
2、 Hansen- Hurwitz(汉森赫维茨)估计量 若J,y2,…,y是按Z为入样概率的多项抽样而得的样 本数据,它们相应的Z值自然记为22,…列n,,则对总 体总和, Hansen- Hurwitz给出了如下的估计量: HH =∑ (7.4) i=1 且E(予m)=Y,即jm是总体总和Y的无偏估计 vr(yms!¥ ∑z (7.6) n÷=1 r(ym)的无偏估计为 V(HH m(n-∑ -yH (7.7)
2、Hansen-Hurwitz (汉森—赫维茨)估计量 若 是按 为入样概率的多项抽样而得的样 本数据,它们相应的 值自然记为 ,则对总 体总和, Hansen-Hurwitz 给出了如下的估计量: 1 2 , , , n y y y 1 2 , , , n z z z Zi Zi 1 1 n i HH i i y y n z = = (7.4) 且 E y Y ( ) HH = ,即 y HH 是总体总和 Y 的无偏估计。 2 1 1 ( ) ( ) N i HH i i i Y Var y Z Y n Z = = − (7.6) ( ) Var yHH 的无偏估计为 2 1 1 ( ) ( ) ( 1) n i HH HH i i y v y y n n z = = − − (7.7)
§2不放回的不等概率抽样 上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。 最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的(N-1)个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入 样概率严格地与其“大小”成比例感兴趣,这就是所谓 抽样
§2 不放回的不等概率抽样 上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。 最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入 样概率严格地与其“大小”成比例感兴趣,这就是所谓的 抽样。 ps
1、包含概率丌,丌 不放回不等概率抽样中,总体中每个单元被包含到样本 的概率,,即入样概率)是个重琴的概念,而且任意 两个单元包含到样本中去的概夸=P(,j)也是个重要的 概念可以想象,估计量的方差等计算金接有着密切一 的关 晚然兀1表示第i个单元在n个样本中出现的可能性, 那么所有N个单元在样本中出现的可能性之和自然等于n, 这就悬}的一个众所周知的性质: ∑ 元:=n (7.8) i=1 我们所考虑的严格兀pS抽样,既然兀;与M,成比例,若 n固定的话,显然有: n.=n ,M。=∑M(79)
1、包含概率 , i ij 不放回不等概率抽样中,总体中每个单元被包含到样本 的概率,即入样概率 是个重要的概念,而且任意 两个单元包含到样本中去的概率 也是个重要的 概念可以想象,估计量的方差等计算会与 有着密切 的关系 ( ) i = p i ( , ) ij = p i j, i ij 既然 表示第 个单元在 n个样本中出现的可能性, 那么所有 N个单元在样本中出现的可能性之和自然等于 n, 这就是 的一个众所周知的性质: i i { } i 我们所考虑的严格 抽样,既然 与 成比例,若 n固定的话,显然有: ps i Mi 1 N i i n = = (7.8) 0 0 1 , N i i i i i M nZ n M M M = = = = (7.9)