§4百分数的估及其误差 在介绍盒子模型时已经指出,对于总体中具有某种特性 的单元所占比例的抽样调查,可建立0-1盒子模型。即NV个 具有某种特性的单元相应的票上全标上1,其余全标上0。 N个 0 N-N个 N1是未知数。盒子中所占的比例是待估参数 由于该参数恰为0-1盒子的平均数,在简单随机抽样理论中 自然地采用y这个无偏估计。为与参数记号相配,记: p=y,q=1-p,Q=1-P 由第二章第七节的讨论可知,盒子的方差为: s2= MNN-N N N-1NN -?Q
§4 百分数的估计及其误差 在介绍盒子模型时已经指出,对于总体中具有某种特性 的单元所占比例的抽样调查,可建立0-1盒子模型。即 个 具有某种特性的单元相应的票上全标上 1,其余全标上 0。 N1 N1 个 1 0 N − N1 个 N1 是未知数。盒子中1所占的比例是待估参数: 。 N N P 1 = 由于该参数恰为0-1盒子的平均数,在简单随机抽样理论中 自然地采用 y 这个无偏估计。为与参数记号相配,记: p ˆ = y , q ˆ =1− p ˆ , Q =1− P 由第二章第七节的讨论可知,盒子的方差为: PQ N N N N N N N N N S 1 1 2 1 1 − = − − =
因此: Var(p) N-n PQ N-1 n 其中PQ为未知参数的乘积,只有对mr(进行估计才有可能 获得P的置信区间。尽管P,Q各有它们的无偏估访,q=1-p 但它们的乘积并非PQ的无偏估计。这里需要借助于S2的无偏 估计s2并且容易计算得: 2 1 ∑(-y n pq n i=1 n-1 这样可得r(p)的无偏估计为: N-n. N-n n N一n pq= nN n-1 (n=1)N (或写为=1- pg n
因此: n PQ N N n Var p − − = 1 ( ˆ) 其中PQ为未知参数的乘积,只有对 进行估计才有可能 获得P 的置信区间。尽管P,Q各有它们的无偏估计 但它们的乘积并非PQ的无偏估计。这里需要借助于 的无偏 估计 ,并且容易计算得: Var( p ˆ) p ˆ ,q ˆ = 1− p ˆ 2 S 2 s pq n n y y n s n i i ˆ ˆ 1 ( ) 1 1 1 2 2 − − = − = = 这样可得 Var( p ˆ) 的无偏估计为: 2 ( ˆ) s nN N n v p − = pq n n nN N n ˆ ˆ −1 − = ˆ(1 ˆ) ( 1) p p n N N n − − = - (或写为 pq ) n f ˆ ˆ 1 1 − − =
现在可以构造百分数或比例p的置信度为(1-a)的置信区间 当N,n,N-n都比较大时,置信区间为: (p-u p f∫ Vn-1 2 ,P+12Vn-1)(3.26) 其实当N比较大时,样本中1的个数服从二项分布,因此当 n不是很大时,近似置信区间(3.26)会发生一定差错,应当考 虑必要的修正。p的修正置信区间为: 1-f (p f∫ + u -pg t n n-1 2 (327)
其实当 N 比较大时,样本中1 的个数服从二项分布,因此当 n 不是很大时,近似置信区间(3.26)会发生一定差错,应当考 虑必要的修正。p 的修正置信区间为: 现在可以构造百分数或比例p 的置信度为 (1−) 的置信区间 当N,n,N-n 都比较大时,置信区间为: ˆ ˆ ) 1 1 ˆ ˆ , ˆ 1 1 ( ˆ 2 1 2 1 pq n f pq p u n f p u − − + − − − − − (3.26) ) 2 1 ˆ ˆ 1 1 , ˆ 2 1 ˆ ˆ 1 1 ( ˆ 2 1 2 1 + − − + + − − − − − n pq n f p u n pq n f p u (3.27)
例3.4某地区有30587人,为调查其中吸烟者所占比例而从中 随机无放回抽取2000人进行访问,得知其中烟民785人。试估 计该地区吸烟者比例,并给出吸烟比例的置信水平为90%的 近似置信区间 解:N=30587,n=2000 785 ≈0.3925=1-p≈0.6075 2000 置信水平为90%,则a=0.10,查表得u1g=1.64 2000 又f3058≈0.0654故置近似信区间为 (p- pg ptu f pq) n-1 n =(0.3752,0.4098)=(37.52%,40.98%
例3.4 某地区有30587人,为调查其中吸烟者所占比例而从中 随机无放回抽取2000人进行访问,得知其中烟民785人。试估 计该地区吸烟者比例,并给出吸烟比例的置信水平为90%的 近似置信区间。 解: N=30587,n=2000 0.3925 2000 785 p ˆ = q ˆ =1− p ˆ 0.6075 置信水平为90%,则 = 0.10 ,查表得 1.64 2 1 = − u 又 0.0654 30587 2000 f = ˆ ˆ ) 1 1 ˆ ˆ , ˆ 1 1 ( ˆ 2 1 2 1 pq n f pq p u n f p u − − + − − − − − 故置近似信区间为 = (0.3752 , 0.4098) =(37.52%,40.98%)
§5样本容量n的确定 抽样调查理论中,样本容量n的确定具有实实在在的意 义。m透天,违背抽样调查的宗旨,n过小,则抽样误差偏 大,无法作出精确的估计。 般情况,总费用是固定的,在固定的费用下尽量提高 精度或在必需的精度下使费用尽可能减少,是我们确定n的 基本原则。下面主要研究简单随机抽样下如何确定n。 设选取n个样本,访问每个单元所需的平均费用为C1, 另外除了样本调查所需的费用以外,还需要一笔基本费用, 例如办公费、设计问卷的费用等,用c表示。这样总费用为 co+nc 我们主要考虑n与精度的关系:
§5 样本容量n 的确定 抽样调查理论中,样本容量n 的确定具有实实在在的意 义。 n 过大,违背抽样调查的宗旨,n 过小,则抽样误差偏 大,无法作出精确的估计。 一般情况,总费用是固定的,在固定的费用下尽量提高 精度或在必需的精度下使费用尽可能减少,是我们确定n 的 基本原则。下面主要研究简单随机抽样下如何确定 n 。 设选取 n 个样本,访问每个单元所需的平均费用为 , 另外除了样本调查所需的费用以外,还需要一笔基本费用, 例如办公费、设计问卷的费用等,用 表示。这样总费用为 1 c 0 c t 0 1 c c n c = + 我们 主要考虑 n 与精度的关系:
精度要求主要涉及到估计的方差(或相应的标准差), 或估计量与参数的绝对误差或相对误差。若记e为基于简单 随机样本(…的关于参数的值计量。(二0是个 随机变量,要使此绝对误差控制在一定数之内,只能以概率 加以描述,假设置信水平为1-a,那么 P(0n-0<d=1-a 假设n相当大时,6n可以利用正态近似,我们有 .- < =s(1-g)-(mng) Var(e,) Var(0,) 这样:d=u1-gVur(0)或d=1g·S(n)(3.31) 同样,若以相对误差r作为标准,则有
精度要求主要涉及到估计的方差(或相应的标准差), 或估计量与参数的绝对误差或相对误差。若记 为基于简单 随机样本 的关于参数 的估计量。 是一个 随机变量,要使此绝对误差控制在一定数之内,只能以概率 加以描述,假设置信水平为 ,那么: ˆ n ( , , , ) y y y 1 2 n ˆ n − 1− ˆ P d { } 1 n − = − 2 2 1 ˆ ( ) ( ) ˆ ( ) n n P u u Var − − = − ˆ ( ) n d Var 同样,若以相对误差r 作为标准,则有 假设 n 相当大时, ˆ n 可以利用正态近似,我们有 这样: 2 1 ˆ ( ) d u Var = − n 2 1 ˆ ( ) 或 d u S = − n (3.31)
.-b P <r 1-at 再利用正态近似的手段,得: r=W,g var(e, e=u g cv(e, 这里我们定义:C()=yar(a,)0 我们称之为统计量n的变异系数,它在抽样调查中也是一个 比较重要的量,尤其是在评价统计量的精度时常常用到。 将(31)式中的a取为为例,m(m=(1-1s2 ,如 果调查时d有一定要求,那么由(31)式以及额定的d,只要 S2已知,我们完全可以求得n的值
ˆ 1 n P r − = − 再利用正态近似的手段,得: 2 1 ˆ ( ) n r u Var − = 2 1 ˆ ( ) = u CV − n ˆ ( ) CV n ˆ ( ) 这里我们定义: = Var n 我们称之为统计量 的变异系数,它在抽样调查中也是一个 比较重要的量,尤其是在评价统计量的精度时常常用到。 ˆ n 将(3.31)式中的 取为 为例, ,如 果调查时 有一定要求,那么由(3.31)式以及额定的 ,只要 已知,我们完全可以求得n 的值。 ˆ n y 2 1 1 ( ) ( ) S Var y n N n = − d d 2 S
如果S2是未知的,我们可以先作少量抽样以估计S2, 然后再确定n,当然这个确定的n比少量抽样的容量通常 要大。 单一----一1一--一1一--4--单- 如果问题是估计总体的具有某种特征的子总体所占的 百分数P,那么 Var(p) N-n PQ N-1 n 代入(3.31)式,并解得 u, Po PO 1+ (335) d N 由于P未知,仍然必须事先利用少量抽样加以估计。但在实 际操作中,当0.3≤P≤0.7时,PQ很接近P=05时的最大值
如果 是未知的,我们可以先作少量抽样以估计 , 然后再确定n ,当然这个确定的n 比少量抽样的容量通常 要大。 2 S 2 S 如果问题是估计总体的具有某种特征的子总体所占的 百分数 P ,那么 代入(3.31)式,并解得: n PQ N N n Var p − − = 1 ( ˆ) 2 2 2 2 1 1 2 2 1 1 1 u PQ u PQ n d N d − − = + − (3.35) 由于 P 未知,仍然必须事先利用少量抽样加以估计。但在实 际操作中,当0.3 0.7 P 时,PQ很接近P=0.5时的最大值
以P=0.5代入,此时 ui=gPe/d2 sui-9/ 4d 得到n约为 4d2 (3.36) 1+ N(42~ 如果调查对c有一定要求,自然也能得到n的大约数值。 以(3.36式确定n,建立在P不大不小的基础之上。这 种信息有时在抽样之前事先感觉得到。有时事先也可能感觉 P相当小(或Q相当小)。例如,要估计流水线上生产一批 精密元件的废品率,此时废品率往往很小,P<0.1是最起码 的。对此废品率的抽样调查所需的n就不能用(336)式了
以P=0.5代入,此时 2 2 2 2 2 2 1 1 u PQ d u d 4 − − 得到 n 约为 如果调查对 ct 有一定要求,自然也能得到n 的大约数值。 2 2 2 1 2 2 1 2 4 1 1 1 4 u d n u N d − − = + − (3.36) 以(3.36)式确定n ,建立在P 不大不小的基础之上。这 种信息有时在抽样之前事先感觉得到。有时事先也可能感觉 P相当小(或Q相当小)。例如,要估计流水线上生产一批 精密元件的废品率,此时废品率往往很小,P<0.1是最起码 的。对此废品率的抽样调查所需的n 就不能用(3.36)式了
这种场合下如何确定n呢?一个可供选择的方法就是逆 抽样。思路很简单,我们事先估计P很小,此时确定的n次 抽样中必须含有废品,则很难估计P。手是逆抽样方法建 议我们事先确定一个大于1的整数m,从总体中随机逐次抽 取样本,直到出现第m个“废品”(或具有某种特征的单元 为止。此时,我们实际抽取的样本容量n是一个随机变量, 我们使用: (337) 来估计P。逆抽样的特点是n为随机变量,与P及m有相当的 关系,P的精度就与m有密切的关系。我们的问题是根据调 查的需要去确定事先指定的“废品”数m。 一般地,由于欲估计的P相当小,因此可以认为Q几乎 为1。运用概率论知识可求得p的变异系数的一个上界:
这种场合下如何确定n 呢?一个可供选择的方法就是逆 抽样。思路很简单,我们事先估计P 很小,此时确定的 n 次 抽样中必须含有废品,否则很难估计 P 。于是逆抽样方法建 议我们事先确定一个大于1 的整数 m ,从总体中随机逐次抽 取样本,直到出现第m 个“废品”(或具有某种特征的单元) 为止。此时,我们实际抽取的样本容量n 是一个随机变量, 我们使用: 来估计 P。逆抽样的特点是n 为随机变量,与P及m有相当的 关系, 的精度就与m 有密切的关系。我们的问题是根据调 查的需要去确定事先指定的“废品”数m 。 p ˆ 1 ˆ 1 m p n − = − (3.37) 一般地,由于欲估计的 P 相当小,因此可以认为Q 几乎 为 1 。运用概率论知识可求得 p ˆ的变异系数的一个上界: