《抽样调查》课程PPT教学课件：第三章简单随机抽样（3.4-3.5）

3.4 百分数的估计及其误差 3.5 样本容量n 的确定

团购合买资源类别：文库，文档格式：PPT，文档页数：16，文件大小：578.5KB

§4百分数的估针及其误差在介绍盒子模型时已经指出,对于总体中具有某种特性的单元所占比例的抽样调耷,可建立Q-1盒子模型。即个具有某种特性的单元相应的票上全标上1,其余全标上0 N个 N-N个 N1是未知数。盒子中所占的比例是待估参数P N 由于该参数恰为0—1盒子的平均数,在简单随机抽样理论中自然地采用y这个无偏估计。为与参数记号相配,记: P q=1 ,Q=1-P 由第二章第七节的讨论可知,盒子的方差为: S N-1N N-N NNN-N

§4 百分数的估计及其误差在介绍盒子模型时已经指出，对于总体中具有某种特性的单元所占比例的抽样调查，可建立0－1盒子模型。即个具有某种特性的单元相应的票上全标上 1，其余全标上 0。 N1 N1 个 1 0 N − N1 个 N1 是未知数。盒子中1所占的比例是待估参数：。 N N P 1 = 由于该参数恰为0－1盒子的平均数，在简单随机抽样理论中自然地采用 y 这个无偏估计。为与参数记号相配，记： p ˆ = y , q ˆ =1− p ˆ , Q =1− P 由第二章第七节的讨论可知，盒子的方差为： PQ N N N N N N N N N S 1 1 2 1 1 − = −   − =

N-n PO 因此: Var(p) N-1 n 其中PQ为未知参数的乘积,只有对m()进行估计才有可能获得P的置信区间。尽管P,Q各有它们的无偏估计,q=1-p 但它们的乘积并非PQ的无偏估计。这里需要借助于2的无偏估计s2并且容易计算得: ∑(0n-y3 n pq n i=1 n 这样可得Vm(p)的无偏估计为: N-n N-n n py= N-n v(P) p(1-p) nN nN n-1(n-IN (或写为= pg n-1

因此： n PQ N N n Var p  − − = 1 ( ˆ) 其中PQ为未知参数的乘积，只有对进行估计才有可能获得P 的置信区间。尽管P，Q各有它们的无偏估计但它们的乘积并非PQ的无偏估计。这里需要借助于的无偏估计，并且容易计算得： Var( p ˆ) p ˆ ,q ˆ = 1− p ˆ 2 S 2 s pq n n y y n s n i i ˆ ˆ 1 ( ) 1 1 1 2 2 − − = − = = 这样可得 Var( p ˆ) 的无偏估计为： 2 ( ˆ) s nN N n v p − = pq n n nN N n ˆ ˆ −1  − = ˆ(1 ˆ) ( 1) p p n N N n − − = －（或写为 pq ） n f ˆ ˆ 1 1 − − =

现在可以构造百分数或比例p的置信度为1-a)的置信区间当N,n,N-n都比较大时,置信区间为: (d_\n-1 f pg, p+u 12Vn-10)8320 其实当N比较大时,样本中1的个数服从二项分布,因此当 n不是很大时,近似置信区间(326)会发生一定差错,应当考虑必要的修正。p的修正置信区间为: 1-f ((“=Vn1+2),b+4g21n1+2m (3.27)

其实当 N 比较大时，样本中1 的个数服从二项分布，因此当 n 不是很大时，近似置信区间(3.26)会发生一定差错，应当考虑必要的修正。p 的修正置信区间为：现在可以构造百分数或比例p 的置信度为 (1−) 的置信区间当N，n，N－n 都比较大时，置信区间为： ˆ ˆ ) 1 1 ˆ ˆ , ˆ 1 1 ( ˆ 2 1 2 1 pq n f pq p u n f p u − − +  − − −  − −   (3.26) ) 2 1 ˆ ˆ 1 1 , ˆ 2 1 ˆ ˆ 1 1 ( ˆ 2 1 2 1         + − − +          + − − −  − − n pq n f p u n pq n f p u   (3.27)

例34某地区有30587人,为调查其中吸烟者所占比例而从中随机无放回抽取2000人进行访问,得知其中烟民785人。试估计该地区吸烟者比例,并给出吸烟比例的置信水平为90%的近似置信区间。解:N=30587,n=2000 785 p=≈0.39254=1-p≈0.6075 2000 置信水平为90%,则a=0.10,查表得l1g=1.4 2000 又∫ ≈0.0654故置近似信区间为 30587 (p-u f f pg, p+u pg) n-1 n-1 =(0.3752,0.4098)=(37.52%,40.98%

例3.4 某地区有30587人，为调查其中吸烟者所占比例而从中随机无放回抽取2000人进行访问，得知其中烟民785人。试估计该地区吸烟者比例，并给出吸烟比例的置信水平为90％的近似置信区间。解： N＝30587，n＝2000 0.3925 2000 785 p ˆ =  q ˆ =1− p ˆ  0.6075 置信水平为90％，则  = 0.10 ，查表得 1.64 2 1 = − u  又 0.0654 30587 2000 f =  ˆ ˆ ) 1 1 ˆ ˆ , ˆ 1 1 ( ˆ 2 1 2 1 pq n f pq p u n f p u − − +  − − −  − −   故置近似信区间为 = (0.3752 , 0.4098) ＝(37.52％，40.98％)

§5样本容量n的确定抽样调查理论中,样本容量n的确定具有实实在在的意义。n过天,违背抽样调查的宗旨,n过小,则抽样误差偏大,无法作出精确的估计。般情况,总费用是固定的,在固定的费用下尽量提高精度或在必需的精度下使费用尽可能减少,是我们确定n的基本原则。下面主要研究简单随机抽样下如何确定n。设选取n个样本,访问每个单元所需的平均费用为C1 另外除了样本调查所需的费用以外,还需要一笔基本费用例如办公费、设计问卷的费用等,用c表示。这样总费用为 CI C=co+n. 我们主要考虑n与精度的关系:

§5 样本容量n 的确定抽样调查理论中，样本容量n 的确定具有实实在在的意义。 n 过大，违背抽样调查的宗旨，n 过小，则抽样误差偏大，无法作出精确的估计。一般情况，总费用是固定的，在固定的费用下尽量提高精度或在必需的精度下使费用尽可能减少，是我们确定n 的基本原则。下面主要研究简单随机抽样下如何确定 n 。设选取 n 个样本，访问每个单元所需的平均费用为，另外除了样本调查所需的费用以外，还需要一笔基本费用，例如办公费、设计问卷的费用等，用表示。这样总费用为 1 c 0 c t 0 1 c c n c = +  我们主要考虑 n 与精度的关系：

精度要求主要涉及到估计的方差(或相应的标准差), 或估计量与参数的绝对误差或相对误差。若记已为基于简单随机样本y…的关于参数的值计量9二是二个随机变量,要使此绝对误差控制在一定数之内,只能以概率加以描述,假设置信水平为1-a,那么 P{On-6|<d=1-a 假设n相当大时,6n可以利用正态近似,我们有 .-6 P < =o(a1g)-o(a2) Var(0, vAr(0,) 这样:d=1gVm(,)或d=1gS(a)(31 同样,若以相对误差r作为标准,则有

精度要求主要涉及到估计的方差（或相应的标准差），或估计量与参数的绝对误差或相对误差。若记为基于简单随机样本的关于参数的估计量。是一个随机变量，要使此绝对误差控制在一定数之内，只能以概率加以描述，假设置信水平为，那么： ˆ  n ( , , , ) y y y 1 2 n  ˆ   n − 1− ˆ P d { } 1    n −  = − 2 2 1 ˆ ( ) ( ) ˆ ( ) n n P u u Var      −   −      =  −      ˆ ( ) n d Var  同样，若以相对误差r 作为标准,则有假设 n 相当大时，  ˆ n 可以利用正态近似，我们有这样： 2 1 ˆ ( ) d u Var =  −   n 2 1 ˆ ( ) 或 d u S =  −   n (3.31)

.- P <r}=1-c ---一-单---一再利用正态近似的手段,得: r=u, g var(ee=u, scv(e,) 这里我们定义:Cv6)=yar(0,) 我们称之为统计量n的变异系数,它在抽样调查中也是一个比较重要的量,尤其是在评价统计量的精度时常常用到。将31)式中的n取为”为例,mr()=( 如果调查时d有一定要求,那么由(3,31)式以及额定的d,只要 S已知,我们完全可以求得n的值

ˆ 1 n P r       −      = −     再利用正态近似的手段，得: 2 1 ˆ ( ) n r u Var    − =  2 1 ˆ ( ) =  u CV −   n ˆ ( ) CV  n ˆ ( ) 这里我们定义： = Var   n 我们称之为统计量的变异系数，它在抽样调查中也是一个比较重要的量，尤其是在评价统计量的精度时常常用到。 ˆ  n 将(3.31)式中的取为为例，，如果调查时有一定要求，那么由(3.31)式以及额定的，只要已知，我们完全可以求得n 的值。 ˆ  n y 2 1 1 ( ) ( ) S Var y n N n = − d d 2 S

如果S2是未知的,我们可以先作少量抽样以估计S2, 然后再确定n,当然这个确定的n比少量抽样的容量通常要大。如果问题是估计总体的具有某种特征的子总体所占的百分数P,那么 Var(p) N-n PQ N-1 n 代入331)式,并解得: 2 Po n 1+ 1 u2_gP2 (3.35) n d 由于P未知,仍然必须事先利用少量抽样加以估计。但在实际操作中,当0.3≤P≤0.7时,PQ很接近P=05时的最大值

如果是未知的，我们可以先作少量抽样以估计，然后再确定n ，当然这个确定的n 比少量抽样的容量通常要大。 2 S 2 S 如果问题是估计总体的具有某种特征的子总体所占的百分数 P ，那么代入(3.31)式，并解得： n PQ N N n Var p  − − = 1 ( ˆ) 2 2 2 2 1 1 2 2 1 1 1 u PQ u PQ n d N d   − −       = + −             (3.35) 由于 P 未知，仍然必须事先利用少量抽样加以估计。但在实际操作中，当0.3 0.7   P 时，PQ很接近P=0.5时的最大值

以P=0.5代入,此时 u,Po/d2xu2 4/4d 得到n约为 u (3.36 1+ N 4d2 如果调查对c有一定要求,自然也能得到n的大约数值。以(336)式确定n,建立在P不大不小的基础之上。这种信息有时在抽样之前事先感觉得到。有时事先也可能感觉 P相当小(或Q相当小)。例如,要估计流水线上生产一批精密元件的废品率,此时废品率往往很小,P<0.1是最起码的。对此废品率的抽样调查所需的n就不能用(336)式了

以P=0.5代入，此时 2 2 2 2 2 2 1 1 u PQ d u d   4 − −  得到 n 约为如果调查对 ct 有一定要求，自然也能得到n 的大约数值。 2 2 2 1 2 2 1 2 4 1 1 1 4 u d n u N d   − − =   + −       (3.36) 以(3.36)式确定n ，建立在P 不大不小的基础之上。这种信息有时在抽样之前事先感觉得到。有时事先也可能感觉 P相当小（或Q相当小）。例如，要估计流水线上生产一批精密元件的废品率，此时废品率往往很小，P<0.1是最起码的。对此废品率的抽样调查所需的n 就不能用(3.36)式了

这种场合下如何确定n呢?一个可供选择的方法就是逆抽样。思路很简单,我们事先估计P很小,此时确定的n次抽样中必须含有废品,吞则很难计P。于是逆抽样方法建议我们事先确定一个大于1的整数m,从总体中随机逐次抽取样本,直到出现第m个“废品”(或具有某种特征的单元为止。此时,我们实际抽取的样本容量n是一个随机变量, 我们使用: (3.37) 来估计P。逆抽样的特点是n为随机变量,与P及m有相当的关系,P的精度就与m有密切的关系。我们的问题是根据调查的需要去确定事先指定的“废品”数m。一般地,由于欲估计的P相当小,因此可以认为Q几乎为1。运用概率论知识可求得p的变异系数的一个上界:

这种场合下如何确定n 呢？一个可供选择的方法就是逆抽样。思路很简单，我们事先估计P 很小，此时确定的 n 次抽样中必须含有废品，否则很难估计 P 。于是逆抽样方法建议我们事先确定一个大于1 的整数 m ，从总体中随机逐次抽取样本，直到出现第m 个“废品”（或具有某种特征的单元）为止。此时，我们实际抽取的样本容量n 是一个随机变量，我们使用：来估计 P。逆抽样的特点是n 为随机变量，与P及m有相当的关系，的精度就与m 有密切的关系。我们的问题是根据调查的需要去确定事先指定的“废品”数m 。 p ˆ 1 ˆ 1 m p n −  = − (3.37) 一般地，由于欲估计的 P 相当小，因此可以认为Q 几乎为 1 。运用概率论知识可求得 p ˆ的变异系数的一个上界：

点击下载完整版文档（PPT格式）

共16页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录