《抽样调查》课程PPT教学课件：第二章概率与概率分布（2-7）若干数学准备

抽样推断既然必须处理收集来的数据，因此数学知识是必不可少的。下面仅就抽样调查中一些最基本的常用数学知识和概念以直观简洁的方式做一些介绍。

团购合买资源类别：文库，文档格式：PPT，文档页数：28，文件大小：977.5KB

§7若千歉学渔备抽样推断既然必须处理收集来的数据,因此数学知识是必不可少的。下面仅就抽样调查中一些最基本的常用数学知识和概念以直观简洁的方式做一些介绍 1、盒子模型般抽样调查面临的总体只有有限多个初级单元。从总体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的票数相当于有限总体的单元个数,票上记载着反映该单元特征的指标的值。设总体有N个单元,各指标值为 25 91N 则盒子如图2一1所示:

§7 若干数学准备抽样推断既然必须处理收集来的数据，因此数学知识是必不可少的。下面仅就抽样调查中一些最基本的常用数学知识和概念以直观简洁的方式做一些介绍。 1、盒子模型一般抽样调查面临的总体只有有限多个初级单元。从总体中抽样，就相当于从一个盒子里摸取若干张票，盒子里的票数相当于有限总体的单元个数，票上记载着反映该单元特征的指标的值。设总体有N个单元，各指标值为则盒子如图2－1所示： Y Y YN , , , 1 2 

H,Y2,…,Yy 图2-1 ---单一--一一-一一该盒中票的平均数为: Y=x(1+Y2+…+Y) 即总体平均数,它表示票上指标的中心。另一个重要的总体参数是盒中票的指标的离散程度,用指标值关于中心的距离的平方和的平均数来表示: N ∑-F)2 这实际上是总体的方差;但大部分情况采用: 2 2 N-1 ∑

Y Y YN , , , 1 2  图2－1 该盒中票的平均数为： ( ) 1 Y1 Y2 YN N Y = + ++ 即总体平均数，它表示票上指标的中心。另一个重要的总体参数是盒中票的指标的离散程度，用指标值关于中心的距离的平方和的平均数来表示： 2 1 2 ( ) 1 Y Y N i N i =  − =  这实际上是总体的方差；但大部分情况采用： 2 1 2 ( ) 1 1 Y Y N S i N i − − = =

如果我们只关心总体中具有某些特定类型的集合占整个总体的比例,那么只需稍加处理,引入0一1指标,总体比例的题立刻转化为总体平均数的一个特例只要将盒子中的票子分为两类,我们感兴趣的一类全标上1,其余的都标上0。于是盒子可用图2-2表示: N个 0 N-N个图2-2 则盒子中票子指标的平均数为 N Y= N ∑H i=1 N 正好是我们关心的那类个体占总体的比例。因此,凡对总体平均数有的结果,总体比例也有相应的结果

如果我们只关心总体中具有某些特定类型的集合占整个总体的比例，那么只需稍加处理，引入0－1指标，总体比例的问题立刻转化为总体平均数的一个特例。只要将盒子中的票子分为两类，我们感兴趣的一类全标上1，其余的都标上0。于是盒子可用图2－2表示：图2－2 N1 个 1 0 N − N1 个则盒子中票子指标的平均数为： N N Y N Y i N i 1 1 1 =  = = 正好是我们关心的那类个体占总体的比例。因此，凡对总体平均数有的结果，总体比例也有相应的结果

此时,盒子的方差化为: 2 ∑r-F) N i=1 N1( N-1)+(N-N )(11)2} NN-N NN =(总体中所占比例×(总体中所占比例常采用的方差表示为: M2 NNN N-N N-1 N-1N N

此时，盒子的方差化为： 2 1 2 ( ) 1 Y Y N i N i =  − =  { ( ) ( )( ) } 1 1 2 1 1 2 1 N N N N N N N N N + − − = N N N N N1 − 1 =  = (总体中1所占比例)(总体中0所占比例) 常采用的方差表示为： 2 2 1  − = N N S N N N N N N N 1 1 1 −   − =

从盒子中作随机抽取常常有两种不同方式:随机有放回抽取和随机无放回抽取。从直观上看,随机有放回方式存在着一张票子被抽中两次或两次以上的可能性,而随机无放回方式则不存在这种可能。在实际操作中,人们不太可能心甘情愿地花费两倍以上的费用去访问同一个单元。因此,随机无放回通常比随机有放回应“有效”一些,这一点将在第三章的讨论中在理论上加以肯定。但是,当盒子中的票数相当多,而抽取的票数相对较少时,有许多事件的概率习性对于有放回或无放回两种情况几乎差不多,因而有时候我们常从随机有放回这一最简单的形式入手讨论问题,而将有关的结果近似地套到随机无放回的情形。这里讨论的盒子模型是对简单随机抽样而言的,至于分层、分阶段等其它情况无非是大盒子里放小盒子等

从盒子中作随机抽取常常有两种不同方式：随机有放回抽取和随机无放回抽取。从直观上看，随机有放回方式存在着一张票子被抽中两次或两次以上的可能性，而随机无放回方式则不存在这种可能。在实际操作中，人们不太可能心甘情愿地花费两倍以上的费用去访问同一个单元。因此，随机无放回通常比随机有放回应“有效”一些，这一点将在第三章的讨论中在理论上加以肯定。但是，当盒子中的票数相当多，而抽取的票数相对较少时，有许多事件的概率习性对于有放回或无放回两种情况几乎差不多，因而有时候我们常从随机有放回这一最简单的形式入手讨论问题，而将有关的结果近似地套到随机无放回的情形。这里讨论的盒子模型是对简单随机抽样而言的，至于分层、分阶段等其它情况无非是大盒子里放小盒子等

2、随机误差与无偏估计量先讨论一个简单的具体例子。设有一个容量为7的总体由下面盒子给出,如图2-3所示:,, 1234567 图2-3 总体平均数和方差为 1=7x=4s=n1 7-1>0-Y 2=467 标准差S=√S2=216 此时,盒子中指标值以及总体的参数Y和S2对于调查者来说是未知的。调查者的任务就是从总体中抽出一个样本, 构造样本估计量,来推断总体平均数Y和方差S2

2、随机误差与无偏估计量先讨论一个简单的具体例子。设有一个容量为7的总体由下面盒子给出，如图2－3所示：图2－3 1 2 3 4 5 6 7 总体平均数和方差为： 4 7 1 7 1 =  = = i i Y Y ( ) 4.67 7 1 1 2 7 1 2 − = − = = S Yi Y i 标准差 2.16 2 S = S = 此时，盒子中指标值以及总体的参数和对于调查者来说是未知的。调查者的任务就是从总体中抽出一个样本，构造样本估计量，来推断总体平均数和方差。 Y Y 2 S 2 S

设样本容量n=3,使用样本(y,y2,y3)的样本均值和方差 ∑ns2 y-3---* 3-120n-y) i=1二-_ 来估计总体的平均值F和方差S2。考虑不放回简单随机抽样,由于抽样是随机的,7今个体中此时,每一个样本被抽中的概率都相等且为7<人c 的任何3个都可能入选样本。所有可能的样本数如抽中样本(2,3,6),则 y=(2+3+6)=367 3 31(2-367)2+(3-367)2+(6-3671=433

设样本容量n=3，使用样本的样本均值和方差来估计总体的平均值和方差。 ( , , ) 1 2 3 y y y i i y  y = = 3 3 1 1 2 3 1 2 ( ) 3 1 1 s y y i i − − = = Y 2 S 考虑不放回简单随机抽样，由于抽样是随机的，7个个体中的任何3个都可能入选样本。所有可能的样本数有 3 7 3 7 = C         此时，每一个样本被抽中的概率都相等且为         3 7 1 如抽中样本（2，3，6），则 (2 3 6) 3.67 3 1 y = + + = [(2 3.67) (3 3.67) (6 3.67) ] 4.33 3 1 2 1 2 2 2 − + − + − = − s =

用它们来估计总体的平均数和方差,误差如下对平均数有随机误差y-Y=367-4=-0.33 一-·--·-- 对方差有随机误差s2-S2=433-467=-0.34 由于样本是随机的,误差也将随着样本的不同而发生变化。如果我们的运气不佳,抽到样本(1,2,3),此时 y=-(1+2+3)=2 3 I(1-2)2+(2-2)2+(3-2)2]=1 3-1 随机误差分别为 y-F=2-4=-2s2-S2=1-4.67=-367 随机误差就大得许多。也就是说,用样本平均数和方差来估计总体平均数和方差有时是很糟糕的

用它们来估计总体的平均数和方差，误差如下：对平均数有随机误差 y −Y = 3.67 − 4 = −0.33 对方差有随机误差 4.33 4.67 0.34 2 2 s − S = − = − 由于样本是随机的，误差也将随着样本的不同而发生变化。如果我们的运气不佳，抽到样本（1，2，3），此时 (1 2 3) 2 3 1 y = + + = [(1 2) (2 2) (3 2) ] 1 3 1 2 1 2 2 2 − + − + − = − s = 随机误差分别为 y −Y = 2− 4 = −2 1 4.67 3.67 2 2 s − S = − = − 随机误差就大得许多。也就是说，用样本平均数和方差来估计总体平均数和方差有时是很糟糕的

为什么还要用样本平均数和方差来估计总体平均数和方差呢? 原因一:F和S2是样本平均数丿和方差s2的波动中心换句话说,虽然估计量y和S会发生随机误差,随机误差有正有负,但随机误差的平均值为0。或者说,所有可能的和2的平均值分别为Y和S2。以前述例子为例:所有可能的y的平均值为 )(所有可能的之和=1 ∑ 3/(D1+y2+y3) (1+2+3+4+5+6+7) 73(2 3 34!16! 7!324! ×(1+2+3+4+5+6+7)

为什么还要用样本平均数和方差来估计总体平均数和方差呢？原因一： Y 和是样本平均数和方差的波动中心 2 S y 2 s ( ) 3 7 1 所有可能的y 之和          + +         = 互不相等 1 2 3 , , 1 2 3 ( ) 3 1 3 7 1 y y y y y y (1 2 3 4 5 6 7) 2 6 3 1 3 7 1  + + + + + +                  = (1 2 3 4 5 6 7) 2 4 6 3 1 7 3 4 =   + + + + + + ！！！！！！换句话说，虽然估计量和会发生随机误差，随机误差有正有负，但随机误差的平均值为0。或者说，所有可能的和的平均值分别为和。 y 2 s y 2 s 2 Y S 以前述例子为例：所有可能的 y 的平均值为

=2(1+2+3+4+5+6+7)=4=Y 类似:所有可能的S的平均值为 1 3 (所有可能的s2之和) ∑;∑(-p)2 兰米相等 3 7 ∑ 2 ∑(-1)2-3(-)1 兰米相等 i=1 3 2 ∑∑0n-Y 2 ∑ 不相等米相等 1_27 2 + c∞9 2

= (1+ 2 + 3 + 4 + 5 + 6 + 7) = 4 = Y 7 1 类似：所有可能的的平均值为 2 s ( ) 3 7 1 所有可能的s 2 之和           −         = = 互不相等 1 2 3 , , 2 3 1 ( ) 2 1 3 7 1 y y y i i y y   − − −         = = 互不相等 1 2 3 , , 2 2 3 1 [ ( ) 3( ) ] 2 1 3 7 1 y y y i i y Y y Y   −         =  = 互不相等 1 2 3 , , 2 3 1 ( ) 3 7 1 2 1 y y y i i y Y  −         −  互不相等 1 2 3 , , 2 ( ) 3 7 1 2 3 y y y y Y 2 2 2 2 6 7 3 1 6 4 2 3 2 3 =  −    =  = S

点击下载完整版文档（PPT格式）

共28页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录