当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第二章 概率与概率分布 §7 若干数学准备

资源类别:文库,文档格式:PPT,文档页数:28,文件大小:977.5KB,团购合买
抽样推断既然必须处理收集来的数据,因此数学知识是必不可少的。下面仅就抽样调查中一些最基本的常用数学知识和概念以直观简洁的方式做一些介绍。 1、盒子模型 一般抽样调查面临的总体只有有限多个初级单元。从总体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的票数相当于有限总体的单元个数,票上记载着反映该单元特征的指标的值。
点击下载完整版文档(PPT)

§7若千数学准备 抽样推断既然必须处理收集来的数据,因此数学知识是 必不可少的。下面仅就抽样调查中一些最基本的常用数学知 识和概念以直观简洁的方式做一些介绍。 1、盒子模型 一般抽样调查面临的总体只有有限多个初级单元。从总 体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的 票数相当于有限总体的单元个数,票上记载着反映该单元特 征的指标的值。设总体有N个单元,各指标值为 YY 29 则盒子如图2一1所示:

§7 若干数学准备 抽样推断既然必须处理收集来的数据,因此数学知识是 必不可少的。下面仅就抽样调查中一些最基本的常用数学知 识和概念以直观简洁的方式做一些介绍。 1、盒子模型 一般抽样调查面临的总体只有有限多个初级单元。从总 体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的 票数相当于有限总体的单元个数,票上记载着反映该单元特 征的指标的值。设总体有N个单元,各指标值为 则盒子如图2-1所示: Y Y YN , , , 1 2 

YY Y 25 --,图 该盒中票的平均数为: Y=(Y1+Y2+…+Yx) 即总体平均数,它表示票上指标的中心。 另一个重要的总体参数是盒中票的指标的离散程度,用指标 值关于中心的距离的平方和的平均数来表示: N ∑(1-y)2 这实际上是总体的方差;但大部分情况采用: 2 N-1 ∑(

Y Y YN , , , 1 2  图2-1 该盒中票的平均数为: ( ) 1 Y1 Y2 YN N Y = + ++ 即总体平均数,它表示票上指标的中心。 另一个重要的总体参数是盒中票的指标的离散程度,用指标 值关于中心的距离的平方和的平均数来表示: 2 1 2 ( ) 1 Y Y N i N i =  − =  这实际上是总体的方差;但大部分情况采用: 2 1 2 ( ) 1 1 Y Y N S i N i − − = =

如果我们只关心总体中具有某些特定类型的集合占整个 总体的比例,那么只需稍加处理,引入0-1指标,总体比例 的回题立刻转化为总体平均数的,个特例。 只要将盒子中的票子分为两类,我们感兴趣的一类全标 上1,其余的都标上0。于是盒子可用图2-2表示: N个 0 N-N个 图2-2 则盒子中票子指标的平均数为: N Y= N ∑Y =1 N 正好是我们关心的那类个体占总体的比例。因此,凡对总体 平均数有的结果,总体比例也有相应的结果

如果我们只关心总体中具有某些特定类型的集合占整个 总体的比例,那么只需稍加处理,引入0-1指标,总体比例 的问题立刻转化为总体平均数的一个特例。 只要将盒子中的票子分为两类,我们感兴趣的一类全标 上1,其余的都标上0。于是盒子可用图2-2表示: 图2-2 N1 个 1 0 N − N1 个 则盒子中票子指标的平均数为: N N Y N Y i N i 1 1 1 =  = = 正好是我们关心的那类个体占总体的比例。因此,凡对总体 平均数有的结果,总体比例也有相应的结果

此时,盒子的方差化为 2=1∑x1-F =L ={N,(N-M 1 N )2+(N-N1)()2} N NN-N N M (总体中所占比例×(总体中所占比例 常采用的方差表示为 2N2NN1N一 N-1 N- N N

此时,盒子的方差化为: 2 1 2 ( ) 1 Y Y N i N i =  − =  { ( ) ( )( ) } 1 1 2 1 1 2 1 N N N N N N N N N + − − = N N N N N1 − 1 =  = (总体中1所占比例)(总体中0所占比例) 常采用的方差表示为: 2 2 1  − = N N S N N N N N N N 1 1 1 −   − =

从盒子中作随机抽取常常有两种不同方式:随机有放回 抽取和随机无放回抽取。从直观上看,随机有放回方式存在 着一张票子被抽中两次或两次以上的可能性,而随机无放回 方式则不存在这种可能。 在实际操作中,人们不太可能心甘情愿地花费两倍以上 的费用去访问同一个单元。因此,随机无放回通常比随机有 放回应“有效”一些,这一点将在第三章的讨论中在理论上加 以肯定。但是,当盒子中的票数相当多,而抽取的票数相对 较少时,有许多事件的概率习性对于有放回或无放回两种情 况几乎差不多,因而有时候我们常从随机有放回这一最简单 的形式入手讨论问题,而将有关的结果近似地套到随机无放 回的情形。 这里讨论的盒子模型是对简单随机抽样而言的,至于分 层、分阶段等其它情况无非是大盒子里放小盒子等

从盒子中作随机抽取常常有两种不同方式:随机有放回 抽取和随机无放回抽取。从直观上看,随机有放回方式存在 着一张票子被抽中两次或两次以上的可能性,而随机无放回 方式则不存在这种可能。 在实际操作中,人们不太可能心甘情愿地花费两倍以上 的费用去访问同一个单元。因此,随机无放回通常比随机有 放回应“有效”一些,这一点将在第三章的讨论中在理论上加 以肯定。但是,当盒子中的票数相当多,而抽取的票数相对 较少时,有许多事件的概率习性对于有放回或无放回两种情 况几乎差不多,因而有时候我们常从随机有放回这一最简单 的形式入手讨论问题,而将有关的结果近似地套到随机无放 回的情形。 这里讨论的盒子模型是对简单随机抽样而言的,至于分 层、分阶段等其它情况无非是大盒子里放小盒子等

2、随机误差与无偏估计量 先讨论一个简单的具体例子。设有一个容量为7的总体 由正面盒子给出,如图2-3所示:_+_ 1234567 图2-3 总体平均数和方差为: Y ∑Y S 2 7 ∑(Y-Y)2=467 i=1 7-1a 标准差S=√S2=216 此时,盒子中指标值以及总体的参数Y和S2对于调查者 来说是未知的。调查者的任务就是从总体中抽出一个样本, 构造样本估计量,来推断总体平均数Y和方差S2

2、随机误差与无偏估计量 先讨论一个简单的具体例子。设有一个容量为7的总体 由下面盒子给出,如图2-3所示: 图2-3 1 2 3 4 5 6 7 总体平均数和方差为: 4 7 1 7 1 =  = = i i Y Y ( ) 4.67 7 1 1 2 7 1 2 − = − = = S Yi Y i 标准差 2.16 2 S = S = 此时,盒子中指标值以及总体的参数 和 对于调查者 来说是未知的。调查者的任务就是从总体中抽出一个样本, 构造样本估计量,来推断总体平均数 和方差 。 Y Y 2 S 2 S

设样本容量n=3,使用样本(y1,y2,y3)的样本均值和方 差 ∑ns2 3 ∑(1-p)2 3 来估计总体的平均值Y和方差S2。 考虑不放回简单随机抽样,由于抽样是随机的,7个个体中 的任何3个都可能入选样本,所有可能的样本数=C 此时,每一个样本被抽中的概率都相等且为1/ 如抽中样本(2,3,6),则 y=(2+3+6)=367 31(2-367)2+(3-367)2+(6-3.67)21=433

设样本容量n=3,使用样本 的样本均值和方 差 来估计总体的平均值 和方差 。 ( , , ) 1 2 3 y y y i i y  y = = 3 3 1 1 2 3 1 2 ( ) 3 1 1 s y y i i − − = = Y 2 S 考虑不放回简单随机抽样,由于抽样是随机的,7个个体中 的任何3个都可能入选样本。所有可能的样本数有 3 7 3 7 = C         此时,每一个样本被抽中的概率都相等且为         3 7 1 如抽中样本(2,3,6),则 (2 3 6) 3.67 3 1 y = + + = [(2 3.67) (3 3.67) (6 3.67) ] 4.33 3 1 2 1 2 2 2 − + − + − = − s =

用它们来估计总体的平均数和方差,误差如下: 对平均数有随机误差y-Y=367-4=-0.33 对方差有随机误差s2-S2=433-467=-034 由于样本是随机的,误差也将随着样本的不同而发生 变化。如果我们的运气不佳,抽到样本(1,2,3),此时 (1+2+3)=2 3 2 1 3y(-2)2+(2-2)2+(3-2)21=1 随机误差分别为 卩-Y=2-4=-2s2-S2=1-467=-367 随机误差就大得许多。也就是说,用样本平均数和方差 来估计总体平均数和方差有时是很糟糕的

用它们来估计总体的平均数和方差,误差如下: 对平均数有随机误差 y −Y = 3.67 − 4 = −0.33 对方差有随机误差 4.33 4.67 0.34 2 2 s − S = − = − 由于样本是随机的,误差也将随着样本的不同而发生 变化。如果我们的运气不佳,抽到样本(1,2,3),此时 (1 2 3) 2 3 1 y = + + = [(1 2) (2 2) (3 2) ] 1 3 1 2 1 2 2 2 − + − + − = − s = 随机误差分别为 y −Y = 2− 4 = −2 1 4.67 3.67 2 2 s − S = − = − 随机误差就大得许多。也就是说,用样本平均数和方差 来估计总体平均数和方差有时是很糟糕的

为什么还要用样本平均数和方差来估计总体平均数和方差呢? 原因一:F和S2是样本平均数尹和方差s2的波动中心 换句话说,虽然估计量y和S会发生随机误差,随机误差 有正有负,但随机误差的平均值为0。或者说,所有可能的 卩和s2的平均值分别为Y和S2。 以前述例子为例:所有可能的y的平均值为 (所有可能的之和=∑2(n+y2+y3) 米箱等 3 11(6 73,×(+2+3+4+5+6+7 34!16! 7!324! ×(1+2+3+4+5+6+7)

为什么还要用样本平均数和方差来估计总体平均数和方差呢? 原因一: Y 和 是样本平均数 和方差 的波动中心 2 S y 2 s ( ) 3 7 1 所有可能的y 之 和          + +         = 互不相等 1 2 3 , , 1 2 3 ( ) 3 1 3 7 1 y y y y y y (1 2 3 4 5 6 7) 2 6 3 1 3 7 1  + + + + + +                  = (1 2 3 4 5 6 7) 2 4 6 3 1 7 3 4 =   + + + + + + !! ! ! !! 换句话说,虽然估计量 和 会发生随机误差,随机误差 有正有负,但随机误差的平均值为0。或者说,所有可能的 和 的平均值分别为 和 。 y 2 s y 2 s 2 Y S 以前述例子为例:所有可能的 y 的平均值为

=-(1+2+3+4+5+6+7)=4=Y 类似:所有可能的s的平均值为 7(所有可能的2之和=7∑2∑0-列 米相等 I=1 3 ∑1∑-F)2-3(-F 米相等 i=1 3 3 2(7 ∑∑(2-Y) 2 ∑(-Y) 豈和等1 米箱等 3,34 1,7 2 2 2 2 263

= (1+ 2 + 3 + 4 + 5 + 6 + 7) = 4 = Y 7 1 类似:所有可能的 的平均值为 2 s ( ) 3 7 1 所有可能的s 2 之 和           −         = = 互不相等 1 2 3 , , 2 3 1 ( ) 2 1 3 7 1 y y y i i y y   − − −         = = 互不相等 1 2 3 , , 2 2 3 1 [ ( ) 3( ) ] 2 1 3 7 1 y y y i i y Y y Y   −         =  = 互不相等 1 2 3 , , 2 3 1 ( ) 3 7 1 2 1 y y y i i y Y  −         −  互不相等 1 2 3 , , 2 ( ) 3 7 1 2 3 y y y y Y 2 2 2 2 6 7 3 1 6 4 2 3 2 3 =  −    =  = S

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共28页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有