§7若千数学准备 抽样推断既然必须处理收集来的数据,因此数学知识是 必不可少的。下面仅就抽样调查中一些最基本的常用数学知 识和概念以直观简洁的方式做一些介绍。 1、盒子模型 一般抽样调查面临的总体只有有限多个初级单元。从总 体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的 票数相当于有限总体的单元个数,票上记载着反映该单元特 征的指标的值。设总体有N个单元,各指标值为 YY 29 则盒子如图2一1所示:
§7 若干数学准备 抽样推断既然必须处理收集来的数据,因此数学知识是 必不可少的。下面仅就抽样调查中一些最基本的常用数学知 识和概念以直观简洁的方式做一些介绍。 1、盒子模型 一般抽样调查面临的总体只有有限多个初级单元。从总 体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的 票数相当于有限总体的单元个数,票上记载着反映该单元特 征的指标的值。设总体有N个单元,各指标值为 则盒子如图2-1所示: Y Y YN , , , 1 2
YY Y 25 --,图 该盒中票的平均数为: Y=(Y1+Y2+…+Yx) 即总体平均数,它表示票上指标的中心。 另一个重要的总体参数是盒中票的指标的离散程度,用指标 值关于中心的距离的平方和的平均数来表示: N ∑(1-y)2 这实际上是总体的方差;但大部分情况采用: 2 N-1 ∑(
Y Y YN , , , 1 2 图2-1 该盒中票的平均数为: ( ) 1 Y1 Y2 YN N Y = + ++ 即总体平均数,它表示票上指标的中心。 另一个重要的总体参数是盒中票的指标的离散程度,用指标 值关于中心的距离的平方和的平均数来表示: 2 1 2 ( ) 1 Y Y N i N i = − = 这实际上是总体的方差;但大部分情况采用: 2 1 2 ( ) 1 1 Y Y N S i N i − − = =
如果我们只关心总体中具有某些特定类型的集合占整个 总体的比例,那么只需稍加处理,引入0-1指标,总体比例 的回题立刻转化为总体平均数的,个特例。 只要将盒子中的票子分为两类,我们感兴趣的一类全标 上1,其余的都标上0。于是盒子可用图2-2表示: N个 0 N-N个 图2-2 则盒子中票子指标的平均数为: N Y= N ∑Y =1 N 正好是我们关心的那类个体占总体的比例。因此,凡对总体 平均数有的结果,总体比例也有相应的结果
如果我们只关心总体中具有某些特定类型的集合占整个 总体的比例,那么只需稍加处理,引入0-1指标,总体比例 的问题立刻转化为总体平均数的一个特例。 只要将盒子中的票子分为两类,我们感兴趣的一类全标 上1,其余的都标上0。于是盒子可用图2-2表示: 图2-2 N1 个 1 0 N − N1 个 则盒子中票子指标的平均数为: N N Y N Y i N i 1 1 1 = = = 正好是我们关心的那类个体占总体的比例。因此,凡对总体 平均数有的结果,总体比例也有相应的结果
此时,盒子的方差化为 2=1∑x1-F =L ={N,(N-M 1 N )2+(N-N1)()2} N NN-N N M (总体中所占比例×(总体中所占比例 常采用的方差表示为 2N2NN1N一 N-1 N- N N
此时,盒子的方差化为: 2 1 2 ( ) 1 Y Y N i N i = − = { ( ) ( )( ) } 1 1 2 1 1 2 1 N N N N N N N N N + − − = N N N N N1 − 1 = = (总体中1所占比例)(总体中0所占比例) 常采用的方差表示为: 2 2 1 − = N N S N N N N N N N 1 1 1 − − =
从盒子中作随机抽取常常有两种不同方式:随机有放回 抽取和随机无放回抽取。从直观上看,随机有放回方式存在 着一张票子被抽中两次或两次以上的可能性,而随机无放回 方式则不存在这种可能。 在实际操作中,人们不太可能心甘情愿地花费两倍以上 的费用去访问同一个单元。因此,随机无放回通常比随机有 放回应“有效”一些,这一点将在第三章的讨论中在理论上加 以肯定。但是,当盒子中的票数相当多,而抽取的票数相对 较少时,有许多事件的概率习性对于有放回或无放回两种情 况几乎差不多,因而有时候我们常从随机有放回这一最简单 的形式入手讨论问题,而将有关的结果近似地套到随机无放 回的情形。 这里讨论的盒子模型是对简单随机抽样而言的,至于分 层、分阶段等其它情况无非是大盒子里放小盒子等
从盒子中作随机抽取常常有两种不同方式:随机有放回 抽取和随机无放回抽取。从直观上看,随机有放回方式存在 着一张票子被抽中两次或两次以上的可能性,而随机无放回 方式则不存在这种可能。 在实际操作中,人们不太可能心甘情愿地花费两倍以上 的费用去访问同一个单元。因此,随机无放回通常比随机有 放回应“有效”一些,这一点将在第三章的讨论中在理论上加 以肯定。但是,当盒子中的票数相当多,而抽取的票数相对 较少时,有许多事件的概率习性对于有放回或无放回两种情 况几乎差不多,因而有时候我们常从随机有放回这一最简单 的形式入手讨论问题,而将有关的结果近似地套到随机无放 回的情形。 这里讨论的盒子模型是对简单随机抽样而言的,至于分 层、分阶段等其它情况无非是大盒子里放小盒子等
2、随机误差与无偏估计量 先讨论一个简单的具体例子。设有一个容量为7的总体 由正面盒子给出,如图2-3所示:_+_ 1234567 图2-3 总体平均数和方差为: Y ∑Y S 2 7 ∑(Y-Y)2=467 i=1 7-1a 标准差S=√S2=216 此时,盒子中指标值以及总体的参数Y和S2对于调查者 来说是未知的。调查者的任务就是从总体中抽出一个样本, 构造样本估计量,来推断总体平均数Y和方差S2
2、随机误差与无偏估计量 先讨论一个简单的具体例子。设有一个容量为7的总体 由下面盒子给出,如图2-3所示: 图2-3 1 2 3 4 5 6 7 总体平均数和方差为: 4 7 1 7 1 = = = i i Y Y ( ) 4.67 7 1 1 2 7 1 2 − = − = = S Yi Y i 标准差 2.16 2 S = S = 此时,盒子中指标值以及总体的参数 和 对于调查者 来说是未知的。调查者的任务就是从总体中抽出一个样本, 构造样本估计量,来推断总体平均数 和方差 。 Y Y 2 S 2 S
设样本容量n=3,使用样本(y1,y2,y3)的样本均值和方 差 ∑ns2 3 ∑(1-p)2 3 来估计总体的平均值Y和方差S2。 考虑不放回简单随机抽样,由于抽样是随机的,7个个体中 的任何3个都可能入选样本,所有可能的样本数=C 此时,每一个样本被抽中的概率都相等且为1/ 如抽中样本(2,3,6),则 y=(2+3+6)=367 31(2-367)2+(3-367)2+(6-3.67)21=433
设样本容量n=3,使用样本 的样本均值和方 差 来估计总体的平均值 和方差 。 ( , , ) 1 2 3 y y y i i y y = = 3 3 1 1 2 3 1 2 ( ) 3 1 1 s y y i i − − = = Y 2 S 考虑不放回简单随机抽样,由于抽样是随机的,7个个体中 的任何3个都可能入选样本。所有可能的样本数有 3 7 3 7 = C 此时,每一个样本被抽中的概率都相等且为 3 7 1 如抽中样本(2,3,6),则 (2 3 6) 3.67 3 1 y = + + = [(2 3.67) (3 3.67) (6 3.67) ] 4.33 3 1 2 1 2 2 2 − + − + − = − s =
用它们来估计总体的平均数和方差,误差如下: 对平均数有随机误差y-Y=367-4=-0.33 对方差有随机误差s2-S2=433-467=-034 由于样本是随机的,误差也将随着样本的不同而发生 变化。如果我们的运气不佳,抽到样本(1,2,3),此时 (1+2+3)=2 3 2 1 3y(-2)2+(2-2)2+(3-2)21=1 随机误差分别为 卩-Y=2-4=-2s2-S2=1-467=-367 随机误差就大得许多。也就是说,用样本平均数和方差 来估计总体平均数和方差有时是很糟糕的
用它们来估计总体的平均数和方差,误差如下: 对平均数有随机误差 y −Y = 3.67 − 4 = −0.33 对方差有随机误差 4.33 4.67 0.34 2 2 s − S = − = − 由于样本是随机的,误差也将随着样本的不同而发生 变化。如果我们的运气不佳,抽到样本(1,2,3),此时 (1 2 3) 2 3 1 y = + + = [(1 2) (2 2) (3 2) ] 1 3 1 2 1 2 2 2 − + − + − = − s = 随机误差分别为 y −Y = 2− 4 = −2 1 4.67 3.67 2 2 s − S = − = − 随机误差就大得许多。也就是说,用样本平均数和方差 来估计总体平均数和方差有时是很糟糕的
为什么还要用样本平均数和方差来估计总体平均数和方差呢? 原因一:F和S2是样本平均数尹和方差s2的波动中心 换句话说,虽然估计量y和S会发生随机误差,随机误差 有正有负,但随机误差的平均值为0。或者说,所有可能的 卩和s2的平均值分别为Y和S2。 以前述例子为例:所有可能的y的平均值为 (所有可能的之和=∑2(n+y2+y3) 米箱等 3 11(6 73,×(+2+3+4+5+6+7 34!16! 7!324! ×(1+2+3+4+5+6+7)
为什么还要用样本平均数和方差来估计总体平均数和方差呢? 原因一: Y 和 是样本平均数 和方差 的波动中心 2 S y 2 s ( ) 3 7 1 所有可能的y 之 和 + + = 互不相等 1 2 3 , , 1 2 3 ( ) 3 1 3 7 1 y y y y y y (1 2 3 4 5 6 7) 2 6 3 1 3 7 1 + + + + + + = (1 2 3 4 5 6 7) 2 4 6 3 1 7 3 4 = + + + + + + !! ! ! !! 换句话说,虽然估计量 和 会发生随机误差,随机误差 有正有负,但随机误差的平均值为0。或者说,所有可能的 和 的平均值分别为 和 。 y 2 s y 2 s 2 Y S 以前述例子为例:所有可能的 y 的平均值为
=-(1+2+3+4+5+6+7)=4=Y 类似:所有可能的s的平均值为 7(所有可能的2之和=7∑2∑0-列 米相等 I=1 3 ∑1∑-F)2-3(-F 米相等 i=1 3 3 2(7 ∑∑(2-Y) 2 ∑(-Y) 豈和等1 米箱等 3,34 1,7 2 2 2 2 263
= (1+ 2 + 3 + 4 + 5 + 6 + 7) = 4 = Y 7 1 类似:所有可能的 的平均值为 2 s ( ) 3 7 1 所有可能的s 2 之 和 − = = 互不相等 1 2 3 , , 2 3 1 ( ) 2 1 3 7 1 y y y i i y y − − − = = 互不相等 1 2 3 , , 2 2 3 1 [ ( ) 3( ) ] 2 1 3 7 1 y y y i i y Y y Y − = = 互不相等 1 2 3 , , 2 3 1 ( ) 3 7 1 2 1 y y y i i y Y − − 互不相等 1 2 3 , , 2 ( ) 3 7 1 2 3 y y y y Y 2 2 2 2 6 7 3 1 6 4 2 3 2 3 = − = = S