第三章简单随机抽样 §1简单随机抽桿及实施方法 简单随机抽样就是从装有N张票子的盒子里随机无放 回地摸取n张票子,它可以有两种摸取方法: (1)从盒子中一次摸取n张票。这样摸取共有种可能 性,每种可能的概率为(N)。抽到的样本称为简单随机样 本。 (2)从盒子中随机摸取1张票,相应该票的单元入样后, 票并不放回盒子,从余下的票中再随机摸取1张票,相应 此票的单元也入样且票也不返回盒子;依此实施,直到第n 个样本入样
§1 简单随机抽样及实施方法 简单随机抽样就是从装有 N 张票子的盒子里随机无放 回地摸取 n 张票子,它可以有两种摸取方法: 第三章 简单随机抽样 (1)从盒子中一次摸取 n 张票。这样摸取共有 种可能 性,每种可能的概率为 。抽到的样本称为简单随机样 本。 n N n N 1 (2)从盒子中随机摸取 1 张票,相应该票的单元入样后, 票并不放回盒子,从余下的票中再随机摸取 1 张票,相应 此票的单元也入样且票也不返回盒子;依此实施,直到第n 个样本入样
这两种方法都使用了随机的方法,而且样本并不重复, 那么这两种方法是否都算是简单随机抽样呢?要检验一下这 两种方法中每一单元的入样概率是否相等。只要验证第二种 方法中总体的每,*个单元一组的样本入样的可能性等手第 种方法中的N即可。 利用条件概率即可得到验证。 也就是说,两种操作方法是等价的。都是简单随机抽样 但由于N、n一般都很大,第二种操作方案较方便。现在介绍 一下具体实施简单随机抽样的做法: 首先将N个总体元素编号为:1,2,,N,每一单元对应 一个号码,若抽到某号,则相应单元入样
这两种方法都使用了随机的方法,而且样本并不重复, 那么这两种方法是否都算是简单随机抽样呢?要检验一下这 两种方法中每一单元的入样概率是否相等。只要验证第二种 方法中总体的每 n 个单元一组的样本入样的可能性等于第 一种方法中的 即可。 n N 1 利用条件概率即可得到验证。 也就是说,两种操作方法是等价的。都是简单随机抽样 但由于N、n一般都很大,第二种操作方案较方便。现在介绍 一下具体实施简单随机抽样的做法: 首先将N个总体元素编号为:1,2,,N,每一单元对应 一个号码,若抽到某号,则相应单元入样
(1)抽签法:实际上就是一个盒子模型,将编号为1~N的 N个形状与质地完全相同的纸签放在盒子里,用上述两种方 法之一从盒子中摸出n张签。 (2)随机数法:设想N相当大,你会做那么多的签放在盒子 里以供抽取吗?随机数法用来解决这个困难。利用随机数表、 随机数骰子或计算机可以获得随机数 ①随机数表:本书最后附有随机数表,它应当被看成0~9数 字随机地横竖排列,我们可以随机地从某行某列的数字开始 如果需要一至二位数字,则从该数字开始从左向右接连地截 取,该行不够则换下一行开始;如果需要三位或三位以上数 字,则从开头数字开始向右取三位或三位以上的数从该数纵 向往下接连获取其它随机数,不够可另换列执行,直到取到 我们所需要的个数n,当然这中间应该去掉可能发生重复的 数以及超出N的数字
(1)抽签法:实际上就是一个盒子模型,将编号为1~N的 N个形状与质地完全相同的纸签放在盒子里,用上述两种方 法之一从盒子中摸出n 张签。 (2)随机数法:设想N相当大,你会做那么多的签放在盒子 里以供抽取吗?随机数法用来解决这个困难。利用随机数表、 随机数骰子或计算机可以获得随机数。 ①随机数表:本书最后附有随机数表,它应当被看成0~9数 字随机地横竖排列,我们可以随机地从某行某列的数字开始 如果需要一至二位数字,则从该数字开始从左向右接连地截 取,该行不够则换下一行开始;如果需要三位或三位以上数 字,则从开头数字开始向右取三位或三位以上的数从该数纵 向往下接连获取其它随机数,不够可另换列执行,直到取到 我们所需要的个数n ,当然这中间应该去掉可能发生重复的 数以及超出N的数字
②随机数骰子:随机数骰子是由均质材料制成的正二十面体 面上标有0~9数字各两个。如图所示。通常用3~6个随机骰 子,视所需要的随机数的位数而定。骰子用不回的颜色染成 可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子 产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭 盖读取朝上面的数字,即获取一组随机数。所摇的骰子数m 通常取决于总体单元个数N,满足10m<N≤10m。记m个 骰子按约定颜色而确定的顺序读得随机数R,若≤N,则 此R0即为一次合格的随机数;否则予以放弃,重新摇取,直 到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数
③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。 ②随机数骰子:随机数骰子是由均质材料制成的正二十面体 面上标有0~9数字各两个。如图所示。通常用3~6个随机骰 子,视所需要的随机数的位数而定。骰子用不同的颜色染成 可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子 产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭 盖读取朝上面的数字,即获取一组随机数。所摇的骰子数m 通常取决于总体单元个数N,满足 。记m个 骰子按约定颜色而确定的顺序读得随机数 ,若 ,则 此 即为一次合格的随机数;否则予以放弃,重新摇取,直 到取到n个合格的随机数为止。 m m 10 N 10 1 − R0 R0 N R0
§2总体平均數与总和的估针 设总体元素为Y1,Y2,…,YN,(y1,y2,…,yn)为来 自该总体的简单随机样本,有时也记样本为Y,,…,立) i12i2…,in),2,…,N)中的某个组合。在后者的表示中 随机性体现在下标(j=1,2,…,n)上。样本(1,y2,…,yn) 是总体Y1,Y2,…,Y的一个有代表性的剖面。 总体平均数F的估计为:=∑y 总体总和的估计自然为:=Nxy=∑y 由于这两个估计之间仅差一个常数因子N,因而只要重点研 究Y的估计量的若干性质即可。y是样本平均数,由于样 本的随机性,样本平均值也是随机变量,J理论上的平均值
§2 总体平均数与总和的估计 设总体元素为 , 为来 自该总体的简单随机样本,有时也记样本为 为 中的某个组合。在后者的表示中 随机性体现在下标 上。样本 是总体 的一个有代表性的剖面。 1 2 , , , Y Y YN 1 2 ( , , , ) n y y y 1 2 ( , , , ) n Y Y Y i i i 1 2 ( , , , ) n i i i (1, 2, , ) N ( 1,2, , ) j i j n = 1 2 ( , , , ) n y y y 1 2 , , , Y Y YN 总体平均数 Y 的估计为: = = n i i y n y 1 1 总体总和的估计自然为: = = = n i i y n N Y N y 1 ~ˆ 由于这两个估计之间仅差一个常数因子N,因而只要重点研 究 的估计量 的若干性质即可。 是样本平均数,由于样 本的随机性,样本平均值也是随机变量, 理论上的平均值 Y y y y
即数学期望为: E(y)= ∑ (Y,+Y;,+…+1) n 其中∑表示对(1,2,…,N)中所有组合(1,i2,…,元)求和 对于(1,12,…,Yn)中的每个元素,比如H1,它与其它元 素构成样本的可能次数显然4 ,因此,乃至Y在 n ∑中出现的次数均为N,,于是 E ∑ n 7=1 n
即数学期望为: + + + = ( ) 1 1 ( ) 1 2 n Yi Yi Yi n n N E y 其中 表示对 (1,2, , N) 中所有组合 (i 1 ,i 2 , ,i n ) 求和 对于 中的每个元素,比如 ,它与其它元 素构成样本的可能次数显然为 ,因此 ,乃至 在 中出现的次数均为 ,于是 ( , , , ) Y1 Y2 Yn Y1 Y1 Yi − − 1 1 n N − − 1 1 n N = − − = N i Yi n n N n N E y 1 1 1 1 1 ( )
F(n-d (N-m):N!.n2Y=N2Y=Y 即y是Y的无偏估计。同样y也是总体总量Y的无偏估计 例3.1某班第一小组10人的数学考试成绩分别为: 100,95,92,88,83,75,71,62,60,50 平均分为77.6。先从中任选3个为一组样本,其选法共有120种 每种选法都有概率1/120。以4组样本为例(10095,92),(100,83, 50),(8883,62),(62,60,50)它们的样本平均数分别为9567, 77.67,77.67,57.33。 从抽样调査的角度来看,我们希望抽到第二或第三组样 本,根据它们来估计总体平均数相当准确。而第一和第四组 样本的估计相当糟糕。但它们入样与第二第三组具有同样的 可能性,这是否与y的无偏性相矛盾呢?
= − − − − = N i Yi N n n N n n N n N 1 1 ! !( )! ( 1)!( )! ( 1)! Y Y N N i = i = =1 1 即 y 是 Y 的无偏估计。同样 Y ˆ 也是总体总量 的无偏估计 ~ Y ~ 例3.1 某班第一小组10人的数学考试成绩分别为: 100,95,92,88,83,75,71,62,60,50 平均分为77.6。先从中任选3个为一组样本,其选法共有120种 每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83, 50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67, 77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样 本,根据它们来估计总体平均数相当准确。而第一和第四组 样本的估计相当糟糕。但它们入样与第二第三组具有同样的 可能性,这是否与y 的无偏性相矛盾呢?
其实并不相矛盾。我们关心的是,尽管每一组样本入样 的概率相同,像第二第三组这样的“良好”情况就大体而言是 否会多于像第一第四那样的“糟糕”情况呢?如果肯定的话, 那么就能指望在一次随机抽样中发生的估计误差较小。该问 题的解决将由下一节的讨论给出。 §3估针量的方差及其估针 下面求的无偏估计y的方差var(y) +Y:+…+Y o(=2 其中∑表示对(1,2,…,N)中所有组合(1,2…,in)求和
其实并不相矛盾。我们关心的是,尽管每一组样本入样 的概率相同,像第二第三组这样的“良好”情况就大体而言是 否会多于像第一第四那样的“糟糕”情况呢?如果肯定的话, 那么就能指望在一次随机抽样中发生的估计误差较小。该问 题的解决将由下一节的讨论给出。 §3 估计量的方差及其估计 下面求 Y 的无偏估计 y 的方差 Var( y) − + + + = 2 1 2 1 ( ) Y n Y Y Y n N Var y n i i i 其中 表示对 (1,2, , N)中所有组合 (i 1 ,i 2 , ,i n ) 求和
Y;-Y) (Y1-Y)(-Y) N ∑ +2∑ n j<k n n 小∑x-1k2n1 nN N-1 ∑(Y-Y)(-Y) I<I n N-1 ∑ (Y-Y)+々-1,N ∑(H-)2} i=1 N-1 1N-n1 N-1 N ∑(r- i=1 N-n o2 S 2 (或=(1-) N-1 Nn (3.6)
− − + − = = n j n j k i i i n Y Y Y Y n Y Y n N j j k 1 2 2 2 ( )( ) 2 1 ( ) = − − − − = − + N i N i j i Yi Y Yj Y N n nN Y Y nN 1 2 ( )( ) 1 2 1 ( ) 1 [ ( )] } 1 1 ) ( ) 1 1 {(1 1 1 1 2 2 = = − − − − + − − = − N i N i i Yi Y N n Y Y N n nN = − − − = N i Yi Y N N N n n 1 2 ( ) 1 1 1 N n N n 2 1 − − = n S N n 2 (或 = (1− ) ) (3.6)
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时: Var(v-o (或=(1-)) (3.7) N n 比较(36)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机 有放回时的方差。y的方差表示新盒子的离散程度,也就是 表示了y取值范围的大小,方差小表明y取值远离中心Y的 可能性较小,这样随机的一组样本得到y的实现值距Y很近 的可能性就较大,这正是我们所期望的。因此,在实际抽样 中我们采用无放回抽样方式
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时: n Var y 2 ( ) = n S N 2 ) 1 (或 = (1− ) (3.7) 比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机 有放回时的方差。 的方差表示新盒子的离散程度,也就是 表示了 取值范围的大小,方差小表明 取值远离中心 的 可能性较小,这样随机的一组样本得到 的实现值距 很近 的可能性就较大,这正是我们所期望的。因此,在实际抽样 中我们采用无放回抽样方式。 y y y Y y Y