§4随机抽样与抽样分布
§4 随机抽样与抽样分布
与概率论一样,数理统计也是研究随机现象统计规 律性的一门数学学科。概率论研究的基本内容是:在已 知随机变量分布的情况下,着重讨论了随机变量的性质 及其所确定的数字特征。但是对一个具体的随机变量来 说,如何判断它服从某种分布。如果知道它服从某种分 布又该如何确定它的各个参数。对于这些问题在概率论 中都没有涉及到,它们都是数理统计所要研究的内容, 并且这些问题的研究都直接或间接建立在试验的基础上。 数理统计学是利用概率论的理论对所要研究的随机现象 进行多次的观察或试验,研究如何合理地获得数据,如 何对所获得的数据进行整理、分析,如何对所关心的问 题作出估计或判断的一门数学学科,其内容非常丰富 般可分为两大类:一类是试验的设计与研究,一类是 统计推断。我们着重讨论统计推断。 本章首先介绍数理统计的基本概念,然后介绍有关 抽样分布的几个定理,为以后各章作必要的准备
与概率论一样,数理统计也是研究随机现象统计规 律性的一门数学学科。概率论研究的基本内容是:在已 知随机变量分布的情况下,着重讨论了随机变量的性质 及其所确定的数字特征。但是对一个具体的随机变量来 说,如何判断它服从某种分布。如果知道它服从某种分 布又该如何确定它的各个参数。对于这些问题在概率论 中都没有涉及到,它们都是数理统计所要研究的内容, 并且这些问题的研究都直接或间接建立在试验的基础上。 数理统计学是利用概率论的理论对所要研究的随机现象 进行多次的观察或试验,研究如何合理地获得数据,如 何对所获得的数据进行整理、分析,如何对所关心的问 题作出估计或判断的一门数学学科,其内容非常丰富。 一般可分为两大类:一类是试验的设计与研究,一类是 统计推断。我们着重讨论统计推断。 本章首先介绍数理统计的基本概念,然后介绍有关 抽样分布的几个定理,为以后各章作必要的准备
§41基本概念与经验函数 本节要求掌握简单随机样本、统计量与经验函数等基 本概念。 §4.1.1基本概念 总体、个体、样本是统计学中三个最基本的概念。我们称研究 象的全体为总体或母体。称组成总体的每个单元为个体。从总体中 随机抽取n个个体,称这n个个体为容量是n的样本。 例如,为了研究某厂生产的一批灯泡质量的好坏,规定使用寿命 低于1000小时的为次品。则该批灯泡的全体就为总体,每个灯泡就是 个体。实际上,数理统计学中总体是指与总体相联系的某个(或几 个)数量指标X取值的全体。比如,该批灯泡的使用寿命X的取值全 体就是研究对象的总体。由于对不同的个体,X取不同的值,且事先 无法准确预言,所以X是随机变量,这时,我们就称X的概率分布或 更简单地就称X为总体。为了判断该批灯泡的次品率,最精确的办法 是把每个灯泡的寿命都测出来。然而,寿命试验是破坏性试验(即 使试验是非破坏性的,由于试验要花费人力、物力和时间),我们 只能从总体中抽取一部分,比如说,n个个体进行试验。试验结果可 得一组数值(x1,x2-,xn)4其中每个是一次抽样观察的结果。由 于我们要
§4.1 基本概念与经验函数 本节要求掌握简单随机样本、统计量与经验函数等基 本概念。 §4.1.1 基本概念 总体、个体、样本是统计学中三个最基本的概念。我们称研究 象的全体为总体或母体。称组成总体的每个单元为个体。从总体中 随机抽取n个个体,称这n个个体为容量是n的样本。 例如,为了研究某厂生产的一批灯泡质量的好坏,规定使用寿命 低于1000小时的为次品。则该批灯泡的全体就为总体,每个灯泡就是 个体。实际上,数理统计学中总体是指与总体相联系的某个(或几 个)数量指标X取值的全体。比如,该批灯泡的使用寿命X的取值全 体就是研究对象的总体。由于对不同的个体,X取不同的值,且事先 无法准确预言,所以X是随机变量,这时,我们就称X的概率分布或 更简单地就称X为总体。为了判断该批灯泡的次品率,最精确的办法 是把每个灯泡的寿命都测出来。然而,寿命试验是破坏性试验(即 使试验是非破坏性的,由于试验要花费人力、物力和时间),我们 只能从总体中抽取一部分,比如说,n个个体进行试验。试验结果可 得一组数值(x1 ,x2 ,┄,xn),其中每个 是一次抽样观察的结果。由 于我们要 i x
根据这些观察结果对总体进行推断,所以对每次抽取就有一定的要求, 要求每次抽取必须是随机的、独立的,这样才能较好地反映总体的 情况。所谓随机的是指每个个体被抽到的机会是均等的,这样抽到 的个体才有代表性。所谓独立的是指每次抽取之后不能改变总体的 成分。这就要求:如果试验是非破坏性的且总体是有限的,抽取应 该是有放回的;如果试验是破坏性的总体应该是无限的或是很大的 基于上述思想的抽样方法称为简单随机抽样。用简单随机抽样方法 抽取m个个体进行试验,其结果是确定的一组数值(x1,x2,,xn) 但是这组数值(x1x2-,xn)是随着每次抽样而改变的。因此 (x1x2-,xn)实际上是一个n维随机向量(X1X2,,X的一次观察 值。即在试验之前,(x1x27“,xn)实际上是随机向量(X,X2,Xn)。 又因抽样是随机的、独立的,所以X1X2,Xn是相互独立的n个随 机变量,且每个都与总体X同分布。我们称(X1xX2-xXn)或 X1,X2-,xn为总体X的容量为n的简单随机样本,简称为样本。 由于对总体进行统计推断的依据是样本提供的信息,然而样本 是n维随机变量或n个随机变量,讨论起来很不方便。人们自然会想 到能否用样本的函数代替样本对总体进行统计推断。当然,这个函 数不能太任意了,最好是一个随机变量,这样使用起来才方便;同 时这个函数中不能含有任何未知参数。由此,我们引入如下定义
根据这些观察结果对总体进行推断, 所以对每次抽取就有一定的要求, 要求每次抽取必须是随机的、独立的,这样才能较好地反映总体的 情况。所谓随机的是指每个个体被抽到的机会是均等的,这样抽到 的个体才有代表性。所谓独立的是指每次抽取之后不能改变总体的 成分。这就要求:如果试验是非破坏性的且总体是有限的,抽取应 该是有放回的;如果试验是破坏性的总体应该是无限的或是很大的. 基于上述思想的抽样方法称为简单随机抽样。用简单随机抽样方法 抽取n个个体进行试验,其结果是确定的一组数值(x1 ,x2 ,┄,xn), 但是这组数值(x1 ,x2 ,┄,xn)是随着每次抽样而改变的。因此 (x1 ,x2 ,┄,xn)实际上是一个n维随机向量(X1 ,X2 ,┄,Xn ) 的一次观察 值。即在试验之前, (x1 ,x2 ,┄,xn)实际上是随机向量(X1 ,X2 ,┄,Xn ) 。 又因抽样是随机的、独立的,所以X1 ,X2 ,┄,Xn 是相互独立的n个随 机变量,且每个都与总体X同分布。我们称(X1 ,X2 ,┄,Xn )或 X1 ,X2 ,┄,Xn 为总体X的容量为n的简单随机样本,简称为样本。 由于对总体进行统计推断的依据是样本提供的信息,然而样本 是n维随机变量或n个随机变量,讨论起来很不方便。人们自然会想 到能否用样本的函数代替样本对总体进行统计推断。当然,这个函 数不能太任意了,最好是一个随机变量,这样使用起来才方便; 同 时这个函数中不能含有任何未知参数。由此,我们引入如下定义
定义设X1,X2,Xn为总体X的一份样本, g(X1x2-xn)为一个连续函数,如果g中不包含 未知参数,则称g(X12X2-,Xn)为一个统计量。 因为X1,X2,,Xn都是随机变量,而统计量g ,Xn)是随机变量的函数,因此统计量是 随机变量。设x1x2-,Xn是相应于样本 X1,X2-,Xn的样本值,则称g(x1,X2,xn)是 g(X1,X2,X的观察值。 下面列出几个常用的统计量。设X1x2xn 为总体X的一份样本,x1,X2,,xn是这一样本的 观察值。定义 样本均值 1
定义 设X1 ,X2 ,┄,Xn 为总体X的一份样本, g (X1 ,X2 ,┄,Xn ) 为一个连续函数,如果g中不包含 未知参数,则称g (X1 ,X2 ,┄,Xn ) 为一个统计量。 因为X1 ,X2 ,┄,Xn 都是随机变量,而统计量g (X1 ,X2 ,┄,Xn ) 是随机变量的函数,因此统计量是 一随机变量。设x1 ,x2 ,┄,xn 是相应于样本 X1 ,X2 ,┄,Xn 的样本值,则称g(x1 ,x2 ,┄,xn )是 g (X1 ,X2 ,┄,Xn )的观察值。 下面列出几个常用的统计量。设X1 ,X2 ,┄,Xn 为总体X的一份样本, x1 ,x2 ,┄,xn 是这一样本的 观察值。定义 样本均值 = = n i Xi n X 1 1
样本方差 ∑(X1-X)2=-,∑x2-nX) 样本标准差 S=√S ∑(X1-X 样本k阶原点矩 ∑Xk 样本k阶中心矩 ∑(X1-X)k=23
样本方差 样本标准差 样本k阶原点矩 样本k阶中心矩 = = − − − = − = n i i n i i X nX n X X n S 1 2 2 1 2 2 ( ) 1 1 ( ) 1 1 2 1 2 ( ) 1 1 X X n S S i n i − − = = = 1,2, 1 1 = = = X k n A n i k k i ( ) 2,3, 1 1 = − = = X X k n B k n i k i
它们的观察值分别为 x=∑ ∑(x1-x)2=n1(2 nx ∑( .-x 1 ∑xk=1,2 ∑(x-x)k=23 这些观察值仍分别称为样本均值、样本方差、样本标准 差、样本k阶原点矩以及样本k阶中心矩
它们的观察值分别为 这些观察值仍分别称为样本均值、样本方差、样本标准 差、样本k阶原点矩以及样本k阶中心矩。 = = n i i x n x 1 1 = = − − − = − = n i i n i i x nx n x x n s 1 2 2 1 2 2 ( ) 1 1 ( ) 1 1 = = − n i i x x n s 1 2 ( ) 1 1,2, 1 1 = = = x k n a n i k k i ( ) 2,3 1 1 = − = = x x k n b n i k k i
§4.12经验分布函数 下面讨论与总体分布函数F(x)相应的统计量经验分 布函数。它的作法如下:设X1,X2,Xn为总体X的一份 样本,用S(x),0<x<o表示X1,X2-Xn中不大于x的随机 变量的个数。定义经验分布函数F(x)为 Fn(x)=-S(x),-0<x<0 对于一个样本值,那么经验分布函数Fn(x)的观察值是很 容易得到的(Fn(x)的观察值仍以Fn(x)表示)。 例如(1)设总体F具有样本值1,2,3,则经验分布 函数F3(x)的观察值为 0x<1 1/31<x<2 F3(x)= 2/32<x<3 x≥3
§4.1.2 经验分布函数 下面讨论与总体分布函数F(x)相应的统计量—经验分 布函数。它的作法如下:设X1 ,X2 ,┄,Xn 为总体X的一份 样本, 用S(x),-∞<x<∞表示X1 ,X2 ,┄,Xn中不大于x的随机 变量的个数。定义经验分布函数Fn (x)为 对于一个样本值,那么经验分布函数Fn (x)的观察值是很 容易得到的(Fn (x)的观察值仍以Fn (x)表示)。 例如(1)设总体F具有样本值1,2,3,则经验分布 函数F3 (x) 的观察值为 = S x − x n F x n ( ), 1 ( ) = 1 3 2 / 3 2 3 1/ 3 1 2 0 1 ( ) 3 x x x x F x
(2)设总体F具有一个样本1,1,2,则经验分布函数 F3x)的观察值为 0x<1 F3(x)=12/31≤x<2 1x≥2 一般,设x1,x2,,xn是总体F的一个容量为n的样本值, 先将x1,x2xn按自小到大的次序排列,并重新编号。设 为x1≤x (2) ≤xn则经验分布函数F(x)的观察值为 X<x (1) k F,(x)= x)≤x<x(k+1) X zEin) 显然,Fn(x)是x的单调不减、右连续函数,且 0≤Fn(x)≤1,Fn(-∞)=0,Fn(+∞)= 所以Fn(x)是分布函数
(2)设总体F具有一个样本1,1,2,则经验分布函数 F3 (x) 的观察值为 一般,设x1 ,x2 ,┄,xn 是总体F的一个容量为n的样本值, 先将x1 ,x2 ,┄,xn 按自小到大的次序排列,并重新编号。设 为 则经验分布函数Fn (x)的观察值为 显然, Fn (x)是x的单调不减、右连续函数,且 所以Fn (x)是分布函数。 = 1 2 2 / 3 1 2 0 1 ( ) 3 x x x F x (1) (2) (n) x x x = + ( ) ( ) ( 1) (1) 1 0 ( ) n n k k x x x x x n k x x F x 0 Fn (x) 1,Fn (−) = 0,Fn (+) =1
对于经验分布函数Fn(x),格列汶科( Glivenko)在1933年证明 了以下的结果:对于任一实数x,当n-→时Fn(x)以概 率1一致收敛于分布函数F(x)。即 P(lim sup Fn(x-F(x=0)= 0<X<0 因此,对于任一实数x当n充分大时,经验分布函数的任一个观察值 F(x)与总体分布函数F(x)只有微小的差别(如下图所示),从而在 实际上可当作F(x来使用。 图4.3样本分布函数示意图
对于经验分布函数Fn (x),格列汶科(Glivenko)在1933年证明 了以下的结果:对于任一实数x,当n→∞时Fn (x)以概 率1一致收敛于分布函数F(x)。即 因此,对于任一实数x当n充分大时,经验分布函数的任一个观察值 Fn (x)与总体分布函数F(x)只有微小的差别(如下图所示),从而在 实际上可当作F(x)来使用。 {lim sup ( ) − ( ) = 0} =1 − → P F x F x n x n