第六章数理统计的基本知识 数理统计是以概率论为基础,根据试验或观察 得到的数据,来研究随机现象.通过统计分析,对 研究对象的客观规律性作出合理的估计和推断. 第一节总体与样本 在一个统计问题中,我们把所研究对象的全体称为一个总体.总体中 的每个元素(即每一个研究对象)称为个体, 若总体中包含有限个个体,则称这个总体为有限总体,否则称为无限 总体,总体中所包含的个体总数称为总体容量, 在统计问题中,人们所关心的往往不是总体的一切方面,而是它的某 一项数量指标X.因此,我们把这个数量指标X所有可能取值的全体就作为 总体看待,称为总体X,X是一个随机变量.我们要根据试验或观察得到的 数据来得到X的概率分布和数字特征,分别称为总体的分布和数字特征
第六章 数理统计的基本知识 数理统计是以概率论为基础,根据试验或观察 得到的数据,来研究随机现象.通过统计分析,对 研究对象的客观规律性作出合理的估计和推断. 第一节 总体与样本 在一个统计问题中,我们把所研究对象的全体称为一个总体.总体中 的每个元素(即每一个研究对象)称为个体. 若总体中包含有限个个体,则称这个总体为有限总体,否则称为无限 总体,总体中所包含的个体总数称为总体容量. 在统计问题中,人们所关心的往往不是总体的一切方面,而是它的某 一项数量指标X.因此,我们把这个数量指标X所有可能取值的全体就作为 总体看待,称为总体X,X是一个随机变量.我们要根据试验或观察得到的 数据来得到X的概率分布和数字特征,分别称为总体的分布和数字特征.
大家知道,随机现象的统计规律性必然在 大量的重复试验中呈现出来,为了推断总体X 的性质,从理论上讲,应该对每个个体逐一进 行测试,然而实际上这样做往往是不现实的, 例如,要研究灯泡寿命,由于寿命测试是破坏 性的,当测试过每只灯炮的寿命后,这批灯泡 就报废了. 一般来说,恰当的方法是按一定的规则从总体中抽取若干个个体进行测 试,为了使测试到的数据能很好地反映总体的情况,当然应该要求总体中每 一个个体被抽到的可能性是均等的.并且在抽取一个个体后总体的成分不改 变.这种抽取个体的方法称为简单随机抽样.被抽出的部分个体,叫做总体 的一个样本 假设我们从总体X中抽取n个个体进行测试(简单抽样),把测试结果分别 记作X1,X2,…,X,:由于抽样的随机性,X可以取X所有可能的值,是与X 具有相同分布的随机变量,且X,X,.,X,相互独立.这样的n个个体称 为总体X的一个简单随机样本
大家知道,随机现象的统计规律性必然在 大量的重复试验中呈现出来, 为了推断总体X 的性质,从理论上讲,应该对每个个体逐一进 行测试,然而实际上这样做往往是不现实的, 例如,要研究灯泡寿命,由于寿命测试是破坏 性的,当测试过每只灯炮的寿命后,这批灯泡 就报废了. 一般来说,恰当的方法是按一定的规则从总体中抽取若干个个体进行测 试,为了使测试到的数据能很好地反映总体的情况,当然应该要求总体中每 一个个体被抽到的可能性是均等的.并且在抽取一个个体后总体的成分不改 变.这种抽取个体的方法称为简单随机抽样.被抽出的部分个体,叫做总体 的一个样本. 假设我们从总体 X 中抽取 n 个个体进行测试(简单抽样),把测试结果分别 记作X1,X2,…, Xn.由于抽样的随机性,Xi 可以取X 所有可能的值,是与X 具有相同分布的随机变量,且 X1,X2,…,Xn 相互独立.这样的n 个个体称 为总体 X 的一个简单随机样本.
定义设X是具有某一概率分布的随机变 量(看作一个总体).如果随机变量X1,X, X,相互独立,且都与X具有相同的概率分布, 则称n维随机变量(X,X,,X)为来自总 体X的简单随机样本,简称样本,n称为样本 容量. 在对总体X进行一次具体的抽样并作观测之后,得到样本(X,X2,,X) 的确切的数值(化1,2,x),称为一个样本观测值(观察值),简称样本值。 样本X,X,.,X)所有可能取值的全体称为样本空间,它是n维空间 或其中的一个子集.样本观察值(x1,x2,,x,)是样本空间中的一个点。 如果总体X的分布函数为F(x),则X的样本X,X2,,X,的联合分布 函数为∏F(x).如果总体X为连续型且概率密度为x),则样本(化,Y,, x)的联合概率密度为/(x)
定义 设 X 是具有某一概率分布的随机变 量(看作一个总体).如果随机变量X1,X2,…, Xn 相互独立,且都与 X 具有相同的概率分布, 则称 n 维随机变量 (X1,X2,…,Xn ) 为来自总 体 X 的简单随机样本,简称样本,n 称为样本 容量. 在对总体X进行一次具体的抽样并作观测之后,得到样本(X1,X2,…,Xn ) 的确切的数值(x1,x2,…,xn ),称为一个样本观测值(观察值),简称样本值. 样本(X1,X2,…,Xn )所有可能取值的全体称为样本空间,它是n维空间 或其中的一个子集.样本观察值(x1,x2,…,xn )是样本空间中的一个点. 如果总体 X 的分布函数为F(x),则 X 的样本 X1,X2,…,Xn 的联合分布 函数为 . 如果总体 X 为连续型且概率密度为 f(x),则样本(X1,X2,…, Xn )的联合概率密度为 . = n i i F x 1 ( ) = n i i f x 1 ( )
第二节统计量及其分布 一、统计量 样本是总体的代表,是统计推断的依 据.在应用时,往往不是直接使用样本本身, 而是针对不同的问题构造样本的函数,来进行 统计推断. 定义1设(X1,X2,,X,)是来自总体X的一个样本,t=gt,2,,)为 1,2,,t的一个单值实函数,并且其中不包含任何未知参数,则称T=gK, X2,,X)为一个统计量, 设x1,2xn是相应于样本X,X2,…X的样本值,则称g,2,,x) 是统计量T=g化1,X2,…,X,)的观察值. 二、样本矩 下面给出几个常用的统计量.设(X,X,…,X)是来自总体X的一个样 本,(,2,,x,)是样本观察值,定义 样本均值=2X, n i=
第二节 统计量及其分布 一、统计量 样本是总体的代表,是统计推断的依 据.在应用时,往往不是直接使用样本本身, 而是针对不同的问题构造样本的函数,来进行 统计推断. 定义1 设(X1,X2,…,Xn )是来自总体 X 的一个样本,t = g(t 1 , t 2 ,…, t n ) 为 t 1 , t 2 , …, t n的一个单值实函数,并且其中不包含任何未知参数,则称 T = g(X1 , X2 , …, Xn )为一个统计量. 设 x1 , x2 ,…, xn是相应于样本 X1 , X2 , …,Xn的样本值,则称 g(x1,x2,…, xn ) 是统计量T = g(X1 ,X2 ,…,Xn )的观察值. 二、样本矩 下面给出几个常用的统计量.设(X1,X2,…,Xn )是来自总体 X 的一个样 本,(x1,x2,…,xn )是样本观察值,定义: 样本均值 . = = n i Xi n X 1 1
样本分s区-行=区-R 样本标准若(药方5:8出-列 差) 样本阶(原点)矩A=之对(1,2,…) n 样本阶中心矩B=1X,-(=1,2,…). n i-l 显 4=B,=”-s2 们的观察值分别为 84-
样本分差 . 样本标准差(均方 差) . − − − = − = = = n i i n i i X nX n X X n S 1 2 2 1 2 2 1 1 ( ) 1 1 = − − = = n i Xi X n S S 1 2 2 ( ) 1 1 样本k阶(原点)矩 (k=1,2,…) . 样本k阶中心矩 (k=1,2,… ) . = = n i k k Xi n A 1 1 = = − n i k k Xi X n B 1 ( ) 1 显 然 , . A1 = X 2 2 1 S n n B − = 它们的观察值分别为 , , = = n i i x n x 1 1 − − − = − = = = n i i n i i x nx n x x n s 1 2 2 1 2 2 1 1 ( ) 1 1
S- 1 2, 三、顺序统计量 定义2(化,X2:,X,)是总体X的一个样本,(,2,,x,)是一个样 本观察值,将它由小到大的顺序排列,得到xS2≤xw,取xo作为X的 观测值,由此得到的统计量XX2,,X称为样本(X1,X,…,X,)的 组顺序统计量,X称为第个顺序统计量或第项.统计量 X(m+)2 当n=2m+1 2 (X(m)+Xm+)),当n=2m R,=Xm一X1 分别称为样本中位数和样本极差. 样本均值、顺序统计量的首项及末项、样本中位数描述了样本在数轴上 的大致位置;样本方差与样本极差描述了样本的分散程度
= − − = n i i x x n s 1 2 ( ) 1 1 = = n i k k i x n a 1 1 = = − n i k k i x x n b 1 ( ) 1 , , . 三、顺序统计量 定义2 (X1,X2,…,Xn )是总体X的一个样本,(x1,x2,…,xn )是一个样 本观察值,将它由小到大的顺序排列,得到x(1)≤x(2)≤…≤x(n) ,取x(i)作为X(i)的 观测值,由此得到的统计量X(1),X(2),…,X(n)称为样本(X1,X2,…,Xn )的 一组顺序统计量,X(i)称为第i个顺序统计量或第i项.统计量 Rn= x(n)-x(1) 分别称为样本中位数和样本极差. 样本均值、顺序统计量的首项及末项、样本中位数描述了样本在数轴上 的大致位置;样本方差与样本极差描述了样本的分散程度. + = = + = + + X X n m X n m X m m m ( ) , 2 2 1 , 2 1 ~ ( ) ( 1) ( 1) 当 当
第三节样本分布函数与频率直方图 一、样本分布函数 样本能够反映总体X的信息,总体的分布函 数Fx)是否能由样本来“表示”?回答是肯定的, 我们用下面介绍的样本函数来近似表示总体X的 分布函数, 定义 设xx2,xm是总体X的顺序统计量的一组观察值,对于任 意的实数x,定义函数 0 x<x02 F (x)= 之 x0)≤x<x+),i=1,2,…,n-1 x≥X(m) 称F,x)为总体X的样本分布函数(或经验分布函 数)
第三节 样本分布函数与频率直方图 一、样本分布函数 样本能够反映总体X的信息,总体X的分布函 数F(x)是否能由样本来“表示”?回答是肯定的, 我们用下面介绍的样本函数来近似表示总体X的 分布函数. 定义 设x(1),x(2),…,x(n)是总体X的顺序统计量的一组观察值,对于任 意的实数x,定义函数 = − = + 1, . , , 1, 2, , 1; 0, ; ( ) ( ) ( ) ( 1) (1) n n i i x x x x x i n n i x x F x 称Fn (x)为总体X的样本分布函数(或经验分布函 数).
样本分布函数F,x)不仅与样本容量n有关, 还与所得到的样本观察值有关,故它是随机变 量.F,(x)的图形(图6-1)呈跳跃上升的台阶状,在 x)?X2)?,xm中的不重复的值处,跳跃高度 为二;在重复1次的值处,跳跃高度为·图 n n 6-1中的曲线是总体X的理论分布函数Fx)的图 形. F(x 工(+1) x(1)x(2) Ox(i) 图61
样本分布函数Fn (x)不仅与样本容量 n 有关, 还与所得到的样本观察值有关,故它是随机变 量.Fn (x)的图形(图6-1)呈跳跃上升的台阶状, 在 x(1),x(2),…,x(n)中的不重复的值处,跳跃高度 为 ;在重复 l 次的值处,跳跃高度为 .图 6-1中的曲线是总体 X 的理论分布函数 F(x) 的图 形. n l n 1 图6-1
样本分布函数F,(x)具有以下性质: 1°0Fx)1; 2°F(x)是单调不减函数: 3°F(x)是处处右连续的. 对于样本观察值(x1,2,,x),为了求其对应的样本分布函数F(x) 之值,只须将这n个值中小于或等x的个数除以样本容量n即可.对于给定 的x,F,(x)是n次重复独立试验中事件{X≤x}出现的频率,而理论分布函数 Fx)是事件{X≤x}发生的概率,由伯努利定理知,对任意给定的正数ε,有 lim P{F(x)-F(x))=1, 即F,x)按概率收敛于Fx).进一步还有如下结论. 定理(格利文科W.Glivenko)定理) 设总体X的分布函数为Fx),样本 分布函数F,(x),则对于任何实数x,有 P(lim sup F(x)-F(x)=0)=1. -00<X<+0 证明从略。 以上结论是我们用样本去推断总体的依据
样本分布函数Fn (x)具有以下性质: 1°0≤Fn (x)≤1; 2°Fn (x)是单调不减函数; 3°Fn (x)是处处右连续的. 对于样本观察值(x1,x2,…,xn ),为了求其对应的样本分布函数Fn (x) 之值,只须将这n 个值中小于或等 x 的个数除以样本容量n 即可.对于给定 的x,Fn (x)是 n 次重复独立试验中事件{X≤x} 出现的频率,而理论分布函数 F(x)是事件{X≤x}发生的概率,由伯努利定理知,对任意给定的正数ε,有 , 即Fn (x)按概率收敛于F(x).进一步还有如下结论. lim {| ( ) − ( )| }=1 → P F x F x n n 定理 (格利文科(W. Glivenko)定理) 设总体X的分布函数为F(x), 样本 分布函数Fn (x),则对于任何实数x,有 . 证明从略. 以上结论是我们用样本去推断总体的依据. {lim sup | ( ) − ( )|= 0}=1 → − + P F x F x n x n
二、频率直方图 如果说样本分布函数是通过随机样本对总 体分布函数的反映,那么下面介绍的频率直方 图就是样本对总体概率密度函数的反映(假设总 体是连续随机变量): 依据总体X的一个样本观察值(x1,x2,.,x,)画直方图的一般步骤如下: 1°找出x1,2,,x,中的最小值x与最大值xm 2°选择常数a、b(ab2xm),在区间[a,b内插入k-1个分点; a=t100时, 取k为10~15.通常取t,比样本观察值精度高一位
二、频率直方图 如果说样本分布函数是通过随机样本对总 体分布函数的反映,那么下面介绍的频率直方 图就是样本对总体概率密度函数的反映(假设总 体是连续随机变量). 依据总体 X 的一个样本观察值(x1,x2,…,xn )画直方图的一般步骤如下: 1°找出x1,x2,…,xn中的最小值x(1)与最大值x(n). 2°选择常数a、b(a≤x(1),b≥x(n) ),在区间[a,b]内插入k-1个分点; a=t 0100时, 取 k 为10~15.通常取t i 比样本观察值精度高一位. , 1 k b a t t t i i − = − − =