当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《概率论与数理统计 Probability Theory and Mathematical Statistics》课程教学资源(电子教案)第五章 数理统计的基本概念

资源类别:文库,文档格式:DOC,文档页数:13,文件大小:770.5KB,团购合买
本章主要讲述样本,总体,参数与参数空间;直方图与经验分布函数;统计 内容量,x2分布,t分布和F分布;分位数;正态总体的抽样分布等内容。
点击下载完整版文档(DOC)

第五章数理统计的基本概念 本章主要讲述样本,总体,参数与参数空间:直方图与经验分布函数:统计 内容|量,x2分布,1分布和F分布:分位数;正态总体的抽样分布等内容 提要 1、理解总体、个体、样本和统计量的概念。 2、了解直方图的作法。 3、掌握样本均值、样本方差的计算。 重点4、了解x2分布、1分布、F分布的定义,并会查表计算。 5、了解分位数的概念,并会查表计算。 分析6、了解正态总体的某些常用统计量的分布。 1、统计量、分位数的概念 难点|2、xz2分布、1分布、F分布的定义与性质 分析3、正态总体的抽样分布 习题 布置习题5(1,35,9) 备注

第五章 数理统计的基本概念 内容 提要 本章主要讲述样本,总体,参数与参数空间;直方图与经验分布函数;统计 量, 2  分布, t 分布和 F 分布;分位数;正态总体的抽样分布等内容. 重点 分析 1、理解总体、个体、样本和统计量的概念。 2、了解直方图的作法。 3、掌握样本均值、样本方差的计算。 4、了解 2  分布、 t 分布、 F 分布的定义,并会查表计算。 5、了解分位数的概念,并会查表计算。 6、了解正态总体的某些常用统计量的分布。 难点 分析 1、 统计量、分位数的概念 2、 2  分布、 t 分布、 F 分布的定义与性质。 3、 正态总体的抽样分布。 习题 布置 习题 5 (1,3,5,9) 备注

教学内容( Contents Chapter Five数理统计的基本概念( Basic Concept of Mathematical Statistics) §5.1样本和总体( Sample and collectivity) 样本( Sample) 数理统计的研究对象是受随机性影响的数据,这些通过观察或试验得到的数据称为样本 或子样( Sample),这些观察或试验过程称为抽样( Sample)。例如用同一架天平称某重物n次 得到一组n个数据 X.X (5.1) 就称它们是一个样本,其中n称为样本容量。每个容量为n的样本都可称为n维空间的一个点, 样本所有可能的取值构成了n维空间的一个子集,称为样本空间( Sample space),记作X.注 意“数据”一词在这里是广义的。它可以是实数值,例如X1表示称得某重物的重量;也可以 是事物的属性,例如X=“正品”,(或“废品”)等等,通常为了方便研究,也常将这些 属性数量化,例如用“1”表示“废品”,“0”表示“正品”,当然这不是本质的问题 有时数据也可以是一组向量,例如武器试验中给出一组弹着点的坐标 (X1,H1),(X2,Y2),…,(Xn,Yn) 即为二维向量的一组样本,在多元统计分析中,将专门研究这种情形。对于样本需要强调两 a)样本并非一堆杂乱无章无规律可循的数据,它是受随机性影响的一组数据,因此, 用概率论的话说,就是每个样本既可以视为一组数据,又可视为一组随机变量,这就是所谓 样本的二重性。当通过一次具体的试验,得到一组观测值,这时样本表现为一组数据;但这 组数据的出现并非是必然的,它只能以一定的概率(或概率密度)出现,这就是说,当考察 个统计方法是否具有某种普遍意义下的效果时,又需要将其样本视为随机变量,而一次具 体试验得到的数据,则可视为随机变量的一个实现值。今后为行文方便,我们常交替使用上 述两种观点来看待样本,而不去每次声明此处样本是指随机变量还是其实现值,同时一律采 用记号(5.1)来表示它。 b)样本(5.1)也不是任意一组随机变量,我们要求它是一组独立同分布的随机变量。 同分布就是要求样本具有代表性,独立是要求样本中各数据的出现互不影响,就是说,抽取 样本时应该是在相同条件下独立重复地进行。如 Example5.1设一组抽奖券共10000张,其中有5张有奖。问连续抽取3张均有奖的概 率为多少? 为了讨论这个问题,不妨设 1,第次抽到奖 X 0,第未抽到奖 要求该事件的概率,实际上即是求联合概率分布 P{X1=x1,X2=x2,X3=x3}(x2=0或 在x1=x2=x3=1处的值。但题中没有说明“连续抽取”是“有放回的”还是“无放回的” 我们不妨都计算一下 回时 P{X1=1,X2=1,X3=1} 1000099999998 i)有放回时

54 教 学 内 容 ( Contents ) Chapter Five 数理统计的基本概念(Basic Concept of Mathematical Statistics) §5.1 样本和总体(Sample and Collectivity) 一、 样本(Sample) 数理统计的研究对象是受随机性影响的数据,这些通过观察或试验得到的数据称为样本 或子样(Sample),这些观察或试验过程称为抽样(Sample)。例如用同一架天平称某重物 n 次, 得到一组 n 个数据 X X Xn , , , 1 2  (5.1) 就称它们是一个样本,其中 n 称为样本容量。每个容量为 n 的样本都可称为 n 维空间的一个点, 样本所有可能的取值构成了 n 维空间的一个子集,称为样本空间(Sample space),记作 X .注 意“数据”一词在这里是广义的。它可以是实数值,例如 Xi 表示称得某重物的重量;也可以 是事物的属性,例如 Xi =“正品”,(或“废品”)等等,通常为了方便研究,也常将这些 属性数量化,例如用“l”表示“废品”,“0”表示“正品”,当然这不是本质的问题。 有时数据也可以是一组向量,例如武器试验中给出一组弹着点的坐标 ( , ),( , ), ,( , ) X1 Y1 X2 Y2  Xn Yn 即为二维向量的一组样本,在多元统计分析中,将专门研究这种情形。对于样本需要强调两 点: a)样本并非一堆杂乱无章无规律可循的数据,它是受随机性影响的一组数据,因此, 用概率论的话说,就是每个样本既可以视为一组数据,又可视为一组随机变量,这就是所谓 样本的二重性。当通过一次具体的试验,得到一组观测值,这时样本表现为一组数据;但这 组数据的出现并非是必然的,它只能以一定的概率(或概率密度)出现,这就是说,当考察 一个统计方法是否具有某种普遍意义下的效果时,又需要将其样本视为随机变量,而一次具 体试验得到的数据,则可视为随机变量的一个实现值。今后为行文方便,我们常交替使用上 述两种观点来看待样本,而不去每次声明此处样本是指随机变量还是其实现值,同时一律采 用记号(5.1)来表示它。 b)样本(5.1)也不是任意一组随机变量,我们要求它是一组独立同分布的随机变量。 同分布就是要求样本具有代表性,独立是要求样本中各数据的出现互不影响,就是说,抽取 样本时应该是在相同条件下独立重复地进行。如 Example 5.1 设一组抽奖券共 10000 张,其中有 5 张有奖。问连续抽取 3 张均有奖的概 率为多少? 为了讨论这个问题,不妨设    = ,第 次未抽到奖 第 次抽到奖 i i Xi 0 1, 要求该事件的概率,实际上即是求联合概率分布 { , , }( 0 1) P X1 = x1 X2 = x2 X3 = x3 xi = 或 在 x1 = x2 = x3 =1 处的值。但题中没有说明“连续抽取”是“有放回的”还是“无放回的”, 我们不妨都计算一下: (ⅰ)无放回时: 9998 3 9999 4 10000 5 { 1, 1, 1} P X1 = X 2 = X3 = = (ⅱ)有放回时:

P{X1=1,X2=1,x3=1} 1000010000000 显然(i)中的抽样方式不是独立的,每次抽样的结果都将影响下一次抽样的分布,这种抽 样不是我们通常研究的抽样。而(i)中的抽样,则是多次独立的抽样,它们是同分布的, 即我们通常称为的随机抽样( Random sample)。这样得到的数据,即是我们常研究的简单随机 样本( Simple random sample),或就直接称为样本。由此可以看出,对于样本(5.1),如果 每个X的共同分布为F,则样本(5.1)的分布为 F(X1)F(X2)…F(xn) (5.2) 相应地,若X有共同概率密度∫,则(5.1)的概率密度为 f(rDf(x,2).f(Xn) (5.3) 二、总体( Collectivity) 总体( Collectivity)或母体在许多教科书上通常被定义为研究对象全体的集合。其含义是, 我们观察到的样本总是由某个具体事物产生,并反映该事物的特征,这时,可以把样本视为 一些被抽取的该事物的个体,而将该事物本身视为所有个体的集合即总体。但这样说多少有 点模糊。如在例5.1中,我们自然可以将10000张抽奖券视为总体,但如果是用一架天平去 重复称同一重物,得到重物的重量,在这种事中,什么是研究对象的全体呢?因此,我们宁 愿采用另一种说法,即总体是一个随机变量,它的分布即为(5.1)中每个X的共同分布, 或者可以看作样本容量n=1时的样本X1的分布F。用这个观点叙述一些问题就显得很方便 例如样本(5.1)就可视为由总体X独立“拷贝”出来的同分布的n个随机变量。又如 Example52用两台车床车同一批产品,分别车m及n件,尺寸为X1,X2,…,Xxm及 H1,H2…,n这时,我们得到的样本是 X13X2…,xm,Y1,Y2,…,Yn (5.4) 它们显然通常不会是同分布的,但这种样本在我们的研究中经常出现。为此我们用总体的观 点,可以很方便地视它为出自两个总体X,Y的样本。有了总体这个概念,我们就可以将统 计推断的基本任务概括为由样本推断总体。如在例5.2中,我们就可以从样本(5.4)中推断 出总体X与Y是否有显著差别。关于这一基本任务,我们今后可以慢慢体会到。由于推断总 体实质上是推断总体的分布,即解决一个实际统计问题,往往归结为总体分布的确定,所以 我们也常称总体的分布是该问题的统计模型( Statistics mode 三、参数与参数空间 Parameter and parameter space) 如前所述,数理统计问题的分布一般来说是未知的,需要通过样本来推断。但如果对总 体绝对地一无所知,那么,所能做出的推断的可信度一般也极为有限。在很多情况下,往往 是知道总体所具有的分布形式,而不知道的仅仅是分布中的参数。这在实际中是大量能见到 的,因为,分布的总体形式我们往往可以通过具体的应用背景或以往的经验加以确定 Example53考虑如何由样本X1,X2,…Xn的实际背景确定统计模型,即总体X的分 (i)样本记录随机抽取的n件产品的正品、废品情况。 (i)样本表示同一批n个电子元件的寿命(小时) (i)样本表示同一批n件产品某一尺寸(mm) 通过分析或经验,我们容易知道: (i)x服从两点分布,其概率分布为p2(1-p)-x,x=0,1,所需确定的是参数p∈[0,1 (ⅱi)X通常服从指数分布,其密度函数 f(x4)=e,x>0 0 0

55 3 1 2 3 10000 5 10000 5 10000 5 10000 5 { 1, 1, 1}       P X = X = X = = = 显然(ⅰ)中的抽样方式不是独立的,每次抽样的结果都将影响下一次抽样的分布,这种抽 样不是我们通常研究的抽样。而(ⅱ)中的抽样,则是多次独立的抽样,它们是同分布的, 即我们通常称为的随机抽样(Random sample)。这样得到的数据,即是我们常研究的简单随机 样本(Simple random sample),或就直接称为样本。由此可以看出,对于样本(5.1),如果 每个 Xi 的共同分布为 F ,则样本(5.1)的分布为 ( ) ( ) ( ) F X1 F X2 F Xn (5.2) 相应地,若 Xi 有共同概率密度 f ,则(5.1)的概率密度为 ( ) ( ) ( ) 1 2 Xn f X f X  f (5.3) 二、 总体(Collectivity) 总体(Collectivity)或母体在许多教科书上通常被定义为研究对象全体的集合。其含义是, 我们观察到的样本总是由某个具体事物产生,并反映该事物的特征,这时,可以把样本视为 一些被抽取的该事物的个体,而将该事物本身视为所有个体的集合即总体。但这样说多少有 点模糊。如在例 5.1 中,我们自然可以将 10000 张抽奖券视为总体,但如果是用一架天平去 重复称同一重物,得到重物的重量,在这种事中,什么是研究对象的全体呢?因此,我们宁 愿采用另一种说法,即总体是一个随机变量,它的分布即为(5.1)中每个 Xi 的共同分布, 或者可以看作样本容量 n =1 时的样本 X1 的分布 F 。用这个观点叙述一些问题就显得很方便, 例如样本(5.1)就可视为由总体 X 独立“拷贝”出来的同分布的 n 个随机变量。又如 Example 5.2 用两台车床车同一批产品,分别车 m 及 n 件,尺寸为 X X X m , , , 1 2  及 Y Y Yn , , , 1 2  这时,我们得到的样本是 X X X m , , , 1 2  ,Y Y Yn , , , 1 2  (5.4) 它们显然通常不会是同分布的,但这种样本在我们的研究中经常出现。为此我们用总体的观 点,可以很方便地视它为出自两个总体 X ,Y 的样本。有了总体这个概念,我们就可以将统 计推断的基本任务概括为由样本推断总体。如在例 5.2 中,我们就可以从样本(5.4)中推断 出总体 X 与 Y 是否有显著差别。关于这一基本任务,我们今后可以慢慢体会到。由于推断总 体实质上是推断总体的分布,即解决一个实际统计问题,往往归结为总体分布的确定,所以 我们也常称总体的分布是该问题的统计模型(Statistics model)。 三、 参数与参数空间(Parameter and parameter space) 如前所述,数理统计问题的分布一般来说是未知的,需要通过样本来推断。但如果对总 体绝对地一无所知,那么,所能做出的推断的可信度一般也极为有限。在很多情况下,往往 是知道总体所具有的分布形式,而不知道的仅仅是分布中的参数。这在实际中是大量能见到 的,因为,分布的总体形式我们往往可以通过具体的应用背景或以往的经验加以确定。 Example 5.3 考虑如何由样本 X X Xn , , , 1 2  的实际背景确定统计模型,即总体 X 的分 布: (ⅰ) 样本记录随机抽取的 n 件产品的正品、废品情况。 (ⅱ) 样本表示同一批 n 个电子元件的寿命(小时)。 (ⅲ) 样本表示同一批 n 件产品某一尺寸(mm)。 通过分析或经验,我们容易知道: (ⅰ) X 服从两点分布,其概率分布为 p p x x x (1 ) , 1− − =0,1,所需确定的是参数 p [0,1] . (ⅱ) X 通常服从指数分布,其密度函数 , 0 ( ) 0, 0 x e x f x x    −   =    ;

所需确定的是参数A>0 (i)x通常服从正态分布N(4,2),其密度函数 f(x;p,a-2)= e2a2x∈R 所需确定的是参数(2),其中H∈R,a2>0,对于每个总体,我们称其分布中参数的 一切可能取值的集合为参数空间 Parameter space),记为e,如在例5.3中,(i)=[0,1, (i)e=R,(i)e=RxR。其中R=(-∞,+∞),R+=(0,+∞) 今后对于统计推断,如果总体的分布为形式已知,仅对参数进行推断,我们就称之为参 数推断( Parameter deduce)(估计,检验);否则,称为非参数推断0 on-parameter deduce) §5.2直方图与经验分布函数 (Vertical Grapy and empirical Distribution Function) 直方图( Vertical Grapy) 设x1,X2,…,Xn是总体X的一个样本,又设总体具有概率密度∫,如何用样本来推断 f?注意到现在的样本是一组实数,因此,一个直观的办法是将实轴划分为若干小区间,记 下诸观察值X,落在每个小区间中的个数,根据大数定律中频率近似概率的原理,从这些个数 来推断总体在每一小区间上的密度。具体做法如下: 10找出X)=minx2,X(m)=maxX。取a略小于X,b略大于X(a) 20将[ab分成m个小区间,m<n,小区间长度可以不等,设分点为 <<t<b 在分小区间时,注意每个小区间中都要有若干观察值,而且观察值不要落在分点上 y记落在小区间(,1中观察值的个数(频数),计算频率=n,列表分 别记下各小区间的频数、频率 4°在直角坐标系的横轴上,标出t0,12…,lm各点,分别以(t1-1,]为底边,作高为 ∫1△,的矩形,M=1-1,j=12,…,m即得直方图51 △2 图5-1 实际上,我们就是用直方图对应的分段函数 Φn(x)=,x∈(t1-13,],j=12…m 来近似总体的密度函数∫(x).这样做为什么合理?我们引进“唱票随机变量”,对每个小区 间(-1,t1],定义 5=1若

56 所需确定的是参数  >0. (ⅲ) X 通常服从正态分布 ( , ) 2 N   ,其密度函数 f x e x R x =  − − , 2 1 ( ) 2 2 2 ( ) 2    ;, 所需确定的是参数 ( , ) 2   ,其中   R , 0 2   ,对于每个总体,我们称其分布中参数的 一切可能取值的集合为参数空间(Parameter space),记为  ,如在例 5.3 中,(ⅰ)  = [0,1] , (ⅱ) +  = R ,(ⅲ) +  = R R 。其中 = (−,+), = (0,+). + R R 今后对于统计推断,如果总体的分布为形式已知,仅对参数进行推断,我们就称之为参 数推断(Parameter deduce)(估计,检验);否则,称为非参数推断(Non-parameter deduce) §5.2 直方图与经验分布函数 (Vertical Grapy and Empirical Distribution Function) 一、 直方图(Vertical Grapy) 设 X X Xn , , , 1 2  是总体 X 的一个样本,又设总体具有概率密度 f ,如何用样本来推断 f ?注意到现在的样本是一组实数,因此,一个直观的办法是将实轴划分为若干小区间,记 下诸观察值 Xi 落在每个小区间中的个数,根据大数定律中频率近似概率的原理,从这些个数 来推断总体在每一小区间上的密度。具体做法如下: 1 0 找出 i i n X X   = 1 (1) min , i i n X n X   = 1 ( ) max 。取 a 略小于 X(i) ,b 略大于 X (n) ; 2 0 将 [a,b] 分成 m 个小区间, m  n ,小区间长度可以不等,设分点为 a = t 0  t 1  tm  b 在分小区间时,注意每个小区间中都要有若干观察值,而且观察值不要落在分点上。 3 0 记 j n =落在小区间 ( , ] j 1 j t t − 中观察值的个数(频数),计算频率 n n f j j = ,列表分 别记下各小区间的频数、频率。 4 0 在直角坐标系的横轴上,标出 m t ,t , ,t 0 1  各点,分别以 ( , ] j 1 j t t − 为底边,作高为 j j f / t 的矩形, , 1,2, , , t j = t j − t j−1 j =  m 即得直方图5-1. 图5-1 实际上,我们就是用直方图对应的分段函数 来近似总体的密度函数 f (x) .这样做为什么合理?我们引进“唱票随机变量”,对每个小区 间 ( , ] j 1 j t t − ,定义 i n X t t X t t i j j i j j i , 1,2, , 0, ( , ] 1, ( , ] 1 1 =       = − − 若 若  x t t j m t f x j j i j n ( ) , ( , ], 1,2, ,  1 =    = −

则是独立同分布于两点分布 P{1=x}=p2(1-p)-x,x=0或 其中P=PX∈(1-1,1)},由柯尔莫哥洛夫强大数定律,我们有 5→>E5=P =PXe(1,4B=」f(x)…(m→) 以概率为1成立,于是当n充分大时,就可用∫来近似代替上式右边以f(x)(x∈(1-1,1,] 为曲边的曲边梯形的面积,而且若m充分大,Mt,较小时,我们就可用小矩形的高度 Φn(x)=J/A来近似取代f(x),x∈(t1-1 二、经验分布函数 Empirical distribution function) 对于总体X的分布函数F(未知),设有它的样本X1H2,…Xn,我们同样可以从样 本出发,找到一个已知量来近似它,这就是经验分布函数F(x)它的构造方法是这样的,设 x1,X2…,Xn诸观察值按从小到大可排成 x(u)≤X(2)≤…≤X(n (5.5) 定义 0.xX F(x)只在x=X(),k=12,…,n处有跃度为力的间断点,若有个观察值相同,则F2(x) 在此观察值处的跃度为对于固定的x,F(x)即表示事件(XF(x),n→>∞,以概率为1成立。经验分布函数的图形如图5-2 ↓F.(x 实际上,Fn(x)还一致地收敛于F(x),所谓格里文科定理指出了这一更深刻的结论,即

57 则 i  是独立同分布于两点分布: { } (1 ) , 0 1 P  i = x = p x − p 1−x x = 或 其中 { ( , )} j 1 j p P X t t =  − ,由柯尔莫哥洛夫强大数定律,我们有 { ( , ]} ( ) ( ) 1 1 1 1 =  = →  = = → =   − − = P X t t f x dx n E p n n n f j j t t j j n j i i j j    以概率为1成立,于是当 n 充分大时,就可用 j f 来近似代替上式右边以 f (x) ( x( , ] j 1 j t t − ) 为曲边的曲边梯形的面积,而且若 m 充分大, j t 较小时,我们就可用小矩形的高度 n j j  (x) = f / t 来近似取代 ( ), ( , ] j 1 j f x x t t  − . 二、 经验分布函数(Empirical distribution function) 对于总体 X 的分布函数 F (未知),设有它的样本 X X Xn , , , 1 2  ,我们同样可以从样 本出发,找到一个已知量来近似它,这就是经验分布函数 F (x) n .它的构造方法是这样的,设 X X Xn , , , 1 2  诸观察值按从小到大可排成 X(1)  X(2)  X(n) (5.5) 定义           = −  = + ( ) ( ) ( 1) (1) 1, , , 1,2, , 1 0, ( ) n n k k x X X x X k n n k x X F x  F (x) n 只在 X(k ) x = ,k = 1,2,  , n 处有跃度为 n 1 的间断点,若有 l 个观察值相同,则 F (x) n 在此观察值处的跃度为 n l .对于固定的 x , F (x) n 即表示事件{ X  x }在 n 次试验中出 现的频率,即 n F x n 1 ( ) = {落在 (−, x) 中 Xi 的个数}。用与直方图分析相同的方法可以论证 F (x) n → F (x), n →,以概率为1成立。经验分布函数的图形如图5-2. 图5-2 实际上, F (x) n 还一致地收敛于 F (x) ,所谓格里文科定理指出了这一更深刻的结论,即

P{mDn=0}=1 其中Dn=Sup|F2(x)-F(x) §5.3统计量及其分布( Statistic and distribution) 统计量( Statistic 在利用样本推断总体时,往往不能直接利用样本,而需要对它进行一定的加工,这样才 能有效地利用其中的信息,否则,样本只是呈现为一堆“杂乱无章”的数据 Example5,4从某地区随机抽取50户农民,调查其年收入情况,得到下列数据(每户人 均元) 602754788962704712854888768848 8821192820878614846746828792872 6966449268081010728742850864738 试对该地区农民收入的水平和贫富悬殊程度做个大致分析。显然,如果不进行加工,面对这大 堆大小参差不齐的数据,你很难得出什么印象。但是只要对这些数据稍事加工,便能作出大 致分析:如记各农户的年收入数为X1,X2…Xs0,则考虑 X X=80952 (X1-X)2=154 这样,我们可以从X得出该地区农民平均人均收人水平属中等,从S可以得出该地区农 民贫富悬殊不大的结论。(当然还需要一些参照资料)由此可见对样本的加工是十分重要的。 对样本加工,主要就是构造统计量。用数学的语言说,所谓统计量( Statistic)是一个不含 未知参数的样本的已知函数。设样本为X1,X2…Xn,则统计量通常记为 T=7(X1,X2…Xn) Example5.5设X1,X2,…,X,为总体X的样本,则下列各量均是统计量,它们今后要 经常被用到 (1)x=∑x,x称为样本均值 ample Averag) (i)S2=∑(X1-X)2,S2称为样本方差( Sample Variance (i)S=√S2,S称为样本标准差 (Sample standard variance) (i)4=1∑x,4称为样本k阶原点矩( mple k order origin moment (v)B4=∑(X1-X),B称为样本k阶中心矩( ample k order central moment)。 Example5.6设(X1,Y1),(X2,Y2)…(Xn,Fn)为二维总体(x,Y)的样本,则下列各量为 统计量

58 {lim = 0} = 1 → n n P D 其中 D sup F (x) F(x) n x n = − −  . §5.3 统计量及其分布(Statistic and Distribution) 一、 统计量(Statistic) 在利用样本推断总体时,往往不能直接利用样本,而需要对它进行一定的加工,这样才 能有效地利用其中的信息,否则,样本只是呈现为一堆“杂乱无章”的数据。 Example 5.4 从某地区随机抽取 50 户农民,调查其年收入情况,得到下列数据(每户人 均元): 924 800 916 704 870 1040 824 690 574 490 972 988 1266 684 764 940 408 804 610 852 602 754 788 962 704 712 854 888 768 848 882 1192 820 878 614 846 746 828 792 872 696 644 926 808 1010 728 742 850 864 738 试对该地区农民收入的水平和贫富悬殊程度做个大致分析。显然,如果不进行加工,面对这大 堆大小参差不齐的数据,你很难得出什么印象。但是只要对这些数据稍事加工,便能作出大 致分析:如记各农户的年收入数为 1 2 50 X , X ,  , X ,则考虑 809.52 50 1 50 1 =  = i= X Xi ( ) 154.28 50 1 50 1 2 =  − = i= S Xi X 这样,我们可以从 X 得出该地区农民平均人均收人水平属中等,从 S 可以得出该地区农 民贫富悬殊不大的结论。(当然还需要一些参照资料)由此可见对样本的加工是十分重要的。 对样本加工,主要就是构造统计量。用数学的语言说,所谓统计量(Statistic)是一个不含 未知参数的样本的已知函数。设样本为 X X Xn , , , 1 2  ,则统计量通常记为 ( , ) T = T X1 X2 Xn Example 5.5 设 X X Xn , , , 1 2  为总体 X 的样本,则下列各量均是统计量,它们今后要 经常被用到。 (ⅰ) = = n i Xi n X 1 1 , X 称为样本均值(Sample Average)。 (ii) = = − n i Xi X n S 1 2 2 ( ) 1 , 2 S 称为样本方差(Sample Variance)。 (iii) 2 S = S , S 称为样本标准差(Sample standard variance )。 (iv) = = n i k k Xi n A 1 1 , Ak 称为样本 k 阶原点矩(Sample k order origin moment)。 (v) = = − n i k k Xi X n B 1 ( ) 1 , Bk 称为样本 k 阶中心矩(Sample k order central moment)。 Example 5.6 设 ( , ),( , ) ,( , ) X1 Y1 X2 Y2  Xn Yn 为二维总体 (X,Y) 的样本,则下列各量为 统计量:

(1)S2=1(x-xXx-F)S1称为样本协方差6 mple covariance) (ii)p p称为样本相关系数( Sample correlation coefficient),其中 (X1-X)2,S类似 Example57设H12x2,…,Xn是出自总体N(,a2)的样本,其中(a2)为未知参数 则X1是统计量,但诸如∑(X1-),等均不是统计量,因它含有未知参数或a Example5.8将X12X2,…,Xn中观察值按式(5.5)排列,则{X(),X(2p…,X(n}为 组统计量,它们称为一组顺序统计量 Order Statistic),X(k称为第k个顺序统计量(N k Order statistie),其中特别地称 X()=mnX;为最小顺序统计量 t(Minimum order Statistic) X(m)=mxX1为最大顺序统计量( Maximum order statistie Xn1,n为奇数 为样本中位数( Sample median)。 2{x2+xan为偶数 为了研究统计量的分布,我们先研究三种重要概率分布。 分布(x2 distribution) Definition5.1设x1,X2,…,Xn为相互独立的随机变量,它们都服从标准正态N(0,1) 分布,则称随机变量 ∑x2 服从自由度为n的x2分布(x2 distribution),记作Y~x2(mn) 下面的定理称为x2分布的可加性定理 Theorem5.1设Y,Y2,…k是k个相互独立的随机变量,y,x(n1),j=12…k 则 Proof:不妨设k=2,其余情况易由归纳法推得。考虑一组独立同分布于N(0,1)的随机 变量x,x2…x,x1…xn1,则x与∑x同分布,与∑x2,同分布,而x与 独立,∑X2与∑X2+独立,故它们各自的和相应同分布,即Y=H+Y2与 X2同分布,而后者服从x2(n1+n2)证毕 x2分布有下列基本性质

59 (ⅰ) = = − − n i Xi X Yi Y S n S 1 12 12 ( )( ), 1 称为样本协方差(Sample covariance)。 ( ⅱ ) ˆ , ˆ 12 S X SY S = 称 为 样本相关系数 (Sample correlation coefficient) ,其中 = = − n i X Xi X n S 1 2 2 ( ) 1 , Y S 类似。 Example 5.7 设 X X Xn , , , 1 2  是出自总体 ( , ) 2 N   的样本,其中 ( , ) 2   为未知参数, 则 X1 是统计量,但诸如 = − n i i X X n 1 2 1 ( ) , 1   等均不是统计量,因它含有未知参数  或  . Example 5.8 将 X X Xn , , , 1 2  中观察值按式(5.5)排列,则 { , , , } X(1) X (2)  X(n) 为一 组统计量,它们称为一组顺序统计量(Order Statistic), X (k ) 称为第 k 个顺序统计量( No. k Order Statistic),其中特别地称 i i n X X   = 1 (1) min 为最小顺序统计量(Minimum order Statistic); i i n X n X   = 1 ( ) max 为最大顺序统计量(Maximum order Statistic);      + = + + { }, 2 1 , 1) 2 ) ( 2 ( ) 2 1 ( * 为偶数 为奇数 X X n X n M n n n 为样本中位数(Sample median)。 为了研究统计量的分布,我们先研究三种重要概率分布。 二、 2  分布( 2  distribution) Definition 5.1 设 X X Xn , , , 1 2  为相互独立的随机变量,它们都服从标准正态 N(0,1) 分布,则称随机变量 = = n i Y Xi 1 2 服从自由度为 n 的 2  分布( 2  distribution),记作 Y ~ ( ) 2  n . 下面的定理称为 2  分布的可加性定理 Theorem 5.1 设 Y Y Yk , , 1 2 是 k 个相互独立的随机变量, ~ ( ) 2 Yj  nj , j = 1,2k , 则   = = = k j k j Y Yj nj 1 1 2 ~  ( ) Proof: 不妨设 k = 2,其余情况易由归纳法推得。考虑一组独立同分布于 N(0,1) 的随机 变量 1 1 1 2 , , , , X1 X2 Xn Xn +1 Xn +n ,则 Y1 与 = 1 1 2 n j X j 同分布, Y2 与 = + 2 1 1 2 n j X n j 同分布,而 Y1 与 Y2 独立, = 1 1 2 n j X j 与 = + 2 1 1 2 n j X n j 独 立 , 故 它 们 各 自 的 和 相 应 同 分 布 , 即 Y = Y1 +Y2 与    + = = + = + = 2 1 2 1 1 1 2 1 2 1 2 n n j j n j n j n j X j X X 同分布,而后者服从 ( ) 1 2 2  n + n .证毕。 2  分布有下列基本性质

Theorem5.2设X~x2(n),则 (i) E(X=n, D(X) (i)X的密度函数为 x-e“.x> P(x) 22I(号) 0.x≤0 其中r(a)称为伽马函数,定义为r(a)=「x“e-d,a>0 Pro(i)设X1,X2…X为独立同分布于N(01)的随机变量,则X与∑X2同 分布,且 E(X)=E(∑X2)=∑E(X2)=∑D(X,)=n 又由X独立并注意到N(O,1)的四阶矩为3,可得 D(X)=∑D(X2)=∑[E(x4)-(E(X2)]=∑(3-1)=2n (ⅱl)证明略 图5-3描绘了x2(m)分布密度函数在n=14,10,20时的图形。可以看出,随着n的增大, p(x)的图形趋于“平缓”,其图形下面积的重心亦逐步往右下移动。 另外,费歇(RA. Fisher)曾证明,当n较大时,√2x(n)近似服从N(√2n-1.1) N=4 10 0.05 图5-3 三、1分布和F分布( t distribution and F distribution) Definition5.2设X~N(O1),Y~x2(n),X与Y独立,则称随机变量 T √/n 服从自由度为n的t分布( t distribution),又称学生氏( Student)分布,记成T~1(m) 利用独立随机变量商的密度公式,不难由已知的N(0,1),x2(m)的密度公式得到(m)的 密度:

60 Theorem 5.2 设 ~ ( ) 2 X  n ,则 (i) E(X ) = n , D(X ) = 2n (ⅱ) X 的密度函数为         = − − 0, 0 , 0 2 ( ) 1 ( ) 2 1 2 2 2 x x e x p x n x n n (5.6) 其中 () 称为伽马函数,定义为 ( ) , 0. 0 1  =    − −    x e dx x Proof: (i)设 X X Xn , , , 1 2  为独立同分布于 N(0,1) 的随机变量,则 X 与 = n j X j 1 2 同 分布,且    = = = = = = = n i n i i i n i E X E Xi E X D X n 1 1 2 1 2 ( ) ( ) ( ) ( ) 又由 Xi 独立并注意到 N(0,1) 的四阶矩为3,可得    = = = = = − = − = n i n i n i D X D Xi E Xi E Xi n 1 1 1 2 4 2 2 ( ) ( ) [ ( ) ( ( )) ] (3 1) 2 (ⅱ)证明略。 图 5-3 描绘了 ( ) 2  n 分布密度函数在 n = 1,4,10,20 时的图形。可以看出,随着 n 的增大, p(x) 的图形趋于“平缓”,其图形下面积的重心亦逐步往右下移动。 另外,费歇(R.A.Fisher)曾证明,当 n 较大时, 2 ( ) 2  n 近似服从 N( 2n −1,1) . 图5-3 三、 t 分布和 F 分布( t distribution and F distribution) Definition 5.2 设 X ~ N(0,1) , ~ ( ) 2 Y  n , X 与 Y 独立,则称随机变量 Y n X T = 服从自由度为 n 的 t 分布( t distribution),又称学生氏 (Student) 分布,记成 T ~ t(n) . 利用独立随机变量商的密度公式,不难由已知的 N(0,1) , ( ) 2  n 的密度公式得到 t(n) 的 密度:

p(r) (1 -030,就可认为它基本与N(0,1)相差无几了。 Definition5.3设X~x2(n1),Y~x2(n2),X与Y独立,则称随机变量 服从自由度为(n,n2)的F分布( F distribution),记成F~F(n1,n2) 类似可得,F(m1,n2)的密度函数为 n1+n2 n12n22 (n1x+n2) 0.x≤0 图5-5描绘了几种F分布的密度曲线 由F分布的定义容易看出,若F~F(m1,n2),则lF~F(n2,n1) F(10,50) F(10,4) 图5-5 四、分位数 61

61 + −   +  +  = + − x n x n n n p x n (1 ) , ) 2 ( ) 2 1 ( ( ) 2 2 1  显然它是 x 的偶函数,图 5-4 描绘了 n = 2,5 时 t(n) 的概率密度曲线,作为比较,还描绘 了 N(0,1) 的密度曲线。 图 5-4 利用伽马函数的斯特林 (Stirling ) 公式可以证明 → →  − p x e n x , 2 1 ( ) 2 2  从图形我们也可看出,随着 n 的增大, t(n) 的密度曲线与 N(0,1) 的密度曲线越来越接近,一般 若 n  30,就可认为它基本与 N(0,1) 相差无几了。 Definition 5.3 设 ~ ( ) 1 2 X  n , ~ ( ) 2 2 Y  n , X 与 Y 独立,则称随机变量 2 1 Y n X n F = 服从自由度为( 1 n , 2 n )的 F 分布( F distribution),记成 ~ ( , ) F F n1 n2 . 类似可得, ( , ) F n1 n2 的密度函数为            + +  = + − 0, 0 , 0 ( ) ) 2 ) ( 2 ( ) 2 ( ( ) 2 1 2 1 2 2 2 2 1 1 2 1 2 1 2 1 1 2 x x n x n x n n n n n n p x n n n n n 图 5-5 描绘了几种 F 分布的密度曲线。 由 F 分布的定义容易看出,若 ~ ( , ) F F n1 n2 ,则 1 ~ ( , ) F F n2 n1 . 图 5-5 四、 分位数

设X为一随机变量,F为其分布函数,我们知道对于给定的实数x F(x)=P{Xt,(n)=l-PITst,n)=l-a 即-ta(m)=t12(m) c)对于F~F(n1,n2),l/F~F(m2n)

62 设 X 为一随机变量, F 为其分布函数,我们知道对于给定的实数 x , F(x) = P{X  x} .给出了事件 {X  x} 的概率。在统计中,我们常常需要考虑上述问题的 逆问题:就是若已给定分布函数 F(x) 的值,亦即已给定事件 {X  x} 的概率,要确定 x 取什 么值。易知,对通常连续型随机变量,实际上就是求 F 的反函数,准确地说,有如下定义: Definition 5.4 设 X 的分布函数为 F ,  x 满足 F(x ) = P{X  x} =,0  1 则称  x 为 F 的  分位数(点)。 若 X 有密度 p(x) ,则分位数  x 表示  x 以左的一块阴影面积(如图 5-6)为  . 图 5-6 几种常用分布 ( (0,1), ( ), ( ), ( , )) 1 2 2 N  n t n F n n 的分位点都在书后附表中可以查到。其中 N(0,1) 是分布函数表 (x) 反过来查,而其它几个分布,则是分别对给出的几个  的常用值, 如  =0,0.25,0.05,0.1,0.9,0.95,0.975 等等,列出相应分布对应  值的分位点。图 5-7 给出 了四种常用分布的分位点表示方法,其中 N(0,1) 的  分位点通常记成  u . 图 5-7 这里要注意到如下几个有用的事实。 a) 若 ~ ( , ) 2 X N   ,要求 X 的分位数  x 可化成求 N(0,1) 的分位数: { } { }        −  − =  = X x P X x P 此时 ~ N(0,1) X  −  ,故     u x = − ,即 x = u +  . b) 对于 T ~ t(n) ,由密度函数的对称性可知 P{T  −t (n)} = P{T  t (n)} =1− P{T  t (n)} =1− 即 ( ) ( ) − t n = t 1− n . c) 对于 ~ ( , ) F F n1 n2 ,1 ~ ( , ) F F n2 n1 .

点击下载完整版文档(DOC)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共13页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有