第六章样本及抽样分布 【授课对象】理工类本科二年级 【授课时数】4学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解总体、个体和样本的概念 2、了解经验分布函数和直方图的作法,知道格林汶科定理; 理解样本均值、样本方差和样本矩的概念并会计算 4、理解统计量的概念,掌握几种常用统计量的分布及其结论: 、理解分位数的概念,会计算几种重要分布的分位数 本章重点】样本均值、样本方差和样本矩的计算;抽样分布——x2分布,t分布, F分布;分位数的理解和计算。 本章难点】对样本、统计量及分位数概念的理解:样本矩的计算。 【授课内容及学时分配】 §6.0前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性 的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计 规律性:而我们下面将要研究的数理统计,也是硏究大量随机现象的统计规律性,并且是应 用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现 象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整 体)。对硏究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提 供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点 研究参数估计和假设检验 §6.1隨机禅本 总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个
1 第六章 样本及抽样分布 【授课对象】理工类本科二年级 【授课时数】4 学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解总体、个体和样本的概念; 2、了解经验分布函数和直方图的作法,知道格林汶科定理; 3、理解样本均值、样本方差和样本矩的概念并会计算; 4、理解统计量的概念,掌握几种常用统计量的分布及其结论; 5、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布—— 2 分布, t 分布, F 分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【授课内容及学时分配】 §6.0 前 言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性 的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计 规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应 用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现 象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整 体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提 供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点 研究参数估计和假设检验。 §6.1 随机样本 一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个
元素称为个体 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡 就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总 体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项 或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。在上述例子中X是表示 灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X的这样或 那样的数值,因而这个数量指标ⅹ是一个随机变量(或向量),而X的分布就完全描写了总 体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们 以后就把总体和数量指标X可能取值的全体组成的集合等同起来 定义1:把研究对象的全体(通常为数量指标X可能取值的全体组成的集合)称为总体 总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X的分布的研究,所谓总体的分布也就是数 量指标X的分布,因此,X的分布函数和数字特征分别称为总体的分布函数和数字特征。今 后将不区分总体与相应的随机变量,笼统称为总体X。根据总体中所包括个体的总数,将总 体分为:有限总体和无限总体 例1:考察一块试验田中小麦穗的重量: X=所有小麦穗重量的全体(无限总体);个体—一每个麦穗重x 对应的分布: F(x)=PEx=重量x的麦穗数=1 e2d~N(u,a2)0<x<+0 总麦穗数 例2:考察一位射手的射击情况 X=此射手反复地无限次射下去所有射击结果全体 每次射击结果都是一个个体(对应于靶上的一点) 射中 个体数量化x= 0未中 1在总体中的比例p为命中率 0在总体中的比例1-p为非命中率 总体X由无数个0,1构成,其分布为两点分布B(1,p)P{X=1}=p,P{X=0}=1-p 2样本与样本空间 为了对总体的分布进行各种研究,就必需对总体进行抽样观察
2 元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡 就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总 体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项 或几项数量指标 X (可以是向量)和该数量指标 X 在总体的分布情况。在上述例子中 X 是表示 灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了 X 的这样或 那样的数值,因而这个数量指标 X 是一个随机变量(或向量),而 X 的分布就完全描写了总 体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们 以后就把总体和数量指标 X 可能取值的全体组成的集合等同起来。 定义 1:把研究对象的全体(通常为数量指标 X 可能取值的全体组成的集合)称为总体; 总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量 X 的分布的研究,所谓总体的分布也就是数 量指标 X 的分布,因此, X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今 后将不区分总体与相应的随机变量,笼统称为总体 X 。根据总体中所包括个体的总数,将总 体分为:有限总体和无限总体。 例 1:考察一块试验田中小麦穗的重量: X =所有小麦穗重量的全体(无限总体);个体——每个麦穗重 x 对应的分布: + = = = − − − e dt N x 重量 x F x P x x t ~ ( , ) 0 2 1 ( ) { } 2 2 ( ) 2 2 总麦穗数 的麦穗数 例 2:考察一位射手的射击情况: X =此射手反复地无限次射下去所有射击结果全体; 每次射击结果都是一个个体(对应于靶上的一点) 个体数量化 = 未中 射中 0 1 x 1 在总体中的比例 p 为命中率 0 在总体中的比例 1− p 为非命中率 总体 X 由无数个 0,1 构成,其分布为两点分布 B(1, p) P{X = 1} = p, P{X = 0} = 1− p 2.样本与样本空间 为了对总体的分布进行各种研究,就必需对总体进行抽样观察
抽样一一从总体中按照一定的规则抽出一部分个体的行动。 一般地,我们都是从总体中抽取一部分个体进行观察,然后根据观察所得数据来推断总 体的性质。按照一定规则从总体X中抽取的一组个体(X1,X2,…,Xn)称为总体的一个样本, 显然,样本为一随机向量。 为了能更多更好的得到总体的信息,需要进行多次重复、独立的抽样观察(一般进行n 次),若对抽样要求①代表性:每个个体被抽到的机会一样,保证了X1,X2,…Xn的分布相同, 与总体一样。②独立性:X1,X2,…X相互独立。那么,符合“代表性”和“独立性”要求 的样本(X1,X2…,Xn)称为简单随机样本。易知,对有限总体而言,有放回的随机样本为简 单随机样本,无放回的抽样不能保证X1,X2,…,Xn的独立性;但对无限总体而言,无放回随 机抽样也得到简单随机样本,我们本书则主要研究简单随机样本。 对每一次观察都得到一组数据(x,x2…,xn),由于抽样是随机的,所以观察值 (x1,x2,…xn)也是随机的。为此,给出如下定义 定义2:设总体X的分布函数为F(x),若X1,X2,…X,是具有同一分布函数F(x)的相互独立 的随机变量,则称(x12x2,…,Xn)为从总体x中得到的容量为n的简单随机样本,简称样 本。把它们的观察值(x,x2,…xn)称为样本值 定义3:把样本(X13X2,…,Xn)的所有可能取值构成的集合称为样本空间,显然一个样本值 (x1x2…,xn)是样本空间的一个点。 、样本的分布: 设总体X的分布函数为F(x),(X1X2,…Xn)是X的一个样本,则其联合分布函数为: =∏F(x) 例3:设总体X~B(,p),(X1,2…X)为其一个简单随机样本,则样本空间 g2=x1,x2…xnx=0;=12,,m},因为PX=x}=p(1-p)2,x=0, 所以样本的联合分布列为: P{X1=x,X2=x2…Xn=xn}=P{X1=x}P{X2=x2}…P{Xn=xn} p2(1-p)p2(1-p) §6.2分布郾数与概率軎度函数的近似解
3 抽样——从总体中按照一定的规则抽出一部分个体的行动。 一般地,我们都是从总体中抽取一部分个体进行观察,然后根据观察所得数据来推断总 体的性质。按照一定规则从总体 X 中抽取的一组个体 ( , , , ) X1 X2 Xn 称为总体的一个样本, 显然,样本为一随机向量。 为了能更多更好的得到总体的信息,需要进行多次重复、独立的抽样观察(一般进行 n 次),若对抽样要求①代表性:每个个体被抽到的机会一样,保证了 X X Xn , , , 1 2 的分布相同, 与总体一样。②独立性: X X Xn , , , 1 2 相互独立。那么,符合“代表性”和“独立性”要求 的样本 ( , , , ) X1 X2 Xn 称为简单随机样本。易知,对有限总体而言,有放回的随机样本为简 单随机样本,无放回的抽样不能保证 X X Xn , , , 1 2 的独立性;但对无限总体而言,无放回随 机抽样也得到简单随机样本,我们本书则主要研究简单随机样本。 对每一次观察都得到一组数据( n x , x , , x 1 2 ),由于抽样是随机的,所以观察值 ( n x , x , , x 1 2 )也是随机的。为此,给出如下定义: 定义 2:设总体 X 的分布函数为 F(x) ,若 X X Xn , , , 1 2 是具有同一分布函数 F(x) 的相互独立 的随机变量,则称( X X Xn , , , 1 2 )为从总体 X 中得到的容量为 n 的简单随机样本,简称样 本。把它们的观察值( n x , x , , x 1 2 )称为样本值。 定义 3:把样本( X X Xn , , , 1 2 )的所有可能取值构成的集合称为样本空间,显然一个样本值 ( n x , x , , x 1 2 )是样本空间的一个点。 二、样本的分布: 设总体 X 的分布函数为 F(x) ,( X X Xn , , , 1 2 )是 X 的一个样本,则其联合分布函数为: F ( x ,x , ,x ) n * 1 2 == n i 1 ( )i F x 。 例 3:设总体 ~ (1, ) , ( , , ) X B p X1 X2 Xn 为其一个简单随机样本,则样本空间 {( x ,x , ,x ) x , ; i , , ,n} = 1 2 n i = 01 =12 ,因为 1 { } (1 ) x x P X x p p − = = − , x = 0,1 所以样本的联合分布列为: 1 1 2 2 1 1 2 2 { , , , } { } { } { } P X x X x X x P X x P X x P X x = = = = = = = n n n n p p p p p p xi i n x x x x x x n n (1 ) . (1 ) (1 ) 0,1 1,2, , 1 1 1 = 1 − − 1 2 − − 2 − − = = §6.2 分布函数与概率密度函数的近似解
在概率论中,我们介绍了几种常用的分布函数以及它们的性质,当时我们总假定它们都 是先给定的,而在实际中,所遇到的用于描述随机现象的随机变量,事先并不知道其分布函 数,甚至连其分布类型也一无所知,那么,怎么样才能确定它的分布函数F(x)呢? 般地,利用样本及样本值,建立一定的概率模型,用由此获得的概率统计信息来对总 体X的F(x)进行估计和推断,这就是: 经验分布函数 1.定义:设(X12x2,…,Xn)是来自总体X的样本,用S(x)表示:∈R,X1,X2,…,Xn 中不大于x的随机变量的个数,定义经验分布函数为 Fn(x)=-S(x)x∈R 设(x1x2,…xn)是样本的一个观察值,令这n个数值由小到大的顺序排列后为:x≤x2≤ 对yx∈R 由定义很容易得到经验分布函数的观察值 F(x)= 0kn1 xk≤x<xk+1k=1,2,…,n-1 x≥xn 通常也称F(x)是总体X的经验分布函数,在不至于混淆的情况下统一用F(x)来表示总体 X的经验分布函数 显然,F(x)是单调非降右连续的跳跃函数(阶梯函数),在点x=x处有间断,在每个 间断点的跃度为-,(k=1,2,3,…,n)且0≤Fn(x)≤1,lmFn(x)=0,lmnF(x)=1,它 满足分布函数的三个性质,所以必是一个分布函数。 一般地,随着n的增大,F(x)越来越接近X的分布函数F(x),关于这一点,格列汶科 ( Glivenko)在1953年给了理论上的论证,即: 2定理1( Glivenko-Th):若总体X的分布函数为F(x),经验分布函数为Fn(x),则对 x∈R,有:P{m(sp1E(x)-F(x)=0}=1[Fx)-→F(x) -acrc+oo 定理表明,Fn(x)以概率1一致收敛于F(x),即:可以用F(x)来近似F(x),这也是利 用样本来估计和判断总体的基本理论和依据 例壬:某厂从一批荧光灯中抽出10个,测其寿命的数据(单位千时)如下 95.5,18.1 1,26.5,31.7,33.8,8.7,150,48.8,48.3
4 在概率论中,我们介绍了几种常用的分布函数以及它们的性质,当时我们总假定它们都 是先给定的,而在实际中,所遇到的用于描述随机现象的随机变量,事先并不知道其分布函 数,甚至连其分布类型也一无所知,那么,怎么样才能确定它的分布函数 F(x) 呢? 一般地,利用样本及样本值,建立一定的概率模型,用由此获得的概率统计信息来对总 体 X 的 F(x) 进行估计和推断,这就是: 一、经验分布函数 1.定义:设( X X Xn , , , 1 2 )是来自总体 X 的样本,用 S x( ) 表示: x R, 1 2 , , , X X X n 中不大于 x 的随机变量的个数,定义经验分布函数为 1 ( ) ( ) F x S x x R n n = 。 设( n x , x , , x 1 2 )是样本的一个观察值,令这 n 个数值由小到大的顺序排列后为: * 1 x ≤ * 2 x ≤ * 3 x ≤……≤ * n x ,对 x ∈R 由定义很容易得到经验分布函数的观察值: * ( ) F x n = 1 0 n k * n * k * k * x x x x x x x +1 1 k = 1,2, , n −1 通常也称 * ( ) F x n 是总体 X 的经验分布函数,在不至于混淆的情况下统一用 F (x) n 来表示总体 X 的经验分布函数。 显然, F (x) n 是单调非降右连续的跳跃函数(阶梯函数),在点 * k x = x 处有间断,在每个 间断点的跃度为 n 1 ,( k =1,2,3,…, n )且 0 Fn (x) 1, lim F (x) n x→− =0, lim F (x) n x→+ =1,它 满足分布函数的三个性质,所以必是一个分布函数。 一般地,随着 n 的增大, F (x) n 越来越接近 X 的分布函数 F(x) ,关于这一点,格列汶科 (Glivenko)在 1953 年给了理论上的论证,即: 2.定理 1(Glivenko-Th):若总体 X 的分布函数为 F(x) ,经验分布函数为 F (x) n ,则对 x R ,有: P F x F x lim( sup | ( ) ( ) |) 0 1 n→ − + x n − = = [ . ( ) ( ) a e F x F x n ⎯⎯⎯→ 一致 ] 定理表明, F (x) n 以概率 1 一致收敛于 F(x) ,即:可以用 F (x) n 来近似 F(x) ,这也是利 用样本来估计和判断总体的基本理论和依据。 例 4:某厂从一批荧光灯中抽出 10 个,测其寿命的数据(单位千时)如下: 95.5, 18.1, 13.1, 26.5, 31.7, 33.8, 8.7, 15.0, 48.8, 48.3
求该批荧光灯寿命的经验分布函数F(x)(观察值) 解:将数据由小到大排列得 8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5 则经验分布函数为: 8.7 8.7≤x<13. 13.1≤x<15.0 0.3 15.0≤x<18.1 0.4 l8.1≤x<26.5 Fn(x)={0.5 0.6 31.7≤x<33.8 0.7 33.8≤x<488 0.8 48.8≤x<49.3 49.3≤x<955 ≥95.5 利用直方图求密度函数的近似解: 设(X1,X,…,X)为来自总体X的一个样本,其样本观察值为(x,x,…,x),将该组 数值x1,x2…xn分成l组,可作分点:aa1,a2…,a1(各组距可以不相等),则各组为 (a0,a1],(a1,a2],……,(a,a],若样本观察值中每个数值落在各组中的频数分别为m1 m2,m2,…m,则频率分别为:","……:以各组为底边,以相应组的频率除 以组距为高,建立l个小矩形,即得总体X的直方图。 由上分析可知:直方图中每一矩形的面积等于相应组的频率 设总体X的密度函数为f(x),则:总体X(真实值)落在第k组(a4-1,a4]的概率为: (x)dx 由 Bernoulli大数定理可知:当n很大时,样本观察值(单个)落在该区间的频率趋近 于此概率;即:(a-1,a]上矩形的面积接近于f(x)在此区间上曲边梯形的面积,当n无 限增大时,分组组距越来越小,直方图就越接近总体X的密度函数f(x)的图象。(这与定积 分的意义具有同样的道理)。 §6.3样本的数字镎征 由第三章节知:随机变量的数字特征,能够反映随机事件的某些重要的概率特征,从第
5 求该批荧光灯寿命的经验分布函数 F (x) n (观察值)。 解:将数据由小到大排列得: 8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5, 则经验分布函数为: = 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 F (x) n 95.5 49.3 95.5 48.8 49.3 33.8 48.8 31.7 33.8 26.5 31.7 18.1 26.5 15.0 18.1 13.1 15.0 8.7 13.1 8.7 x x x x x x x x x x x 二、利用直方图求密度函数的近似解: 设( X X Xn , , , 1 2 )为来自总体 X 的一个样本,其样本观察值为( n x , x , , x 1 2 ),将该组 数值 n x , x , , x 1 2 分成 l 组,可作分点: a a a al , , , , 0 1 2 (各组距可以不相等),则各组为: ( 0 a , 1 a ],( 1 a , a2 ] ,……,( al−1, l a ] ,若样本观察值中每个数值落在各组中的频数分别为 m1, m2, m3 ,…, ml ,则频率分别为: n m1 , n m2 …… n ml ;以各组为底边,以相应组的频率除 以组距为高,建立 l 个小矩形,即得总体 X 的直方图。 由上分析可知:直方图中每一矩形的面积等于相应组的频率 设总体 X 的密度函数为 f (x) ,则:总体 X (真实值)落在第 k 组( ak−1, k a ] 的概率为: − k k a a f x dx 1 ( ) 。 由 Bernoulli 大数定理可知:当 n 很大时,样本观察值(单个)落在该区间的频率趋近 于此概率;即:( ak−1 , k a ] 上矩形的面积接近于 f (x) 在此区间上曲边梯形的面积,当 n 无 限增大时,分组组距越来越小,直方图就越接近总体 X 的密度函数 f (x) 的图象。(这与定积 分的意义具有同样的道理)。 §6.3 样本的数字特征 由第三章节知:随机变量的数字特征,能够反映随机事件的某些重要的概率特征,从第
节可知,样本也是一组随机变量(随机向量),为了详细刻划样本观察值中所包含总体X的 信息及样本值的分布情况,下面我们研究样本的数字特征。 一、样本均值与样本方差(随机变量) 定义1,设(X,X2…,x)是来自总体x的一个样本,称X=∑X为样本均值。 nx-Xm1(X-2x,+x)=n1x-2x2+n2 ∑X2-nX2为样本方差 S=√s2 1n-1(x-X)为样本标准差 样本均值与样本方差分别刻划了样本的位置特征及样本的分散性特征。 矩 1.总体矩(数值) 设总体X的分布函数为F(x),则称m=E(X)(假设它存在)为总体X的k阶原点矩; 称μ=E(X-E(X)7为总体X的k阶中心矩 把总体的各阶中心矩和原点矩统称为总体矩一一表示总体X的数字特征。 特别地:m1=E(X);H2=D(x)是总体X的期望和方差 仿此,下面给出样本矩的定义: 2.样本矩(r.ⅴ) 定义2:设(x1,X2,…,Xn)是来自总体X的一个样本,则称 A.= X,,k=1,2,3 为样本的k阶原点矩(随机变量) BK (X1-X),k=1,2,3……为样本值的k阶中心矩(随机变量)。 特别地,A1=X,但B:与S2却不同,由S2与B1的计算式可知:B2=-1s2 当n→>∞时,B2=S2,所以常利用B2来计算S(标准差)。 【注】:A4-→m(m→∞)k=1,2,…,这就是下一章要介绍的矩估计的理论 根据
6 一节可知,样本也是一组随机变量(随机向量),为了详细刻划样本观察值中所包含总体 X 的 信息及样本值的分布情况,下面我们研究样本的数字特征。 一、样本均值与样本方差(随机变量) 定义 1,设( X X Xn , , , 1 2 )是来自总体 X 的一个样本,称 = = n i Xi n X 1 1 为样本均值。 ( X nX nX ) n ( X XX X ) n ( X X ) [ n S n i n i i n i i i i 2 1 1 2 2 1 2 2 2 2 2 1 1 2 1 1 1 1 = = = − + − − + = − − = − = ( X nX )] n n i i 2 1 2 1 1 − − = = 为样本方差。 = − − = = n i Xi X n S S 1 2 2 ( ) 1 1 为样本标准差。 样本均值与样本方差分别刻划了样本的位置特征及样本的分散性特征。 二、矩 1.总体矩(数值) 设总体 X 的分布函数为 F(x) ,则称 m E( X ) k k = (假设它存在)为总体 X 的 k 阶原点矩; 称 E[( X E( X )) ] k k = − 为总体 X 的 k 阶中心矩。 把总体的各阶中心矩和原点矩统称为总体矩——表示总体 X 的数字特征。 特别地: m1 = E(X ) ; ( ) 2 = D x 是总体 X 的期望和方差。 仿此,下面给出样本矩的定义: 2.样本矩(r.v) 定义 2:设 ( X ,X , ,X ) 1 2 n 是来自总体 X 的一个样本,则称 = = n i k k Xi n A 1 1 ,k =1,2,3……;为样本的 k 阶原点矩(随机变量) = = − n i k k Xi X n B 1 ( ) 1 ,k =1,2,3……;为样本值的 k 阶中心矩(随机变量)。 特别地, A1 = X ,但 B2 与 2 S 却不同,由 2 S 与 B2 的计算式可知: 2 2 1 S n n B − = , 当 n → 时, B2 = 2 S ,所以常利用 B2 来计算 S(标准差)。 【注】: ( ) 1, 2, p A m n k k k ⎯⎯→ → = ,这就是下一章要介绍的矩估计的理论 根据
由上述定义可知:样本均值、样本方差、样本均方差、样本矩都是关于样本的函数,而 样本本身又是随机变量。因此,上述关于样本的数字特征也是随机变量 设(x1,x2…,xn)为样本(X1,X2…,X)的观测值,则样本矩对应观测值分别为 x)2 n x b=∑(x,-x)2;k=1,2,3…… 在不至于混淆的情况下,这些值也分别称为样本均值、样本方差、样本标准差、样本k 阶原点矩、样本k阶中心矩。 例5:从某班级的英语期末考试成绩中,随机抽取10名同学的成绩分别为:100, 70,65,90,95,63,50,77,86 (1)试写出总体,样本,样本值,样本容量;(2)求样本均值,样本方差及二阶原点矩。 解:(1)总体:该班级所有同学的英语期末考试成绩X 样本:(X1,X2,X3,…,X10) 样本值:(x,x2…xn)=(100,85,70,65,90,95,63,50,7,86) 样本容量:n=10 (2)x= (100+85+……+86)=78.1 (x-x)2=1(2192+692+…179]=2525 a2=n10分=100+852+702+ +862)=63269 【注】本例作为学生使用计算器计算样本矩的练习。 课后作业:1、仔细阅读P12-132; 2、作业:P1463,4 3、预习:抽样分布
7 由上述定义可知:样本均值、样本方差、样本均方差、样本矩都是关于样本的函数,而 样本本身又是随机变量。因此,上述关于样本的数字特征也是随机变量。 设 ( x ,x , ,x ) 1 2 n 为样本 ( X ,X , ,X ) 1 2 n 的观测值,则样本矩对应观测值分别为: = = n i i x n x 1 1 ; 2 s = = − − n i i ( x x ) n 1 2 1 1 ; = − − = = n i i ( x x ) n s s 1 2 2 1 1 ; = = n i k k i x n a 1 1 ; = = − n i k k i x x n b 1 ( ) 1 ; k =1,2,3……; 在不至于混淆的情况下,这些值也分别称为样本均值、样本方差、样本标准差、样本 k 阶原点矩、样本 k 阶中心矩。 例 5:从某班级的英语期末考试成绩中,随机抽取 10 名同学的成绩分别为:100,85, 70,65,90,95,63,50,77,86 (1)试写出总体,样本,样本值,样本容量;(2)求样本均值,样本方差及二阶原点矩。 解:(1)总体:该班级所有同学的英语期末考试成绩 X ; 样本:( X1, X2 , X 3 ,…, X10 ) 样本值: ( x ,x , ,x ) 1 2 n =(100,85,70,65,90,95,63,50,77,86) 样本容量: n =10 (2) 10 1 1 1 10 10 i i x x = = = (100+85+……+86)=78.1 2 2 2 2 2 1 1 1 ( ) [21.9 6.9 7.9 ] 252.5 1 9 n i i s x x n = = − = + + + = − 10 2 2 2 2 2 2 2 1 1 1 1 1 (100 85 70 86 ) 6326.9 10 10 n i i i i a x x n = = = = = + + + + = 【注】本例作为学生使用计算器计算样本矩的练习。 课后作业:1、仔细阅读 P122-132; 2、作业:P146 3,4 3、预习:抽样分布
§6.4抽桦分布 0、引言 有了总体和样本的概念,能否直接利用样本来对总体进行推断呢?一般来说是不能的,需 要根据研究对象的不同,构造出样本的各种不同函数,然后利用这些函数对总体的性质进行 统计推断,为此,我们首先介绍数理统计的另一重要概念一一统计量 、统计量(随机变量) 定义1:设(X1,X2,…,Xn)是来自总体X的一个样本,g(X1,X2,…,Xn)是样本的函数, 若g中不含任何未知参数,则称g(X1,X2…X)是一个统计量。 设(x1,x2,…,x)是对应于样本(X1,X2,…,Xn)的样本值,则称g(x1,x2,…,x)是 g(X1,X2,…,Xn)的观察值。 事实上§6.3中的样本矩都是统计量;再如(X1,X2)是来自总体X~N(,a2)的一个样本, 则x1+X2-1,mm(X1,X2)都是统计量,而ax1就不是统计量 由§6.1知:(X1X2,…Xn)是随机变量,而统计量是样本(X1,X2,…,Xn)的函数, 所以统计量也是随机变量。 而统计量是我们对总体的分布函数或数字特征进行统计推断的最重要的基本概念,所以 寻求统计量的分布成为数理统计的基本问题之一。我们把统计量的分布称为抽样分布。然而 要求出一个统计量的精确分布是十分困难的。而在实际问题中,大多总体都服从正态分布: 而对于正态分布,我们可以求出一些重要统计量的精确分布,这就是: 二、几种常用的抽样分布:(正态分布中的几种统计量的分布) 把x2分布,t分布,F分布,统称为“统计三大分布 、正态分布 由正态分布的性质,可得如下结论: 1)定理:设X1,X2…,Xn相互独立,X~N(μ,2),i=1,2,…n,n是关于x的任一确 定的线性函数(n=∑aX),则n也服从正态分布,且n~N∑aH1,∑a) 2)结论:若(X1,X2…,Xn)是来自总体X~N(μG2)的一个样本,X为样本均值,则 ①X~N(,),由上述结论可知:X的期望与X的期望相同,而X的方差却比X的
8 §6.4 抽 样 分 布 0、引言 有了总体和样本的概念,能否直接利用样本来对总体进行推断呢?一般来说是不能的,需 要根据研究对象的不同,构造出样本的各种不同函数,然后利用这些函数对总体的性质进行 统计推断,为此,我们首先介绍数理统计的另一重要概念——统计量。 一、统计量(随机变量) 定义 1:设 1 2 ( , , , ) X X X n 是来自总体 X 的一个样本, 1 2 ( , , , ) n g X X X 是样本的函数, 若 g 中不含任何未知参数,则称 g ( X X Xn , , , 1 2 )是一个统计量。 设 1 2 ( , , , ) n x x x 是对应于样本 1 2 ( , , , ) X X X n 的样本值,则称 1 2 ( , , , ) n g x x x 是 1 2 ( , , , ) n g X X X 的观察值。 事实上§6.3 中的样本矩都是统计量;再如 ( , ) X1 X2 是来自总体 ~ (1, ) 2 X N 的一个样本, 则 1, min( , ) X1 + X2 − X1 X2 都是统计量,而 X1 就不是统计量。 由§6.1 知:( X X Xn , , , 1 2 )是随机变量,而统计量是样本( X X Xn , , , 1 2 )的函数, 所以统计量也是随机变量。 而统计量是我们对总体的分布函数或数字特征进行统计推断的最重要的基本概念,所以 寻求统计量的分布成为数理统计的基本问题之一。我们把统计量的分布称为抽样分布。然而 要求出一个统计量的精确分布是十分困难的。而在实际问题中,大多总体都服从正态分布: 而对于正态分布,我们可以求出一些重要统计量的精确分布,这就是: 二、几种常用的抽样分布:(正态分布中的几种统计量的分布) 把 2 分布, t 分布, F 分布,统称为“统计三大分布”。 1、正态分布 由正态分布的性质,可得如下结论: 1)定理:设 X X Xn , , , 1 2 相互独立, ~ ( , ) 2 Xi N i i ,i = 1,2, , n , 是关于 Xi 的任一确 定的线性函数( = = n i i Xi a 1 ),则 也服从正态分布,且 ~ = = n i n i N ai i ai i 1 1 2 2 ( , ) 。 2)结论:若( X X Xn , , , 1 2 )是来自总体 2 X N~ ( , ) 的一个样本, X 为样本均值,则 ① X ~ ( , ) 2 n N ,由上述结论可知: X 的期望与 X 的期望相同,而 X 的方差却比 X 的
方差小的多,即X的取值将更向μ集中。 ②X与S2相互独立 2、x2分布 1)定义:设(X1X2…,X)是来自总体X~N0.1)的一个样本,则称统计量 x2=∑X2所服从的分布是自由度为n的x2分布,记作:x2-x2(m) x(7)的概率密度函数为:x2(x,n)=12+ x>0 ≤0 其中:r()=x2e,()=√z 显然,x2(x,n)≥0,且x2(x,n)dx=1,即符合密度函数性质 事实上,x2=∑x2-r(n.) 2)x2分布的性质 x2分布的可加性 设x2~x2(n1),x2~x2(n2),且x2与x2相互独立,则: x2+x2~x2(n1+n2) II、若x2~x2(n),则E(x2)=n,D(x2)=2n 事实上,因为X1~N(0.1),则:E(x2)=D(x1)=1 D(X2)=E(X)-[E(X2)= ex-1=3-1=2,i=1,2, 所以:E(x2)=EC∑X)=∑E(X2)=n;D(x2)=D∑X)=∑D(X2)=2n 3)结论 设(X1,X2…,Xn)为来自总体X~N(,2)的一个样本,山,a2为已知常数,则:1)统 计量x2=∑(x1-)2~x2(n)(当=0时也成立) 事实上,令=x“,则X-NOD,所以x2=∑2-x2(n I)样本均值X与样本方差S2相互独立,且统计量
9 方差小的多,即 X 的取值将更向 集中。 ② X 与 2 S 相互独立。 2、 2 分布 1)定义:设( X X Xn , , , 1 2 )是来自总体 X ~ N( 0,1) 的一个样本,则称统计量: = = n i Xi 1 2 2 所服从的分布是自由度为 n 的 2 分布,记作: ~ ( n ) 2 2 。 ( ) 2 n 的概率密度函数为: = − − 0 2 ( ) 1 ( , ) 2 1 2 2 2 2 n x n x e x n n 0 0 x x , 其中: − − = 0 1 2 ) 2 ( x e dx n x n ,( ) = 2 1 显然, ( , ) 0 2 x n ,且 + − ( , ) =1 2 x n dx ,即符合密度函数性质。 事实上, = = n i i n X X 1 2 2 ) 2 1 , 2 ~ ( 2) 2 分布的性质 I、 2 分布的可加性: 设 ~ ( )1 2 2 1 n , ~ ( ) 2 2 2 2 n ,且 2 1 与 2 2 相互独立,则: 2 1 + ~ 2 2 ( ) 1 2 2 n + n II、若 ~ ( ) 2 2 n ,则 E( ) = n 2 , D( ) 2n 2 = , 事实上,因为 X ~ N(0,1) i ,则: ( ) ( ) 1 2 E Xi = D Xi = , 1 3 1 2 2 1 ( ) ( ) [ ( )] 2 2 2 4 2 2 4 − = − = = − = + − − D X E X E X x e dx x i i i ,i = 1,2, , n 所以: 222 1 1 ( ) ( ) ( ) n n i i i i E E X E X n = = = = = ; 222 1 1 ( ) ( ) ( ) 2 n n i i i i D D X D X n = = = = = 3)结论: 设( X X Xn , , , 1 2 )为来自总体 ~ ( , ) 2 X N 的一个样本, , 2 为已知常数,则:I)统 计量 = − = n i Xi n 1 2 2 2 2 ( ) ~ ( ) 1 (当 =0 时也成立) 事实上,令 − = i i X Y ,则 Y ~ N(0,1) i ,所以 = = n i Yi n 1 2 2 2 ~ ( ) II)样本均值 X 与样本方差 2 S 相互独立,且统计量
1∑(x,-x)2-x(m-1 证明请参阅有关数理统计的课本。 3、【-分布 1)定义:设X~N(0,1),Y~x2(n),且X与Y相互独立,则称统计量: T X 所服从的分布是自由度为n的t分布,记为T~l(n),t分布又称为学生氏( Student) 分布 1分布的概率密度函数为:(x,n)=T(型) (1+-) 01时,E(7)=0;n>2时,D(T) 3)结论: 1)设(X1,X2…Xn)是来自总体X~N(,a2)的一个样本,则统计量: T S 事实上,由X~N0/→x--NO,。~x2(n-1),且与S2相互独立 (n-1)S2 X-|、m与 (n-1) 则 S2相互独立,由t分布的定义,所以
10 = − − = − n i Xi X n n S 1 2 2 2 2 2 ( ) ~ ( 1) ( 1) 1 。 证明请参阅有关数理统计的课本。 3、 t -分布 1)定义:设 X ~ N(0,1) , ~ ( ) 2 Y n ,且 X 与 Y 相互独立,则称统计量: n Y X T = 所服从的分布是自由度为 n 的 t 分布,记为 T ~ t(n) ,t 分布又称为学生氏(Student) 分布。 t 分布的概率密度函数为: 2 1 (1 ) ( ) ( ) ( , ) 2 2 2 1 + − + + = n n x n t x n n n − x +。 2) t 分布的特点(性质)。 I、t(x;n) 关于 x =0 对称; II、t(x;n) 在 x =0 达最大值; III、t(x;n) 的 x 轴为水平渐近线; IV、 2 2 2 1 lim ( , ) x x t x n e − → = ;即 n → 时, t 分布 → N(0,1) ,一般地,当 n >30 时, t 分布与 N(0,1) 非常接近。 V、当 n 较小时, t 分布与 N(0,1) 有较大的差异,且对 t 0 R 有 P| T | t 0 P| X | t 0 ,其中 X ~ N(0,1) 。 即 t 分布的尾部比 N(0,1) 的尾部具有更大的概率。 VI、若 T ~ t(n) ,则 n 1 时, 2 ( ) 0; 2 , ( ) − = = n n E T n 时 D T 3)结论: I)设( X X Xn , , , 1 2 )是来自总体 ~ ( , ) 2 X N 的一个样本,则统计量: ~ ( 1) ( ) − − = n t n s X T , 事实上,由 ~ ( , ) ~ (0,1) 2 N X n X N n − ,又 ~ ( 1) ( 1) 2 2 2 − − n n S ,且 X 与 2 S 相互独立, 则 n X − 与 2 2 ( 1) S n − 相互独立,由 t 分布的定义,所以