第十六讲数理统计的基本概念和抽样分布 重点:总体,样本,统计量,三个重要抽样分布 难点:抽样分布 数理统计是运用概率论的知识,研究如何有效地对带有随机性影响的数据进行收集、整理、分 析和推断的学科,由于随机性现象广泛存在于工、农业生产、工程技术、自然科学和社会科学等领 域中,因此数理统计有着最广泛的应用 、总体和样本 数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。例 如研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体 在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种 具体的特征,而是其中某项或某几项数量指标,记为X。在上例中,即指该批灯泡的寿命。对不 同的个体,X的取值一般是不同的。例如在试验中观察若干个个体就会得到X的一种数值但在试验 或观察之前,无法确定会得到一组什么样的数值,所以ⅹ是一个随机变量或随机向量,而X的分 布也就完全描述了我们所关心的指标,即总体的分布。为方便起见,以后我们将X的可能取值的 全体组成的集合称为总体,或直接称X为总体,X的分布也就是总体的分布 总体分布一般是全部或部分未知的,为了研究总体X的分布规律,从总体中随机地抽出若干个 个体进行观察或实验,称为随机抽样观察,从总体中抽出的若干个个体称为样本,一般记为 (1,Y…)或Ⅺ…M,n称为样本容量。而一次具体的观察结果(x,x,…xn)是完全确定的一 组数值,称为样本观测值,它随着每次抽样观察而改变。因此,容量为n的样本(ⅪX,…H)是n 维随机向量,而具体的观测值(x1x,…xn)是随机变量(Ⅺ,X2;…V)的一个样本观测值 随机抽样的目的是为了对总体!的分布进行各种分析推断,所以要求抽取的样本能很好地反映 总体的特性,为此我们要求随机抽取的样本(X1X2,…,X)满足 (1)具有代表性。即样本的每个分量M与X有相同的分布; (2)具有独立性。即Ⅺ1,羟,…是相互独立的随机变量,也就是说,n次观察值之间是互相 独立的;
第十六讲 数理统计的基本概念和抽样分布 重点:总体,样本,统计量,三个重要抽样分布 难点:抽样分布. 数理统计是运用概率论的知识,研究如何有效地对带有随机性影响的数据进行收集、整理、分 析和推断的学科,由于随机性现象广泛存在于工、农业生产、工程技术、自然科学和社会科学等领 域中,因此数理统计有着最广泛的应用。 一、总体和样本 数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。例 如研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体。 在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种 具体的特征,而是其中某项或某几项数量指标,记为 X。在上例中,X 即指该批灯泡的寿命。对不 同的个体,X 的取值一般是不同的。例如在试验中观察若干个个体就会得到 X 的一种数值但在试验 或观察之前,无法确定会得到一组什么样的数值,所以 X 是一个随机变量或随机向量,而 X 的分 布也就完全描述了我们所关心的指标,即总体的分布。为方便起见,以后我们将 X 的可能取值的 全体组成的集合称为总体,或直接称 X 为总体,X 的分布也就是总体的分布。 总体分布一般是全部或部分未知的,为了研究总体 X 的分布规律,从总体中随机地抽出若干个 个体进行观察或实验,称为随机抽样观察,从总体中抽出的若干个个体称为样本,一般记为 (X1,X2,…,Xn)或 X1,X2,…,Xn,n 称为样本容量。而一次具体的观察结果(x1,x2,…,xn)是完全确定的一 组数值,称为样本观测值,它随着每次抽样观察而改变。因此,容量为 n 的样本(X1,X2,…,Xn)是 n 维随机向量,而具体的观测值(x1,x2,…,xn)是随机变量(X1,X2,…,Xn)的一个样本观测值。 随机抽样的目的是为了对总体 X 的分布进行各种分析推断,所以要求抽取的样本能很好地反映 总体的特性,为此我们要求随机抽取的样本(X1,X2,…,Xn)满足: (1)具有代表性。即样本的每个分量 Xi与 X 有相同的分布; (2)具有独立性。即 X1,X2,…,Xn 是相互独立的随机变量,也就是说,n 次观察值之间是互相 独立的;
满足上述两条的样本称为简单随机样本,今后如无特别说明,所说的样本均指简单随机样本 二、统计量和样本矩 样本是我们进行分析和推断的起点,但实际上我们往往并不直接利用样本进行推断,而需要对 样本进行一番“加工”和“提炼”,将分散于样本中的信息集中起来。为此我们引进统计量的概念。 设Ⅺ石,…‰为来自总体X的一个样本,g(xn,…xn)为一个n元连续函数,若g(X石,…,Xn) 中不含任何未知参数,则称g(Ⅺ1,羟…H)为一个统计量。显然统计量也是一个随机变量。以后, 针对不同的问题我们总是构造相应的统计量以实现对总体的统计推断。 例如,设总体X服从正态分布N(,a2)其中μ,a2未知。石,,…M是从正态总体X中 抽取的一个样本,则 x,∑x2均是样本的统计量,而∑x-m,∑x都不是统计量 下面介绍一类常用的统计量—一样本均值,样本方差,样本k阶原点矩,样本k阶中心矩 设(Ⅺ,2…n)为一个简单随机样本,则称 1, 为r阶样本原点矩,特别地,称A为样本均值,并记为X,即 称 B=∑(X1-X(=2,3,… 为r阶样本中心矩。其中的B称为2阶样本中心矩。但为了今后的需要,我们定义样本方差如下 ∑(X-X)2 三、抽样分布 统计量是我们对总体的分布规律或数字特征进行推断的基础。在使用统计量进行推断时必须要 知道它的分布。在数理统计中,统计量的分布称为抽样分布,因而确定统计量的分布是数理统计的
满足上述两条的样本称为简单随机样本,今后如无特别说明,所说的样本均指简单随机样本。 二、统计量和样本矩 样本是我们进行分析和推断的起点,但实际上我们往往并不直接利用样本进行推断,而需要对 样本进行一番“加工”和“提炼”,将分散于样本中的信息集中起来。为此我们引进统计量的概念。 设 X1,X2,…,Xnn为来自总体 X 的一个样本,g(x1,x2,…,xn)为一个 n 元连续函数,若 g(X1,X2,…,Xn) 中不含任何未知参数,则称 g(X1,X2,…,Xn)为一个统计量。显然统计量也是一个随机变量。以后, 针对不同的问题我们总是构造相应的统计量以实现对总体的统计推断。 例如,设总体 X 服从正态分布 N( , 2 )其中 , 2 未知。X1,X2,…,Xn 是从正态总体 X 中 抽取的一个样本,则 均是样本的统计量, = = n i i n i Xi X n 1 2 1 , 1 而 , 都不是统计量 = = − n i i n i i x x n 1 2 2 1 1 1 . 下面介绍一类常用的统计量——样本均值,样本方差,样本 k 阶原点矩,样本 k 阶中心矩 设(X1,X2,…,Xn)为一个简单随机样本,则称 1 , 1,2, 1 = = = X r n A n i r r i 为 r 阶样本原点矩,特别地,称 A1为样本均值,并记为 X ,即 = = n i Xi n X 1 1 称 ( ) ( 2,3, ) 1 1 = − = = X X r n B r n i r i 为 r 阶样本中心矩。其中的 B2称为 2 阶样本中心矩。但为了今后的需要,我们定义样本方差如下: 2 1 2 ( ) 1 1 X X n S n i i − − = = 三、抽样分布 统计量是我们对总体的分布规律或数字特征进行推断的基础。在使用统计量进行推断时必须要 知道它的分布。在数理统计中,统计量的分布称为抽样分布,因而确定统计量的分布是数理统计的
基本问题之一。下面我们介绍三类重要的分布。 1.x2分布 定义1设石五…相互独立且均服从标准正态分布,即X~N(01)=12.…,n,则随机变量 x2=x2+x2+…+X2=∑x2服从自由度为n的x2分布,记为x2~x2(n)。这里自由度n是 指独立变量的个数。利用求随机变量函数的分布的方法即可求得x2分布的密度函数为 0 f()=12r() n=4 20 图6-1x2-分布密度函数曲线 下图6-1给出n=1,4,10,20时的x2分布的密度函数的曲线。 例2设石X2;…Mn为来自正态总体N(H,O2)的一个样本,其中p为已知常数,则 x2(m)。 x2分布的性质 1)设X~x2(m,则E(X)=n,D(X)=2n 2)若ⅪX2,…X相互独立,分别服从x2(n)i=1 X 下面介绍分布的上侧α分位数的概念,在后面将会经常用到 定义2设随机变量X的密度函数为f(x),对给定的a(0<a<1),称满足条件
基本问题之一。下面我们介绍三类重要的分布。 1. 2分布 定义 1 设 X1,X2,…,Xn 相互独立且均服从标准正态分布,即 X ~ N(0,1),i 1,2, ,n, i = 则随机变量 = = + + + = n i X X Xn Xi 1 2 2 2 2 2 1 2 服从自由度为 n 的 2分布,记为 2 2(n)。这里自由度 n 是 指独立变量的个数。利用求随机变量函数的分布的方法即可求得 2分布的密度函数为 = − − 0 , 0 , 0 ) 2 2 ( 1 ( ) 2 1 2 2 y y e y n f y n y n , 下图 6-1 给出 n =1,4,10,20 时的 2分布的密度函数的曲线。 例 2 设 X1,X2,…,Xn 为来自正态总体 N(μ,σ2 )的一个样本,其中μ为已知常数,则 ~ ( ) ( ) 2 1 2 2 n X n k k = − 。 2分布的性质 1 X ~ (n) E(X) n,D(X) 2n 2 )设 ,则 = = . 2) 若 X1,X2,…,Xk 相互独立,分别服从 ( ), 1,2, , , 2 n i k i = 则 ~ ( ) 1 2 1 = = k i i k i Xi x n 下面介绍分布的上侧 分位数的概念,在后面将会经常用到。 定义 2 设随机变量 X 的密度函数为 f (x) ,对给定的 (0 1), 称满足条件 y 0 x n =1 n = 4 n =10 n = 20 图6-1 2 − 分布密度函数曲线
P{x≥xn}=fxtx 的实数x为X的上侧a分位数 例如,随机变量x2-x2(n),则称Pkx2sx2(n)}=a的点x2(m)为x(m)分布的上侧a分位数, 见图6-2。 D xa(n 图6-2x2分布的上侧a分位数 x2分布的上侧a分位数已制成表格。如a=0.01,n=10,则查表可得x20(n)=23.209,又如 a=0005n=6,则x20(6)=18548 若随机变量MXN(01),则它的上侧a分位数常用Z。来表示。由P{X>Za}=a可知, z05=1.645,205=1.96,见图6-3。通过查标准正态分布表即可得到 Z 图6-2标准正态分布的上侧a分位数 这是因为P{x≤Zn}=1-a,故P{Xs196}=0.975=1-0025。 2.t分布 定义3设XX~N(0,1,y~x2(m),且X与Y相互独立,则称随机变量
+ = x P X x f (x)dx 的实数 x 为 X 的上侧 分位数. 例如,随机变量 ~ ( ) 2 2 n ,则称 ( )= 2 2 P n 的点 ( ) 2 n 为 ( ) 2 n 分布的上侧 分位数, 见图 6-2。 图 6-2 2 x 分布的上侧 分位数 2 x 分布的上侧 分位数已制成表格。如 = 0.01,n = 10 ,则查表可得 ( ) 23.209 2 x0.01 n = ,又如 = 0.005,n = 6 ,则 (6) 18.548 2 x0.005 = 。 若随机变量 XX~N (0,1),则它的上侧 分位数常用 Z 来表示。由 PX Z = 可知, Z0.005 =1.645,Z0.025 =1.96 ,见图 6-3。通过查标准正态分布表即可得到。 这是因为 PX Z=1− ,故 PX 1.96= 0.975 =1− 0.025 。 2. t 分布 定义 3 设 X ~ (0,1), ~ ( ) 2 X N Y n ,且 X 与 Y 相互独立,则称随机变量 0 ( ) 2 n f ( y) y 0 x (x) Z 图 6-2 标准正态分布的上侧 分位数
n 服从自由度为n的t分布,记为T-m(n) 通过计算可得t分布的密度函数为 + f∫(y)= (1+ 0y-+∞ n=0 5 2 =1 图6-4t分布的密度函数曲线 0t2(n) 图6-5t分布的上侧a分位数 图6-4给出了n=1,5,10时t分布的密度函数。以ta(n)记为t分布的上侧a分位数,见图 P(T>t,(n=a 查t分布表可得ta(n)的值。由于t分布有对称性,因此t1-(n)=-ta(m) 注意到 n+1 即n很大时,t分布接近标准正态分布。因此,在应用中,当n>45时有ta(n)≈za 3.F分布
Y n X T / = 服从自由度为 n 的 t 分布,记为 T~t(n) 通过计算可得 t 分布的密度函数为 + − + + = + − y n y n n F n f y n (1 ) , 2 ) 2 1 ( ( ) 2 2 1 图 6-4 给出了 n =1,5,10 时 t 分布的密度函数。以 t (n)记为 t 分布的上侧 分位数,见图 6-5。由 PT t (n)= 查 t 分布表可得 t (n)的值。由于 t 分布有对称性,因此 ( ) ( ) t 1− n = −t n 注意到 2 2 2 1 2 lim(1 ) n y n e n y − + − → + = 即 n 很大时,t 分布接近标准正态分布。因此,在应用中,当 n>45 时有 t (n)z 。 3.F 分布 f (y) 0 y n = n = 5 n = 2 n =1 图6-4 t分布的密度函数曲线 0 图6-5 t 分布的上侧 分位数 f t (n) y
定义4设Xy相互独立,分别服从自由度为nm的X2分布,则随机变量 X F 服从自由度为(nm)的F分布,记为F(n,m)显然 F(m, n) 通过计算,可求得F(n,m)的概率密度函数 n, y f() >0 n2 ≤0 比较t分布与F分布的定义,易知t(n)=F(1n)。图6-6给出了一些F分布的密度函数的图象 n=10.m=∞ n=10.m=10 图6-6F分布密度函数 0 n. m 图6-7F分布的上侧C分位数 我们称满足 P(F>F(n, m))=m f()dy=a 的点Fa(nm)为F(m)分布的上a分位数,见图6-7。F分布的上侧a分位数有如下性质 F-a(n, m)
定义 4 设 X,Y 相互独立,分别服从自由度为 n,m 的χ2分布,则随机变量 n m Y X m Y n X F = = 服从自由度为(n,m)的 F 分布,记为 F(n,m) 显然 ~ ( , ). 1 F m n F 通过计算,可求得 F(n,m)的概率密度函数 + + = + − 0 0 0 1 2 2 2 ( ) 2 2 1 2 2 1 2 2 2 1 2 1 1 2 1 1 y y y n n n n y n n n n f y n n n n 比较 t 分布与 F 分布的定义,易知 t 2 (n)=F(1,n)。图 6-6 给出了一些 F 分布的密度函数的图象 我们称满足 = = + ( , ) ( , ) ( ) F n m P F F n m f y dy 的点 F (n,m)为 F(n,m)分布的上 分位数,见图 6-7。F 分布的上侧 分位数有如下性质: . ( , ) 1 ( , ) 1 F m n F n m − = f (y) 0 y 图6-6 F分布密度函数 n =10,m = n =10,m =10 n =10,m = 4 f (y) 0 y F (n,m) 图6-7 F分布的上侧 分位数 布点
事实上,设F~F(n,m) 则_~F(n,m),且 a=PFE(m=m(1-1}=1-p{12 FF。(n,m) FF(n, m) 于是P{121 FF,(n 由a分位数的定义,显然F(m,n) 成立 F(n, m) 四.正态总体样本均值与方差的函数的分布 定理1设,互,…M是从正态总体N(,02)中抽取的一个简单随机样本,X与S2分别为样 本均值和样本方差,则 (1)X~N(p,) (n-1); 3)X与S2相互独立 (4)7= ~(n-1) 定理2设Ⅺ…x与Y1,2…Ym分别为来自正态总体N(,2)和N(A12)的简单随机 样本,且两样本之间相互独立,若 ∑(X,-X) ∑(-F) n-1 则 s=4(I) F(n-1,m-1) (2)若进一步假设G1=02,有 X-Y-(1-2) ~(n+m-2)
事实上,设 F ~F(n,m), 则 ~ ( , ),且 1 F n m F , ( , ) 1 1 1 ( , ) 1 1 ( , ) = − = = F F n m P F F n m P F F n m P = − 1 ( , ) 1 1 F F n m 于是 P , 由 分位数的定义,显然 成立 ( , ) 1 ( , ) 1 F n m F m n − = 。 四.正态总体样本均值与方差的函数的分布 定理 1 设 X1,X2,…,Xn 是从正态总体 N(μ,σ2 )中抽取的一个简单随机样本, X 与 2 S 分别为样 本均值和样本方差,则 (1) ~ ( , ); 2 n X N (2) ~ ( 1); ( 1) 2 2 2 − − x n n S (3) X 与 2 S 相互独立。 (4) ~ ( −1). − = t n n S X T 定理 2 设 X1,X2,…,Xn 与 Y1,Y2,…,Ym 分别为来自正态总体 ( , ) 2 N 1 1 和 ( , ) 2 N 1 2 的简单随机 样本,且两样本之间相互独立,若 ( ) = = − − − = − = m i i n i i Y Y m X X S n S 1 2 2 2 1 2 2 1 1 1 ( ) , 1 1 则 (1) ~ ( 1, 1); 2 1 2 2 2 2 2 1 = F n − m − S S F (2) 若进一步假设 2 2 2 1 = ,有 ~ ( 2) 1 1 ( ) 1 2 + − + − − − = t n m n m S X Y T w
其中S2=(~1s+(m=1S2 n+m-2 以上结论在后面将经常用到,必须记住。另外,对其它总体,虽然很难求到其精确的抽样分布, 但我们可以利用中心极限定理等理论得到当n较大时的近似分布,这就是统计问题中的大样本问 题,在此我们不加讨论
其中 2 ( 1) ( 1) 2 2 2 2 1 + − − + − = n m n S m S Sw 以上结论在后面将经常用到,必须记住。另外,对其它总体,虽然很难求到其精确的抽样分布, 但我们可以利用中心极限定理等理论得到当 n 较大时的近似分布,这就是统计问题中的大样本问 题,在此我们不加讨论