§7.3正态母体参数的置信区间 在第六章中我们看到,假设日=日(5,…,5)是未知参数0的个点估计,那末一旦获得人 们一个子样观察什(x,…,x,估计值0(x,…,x,)能给人们一个明确的数量概念这是很有 用的但仔细想一想,就会感觉到这还是不够的.因为点估计值只是·的一种近似值,而点估计 本身既没有反映这种近似值的精确度又不知道它的误差范围并且在数理统计学中光指估计 日的误差范围△还是不够的,必须指出以多大概率,这个区间(日-△,日+△)包含未知数 ·才行这一类带有一定概*的区间,以后称作置信区间,它在实际中也是常常要用到的. 定义7.1设母体5具有概率函数x0,日为未知参数5,…,5m为取自这个母体5 的子样若对于事先给定的a,0<a<1,存在两个统计量0(气,…,5n和0(5,,5)使得 P5,…,5n)<0<5,…,5n)}=1-a (7.8) 则称区间(8,日)为参数0的置信度为1~a的置信区间,0和9分另称为置度1-a置信下限 和置信上限 由定义知道,置信区间(日,)是一个随机区间,并且它的两个端点都是不依赖未知参数 日的随机变量,应着重指出的是等式(?.8)的含意是指在重复取样下,将得到许多不同的区间 (0(x1,…,x),0(x,…,x川,根据贝努力大数定律,这些区间中大约有100(1-α)%的区间包 含未知参数但对于一次抽样所得到的一个区间,决不能说不等式 0(,x,K0<0(,,x) 成立的概率为1a.因为这时0(x,…,x),(x,…,x,)是两个确定的数,从而只有两种可能 要开这个区间包含日;要末这个区间不包含0,因此定义来说区间(日 (X,…,x,0(x,…,x)》属于包含未知参数0的区间类的置信度是1-a.所以提置信度以 示与概率有所不同,其理由即在于此. 那末,在实际问题中如何寻求置信区间呢我们看一个例子 例7.7设轴承内环的锻压零件的平均高度ξ服从正态分布N(μ,0.42).现在从中抽取 20只内环,其平均高度x=32.3毫米求内环平均高度的置信度为95%的置信区间 解我们知道子样的均值三是母体均值μ的点估计由此构造一个子样函数 U=4 (0=0.4)
§ 7.3 正态母体参数的置信区间 在第六章中我们看到,假设 ( , , ) 1 n = 是未知参数θ的个点估计,那末一旦获得人 们一个子样观察什( n x , , x 1 ),估计值 ( n x , , x 1 )能给人们一个明确的数量概念.这是很有 用的.但仔细想一想,就会感觉到这还是不够的.因为点估计值只是θ的一种近似值,而点估计 本身既没有反映这种近似值的精确度.又不知道它的误差范围.并且在数理统计学中光指估计 的误差范围 − + 还是不够的,必须指出以多大概率,这个区间( − + , )包含未知数 θ才行.这一类带有一定概率的区间,以后称作置信区间,它在实际中也是常常要用到的. 定义 7.1 设母体ξ具有概率函数 f(x; θ), θ为未知参数 1 , , 1 n 为取自这个母体ξ 的子样.若对于事先给定的 ,0< <1,存在两个统计量θ{ 1 , , 1 n }和 ( 1 , , 1 n )使得 P{( 1 , , n ) ( 1 , , n )} =1− (7.8) 则称区间(θ, )为参数θ的置信度为 1- 的置信区间, θ和 分另称为置度 1- 置信下限 和置信上限. 由定义知道,置信区间(θ, )是一个随机区间,并且它的两个端点都是不依赖未知参数 θ的随机变量,应着重指出的是,等式(7.8)的含意是指在重复取样下,将得到许多不同的区间 (θ( n x , , x 1 ), ( n x , , x 1 )),根据贝努力大数定律,这些区间中大约有 100(1- )%的区间包 含未知参数.但对于一次抽样所得到的一个区间,决不能说不等式 θ( n x , , x 1 )<θ< ( n x , , x 1 ) 成立的概率为1- .因为这时θ( n x , , x 1 ), ( n x , , x 1 )是两个确定的数,从而只有两种可能, 要开这个区间包含θ ; 要末这个区间不包含θ . 因此定义来说区间 ( θ ( n x , , x 1 ), ( n x , , x 1 ))属于包含未知参数θ的区间类的置信度是 1- .所以提置信度以 示与概率有所不同,其理由即在于此. 那末,在实际问题中如何寻求置信区间呢?让我们看一个例子. 例 7.7 设轴承内环的锻压零件的平均高度ξ服从正态分布 N(μ, 2 0.4 ).现在从中抽取 20 只内环,其平均高度 x =32.3 毫米.求内环平均高度的置信度为 95%的置信区间. 解 我们知道子样的均值 是母体均值μ的点估计.由此构造一个子样函数 n U − = (σ=0.4)
它含有求置信区间的未知参数μ,但它的分布N(0,1)不含有任何未知参数故对于给定的置信 度1a,可以查表得出相应的分位点4g使得 P(UKu2)=1-a 利用不等式变形可得它的等价形式为 P-”g<U<g=1-a (7.9) 或 )1-a 于是 g<μ<+号n p店- =1-a (7.10) 这样,我们得到置信度上a的置信区同作-“:后+“告易局我们这里 -a=95%,a=0.05,号-0.025.查正态N0,1)表得到s=1.96.由子样观察值得到的 x=32.3.0=0.4.n=20算得 2=323-196× 0.4 =32.12 +%m号-23410%x篇=248 所以μ的一个置信区间为32.12,32.48) 由这个例子可以看出,寻求未知参灵敏6的置信区间一般可通过下列三个步骤得到: (1)寻找子样(5,…,5m)的一个函数 μ(5…,5m:0) 它只含所要置信区间的未知参数·而不含其它未知参数,且其分布也不含任何未知参数(当 然也不包括等估参数),在不少场合,这个函数可以从未知参数点估计经过变换获得: (2)对于给出的置信度1α,确定分位点这里由于函数(5,,50)的分布不含有任 何未知参数,所以一般地说,这种分位点是可以算出的,特别,在()中确定函数μ时,往 往选择这样的函数“,使得其分布是有表可查的常用分布 ()利用不等式变形求得未知参数的置信区间. 上述例7.7给出了正态母体σ2已知时均值μ的置信区间,当o2未知时,我们完全如假设
它含有求置信区间的未知参数μ,但它的分布 N(0,1)不含有任何未知参数.故对于给定的置信 度 1- ,可以查表得出相应的分位点 2 1 − ,使得 = − − (| | ) 1 2 1 P U 利用不等式变形可得它的等价形式为 − = − − − ( ) 1 2 1 2 1 P U (7.9) 或 = − − − − − ( ) 1 2 1 2 1 P n 于是 − + = − − − ( 1 2 1 2 1 n n P (7.10) 这 样 , 我 们 得 到 置 信 度 1- 的置信区间 − + − n − n 2 1 2 1 , 我们这里 1- =95%, =0.05, 2 =0.025. 查正态 N(0,1) 表得到 0.975 =1.96. 由子样观察值得到的 x =32.3. =0.4.n=20 算得 32.12 20 0.4 − 0.975 = 32.3 −1.96 = n x 32.48 20 0.4 + 0.975 = 32.3 +1.96 = n x 所以μ的一个置信区间为(32.12,32.48) 由这个例子可以看出,寻求未知参灵敏θ的置信区间一般可通过下列三个步骤得到: (1) 寻找子样( 1 , , 1 n )的一个函数 μ( 1 , , 1 n ;θ) 它只含所要置信区间的未知参数θ而不含其它未知参数,且其分布也不含任何未知参数(当 然也不包括等估参数θ).在不少场合,这个函数可以从未知参数点估计经过变换获得; (2) 对于给出的置信度 1- ,确定分位点.这里由于函数μ( 1 , , 1 n ;θ)的分布不含有任 何未知参数,所以一般地说,这种分位点是可以算出的,特别,在(1)中确定函数μ时,往 往选择这样的函数μ,使得其分布是有表可查的常用分布; (3) 利用不等式变形求得未知参数θ的置信区间. 上述例 7.7 给出了正态母体 2 已知时均值μ的置信区间,当 2 未知时,我们完全如假设
检验中所做的一样,用方差的无偏估计S”=↓之(传,-》代替母体方差。'这时我们 n-1台 构造的子样函数为 ξ-业n (7.11) 它只含有参数“,而且它所服从的自由度为1的~分布不依赖于任何参数 在给定置信度1-α下,我们得到 A-1ea-)<“<1.em--1-a 这里.gm-)是由查自由度为1的t分布表得到利用不等式变形 -a-袋,瓜<4ea-0 得到μ的置信度为1-α的置信区间. -a-+- 关于正态母体的方差以及两个正态母的均值差4一山和方差比的置信区间的构造 是完全类似的。它们所用的子样函数与假设检验中所用的统计量有相同的分布 这里再讨论一下正态母体的均值4与方差σ2的联合置信区域假如我们需要求置信度 1=95%的置信域在第五章中我们知道子样均值和方差的无偏估计S是是相互独立的 所以我们构造两个只含未知参数μ和σ2的相互独立的统计量 u-4和x-a- n 它们分别有(0,1)和x2(I)分布,都不依赖于任何参数. -a<4m<a<a-s<-0s (7.12) 解出a,C,C2,由于U与X2的相互独立我们只要从
检验中所做的一样,用方差的无偏估计 = − − = n i n i n S 1 *2 2 ( ) 1 1 代替母体方差 2 .这时我们 构造的子样函数为 n Sn * − (7.11) 它只含有参数μ,而且它所服从的自由度为 n-1 的 t-分布不依赖于任何参数. 在给定置信度 1- 下,我们得到 = − − − − − − = ( 1) ( 1) 1 2 1 * 2 1 n t n S P t n n 这里 ( 1) 2 1 − − t n 是由查自由度为 n-1 的 t-分布表得到,利用不等式变形 ( 1) ( 1) 2 1 * 2 1 − − − − − − n t n S t n n 得到μ的置信度为 1- 的置信区间. − − + − − − n S t n n S t n n n * 2 1 * 2 1 ( 1) , ( 1) 关于正态母体的方差以及两个正态母的均值差 1 − 2 和方差比 2 2 2 1 的置信区间的构造 是完全类似的。它们所用的子样函数与假设检验中所用的统计量有相同的分布. 这里再讨论一下正态母体的均值 与方差 2 的联合置信区域.假如我们需要求置信度 1- =95%的置信域.在第五章中我们知道子样均值 和方差的无偏估计 *2 n S 是是相互独立的. 所以我们构造两个只含未知参数 和 2 的相互独立的统计量 n U − = 和 2 *2 2 ( 1) n − Sn = 它们分别有 N(0,1)和 2 (n-1)分布,都不依赖于任何参数. 要从 0.95 ( 1) , 2 2 *2 1 = − − − c n S P a n a c n (7.12) 解出 1 2 a,c ,c ,由于 U 与 2 的相互独立.我们只要从
千i小os 求解就可以了.假设B和B,为任意两个满足BB,=0.95,0<B,B,<1的数,那么我们可从 -a<-'n<a-a 和 6<a-s<6小g 2 出发解出a,C,C2的值当然有很多B,与B,的值的组合.这里为简单起见,我们忽略最佳性的 讨论而取B,=B于是B=?=0.95,月=B2=0.975这样就可以由 -a<4万<a=0.975 和 4<a-s<6小-0s 分别求出a,G,C2,其中G与c,的确定如在X2检验中一样,然后利用不等式变形就可得出 (4,。2)的置信域 由(7.12)式我们得到 Pu-5}<ag,a-s<o2<a-s=095 C2 c 最后我们必须指出,对于同一置信度的置信区间可以有很多,也就是置信区间不是唯一的。 一般说来,所构造的置信区间的长度愈短愈好.例7.7中我们把α=0.05分成相等的两部分 么=%=0025得到置信区间为'3=(62.123248,则'g的长度为3248212-036若 我们把a=-0.05分成a,=0.01,a,=0.04,则有 P44<U<4o99))=0.95 查正态分布N(O,1)表得 49=2.33,4004=-1.75 于是算得
0.95 ( 1) 2 2 *2 1 = − − − c n S P a n a P c n 求解就可以了.假设 1 和 2 为任意两个满足 1 2 =0.95,0< 1 , 2 <1 的数,那么我们可从 1 = − P − a n a 和 2 2 2 *2 1 ( 1) = − c n S P c n 出发解出 1 2 a,c ,c 的值.当然有很多 1 与 2 的值的组合.这里为简单起见,我们忽略最佳性的 讨论而取 1 = 2 于是 0.95, 1 2 0.975 2 2 2 1 = = = = .这样就可以由 = 0.975 − P − a n a 和 0.975 ( 1) 2 2 *2 1 = − c n S P c n 分别求出 1 2 a,c ,c ,其中 1 c 与 2 c 的确定如在 2 -检验中一样,然后利用不等式变形就可得出 ( , 2 )的置信域. 由(7.12)式我们得到 0.95 ( 1) ( 1) ( ) , 1 *2 2 2 2 2 *2 2 = − − − c n S c n S n a P n n 最后我们必须指出,对于同一置信度的置信区间可以有很多,也就是置信区间不是唯一的. 一般说来,所构造的置信区间的长度愈短愈好.例 7.7 中我们把 =0.05 分成相等的两部分 1 =2 = 0.025 得到置信区间为 (32.12,32.48), 2 I = 则 2 I 的长度为 32.48-32.12=0.36.若 我们把 =0.05 分成 1 =0.01, 2 =0.04,则有 P(0.04 U 0.99 ) = 0.95 查正态分布 N(0,1)表得 0.99 = 2.33,0.04 = −1.75 于是算得
x+h4×7=323-1.75×04≈32.14 n V20 宝%品=23+23份251 这样得到的置信度95%的置信区间为32.14,3251)其长度为32.51-32140.37.比区间1。的长 度长.一般地说假如构造置信区间的子样函数具有对称分布时,以子样均值观测值为中心的对 称区间,其长度最短对于不对称分布求最短长度的置信区间是一较繁的问题这里不详细叙 述了在实际工作中,一般总是把α等分为两部分a,=a一,=号然后查表求上下置信限
32.14 20 0.4 + 0.44 = 32.3 −1.75 n x 32.51 20 04 + 0.99 = 32.3 + 2.33 n x 这样得到的置信度 95%的置信区间为(32.14,32.51)其长度为 32.51-32.14=0.37.比区间 2 I 的长 度长.一般地说假如构造置信区间的子样函数具有对称分布时,以子样均值观测值为中心的对 称区间,其长度最短.对于不对称分布求最短长度的置信区间是一较繁的问题.这里不详细叙 述了.在实际工作中,一般总是把 等分为两部分 2 1 2 = = 然后查表求上下置信限