第三节置信区间 前面讨论了参数的点估计,它是用样本算出的一个值去估计未知参数.即点估计值仅仅 是未知参数的一个近似值,它没有给出这个近似值的误差范围 例如,在估计某湖泊中鱼的数量的问题中,若根据一个实际样本,利用最大似然估计法 估计出鱼的数量为50000条,这种估计结果使用起来把握不大实际上,鱼的数量的真值可 能大于500条,也可能小于50000条.且可能偏差较大 若能给出一个估计区间,让我们能较大把握地(其程度可用概率来度量之)相信鱼的数量 的真值被含在这个区间内,这样的估计显然更有实用价值 本节将要引入的另一类估计即为区间估计,在区间估计理论中,被广泛接受的一种观点 是置信区间,它由奈曼 (Neyman)于1934年提出的 分布图示 ★引言 ★置信区间的概念 ★寻求置信区间的方法 ★例1 ★例2 ★例3 ★0-1分布参数的区间估计 ★单侧置信区间 ★例5 ★例6 ★内容小结 ★课堂练习 ★习题6-3 返回 内容要点 置信区间的概念 定义1设0为总体分布的未知参数,X1,X2…,X是取自总体X的一个样本,对给定 的数1-a(0<a<1),若存在统计量 =6(X1,X2,…,Xn),6=6(X1,X2…Xn) 使得 P{6<6<6}=1 则称随机区间(,0)为θ的1-a双侧置信区间,称1-a为置信度,又分别称与b为θ的双 侧置信下限与双侧置信上限 注:1.置信度1-a的含义:在随机抽样中,若重复抽样多次,得到样本X1,X2,…,Xn的 多个样本值(x1,x2,…xn),对应每个样本值都确定了一个置信区间(旦,0),每个这样的区间 要么包含了θ的真值,要么不包含θ的真值.根据伯努利大数定理,当抽样次数充分大时, 这些区间中包含θ的真值的频率接近于置信度(即概率)1-a,即在这些区间中包含O的真 值的区间大约有1001-a)%个,不包含θ的真值的区间大约有100%个.例如,若令 1-a=0.95,重复抽样100次,则其中大约有95个区间包含θ的真值,大约有5个区间不包 含θ的真值 2.置信区间(,6)也是对未知参数O的一种估计,区间的长度意味着误差,故区间估计 与点估计是互补的两种参数估计 3.置信度与估计精度是一对矛盾置信度l-a越大,置信区间(,b)包含θ的真值的概 率就越大,但区间(,b)的长度就越大,对未知参数6的估计精度就越差.反之,对参数 的估计精度越高,置信区间巴,θ)长度就越小,(旦,θ)包含θ的真值的概率就越低,置信度 1-α越小.一般准则是:在保证置信度的条件下尽可能提高估计精度. 二、寻求置信区间的方法 寻求置信区间的基本思想在点估计的基础上,构造合适的函数,并针对给定的置信度
第三节 置信区间 前面讨论了参数的点估计, 它是用样本算出的一个值去估计未知参数. 即点估计值仅仅 是未知参数的一个近似值, 它没有给出这个近似值的误差范围. 例如, 在估计某湖泊中鱼的数量的问题中, 若根据一个实际样本, 利用最大似然估计法 估计出鱼的数量为 50000 条, 这种估计结果使用起来把握不大. 实际上, 鱼的数量的真值可 能大于 50000 条, 也可能小于 50000 条.且可能偏差较大. 若能给出一个估计区间, 让我们能较大把握地(其程度可用概率来度量之)相信鱼的数量 的真值被含在这个区间内, 这样的估计显然更有实用价值. 本节将要引入的另一类估计即为区间估计, 在区间估计理论中, 被广泛接受的一种观点 是置信区间, 它由奈曼(Neymann)于 1934 年提出的. 分布图示 ★ 引言 ★ 置信区间的概念 ★ 寻求置信区间的方法 ★ 例1 ★ 例2 ★ 例3 ★ 0 − 1 分布参数的区间估计 ★ 例4 ★ 单侧置信区间 ★ 例5 ★ 例6 ★ 内容小结 ★ 课堂练习 ★ 习题 6-3 ★ 返回 内容要点 一、置信区间的概念 定义 1 设 为总体分布的未知参数, X X Xn , , , 1 2 是取自总体 X 的一个样本, 对给定 的数 1−(0 1) , 若存在统计量 ( , , , ), ( , , , ), = X1 X2 Xn = X1 X2 Xn 使得 P{ }=1−, 则称随机区间 (, ) 为 的 1− 双侧置信区间, 称 1− 为置信度, 又分别称 与 为 的双 侧置信下限与双侧置信上限. 注: 1. 置信度 1− 的含义: 在随机抽样中, 若重复抽样多次, 得到样本 X X Xn , , , 1 2 的 多个样本值 ( , , , ) 1 2 n x x x , 对应每个样本值都确定了一个置信区间 (, ) , 每个这样的区间 要么包含了 的真值, 要么不包含 的真值. 根据伯努利大数定理, 当抽样次数充分大时, 这些区间中包含 的真值的频率接近于置信度(即概率) 1− , 即在这些区间中包含 的真 值的区间大约有 100(1−)% 个, 不包含 的真值的区间大约有 100% 个. 例如, 若令 1− = 0.95 , 重复抽样 100 次, 则其中大约有 95 个区间包含 的真值, 大约有 5 个区间不包 含 的真值. 2. 置信区间 (, ) 也是对未知参数 的一种估计, 区间的长度意味着误差, 故区间估计 与点估计是互补的两种参数估计. 3. 置信度与估计精度是一对矛盾.置信度 1− 越大, 置信区间 (, ) 包含 的真值的概 率就越大, 但区间 (, ) 的长度就越大, 对未知参数 的估计精度就越差. 反之, 对参数 的估计精度越高, 置信区间 (, ) 长度就越小, (, ) 包含 的真值的概率就越低, 置信度 1− 越小. 一般准则是: 在保证置信度的条件下尽可能提高估计精度. 二、寻求置信区间的方法 寻求置信区间的基本思想: 在点估计的基础上, 构造合适的函数, 并针对给定的置信度
导出置信区间 一般步骤 (1)选取未知参数的某个较优估计量6 (2)围绕6构造一个依赖于样本与参数θ的函数 l(X1,X2,…,Xn,6) (3)对给定的置信水平1-a,确定λ1与2,使 P{A1≤a≤A2}=1-a, 通常可选取满足P{≤}=P{22}=的与2,在常用分布情况下,这可由分位数 表查得 (4)对不等式作恒等变形化后为 则(,b)就是O的置信度为1-a的双侧置信区间。 三、(0-1分布参数的置信区间 考虑(0-1)分布情形,设其总体X的分布率为 P{X=l}=p,P{X=0}=1-p,(0<p<1) 现求P的置信度为1-a置信区间 已知(0-1)分布的均值和方差分别为 E()=P, D(X) 设X1,x2,…,Xn是总体X的一个样本,由中心极限定理知,当n充分大时 X-E(X) D(X)/n√p(1-p)/n 近似服从N(O,1)分布,对给定的置信度1-a,则有 <l,}≈1-a, p(1-p)/ 经不等式变形得 P{qp+bp+c<0)}≈1 其中a=n+(uln2)2,b=-2n-(ua2),c=m(x)2.解式中不等式得 PiP, <D< ≈ 其中 P1=(-b b2-4ac), P22a 于是(P,P2)可作为p的置信度为1-a的置信区间 四、单侧置信区间 前面讨论的置信区间(,b)称为双侧置信区间,但在有些实际问题中只要考虑选取满足 u≤4}=a或P{u≥l2}=a的λ1与2,对不等式作恒等变形后化为 或P{O≤}=1 从而得到形如(+∞)或(-,6)的置信区间 例如,对产品设备、电子元件等来说,我们关心的是平均寿命的置信下限,而在讨论产 品的废品率时,我们感兴趣的是其置信上限.于是我们引入单侧置信区间 定义设O为总体分布的未知参数,X1,X2…,Xn是取自总体X的一个样本,对给定的 数1-a(0<a<1),若存在统计量 满足 P{(<}=1-
导出置信区间. 一般步骤: (1) 选取未知参数 的某个较优估计量 ˆ ; (2) 围绕 ˆ 构造一个依赖于样本与参数 的函数 ( , , , , ); u = u X1 X2 Xn (3) 对给定的置信水平 1− ,确定 1 与 2 ,使 { } 1 , P 1 u 2 = − 通常可选取满足 2 { } { } 1 2 P u = P u = 的 1 与 2 ,在常用分布情况下, 这可由分位数 表查得; (4) 对不等式作恒等变形化后为 P{ }=1− , 则 (, ) 就是 的置信度为 1− 的双侧置信区间。 三、(0—1)分布参数的置信区间 考虑(0—1)分布情形, 设其总体 X 的分布率为 P{X =1} = p,P{X = 0} =1− p,(0 p 1), 现求 p 的置信度为 1− 置信区间. 已知(0—1)分布的均值和方差分别为 E(X) = p,D(X) = p(1− p), 设 X X Xn , , , 1 2 是总体 X 的一个样本, 由中心极限定理知, 当 n 充分大时, p p n X p D X n X E X u ( )/ (1 )/ ( ) − − = − = 近似服从 N(0,1) 分布, 对给定的置信度 1− , 则有 1 , (1 )/ / 2 − − − u p p n X p P 经不等式变形得 { 0} 1 , 2 P ap +bp + c − 其中 ( ) , 2 ( ) , ( ) . 2 2 /2 2 a = n + u / 2 b = − nX − u c = n X 解式中不等式得 { } 1 , P p1 p p2 − 其中 ( 4 ). 2 1 ( 4 ), 2 1 2 2 2 1 b b ac a b b ac p a p = − − − = − + − 于是 ( , ) p1 p2 可作为 p 的置信度为 1− 的置信区间. 四、单侧置信区间 前面讨论的置信区间 (, ) 称为双侧置信区间, 但在有些实际问题中只要考虑选取满足 P{u 1 } = 或 P{u 2 } = 的 1 与 2 ,对不等式作恒等变形后化为 P{ } =1− 或 P{ }=1− 从而得到形如 ( ,+) 或 (−, ) 的置信区间. 例如, 对产品设备、电子元件等来说, 我们关心的是平均寿命的置信下限, 而在讨论产 品的废品率时, 我们感兴趣的是其置信上限. 于是我们引入单侧置信区间. 定义 设 为总体分布的未知参数, X X Xn , , , 1 2 是取自总体 X 的一个样本, 对给定的 数 1−(0 1) , 若存在统计量 ( , , , ), = X1 X2 Xn 满足 P{ } =1−
则称(a,+∞)为θ的置信度为1-a的单侧置信区间,称为θ的单侧置信下限;若存在统计 6=6(X1 满足 P{6<b}=1 则称(-∞0)为0的置信度为1-a的单侧置信区间,称b为的单侧置信上限 例题选讲 寻求置信区间的方法 例1(E01)设总体X~N(,a2),a2为已知,μ为未知,设X1,x2,…,Xn是来自X的样 本,求的置信水平为1-a的置信区间 解已知是的无偏估计,且~N01,而N不依赖于任何未知参数按 标准正态分布的双侧a分位数的定义,有P <ual X 这样,就得到了的一个罡信水平为1-a的置信区间X-7um,x+aua2常 写成|x土uma2 若取a=005,即1-a=0.95,及σ=1n=16,查表得la2=l025=1.96,则得到一个 置信水平为0.95的置信区间(x±0.49) 若由一个样本值得样本均值的观察值x=520,则进一步得到一个置信水平为0.95的置 信区间(520±0.49)=(4.71,569) 这个区间的含义是:若反复抽样多次,每个样本值均确定一个区间,在这些区间中,包 含的约占95%,或者说该区间属于包含的区间的可信程度为95% 例2设总体X~N(,8),4为未知参数,X1,…,X36是取自总体X的简单随机样本,如 果以区间(X-1X+1)作为μ的置信区间,那么置信度是多少? 解XN(a)所以一N22N人Np9 从而4-N(0依题意Px-1<<X+=1-a,即 所求的置信度为966%
则称 ( ,+) 为 的置信度为 1− 的单侧置信区间, 称 为 的单侧置信下限; 若存在统计 量 ( , , , ), = X1 X2 Xn 满足 P{ } =1−, 则称 (−, ) 为 的置信度为 1− 的单侧置信区间, 称 为 的单侧置信上限. 例题选讲 寻求置信区间的方法 例 1(E01) 设总体 2 2 X ~ N(, ), 为已知, 为未知, 设 X X X n , , , 1 2 是来自 X 的样 本, 求 的置信水平为 1 − 的置信区间. 解 已知 X 是 的无偏估计, 且 ~ (0,1), / N n X − 而 N(0,1) 不依赖于任何未知参数. 按 标准正态分布的双侧 分位数的定义, 有 1 , / / 2 = − − u n X P 即 1 . / / 2 = − − + u n u X n P X n 这样, 就得到了 的一个罡信水平为 1− 的置信区间 , , / / 2 − + u n u X n X n 常 写成 . / 2 u n X 若取 = 0.05, 即 1− = 0.95, 及 =1,n =16, 查表得 1.96, u / 2 = u0.025 = 则得到一个 置信水平为 0.95 的置信区间 (X 0.49). 若由一个样本值得样本均值的观察值 x = 5.20, 则进一步得到一个置信水平为 0.95 的置 信区间 (5.20 0.49) = (4.71,5.69). 这个区间的含义是: 若反复抽样多次, 每个样本值均确定一个区间, 在这些区间中, 包 含 的约占 95%, 或者说该区间属于包含 的区间的可信程度为 95%. 例 2 设总体 X ~ N(,8), 为未知参数, 1 36 X , , X 是取自总体 X 的简单随机样本, 如 果以区间 (X −1, X +1) 作为 的置信区间, 那么置信度是多少? 解 ~ ( , ), 2 X N 所以 . 9 2 , 36 8 ~ ( , , 2 = = N N n X N 从而 ~ (0,1), 2 / 3 N X − 依题意 P{X −1 X +1}=1−, 即 − − − + = 2 3 2 3 P{ 1 X 1} 1 2 3 2 − = = 2(2.121) −1 = 0.966 =1−, 所求的置信度为 96.6%
例3设总体X的密度为 f(x0)=1 0.x≤0 未知参数6>0,X12…,Xn为取自X的样本 (1)试证H=2nx 0 x (2n) (2)试求O的1-a置信区间 解(1记的设y的分布函数与密函数分别为G(y)与g()则 G)=Psy=P2x≤y=Px≤2y={9 这里F(x) e-,x>0.于是 0 x≤0 G(y)= 0,y≤0 即Y~x2(2),从而2x1~x2(2)1=1,…,n又由x2分布的可加性得 22x-x2n).面x=>x2=m故2m-x(n (2)由上节例7知,又是O的最大似然估计,从F出发考虑W=2,由(1)知的分 布只依赖于样本容量n,即=2mx-x(2m,给定的1-a,由 P{x2a2(2n)<2X<x22(2n)} 2nX 经不等式变形得P 2nX xun(2n) 于是,所求置信区间为2n2nx xan(2n) (0-1)分布参数的置信区间 例4(E02)设抽自一大批产品的100个样品中,得一级品60个,求这批产品的一级品率 的置信水平为0.95的置信区间 级品率P是0-1分布的参数,此处 n=100,¥=60/100=0.6,1-a=0.95,a/2=0.025,ua2=1.96 现按上述方法来求P的置信区间,其中 a=n+l2n2=103.84,b=-(2nx+ul2)=-123.84,c=nx=36
例 3 设总体 X 的密度为 , 0, 0 0 1 ( ; ) = − x e x f x x 未知参数 X X n 0, , , 1 为取自 X 的样本. (1) 试证 ~ (2 ); 2 2 n nX W = (2) 试求 的 1 − 置信区间. 解 (1) 记 , 2 Y X = 设 Y 的分布函数与密函数分别为 G(y) 与 g( y), 则 G(y) = P{Y y} } 2 = P{ X y = P X y = F y 2 } 2 { 这里 − = − , 0, 0 1 , 0 ( ) / x e x F x x 于是 , 0, 0 1 , 0 ( ) / 2 − = − y e y G y y , 0, 0 , 0 2 1 ( ) / 2 = − y e y g y y 即 ~ (2), 2 Y 从而 ~ (2), 2 2 Xi i =1, ,n. 又由 2 分布的可加性得 ~ (2 ), 2 2 1 Xi n n i = 而 , 2 2 2 1 1 X n X X n i i i n i = = = = 故 ~ (2 ). 2 2 X n n (2) 由上节例 7 知, X 是 的最大似然估计, 从 X 出发考虑 , 2 X n W = 由(1)知 W 的分 布只依赖于样本容量 n, 即 ~ (2 ), 2 2 X n n W = 给定的 1−, 由 { − (2 ) 2 P 1 / 2 n (2 )} 1 . 2 2 / 2 X n = − n 经不等式变形得 1 , 2 (2 ) 2 2 1 / 2 2 / 2 = − − nX n nX P 于是, 所求置信区间为 . 2 , (2 ) 2 2 1 / 2 2 / 2 − nX n nX (0—1)分布参数的置信区间 例 4(E02) 设抽自一大批产品的 100 个样品中, 得一级品 60 个, 求这批产品的一级品率 p 的置信水平为 0.95 的置信区间. 解 一级品率 p 是 0 −1 分布的参数, 此处 n =100, x = 60/100 = 0.6, 1− = 0.95, / 2 = 0.025, 1.96, u / 2 = 现按上述方法来求 p 的置信区间, 其中 103.84, 2 a = n + u / 2 = (2 ) 123.84, 2 b = − nx + u / 2 = − 36. 2 c = nx =
于是p1=0.50,P2=0.69,故得p的一个置信水平为0.95的近似置信区间为(0.500.69) 单侧置信区间 例5(E03)从一批灯泡中随机地抽取5只作寿命试验,其寿命如下(单位h) 10501100112012501280 已知这批灯泡寿命X~N(,2),求平均寿命的置信度为95%的单侧置信下限 解r=X--1(m-1,对于给定的置信度1-,有以-∠0=0=1-a S/√n 即P{>X-(n-1) 可得4的置信度为1-a的单侧置信下限为x-t2(n-1) 由所得数据计算,有x=1160,s=9957,n=5,a=005.查表得o05(4)=214 所以的置信度为9%的置信下限为-1(m-1)=106456也就是说,该批灯泡一平均 寿命至少在1064.56h以上,可靠程度为95% 例6假设总体X~N(A,a2),从总体X中抽取容量为10的一个样本,算得样本均值 x=41.3,样本标准差S=1.05,求未知参数的置信水平为0.95的单侧置信区间的下限 解由题设知~1(m-1,即~9令以 X 10s(9)}=095, 故置信水平为0.95的单侧置信区间下限为413~105×1.3831=4084 课堂练习 1.为考虑某种香烟的尼古丁含量以mg计),抽取了8支香烟并测得尼古丁的平均含量 为x=0.26.设该香烟尼古丁含量X~N(123).试求的单侧置信上限,置信度为0.95
于是 0.50, p1 = 0.69, p2 = 故得 p 的一个置信水平为 0.95 的近似置信区间为 (0.50,0.69). 单侧置信区间 例 5 (E03) 从一批灯泡中随机地抽取 5 只作寿命试验, 其寿命如下(单位:h) 1 050 1 100 1 120 1 250 1 280 已知这批灯泡寿命 ~ ( , ), 2 X N 求平均寿命 的置信度为 95%的单侧置信下限. 解 ~ ( 1), / − − = t n S n X T 对于给定的置信度 1−, 有 ( 1) 1 , / = − − − t n S n X P 即 ( 1) 1 , = − − − n S P X t n 可得 的置信度为 1− 的单侧置信下限为 ( 1) , n S X − t n − 由所得数据计算, 有 x =1160, s = 99.57, n = 5, = 0.05. 查表得 (4) 2.14, t0.05 = 所以 的置信度为 95%的置信下限为 − ( −1) =1064.56, n s x t n 也就是说, 该批灯泡一平均 寿命至少在 1064.56h 以上, 可靠程度为 95%. 例 6 假设总体 ~ ( , ), 2 X N 从总体 X 中抽取容量为 10 的一个样本, 算得样本均值 x = 41.3, 样本标准差 S =1.05 , 求未知参数 的置信水平为 0.95 的单侧置信区间的下限. 解 由题设知 ~ ( 1), / − − t n S n X 即 ~ (9), / 10 t S X − 令 (9) 1 0.95, / 10 = − = − t S X P 即 (9) 0.95, 10 0.0.5 = − t S P X 故 置信水平为 0.95 的单侧置信区间下限为 1.3831 40.84. 10 1.05 41.3 − = 课堂练习 1. 为考虑某种香烟的尼古丁含量(以 mg 计), 抽取了 8 支香烟并测得尼古丁的平均含量 为 x = 0.26. 设该香烟尼古丁含量 X ~ N(,2.3). 试求 的单侧置信上限, 置信度为 0.95