中国科学技术大学：《数理统计》课程教学资源（课件讲义）第七讲区间估计（一）置信区间.pdf_大学文库

Lec7:区间估计（一）：置信区间张伟平 2011年3月28日区间估计的基本概念一、参数的区间估计问题使用点估计(X)估计9()的缺点是：单从所给出的估计值上，无法看出它的精度有多大.当然你可以定义某种指标，如估计的均方误差之类去刻画它的精度，但也还是间接的.更直接的方法是指出了一个误差限d(X),而把估计写成(X)士d(X)的形式.这实际上就是一种区间估计，即估计g()的取值在(X)-d(X),(X)+d(X)】之内.将其一般化，给出区间估计的下列定义定义1设有一个参数分布族多={f(x,),0∈日}，g()是定义在参数空间日的一个已知函数，X=(X1,·,Xn)是从分布族中某总体f(x,)中抽取的样本，令g1(X)和2(X)为定义在样本空间2上，取值在日上的两个统计量，且g1(X)≤2(X),则称随机区间[1(X),2(X)】为g(g)的一个区间估计(nterval estimation). 根据这个定义，从形式上看，任何一个满足条件1≤2的统计量1,2都可构成g()的一个区间估计[©1,2].既然一个未知参数的区间估计有很多种，如何从中挑选一个好的区间估计呢？这就涉及到评价一个区间估计优劣的标准问题.评价一个区间估计优劣的标准有两个要素：可靠性与精确度（也称精度）.可靠性是指待估参数g()被包含在[©1,2]内的可能性有多大.可能性越大，可靠性越高.精确度可由随机区间的平均长度来度量.长度越短，精确度越高不言而喻，我们希望所作的区间估计既有高的可靠性，又有高的精确度.但这二者往往是彼此矛盾的，不可能同时都很高.当样本大小固定时，若精确度提高了，可靠性就降低了：反之，若可靠度提高了，则精确度就降低了. 如何构造尽可能高的可靠性和高精确度的区间估计呢？通常采用的方法是在保证一定可靠度的前提下选择精确度尽可能高的区间估计.这就是著名统计学家Neyman提出的一种妥协方案当然，如果在应用中人们要求可靠性和精度都很高，则必须加大样本容量，也就是说要多做一些试验，才可能实现二、置信区间为书写简单计，本节以下假定被估计的g()就是9自身，这与一般情况没有原则区别

1.置信度设X为样本，[©1(X),2(X)】是9的一个区间估计.由于9是未知的，且样本是随机的，我们不能保证在任何情况下（即对任何具体的样本值），区间[©1,2]必定包含9，而只能以一定的概率保证它.希望随机区间1,2]包含0的概率P(01≤9≤02)越大越好.这个概率就是我们前面所说的可靠性，数理统计学上称这个概率为置信度.一般说来，这个概率与0有关，假如一个区间估计对某个81∈日其置信度大，而对另一个2∈日其置信度小，那么这种区间估计的适应性要差一些，不能认为是一个好的区间估计.若对参数空间日中的任一9，其置信度都很大，则此种区间估计就是一种好的区间估计.因此有如下定义定义2设随机区间©1,2]为参数0的一个区间估计，则称置信度在参数空间日上的下确界 inf Po(a1≤e≤2) 0∈e 为该区间估计的置信系数(Confidence coef伍cient) 显然，一个区间估计的置信度越大越好.为了计算置信度和置信系数，需要利用统计量的精确分布或渐近分布.可见抽样分布在评价和构造区间估计中发挥重要作用. 2.精确度精确度的概念我们在前面已说过.精确度的标准不止一个.这里介绍其中最常见的一个标准，即随机区间©1,2]的平均长度E(2-9).平均长度越短，精确度越高，这也是符合实际的一项要求.为说明精确度和置信度及其关系，请看下例，例1设样本X=(X1,·,Xn)来自正态总体N(4,σ2)，其中-00.4 和σ2的估计量分别是样本均值了和样本方差S2=点∑1（化：-X)2,我们用[区-kS引V元，X+ kS/√可作为总体均值μ的区间估计.考虑其置信度和精确度. 解上述区间估计的置信度为 P.(r-kS/V元≤4≤X+kS/Vm=P.(目V(R-)/Sl≤k) =P(IT≤k): 其中T=√元（了-）/S~tn-1,其分布与4无关，因而区间估计的置信系数为P(T|≤k).显然k 越大，区间的置信系数越大，区间就越可靠由于(n-1)S2/o2~X品-1，所以区间的平均长度为 lk=2kE(s)/V元= 2v2ko I(n/2) Vn(n-1)(n-1)/2) 显然，k越大，区间也越长，也就越不精确」由此例可以看到，在样本容量给定后，为了提高置信度，需要增加k值，从而放大了区间，降低了精确度.反过来，为了提高精确度，需要减小k值，从而缩短了区间，降低了置信度.置信度与精确度互相制约着.如前所述，面对这一矛盾，著名统计学家Neyman建议采取如下方案：在保证置信系数达到指定要求的前提下，尽可能提高精确度.这一建议导致引入如下置信区间的概念，由于是Neyman建议的，通常也称置信区间为Neyman置信区间， 2

≥1-(a1+a2) 引理得证，四、置信域以上讨论的置信区间和置信上、下限都是假定参数0是一维的，可以将其推广到参数9是k 维(k≥2)的情形，就得如下定义的置信域，定义5设有一个参数分布族多={f(x,),0∈日}，日是参数空间.其中0=(01，·，0x)∈ 日CRk,k≥2.X=(X1,·,Xn)是来自分布族中某总体f(z,)的样本.若S(X)满足 (①)对任一样本X,S(X)是日的一个子集： ()对给定的0<a<1,P(0∈S(X)≥1-a,一切0∈9：则称S(X)是9的置信水平为1-a的置信域(Confidence region)或置信集，而Pa(9∈S(X) 称为置信系数。在多维场合，置信域S(X)的形状可以是各种各样的，但实用上只限于一些规则的几何图形如其各面与坐标平面平行的长方体、球、椭球等.特别当置信集是长方体（其面与坐标平面平行)，则称其为联合置信区间五、构造区间估计的方法目前应用最广泛的区间估计的形式是Neyman的置信区间.本章第二节和第三节将介绍这一方法，这一方法的关键是基于点估计去构造枢轴变量，因此也称为枢轴变量法.另外一种构造区间估计的重要方法是利用假设检验构造置信区间，它与枢轴变量法同属于一个理论体系，即Neyman的关于置信区间和假设检验的理论.利用假设检验构造置信区间的方法将在下一章有专门的一节介绍. 本章的最后两节将介绍区间估计的其它两种方法，即Fser的信仰推断方法和容忍区间和容忍限。用Bayes方法求区间估计的内容将放在本书的最后一章介绍. 2 枢轴变量法一正态总体参数的置信区间一、引言这个方法的基本要点，就是在参数的点估计基础上，去找它的置信区间.由于点估计是由样本决定的，是最有可能接近真参数之值.因此，围绕点估计值的区间，包含真参数值的可能性也就要大一些.请看下面的例子，是如何构造置信区间的，例1设X=(X1,·,X)是从总体N(4,σ)中抽取的简单随机样本，此处σ2已知，求4 的置信系数为1-α的置信区间和置信上、下限. 4

中国科学技术大学：《数理统计》课程教学资源（课件讲义）第七讲 区间估计（一）置信区间

中国科学技术大学：《数理统计》课程教学资源（课件讲义）第七讲区间估计（一）置信区间