第六章参数估计 本章主要讲述点估计(矩法估计,极大似然估计):估计量的评价准则(无 偏性,最小方差性和有效性,其它几个准则):区间估计(区间估计的一般步骤, 内容单个正态总体参数的区间估计,双正态总体参数的区间估计,非正态总体参数的 提要区间估计)等内容 1、理解点估计的概念,掌握矩估计法(一阶、二阶)。了解极大似然估计法 2、了解估计量的评选标准(无偏性、有效性、一致性)。 重点3、理解区间估计的概念,会求单个正态总体的均值与方差的置信区间,会求两 分析 正态总体的均值差与方差比的置信区间 1、矩法估计,极大似然估计。 难点2、估计量的评价准则。 分析3、正态总体参数的区间估计 习题习题6(2461035,.9119226 布置 备注
第六章 参数估计 内容 提要 本章主要讲述点估计(矩法估计,极大似然估计);估计量的评价准则(无 偏性,最小方差性和有效性,其它几个准则);区间估计(区间估计的一般步骤, 单个正态总体参数的区间估计,双正态总体参数的区间估计,非正态总体参数的 区间估计)等内容. 重点 分析 1、理解点估计的概念,掌握矩估计法(一阶、二阶)。了解极大似然估计法。 2、了解估计量的评选标准(无偏性、有效性、一致性)。 3、理解区间估计的概念,会求单个正态总体的均值与方差的置信区间,会求两个 正态总体的均值差与方差比的置信区间。 难点 分析 1、 矩法估计,极大似然估计。 2、 估计量的评价准则。 3、 正态总体参数的区间估计。 习题 布置 习题 6 (2,4,6(1)(3)(5),9,11,18,22,24,26) 备注
教学内容( Contents) Chapter six参数估计( Parameter estimation) §6.1点估计( Point estimation) 矩估计法( Square Estimation) 如上所述,例5.4中我们所做的对该地区农户的平均收入水平和贫富悬殊程度做出推断 这一工作,用数理统计的话说,实质上是对总体X~N(2)的未知参数期望值与方差 值a2进行估计。我们当时是分别用样本均值X和样本方差S2来反映这两个量的,那么这样 做是否合理?直观来看这样做是合理的,从概率论的观点看也是合理的。事实上,若总体X的 期望存在,E(X)=,X1X2,…X是出自X的样本,则由柯尔莫哥洛夫强大数定律,以概 率为1地成立 X1= 而上式左边极限号内正是样本均值X,因此,我们常用X作为的估计值。不仅如此, 若X的k阶矩存在,EXk=a4,则同样由柯尔莫哥洛夫强大数定律得出 以概率为1成立。于是,同样可用样本阶原点矩A=∑X来近似a,这种用样本原点 矩去估计总体相应原点矩的方法,即是所谓的矩估计法。一般地,若总体的分布有m个参数 6,2…,Om,则显然,总体的k阶矩(k≤m)ak如果存在的话,必依赖这些参数, ak(6日2,…bn)k=1,2, 按照用样本矩近似真实矩的原则,可得方程 A1=a1(61,2,…n) (6.1) Amn=an(1,02,…n) 若上述关于B1,日2…n的方程组有唯一的解 (b1,b2,…,bm) 则称O是b1的矩估计量( Square Estimator)或矩估计。 Example6.1按矩估计的定义,无论总体是什么分布,k阶样本原点矩A均是它们相 应真实原点矩ak的矩估计量,只要真实矩存在。因当我们将ak视为未知参数时,A显然是 方程组(6.1)的唯一解。 Example6.2无论总体为什么分布,只要二阶矩存在,则样本方差S2为方差2的矩估 计量 Solution设X1,X2,…,Xn为一样本,我们有
67 教 学 内 容( Contents ) Chapter Six 参数估计(Parameter Estimation) §6.1 点估计(Point Estimation) 一、 矩估计法(Square Estimation) 如上所述,例 5.4 中我们所做的对该地区农户的平均收入水平和贫富悬殊程度做出推断 这一工作,用数理统计的话说,实质上是对总体 ~ ( , ) 2 X N 的未知参数期望值 与方差 值 2 进行估计。我们当时是分别用样本均值 X 和样本方差 2 S 来反映这两个量的,那么这样 做是否合理?直观来看这样做是合理的,从概率论的观点看也是合理的。事实上,若总体 X 的 期望存在, E X X X Xn ( ) , , , , = 1 2 是出自 X 的样本,则由柯尔莫哥洛夫强大数定律,以概 率为1地成立 = → = n i i n X n 1 1 lim 而上式左边极限号内正是样本均值 X ,因此,我们常用 X 作为 的估计值。不仅如此, 若 X 的 k 阶矩存在, k k EX = a ,则同样由柯尔莫哥洛夫强大数定律得出 = = n i k k Xi a n 1 1 lim 以概率为1成立。于是,同样可用样本 k 阶原点矩 = = n i k k Xi n A 1 1 来近似 k a ,这种用样本原点 矩去估计总体相应原点矩的方法,即是所谓的矩估计法。一般地,若总体的分布有 m 个参数 m , , , 1 2 ,则显然,总体的 k 阶矩( k m ) k a 如果存在的话,必依赖这些参数,即 ak = ak (1 , 2 , m ), k =1,2, ,m 按照用样本矩近似真实矩的原则,可得方程 = = ( , , , ) ( , , , ) 1 2 1 1 1 2 m m m m A a A a (6.1) 若上述关于 m , , , 1 2 的方程组有唯一的解 ( 1 , 2 , , m ) = 则称 i ˆ 是 i 的矩估计量(Square Estimator)或矩估计。 Example 6.1 按矩估计的定义,无论总体是什么分布, k 阶样本原点矩 Ak 均是它们相 应真实原点矩 k a 的矩估计量,只要真实矩存在。因当我们将 k a 视为未知参数时, Ak 显然是 方程组(6.1)的唯一解。 Example 6.2 无论总体为什么分布,只要二阶矩存在,则样本方差 2 S 为方差 2 的矩估 计量。 Solution 设 X X Xn , , , 1 2 为一样本,我们有
a=∑x,=X 故 a2-a (X1-X)2 记为G2=S2.第三步等号再一次用到习题5.4 需要估计的参数也可以不是总体的数字特征 Example6.3设x为[1O21上的均匀分布,X1X2,…,xn为样本,求B1O2的矩估 计 Solution xdx02-62 02-612(62-1) ,+6 x 62- dx=,(2-61)2 今 X=(O1+B2) (2-61) 解上述关于B1,O2的方程得 O1=X-3 02=X+√3S Example6.4贝努利试验中,事件A发生的频率是该事件发生概率的矩法估计。 Solution此处,实际上我们视总体X为“唱票随机变量”,即X服从两点分布 1,若A发生,P(A)=p 0若A不发生 求参数p的矩法估计 设X1,X2,…,Xn为X的一个样本,若其中有n1个X等于1,则X 为事件A发生的频率,另一方面,显然 EX=P(A=p 故有p=X 应用中许多问题可归结为例6.4,如废品率的估计问题等。特别对固定的x,经验分布函 数Fn(x)也可在某种意义下看成是F(x)的矩估计因为我们在5.3.2节中讲过,Fn(x)是n次 试验中事件{X<x}发生的频率,而F(x)已知是{X<x}的概率。当然这一矩估计所涉及的 总体已不是原来的总体X,而是相应的“唱票随机变量
68 = = = = = n i i n i i X n a X X n a 1 2 2 1 1 1 1 故 = = = − = = − = − n i i n i i X X S n X X n a a 1 2 2 1 2 2 2 2 1 2 ( ) 1 1 记为 2 2 ˆ = S .第三步等号再一次用到习题 5.4. 需要估计的参数也可以不是总体的数字特征。 Example 6.3 设 X 为[ 1 2 , ]上的均匀分布, X X Xn , , , 1 2 为样本,求 1 2 , 的矩估 计。 Solution ( ) 2 1 2( ) 1 2 2 1 2 1 2 2 2 1 1 2 1 = + − − = − = xdx a = − + − − = 2 1 2 2 1 2 1 2 2 1 2 ( ) 12 1 2 1 x dx 令 = − = + ( ) 12 1 ( ) 2 1 2 1 2 1 2 S X 解上述关于 1 2 , 的方程得 = + = − X S X S 3 3 2 1 Example 6.4 贝努利试验中,事件 A 发生的频率是该事件发生概率的矩法估计。 Solution 此处,实际上我们视总体 X 为“唱票随机变量”,即 X 服从两点分布: = = 若 不发生 若 发生 A A P A p X 0, 1, , ( ) 求参数 p 的矩法估计。 设 X X Xn , , , 1 2 为 X 的一个样本,若其中有 1 n 个 Xi 等于 1,则 = = = n i i n n X n X 1 1 1 即 为事件 A 发生的频率,另一方面,显然 EX = P(A) = p 故有 p ˆ = X . 应用中许多问题可归结为例 6.4,如废品率的估计问题等。特别对固定的 x ,经验分布函 数 F (x) n 也可在某种意义下看成是 F(x) 的矩估计。因为我们在 5.3.2 节中讲过, F (x) n 是 n 次 试验中事件 {X x} 发生的频率,而 F(x) 已知是 {X x} 的概率。当然这一矩估计所涉及的 总体已不是原来的总体 X ,而是相应的“唱票随机变量
并非所有建立了方程组(6.1)的矩估计问题都能得到的解析表达式。 Example6.5设总体的密度函数为 f(x.B1,62)= 1+O.下x8e(-x2)x0 0,x≤0 10,X1,X2,…,Xn为此总体的样本。则可以算出 2+B1 1+1 3+61 6, 其中I()为伽( Gamma)函数,按矩估计原理分别用X,A2取代a1,a2,得到形如(6.1)的方 程组,但,62无法得到简单的解析表达式,只能求O1O2的数值解。(见习题6.20) 使用矩估计法的一个前提是总体存在适当阶的矩,阶数应不小于待估参数的个数(或者 说参数空间的维数),但这不总是可以做到的。 Example6.6柯西( Cauchy)分布设总体具有密度函数 f(x, 0) 00<X<0 r(1+(x-0)2) 显然,它的各阶矩皆不存在,因此,不能用矩估计法来估计参数θ.另外,尽管矩估计法简便易 行,且只要n充分大,估计的精确度也很高,但它只用到总体的数字特征的形式,而未用到总 体的具体分布形式,损失了一部分很有用的信息,因此,在很多场合下显得粗糙和过于一般 二、极大似然估计( Maximum likelihood estimation) 参数的点估计方法中另一个常用方法就是极大似然估计,简记为ME( Maximum Likelihood estimation)。从字面上来理解,就是通过对样本的考察,认为待估参数最象是 取什么值即作为对参数的估计,事实上,极大似然估计原理也大致如此。我们通过一个具体例 子来说明这一估计的思想。 Example6.7已知甲、乙两射手命中靶心的概率分别为0.9及0.4,今有一张靶纸上面 的弹着点表明为10枪6中,已知这张靶纸肯定是甲、乙之一射手所射,问究竞是谁所射? 从直观上看,甲的枪法属上乘,命中靶心率为0.9,看来这次射击成绩不至于这么差;而 乙的枪法又似乎尚不足以打出这么好的成绩,但二者取一,还是更象乙所射。我们来计算 下可能性。为此我们建立一个统计模型:设甲、乙射中与否分别服从参数为p1=09,p2=04 的两点分布,今有样本X13X2,…,X10,其中有6个观察值为1,4个为0,由此估计总体的 参数p是0.9,还是0.4.这里因为参数空间只有两个点:O=0.9,0.4},我们不妨分别计 算一下参数为什么的可能性大。若是甲所射,即参数p=0.9,则此事发生的概率为 L(P1)=P1(1-p1) (09)(0.1)4≈000005:若是乙所射,即参数p=0.4,则此 事发生的概率为L(p2)=P2(1-P2 =(04)°(0.6)4≈0.0005,尽管是乙所射的可 能也不大,但毕竟比是甲所射的概率大了10倍,因此,在参数空间只有两点的情况下,概率 L(p)的最大值在p=0.4处发生,故我们更情愿认为是乙所射,即用0.4作为p的估计 p=p2=0.4. 总之,极大似然估计的出发点是基于这样一个统计原理,在一次随机试验中,某一事件
69 并非所有建立了方程组(6.1)的矩估计问题都能得到 ˆ 的解析表达式。 Example 6.5 设总体的密度函数为 − + = 0, 0 exp( ), 0 1 ( , , ) 1 2 2 1 2 1 2 x x x x f x 1 , 0, − 1 2 X X Xn , , , 1 2 为此总体的样本。则可以算出 + + = 2 1 2 1 1 2 1 a + + = 2 1 2 1 2 3 1 a 其中 (z) 为伽(Gamma)函数,按矩估计原理分别用 2 X, A 取代 1 2 a ,a ,得到形如(6.1)的方 程组,但 1 2 , 无法得到简单的解析表达式,只能求 1 2 ˆ , ˆ 的数值解。(见习题 6.20) 使用矩估计法的一个前提是总体存在适当阶的矩,阶数应不小于待估参数的个数(或者 说参数空间的维数),但这不总是可以做到的。 Example 6.6 柯西(Cauchy)分布 设总体具有密度函数 − + − = x x f x , (1 ( ) ) 1 ( , ) 2 显然,它的各阶矩皆不存在,因此,不能用矩估计法来估计参数 .另外,尽管矩估计法简便易 行,且只要 n 充分大,估计的精确度也很高,但它只用到总体的数字特征的形式,而未用到总 体的具体分布形式,损失了一部分很有用的信息,因此,在很多场合下显得粗糙和过于一般。 二、 极大似然估计(Maximum Likelihood Estimation) 参数的点估计方法中另一个常用方法就是极大似然估计,简记为 MLE (Maximum Likelihood Estimation)。从字面上来理解,就是通过对样本的考察,认为待估参数最象是 取什么值即作为对参数的估计,事实上,极大似然估计原理也大致如此。我们通过一个具体例 子来说明这一估计的思想。 Example 6.7 已知甲、乙两射手命中靶心的概率分别为 0.9 及 0.4,今有一张靶纸上面 的弹着点表明为 10 枪 6 中,已知这张靶纸肯定是甲、乙之一射手所射,问究竟是谁所射? 从直观上看,甲的枪法属上乘,命中靶心率为 0.9,看来这次射击成绩不至于这么差;而 乙的枪法又似乎尚不足以打出这么好的成绩,但二者取一,还是更象乙所射。我们来计算一 下可能性。为此,我们建立一个统计模型:设甲、乙射中与否分别服从参数为 p1 = 0.9, p2 = 0.4 的两点分布,今有样本 1 2 10 X , X , , X ,其中有 6 个观察值为 1,4 个为 0,由此估计总体的 参数 p 是 0.9,还是 0.4.这里因为参数空间只有两个点: ={0.9,0.4},我们不妨分别计 算一下参数为什么的可能性大。若是甲所射,即参数 p =0.9,则此事发生的概率为 ( ) (1 ) (0.9) (0.1) 0.00005 6 4 10 1 1 1 1 0 1 1 0 1 = − = = = − i i i Xi X L p p p ;若是乙所射,即参数 p =0.4,则此 事发生的概率为 ( ) (1 ) (0.4) (0.6) 0.0005 6 4 10 2 2 2 1 0 1 1 0 1 = − = = = − i i i Xi X L p p p ,尽管是乙所射的可 能也不大,但毕竟比是甲所射的概率大了 10 倍,因此,在参数空间只有两点的情况下,概率 L( p) 的最大值在 p =0.4 处发生,故我们更情愿认为是乙所射,即用 0.4 作为 p 的估计: p ˆ = 2 p =0.4. 总之,极大似然估计的出发点是基于这样一个统计原理,在一次随机试验中,某一事件
已经发生,比如已经得到某个具体的样本X1,X2,…,Xn,则必然认为发生该事件的概率最大 从例6.7我们可以看出,极大似然估计的做法,关键有两步:第一步写出某样本 X1,X2,…,Xn出现概率的表达式L(O),对于离散型总体X,设它的分布列为 p(k;O),i=1,2,…,则上述样本出现的概率为 L()=p(X;) 对于固定的样本,L(O)是参数O的函数,我们称之为似然函数 Likelihood Function)。第二步 则是求O∈O(⊙是参空间),使得L(O)达到最大,此0即为所求的参数O的极大似然估计。 这里还需要着重强调几点 a)当总体X是连续型随机变量时,谈所谓样本X1,X2…,Xn出现的概率是没有什么 意义的,因为任何一个具体样本的出现都是零概率事件。这时我们就考虑样本在它任意小的 邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大。因此在连续型总体 的情况下,我们用样本的密度函数作为似然函数 L(0)=∏f(x:0) b)为了计算方便,我们常对似然函数L()取对数,并称hL()为对数似然函数 ( Logarithm likelihood function)。易知,L(O)与hL()在同一θ处达到极大,因此,这样做 不会改变极大点。 c)在例6.7中参数空间只有两点,我们可以用穷举法求出在哪一点上达到最大,但在 大多数情形中,⊙包含m维欧氏空间的一个区域,因此,必须采用求极值的办法,即对对数似 然函数关于,求导,再令之为0,即得 an(e) =0.6=(61,62,…,bn)i=1,2, (6.2) 我们称(6.2)为似然方程(组)( Likelihood equation( group)。解上述方程,即得到O1的 Mle, i=12 Example6.8设X1X2…,xn是N(o2)的样本,求与a2的ME Solution我们有 L(,G2) (2x)(2)2 ∑(X,-)2 In L(uo2)=_ In 2I-Ino ol4a)=∑x2-m)=0 an L(u,o n 1 X1-4)2=0 2c 解似然方程组,即得
70 已经发生,比如已经得到某个具体的样本 X X Xn , , , 1 2 ,则必然认为发生该事件的概率最大。 从例 6.7 我们可以看出,极大似然估计的做法,关键有两步:第一步写出某样本 X X Xn , , , 1 2 出 现 概 率 的 表 达 式 L( ) ,对于离散型总体 X , 设 它 的 分 布 列为 p(k ; ),i =1,2, , i 则上述样本出现的概率为 = = n i L p Xi 1 ( ) ( ; ) 对于固定的样本, L( ) 是参数 的函数,我们称之为似然函数(Likelihood Function)。第二步 则是求 ˆ ( 是参空间),使得 L( ) 达到最大,此 ˆ 即为所求的参数 的极大似然估计。 这里还需要着重强调几点: a) 当总体 X 是连续型随机变量时,谈所谓样本 X X Xn , , , 1 2 出现的概率是没有什么 意义的,因为任何一个具体样本的出现都是零概率事件。这时我们就考虑样本在它任意小的 邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大。因此在连续型总体 的情况下,我们用样本的密度函数作为似然函数。 = = n i Xi L f 1 ( ) ( ; ) b) 为了计算方便,我们常对似然函数 L( ) 取对数,并称 ln L( ) 为对数似然函数 (Logarithm likelihood function)。易知, L( ) 与 ln L( ) 在同一 ˆ 处达到极大,因此,这样做 不会改变极大点。 c) 在例 6.7 中参数空间只有两点,我们可以用穷举法求出在哪一点上达到最大,但在 大多数情形中, 包含m维欧氏空间的一个区域,因此,必须采用求极值的办法,即对对数似 然函数关于 i 求导,再令之为 0,即得 0, ( , , , ) ln ( ) 1 2 m i L = = i = 1,2, ,m (6.2) 我们称(6.2)为似然方程(组)(Likelihood equation (group)) 。解上述方程,即得到 i 的 MLE ,i = 1,2, ,m. Example 6.8 设 X X Xn , , , 1 2 是 ( , ) 2 N 的样本,求 与 2 的 MLE . Solution 我们有 2 1 2 2 2 2 1 2 2 2 ( ) ln 2 ln 2 2 ln ( , ) 2 ( ) exp (2 ) ( ) 1 ( , ) 2 2 = = − = − − − − = − n i i n i i X n n L X L n n = − + − = = − = = = n i i n i i X L n X L 1 2 2 2 4 2 1 2 2 ( ) 0 2 1 2 ln ( , ) ( ) 0 ln ( , ) 1 解似然方程组,即得
X=X 1(x,-X)2 看来,对于正态分布总体来说,μ,σ2的矩估计与MLE是相同的。矩估计与MLE相 同的情形还有很多,如例6.4的问题中,容易验证,事件A发生的频率也是其概率P(A)的M LE.我们有更进一步的例子。 Example6.9设有k个事件A1,A2,…,Ak两两互斥,其概率P1,P2…P4之和为1.做n 次重复独立试验,则各事件发生的频率为各相应概率的MLE.事实上,设样本X1,X2…,X 记录了每次试验中所发生的事件,以n1表示n次试验中事件A(=1,2,…,k)发生的次数, 此样本出现的概率(似然函数)为 L(P) P P 于是 hL(p)=∑nhP+nl(1-∑p) 得似然方程 ahL(P)="-n="-n=0 P pi pk P 即 h,Pk=PPk,j=1,2,…k-1 将上述k-1个等式相加,注意到∑n=n∑P1=1及 (n-nkp=n(1-Pr 得到 pk 右边即为事件A4发生的频率,显然事件A4与其它事件A,地位是相同的,故类似可得到 需注意到,并非每个MLE问题都可通过解似然方程得到,如 Example6.10同例6.3,求均匀分布U[1,O2]中参数B1,O2的ME 先写出似然函数 L(a,2)={02 若61≤x≤Xm≤B2 (6.3) 其他 本例似然函数不连续,不能用似然方程求解的方法,只有回到极大似然估计的原始定义 由式(6.3),注意到最大值只能发生在
71 = = = − = = = n i i n i i X X S n X X n 1 2 2 2 1 ) ˆ ( 1 ˆ 1 看来,对于正态分布总体来说, , 2 的矩估计与MLE是相同的。矩估计与MLE相 同的情形还有很多,如例 6.4 的问题中,容易验证,事件A发生的频率也是其概率 P(A) 的M LE.我们有更进一步的例子。 Example 6.9 设有 k 个事件 A A Ak , , , 1 2 两两互斥,其概率 p p pk , , , 1 2 之和为1.做 n 次重复独立试验,则各事件发生的频率为各相应概率的MLE.事实上,设样本 X X Xn , , , 1 2 记录了每次试验中所发生的事件,以 i n 表示 n 次试验中事件 A (i 1,2, ,k) i = 发生的次数,则 此样本出现的概率(似然函数)为 k i n k i i k i n L p pi p − = − = − = 1 1 1 1 ( ) 1 于是 ln ( ) ln ln(1 ) 1 1 1 1 − = − = = + − k i k i k i L p ni pi n p 得似然方程 0 1 ln ( ) 1 1 = − = − = − − = k k j j k i i k j j j p n p n p n p n p L p 即 n j pk = p jnk , j = 1,2, , k −1 将上述 k −1 个等式相加,注意到 , 1 1 1 = = = = k i i k i ni n p 及 ( ) (1 ) n − nk pk = nk − pk 得到 n n p k ˆ k = 右边即为事件 Ak 发生的频率,显然事件 Ak 与其它事件 Aj 地位是相同的,故类似可得到 ˆ = , j = 1,2, , k −1 n n p j j 需注意到,并非每个 MLE 问题都可通过解似然方程得到,如 Example 6.10 同例 6.3,求均匀分布 [ , ] U 1 2 中参数 1 2 , 的 MLE . 先写出似然函数 − = 其他 若 0, , 1 ( , ) 1 (1) ( ) 2 2 1 1 2 n n X X L (6.3) 本例似然函数不连续,不能用似然方程求解的方法,只有回到极大似然估计的原始定义, 由式(6.3),注意到最大值只能发生在
6≤Xa≤X(m)≤62 (6.4) 时:而欲L(XO1,O2)最大,只有使O2-1最小,即使62尽可能小,日1尽可能大,但在式(6.4) 的约束下,只能取61=X,2=X(m 和矩估计的情形一样,有时虽能给出似然方程,也可以证明它有解,但得不到解的解析 表达式 Example6.11同例6.6,求柯西分布中b的ME.我们可得似然方程为 aIn l(e) 2(X1-6) 0 1+(X1-6) 这个方程只能求数值解。 §6.2估计量的评价准则( Evaluation rule of estimator) 对于同一参数,用不同方法来估计,结果是不一样的。如例6.3与例6.10就表明了对于 均匀分布U[O1,O2],参数的,O2的矩估计与极大似然估计是不一样的,甚至用同一方法也可 能得到不同的统计量。 Example6.12设总体X服从参数为A的泊松分布,即 PIX=k ,k=0,1,2, 则易知E(X)=,D(X)=λ,分别用样本均值和样本方差取代E(X)和D(X),于是得到 λ的两个矩估计量A1=x,2=S2 既然估计的结果往往不是唯一的,那么究竟孰优孰劣?这里首先就有一个标准的问题。 无偏性( Unbiased) Definition6.1设b=6(1X2,…,Xn)是O的一个估计量,若对任意的b∈,都有 E0()=,则称是的无偏估计量( Unbiased estimator),如果 im(E6(X12X2,…,Xn)-6)mbn()=0 则称θ是的渐近无偏估计量( Approximation unbiased estimator),其中bn()称为是6 的偏差(afet)。( Suppose 8=(X1,X2…,Xn) is 6 estimator, if for any 8∈白 there is Eo(0)=6, then 8 is called a unbiased estimator of 6; i m(EB(X1,X2,…,Xn)-6)△mnbn()=0 8 is called asymptotically unbiased estimator of 0, where b,(0) is called affect of 0.) 无偏性反映了估计量的取值在真值θ周围摆动,显然,我们希望一个量具有无偏性 Example6.13X是总体期望值E(X)=p的无偏估计,因为 E(X) x|=∑E(x)=mH=H Example6.14S2不是总体方差D(X)=a2的无偏估计,因为注意到 DX)=D∑X) ∑ D(X,)
72 1 X(1) X(n) 2 (6.4) 时;而欲 ( ; , ) L X 1 2 最大,只有使 2 −1 最小,即使 2 ˆ 尽可能小, 1 ˆ 尽可能大,但在式(6.4) 的约束下,只能取 1 ˆ = X(1) , 2 ˆ = X (n) . 和矩估计的情形一样,有时虽能给出似然方程,也可以证明它有解,但得不到解的解析 表达式。 Example 6.11 同例 6.6,求柯西分布中 的 MLE .我们可得似然方程为 0 1 ( ) ln ( ) 2( ) 1 2 = + − − = − = n i i i X L X 这个方程只能求数值解。 §6.2 估计量的评价准则(Evaluation Rule of Estimator) 对于同一参数,用不同方法来估计,结果是不一样的。如例 6.3 与例 6.10 就表明了对于 均匀分布U[ 1 2 , ],参数 1 2 , 的矩估计与极大似然估计是不一样的,甚至用同一方法也可 能得到不同的统计量。 Example 6.12 设总体 X 服从参数为 的泊松分布,即 , 0,1,2, ! { = } = = − k k P X k e k 则易知 E(X ) = ,D(X ) = ,分别用样本均值和样本方差取代 E(X ) 和 D(X ) ,于是得到 的两个矩估计量 2 1 2 ˆ , ˆ = X = S . 既然估计的结果往往不是唯一的,那么究竟孰优孰劣?这里首先就有一个标准的问题。 一、无偏性(Unbiased) Definition 6.1 设 ˆ = ( , , , ) ˆ X1 X2 Xn 是 的一个估计量,若对任意的 ,都有 ) = ˆ E ( ,则称 ˆ 是 的无偏估计量(Unbiased estimator),如果 lim ( ( 1 , 2 , , ) − )lim ( ) = 0 → → n n n n E X X X b 则称 ˆ 是 的渐近无偏估计量(Approximation unbiased estimator),其中 ( ) bn 称为是 ˆ 的偏差(affect)。(Suppose ˆ = ( , , , ) ˆ X1 X2 Xn is a estimator, if for any there is ) = ˆ E ( , then ˆ is called a unbiased estimator of ; if lim ( ( 1 , 2 , , ) − )lim ( ) = 0 → → n n n n E X X X b ˆ is called asymptotically unbiased estimator of ,where ( ) bn is called affect of ˆ .) 无偏性反映了估计量的取值在真值 周围摆动,显然,我们希望一个量具有无偏性。 Example 6.13 X 是总体期望值 E(X ) = 的无偏估计,因为 = = = = = = n n E X n X n E X E n i i n i i 1 ( ) 1 1 ( ) 1 1 Example 6.14 2 S 不是总体方差 2 D(X) = 的 无 偏 估 计 , 因 为 注 意 到 n n n D X n X n D X D n i i n i i 2 2 2 1 2 1 1 ( ) 1 ) 1 ( ) ( = = = = = = .故
E(S)= x)|=1s(x-m3-(x-03 D(X,)-D(X) n 但 因此S2是渐近无偏估计。在S2的基础上,我们适当加以修正可以得到一个a2的无偏估计 这个估计量也和样本方差一样是经常被采用的 ∑(X,-X) n-lisl 由此例也可以看出,例6.12中关于A的两个矩估计量中,λ1是无偏的,E(41)=A;而A2是 有偏的,E(2) n-1 我们在第五章曾经说过,对估计量的优劣的评价,一般是站在概率论的基点上,在实际 应用问题中,含有多次反复使用此方法效果如何的意思。对于无偏性,也同样是这样,即是 在实际应用问题中若使用这一估计量算出多个估计值,则它们的平均值可以接近于被估参数 的真值。这一点有时是有实际意义的,如某一厂商长期向某一销售商提供一种产品,在对产 品的检验方法上,双方同意采用抽样以后对次品进行估计的办法。如果这种估计是无偏的 那么双方都理应能够接受。比如这一次估计次品率偏高,厂商吃亏了,但下一次估计可能偏 低,厂商的损失可以补回来,由于双方的交往是长期多次的,采用无偏估计,总的来说是互 不吃亏。然而不幸的是,无偏性有时并无多大的实际意义。这里有两种情况,一种情况是在 类实际问题中没有多次抽样,比如前面的例子中,厂商和销售商没有长期合作关系,纯属 次性的商业行为,双方谁也吃亏不起,这就没有什么“平均”可言。另一种情况是被估计 的量实际上是不能相互补偿的,因此“平均”没有实际意义,例如通过试验对某型号几批导 弹的系统误差分别做出估计,既使这一估计是无偏的,但如果这一批导弹的系统误差实际估 计偏左,下一批导弹则估计偏右,结果两批导弹在使用时都不能命中预定目标,这里不存在 偏左”与“偏右”相互抵消或“平均命中”的问题。 我们还可以举出数理统计本身的例子来说明无偏性的局限。 Example6.15设X服从参数为的泊松分布,x1,x2,…,Xn为X的样本,用(-2) 作为e的估计,则此估计是无偏的。因为 E(-2)2]=e∑(-2)=ee2=e3 但当X1取奇数时,(-2)0的估计是不能令人接受的。为此我们 还需要有别的标准 二、最小方差性和有效性 Minimum variance and efficiency) 前面已经说过,无偏估计量只说明估计量的取值在真值周围摆动,但这个“周围”究竞 有多大?我们自然希望摆动范围越小越好,即估计量的取值的集中程度要尽可能的高,这在 统计上就引出最小方差无偏估计的概念 Definition(6.2对于固定的样本容量n,设T=T(X12X2,…,xn)是参数函数g(6)的 无偏估计量,若对g(0)的任一个无偏估计量T=T(X1X2,…,Xn)有
73 = − − − = − = = n i i n i i X X n X X E n E S E 1 2 2 1 2 2 ( ) ( ) 1 ( ) 1 ( ) 2 2 2 1 1 1 ( ) ( ) 1 n n n n n D X D X n n i i − = − = − = = 但 1 2 2 lim = − → n n n 因此 2 S 是渐近无偏估计。在 2 S 的基础上,我们适当加以修正可以得到一个 2 的无偏估计, 这个估计量也和样本方差一样是经常被采用的: = − − = − = n i Xi X n S n n S 1 2 2 2 * ( ) 1 1 1 由此例也可以看出,例6.12中关于 的两个矩估计量中, 1 ˆ 是无偏的, E( ˆ 1 ) = ;而 2 ˆ 是 有偏的, n n E 1 ) ˆ ( 2 − = . 我们在第五章曾经说过,对估计量的优劣的评价,一般是站在概率论的基点上,在实际 应用问题中,含有多次反复使用此方法效果如何的意思。对于无偏性,也同样是这样,即是 在实际应用问题中若使用这一估计量算出多个估计值,则它们的平均值可以接近于被估参数 的真值。这一点有时是有实际意义的,如某一厂商长期向某一销售商提供一种产品,在对产 品的检验方法上,双方同意采用抽样以后对次品进行估计的办法。如果这种估计是无偏的, 那么双方都理应能够接受。比如这一次估计次品率偏高,厂商吃亏了,但下一次估计可能偏 低,厂商的损失可以补回来,由于双方的交往是长期多次的,采用无偏估计,总的来说是互 不吃亏。然而不幸的是,无偏性有时并无多大的实际意义。这里有两种情况,一种情况是在 一类实际问题中没有多次抽样,比如前面的例子中,厂商和销售商没有长期合作关系,纯属 一次性的商业行为,双方谁也吃亏不起,这就没有什么“平均”可言。另一种情况是被估计 的量实际上是不能相互补偿的,因此“平均”没有实际意义,例如通过试验对某型号几批导 弹的系统误差分别做出估计,既使这一估计是无偏的,但如果这一批导弹的系统误差实际估 计偏左,下一批导弹则估计偏右,结果两批导弹在使用时都不能命中预定目标,这里不存在 “偏左”与“偏右”相互抵消或“平均命中”的问题。 我们还可以举出数理统计本身的例子来说明无偏性的局限。 Example 6.15 设 X 服从参数为 的泊松分布, X X Xn , , , 1 2 为 X 的样本,用 1 ( 2) X − 作为 −3 e 的估计,则此估计是无偏的。因为 2 3 0 ! [( 2) ] ( 2) 1 − − − = − − = − = e e = e k E e k k X k 但当 X1 取奇数时, 1 ( 2) X − <0,显然用它作为 −3 e >0的估计是不能令人接受的。为此我们 还需要有别的标准。 二、 最小方差性和有效性(Minimum Variance and efficiency) 前面已经说过,无偏估计量只说明估计量的取值在真值周围摆动,但这个“周围”究竟 有多大?我们自然希望摆动范围越小越好,即估计量的取值的集中程度要尽可能的高,这在 统计上就引出最小方差无偏估计的概念。 Definition 6.2 对于固定的样本容量 n ,设 T = T ( X X Xn , , , 1 2 )是参数函数 g( ) 的 无偏估计量,若对 g( ) 的任一个无偏估计量 T = T ( X X Xn , , , 1 2 )有
D(T)≤D(T),对一切∈e 则称T(X1,X2…,Xn)为g(0)的(一致)最小方差无偏估计量,简记为UMⅴUE ( Uniformly Minimum Variance Unbiased Estimation)或者称为最优无偏估计量。(For ple capacity n, let T=T(XI,X2,,Xn) is a unbiased estimator of parameter function g(), if for any unbiased estimator of g 0)T=T(X, X2, . Xn), such that D2(D)≤D(T), for all e∈ then call T(Xn,x2, . ,Xn) is a Uniformly Minimum Variance Unbiased Estimation of g(0), is abbreviated for UMVUE) 从定义上看,要直接验证某个估计量是参数函数g(O)的最优无偏估计是有困难的。但对 于很大一类分布和估计来说,我们从另一个角度来研究这一问题。考虑g()的一切无偏估计 U,如果能求出这一类里无偏估计中方差的一个下界(下界显然存在的,至少可以取0,而 又能证明某个估计T∈U能达到这一下界,则T当然就是一 UMVUE.我们来求一下这个 下界。下面不妨考虑总体为连续型的。(对于离散型的,只须做一点相应的改动即可),简 记统计量T=T(X,x2…,Xn)为T(X),样本X1,X2,…,Xn的分布密度∏f(x:0)为 f(xO):积分小…j…,为J女,又假设在以下计算中,所有需要求导和在积分号下求 导的场合都具有相应的可行性。今考虑g(O)的一个无偏估计T(X),即有 T(x)f(; 0)cx= EeT=g(8 两边对b求导 af(x: 8) dx=8(0) 又 f(r; 0)dx 上式两边对b求导 af(r; e)d (6.6) 式(6.5)加上式(6.6)乘以-g(0) j7(-go)9(d=g(o) 上式改写成 g(O)=trx)-g(O)小(x0) √(xO)oxa f(x,6)6 用柯西一许瓦尔兹( Cauchy- Schwarz)不等式,即得 k(sgoo(92.1)x(67 其中 [T(x)-g(6)f(x;6)dx=D( (6.8) a(x;6)1 f(x; 0)dx= Ee aIn f(x 8 (6.9) a0 f(x; 0) 由式(6.7)一式(6.9)即得著名的克拉美一劳( Cramer-Rao)不等式(简称C一R不等式)
74 D (T) D (T'),对一切 则称 T ( X X Xn , , , 1 2 )为 g( ) 的(一致)最小方差无偏估计量,简记为UMVUE (Uniformly Minimum Variance Unbiased Estimation) 或者称为最优无偏估计量。(For stationary sample capacity n,let T = T ( X X Xn , , , 1 2 )is a unbiased estimator of parameter function g( ),if for any unbiased estimator of g( ) T = T ( X X Xn , , , 1 2 ),such that D T D T ( ) ( '), for all then call T ( X X Xn , , , 1 2 )is a Uniformly Minimum Variance Unbiased Estimation of g( ),is abbreviated for UMVUE.) 从定义上看,要直接验证某个估计量是参数函数 g( ) 的最优无偏估计是有困难的。但对 于很大一类分布和估计来说,我们从另一个角度来研究这一问题。考虑 g( ) 的一切无偏估计 U ,如果能求出这一类里无偏估计中方差的一个下界(下界显然存在的,至少可以取0,而 又能证明某个估计 T U 能达到这一下界,则 T 当然就是一UMVUE.我们来求一下这个 下界。下面不妨考虑总体为连续型的。(对于离散型的,只须做一点相应的改动即可),简 记统计量 T = T ( X X Xn , , , 1 2 )为 T(X ) ,样本 X X Xn , , , 1 2 的分布密度 = n i i f x 1 ( ; ) 为 f (x; ) ;积分 dx1 dxn 为 dx .又假设在以下计算中,所有需要求导和在积分号下求 导的场合都具有相应的可行性。今考虑 g( ) 的一个无偏估计 T(X ) ,即有 ( ) ( ; ) ( ) T x f x dx = ET = g 两边对 求导 = '( ) ( ; ) ( ) dx g f x T x (6.5) 又 f (x; )dx = 1 上式两边对 求导 0 ( ; ) = f x dx (6.6) 式(6.5)加上式(6.6)乘以- g( ) '( ) ( ; ) [ ( ) ( )] dx g f x T x g = − 上式改写成 dx f x f x f x g T x g f x = − ( ; ) ( ; ) ( ; ) '( ) {[ ( ) ( )] ( ; )} 用柯西一许瓦尔兹(Cauchy-Schwarz)不等式,即得 [g'( )] [T(x) g( )] f (x; )dx 2 2 − f x dx f x f x ( ; ) ( ; ) ( ; ) 1 2 (6.7) 其中 [ ( ) ( )] ( ; ) ( ) 2 T x − g f x dx = D T (6.8) 2 2 ln ( ; ) ( ; ) ( ; ) ( ; ) 1 = f x f x dx E f x f x (6.9) 由式(6.7)--式(6.9)即得著名的克拉美--劳(Cramer-Rao)不等式(简称C--R不等式):
Do(T(X)2[8(O/Eoin/(; 0)) 6 注意到X1,X2,…,Xn独立同分布,则由 aIn f(x:6)、ohf(x:6) 06 以及当i≠j时,利用式(6.6) aInf(X,: 0)(aInf(X: 0) 06 E aIn f(X e)r(ahf(X: 0) 06 E Inf(X,; 0)ran f(xj 0) f(x 0)dx 06 E aIn f(X: 0)rdf(x;;e ax.=0 06 可得 hn f(x: 0) E an f(X: 0) =n/Ohn/(i: 0))2 06 n/(6) 其中f(O)=E0( ah f(X: 6) )2称为费歇( Fisher)信息量( information quantity),于是式 (6.10)可简写成 o(T(X)≥[g(O)2/n(O) (6.11) 式(6.11)的右边称为参数函数g()估计量方差的C一R下界 ower limit)。还可以证明(O) 的另一表达式,它有时用起来更方便 (0)=-E/0h/(x:O) 06 [g'(e) Definition 6. 3 en D,(T(X))nl(0) 为g(O)的无偏估计量T的效率( efficiency)(显 然由C一R不等式,en≤1).又当T的效率等于1时,称T是有效( efficient)的;若imen=1, 则称T是渐近有效( asymptotically efficient的。( Call e, [g'(e)]2 is efficiency for D0(T(X)n() unbiased estimator T ofg(0)(obviously by C-Rinequality, e <1). When efficiency of Equal 1, call T is efficient; if lm en=l, then call T is asymptotically efficient. 显然,有效估计量必是最小方差无偏估计量,反过来则不一定正确,因为可能在某参数 函数的一切无偏估计中,找不到达到C-R下界的估计量。我们常用到的几种分布的参数估计 量多是有效或渐近有效的。从下面的例子,我们可以体会出验证有效性的一般步骤
75 2 2 ln ( ; ) ( ( )) [ '( )] f X D T X g E (6.10) 注意到 X X Xn , , , 1 2 独立同分布,则由 = = n i i f x f x 1 ln ( ; ) ln ( ; ) 以及当 i j 时,利用式(6.6) 0 ln ( ; ) ( ; ) ( ; ) ln ( ; ) ln ( ; ) ln ( ; ) ln ( ; ) ln ( ; ) ln ( ; ) = = = = j j i j j j i j i j i dx f X f x E f x dx f X f x E f X E f X E f X f X E 可得 ( ) ln ( ; ) ln ( ; ) ln ( ; ) 2 1 2 1 2 nI f X nE f X E f X E i n i = = = = 其中 I( ) = 1 2 ) ln ( ; ) ( f X E 称为费歇 (Fisher) 信息量(information quantity),于是式 (6.10)可简写成 ( ( )) [ '( )] ( ) 2 D T X g nI (6.11) 式(6.11)的右边称为参数函数 g( ) 估计量方差的C--R下界(lower limit)。还可以证明 I( ) 的另一表达式,它有时用起来更方便: = − 2 1 2 ln ( ; ) ( ) f X I E Definition 6.3 称 ( ( )) ( ) [ ( )]2 D T X nI g en = 为 g( ) 的无偏估计量 T 的效率(efficiency)(显 然由 C − R 不等式, en 1 ).又当 T 的效率等于1时,称 T 是有效(efficient)的;若 lim = 1 → n n e , 则称 T 是渐近有效(asymptotically efficient)的。(Call ( ( )) ( ) [ ( )]2 D T X nI g en = is efficiency for unbiased estimator T of g( ) (obviously by C − R inequality,en 1 ).When efficiency of T equal1,call T is efficient;if lim = 1 → n n e ,then call T is asymptotically efficient.) 显然,有效估计量必是最小方差无偏估计量,反过来则不一定正确,因为可能在某参数 函数的一切无偏估计中,找不到达到 C − R 下界的估计量。我们常用到的几种分布的参数估计 量多是有效或渐近有效的。从下面的例子,我们可以体会出验证有效性的一般步骤