《概率论与数理统计》课程教学资源（电子教案）第七章参数估计.doc_大学文库

第七章参数佔计【授课对象】理工类本科二年级【授课时数】6学时【授课方法】课堂讲授与提问相结合【基本要求】1、理解参数估计的概念,熟练掌握点估计的矩估计法和极大似然估计法; 2、掌握估计量好坏的三个评选标准; 3、理解理解区间估计的概念,熟练掌握单个正态总体的均值和方差的置信区间; 知道两个正态总体的均值差和方差比的区间估计。【本章重点】参数估计的矩估计法和极大似然估计法;区间估计的概念【本章难点】估计的矩估计法和极大似然估计法;区间估计的概念【授课内容及学时分配】 §7.0前言上一章,我们讲了数理统计的基本概念,从这一章开始,我们研究数理统计的重要内容之一即统计推断。所谓统计推断,就是根据从总体中抽取得的一个简单随机样本对总体进行分析和推断。即由样本来推断总体,或者由部分推断总体。一—这就是数理统计学的核心内容。它的基本问题包括两大类问题,一类是估计理论;另一类是假设检验。而估计理论又分为参数估计与非参数估计,参数估计又分为点估计和区间估计两种,这里我们主要研究参数估计这一部分数理统计的内容。 §7.1参数佑计的概念统计推断的目的,是由样本推断出总体的具体分布。一般来说,要想得到总体的精确分布是十分困难的。由第六章知道:只有在样本容量n充分大时,经验分布函数F(x)→)F(x)(以概率1),但在实际问题中,并不容许n很大。而由第五章的中心极限定理,可以断定在某些条件下的分布为正态分布,也就是说,首先根据样本值,对总体分布的类型作出判断和假设, 从而得到总体的分布类型,其中含有一个或几个未知参数:其次,对另外一些并不关心其分布类型的统计推断问题,只关心总体的某些数字特征,如期望、方差等,通常把这些数字特征也称为参数。这时,抽样的目的就是为了解出这些未知的参数。例1:设某总体X~p(),试由样本(X1,X2…,xn)来估计参数

1 第七章参数估计【授课对象】理工类本科二年级【授课时数】6 学时【授课方法】课堂讲授与提问相结合【基本要求】1、理解参数估计的概念，熟练掌握点估计的矩估计法和极大似然估计法； 2、掌握估计量好坏的三个评选标准； 3、理解理解区间估计的概念，熟练掌握单个正态总体的均值和方差的置信区间；知道两个正态总体的均值差和方差比的区间估计。【本章重点】参数估计的矩估计法和极大似然估计法；区间估计的概念【本章难点】估计的矩估计法和极大似然估计法；区间估计的概念【授课内容及学时分配】 §7.0 前言上一章，我们讲了数理统计的基本概念，从这一章开始，我们研究数理统计的重要内容之一即统计推断。所谓统计推断，就是根据从总体中抽取得的一个简单随机样本对总体进行分析和推断。即由样本来推断总体，或者由部分推断总体。——这就是数理统计学的核心内容。它的基本问题包括两大类问题，一类是估计理论；另一类是假设检验。而估计理论又分为参数估计与非参数估计，参数估计又分为点估计和区间估计两种，这里我们主要研究参数估计这一部分数理统计的内容。 §7.1 参数估计的概念统计推断的目的，是由样本推断出总体的具体分布。一般来说，要想得到总体的精确分布是十分困难的。由第六章知道：只有在样本容量 n 充分大时，经验分布函数 ( ) ( ) F x F x n ⎯⎯⎯→ 一致（以概率 1），但在实际问题中，并不容许 n 很大。而由第五章的中心极限定理，可以断定在某些条件下的分布为正态分布，也就是说，首先根据样本值，对总体分布的类型作出判断和假设，从而得到总体的分布类型，其中含有一个或几个未知参数；其次，对另外一些并不关心其分布类型的统计推断问题，只关心总体的某些数字特征，如期望、方差等，通常把这些数字特征也称为参数。这时，抽样的目的就是为了解出这些未知的参数。例 1：设某总体 X ~ p() ，试由样本 ( , , , ) X1 X2  Xn 来估计参数 

2 例 2：设某总体 ~ ( , ) 2 X N   ，试由样本 ( , , , ) X1 X2  Xn 来估计参数 2   ，。在上述二例中，参数的取值虽未知，但根据参数的性质和实际问题，可以确定出参数的取值范围，把参数的取值范围称为参数空间，记为  。如：例 1： ={ |   0} 例 2： = 2 {( , ) | 0, }     R 1.定义：所谓参数估计，是指从样本 ( , , , ) X1 X2  Xn 中提取有关总体 X 的信息，即构造样本的函数——统计量 ( , , , ) g X1 X2  Xn ，然后用样本值代入，求出统计量的观测值 1 2 ( , , , ) n g x x x ，用该值来作为相应待估参数的值。此时，把统计量 ( , , , ) g X1 X2  Xn 称为参数的估计量，把 ( , , ) 1 2, n g x x  x 称为参数的估计值。 2.类型：包括    点估计区间估计 1)点估计：指对总体分布中的参数  ，根据样本 ( , , , ) X1 X2  Xn 及样本值 ( , , , ) 1 2 n x x  x ，构造一统计量 ( , , , ) g X1 X2  Xn ，将 ( , , ) 1 2, n g x x  x 作为  的估计值，则称 ( , , , ) X1 X2 Xn g  为  的点估计量，简称点估计。记为   = ( , , , ) X1 X2 Xn g  。 2)区间估计：指对总体中的一维参数  ，构造两个统计量： 1   = ( , , , ) g1 X1 X2  Xn 2   = ( , , , ) g2 X1 X2  Xn 使得待估参数以较大的概率落在[ 1   ， 2   ]内，此时，称[ 1   ， 2   ]为  的区间估计。 §7.2 点估计量的求法 0、引言：关于点估计的一般提法：设  为总体 X 分布函数中的未知参数或总体的某些未知的数字特征， ( , , , ) X1 X2  Xn 是来自 X 的一个样本， ( , , , ) 1 2 n x x  x 是相应的一个样本值,点估计问题就是构造一个适当的统计量 1 2 ˆ ( , , , )  X X X n ，用其观察值 ( , , , ) ˆ 1 2 n  x x  x 作为未知参数  的近似值，我们称 1 2 ˆ ( , , , )  X X X n 为参数  的点估计量， ( , , , ) ˆ 1 2 n  x x  x 为参数  的点估计值，在不至于混淆的情况下，统称为点估计。由于估计量是样本的函数，因此对于不同的样本值，  的估计值是不同的。点估计量的求解方法很多，这里主要介绍矩估计法和极大似然估计法，除了这两种方法

3 之外，还有 Bayes 方法和最小二乘法等。一、矩估计法：（K.Pearson 提出） 1.基本思想：矩估计法是一种古老的估计方法。大家知道，矩是描写随机变量的最简单的数字特征。样本来自于总体，从前面可以看到样本矩在一定程度上也反映了总体矩的特征，且在样本容量 n 增大的条件下，样本的 k 阶原点矩 1 1 n k k i i A X n = =  以概率收敛到总体 X 的 k 阶原点矩 ( ) k m E X k = ，即 ( ) 1,2, p A m n k k k ⎯⎯→ →  = ，因而自然想到用样本矩作为总体矩的估计。 2.具体做法：假设 ( , , , )  = 1  2   k 为总体 X 的待估参数（  ）， ( , , , ) X1 X2  Xn 是来自 X 的一个样本，令 1 1 2 2 k k A m A m A m  =   =     = 即 l l n i l l Xi m EX n A =  = = =1 1 ，l = 1,2,  , k 得一个包含 k 个未知数 k 1 ,2 ,  , 的方程组，从中解出 ( , , , )  = 1  2   k 的一组解 ) ˆ , , ˆ , ˆ ( ˆ  = 1  2   k ，然后用这个方程组的解       k , , , 1 2  分别作为    k , , , 1 2  的估计量，这种估计量称为矩估计量，矩估计量的观察值称为矩估计值。该方法称为矩估计法。（只需掌握 l =1,2 的情形）例 3：设总体 X 的均值  及方差 2  都存在但均未知，且有 2  >0，又设 ( , , , ) X1 X2  Xn 是来自总体 X 的一个样本，试求  ， 2  的矩估计量。解：因为    = = + =  +  = =  2 2 2 2 2 1 m E( X ) D( X ) [ E( X )] m E( X ) 令    + = = 2 2 2 1 A A       = − =  2 2 1 2 1 A A A   所以得      = − = − =   = = n i i n i i X X n X X n X 1 2 1 2 2 2 ( ) 1 ( ) 1 ˆ ˆ   注：上述结果表明：总体均值与方差的矩估计量的表达式不会因总体的分布不同而异；同时，我们又注意到，总体均值是用样本均值来估计的，而总体方差（即总体的二阶中心矩）却不是用样本方差来估计的，而是用样本二阶中心矩来估计。那么，能否用 2 S 来估计 2  呢？能的话， 2 S 与 B2 哪个更好？下节课将再作详细讨论

4 这样看来，虽然矩估计法计算简单，不管总体服从什么分布，都能求出总体矩的估计量，但它仍然存在着一定的缺陷：对于一个参数，可能会有多种估计量。比如下面的例子：例 4：设 X ~ P(k,)， 未知， ( , , , ) X1 X2  Xn 是 X 的一个样本，求   。  E(X ) =  ， D(X ) =  所以由例 3 可知： E(X ) =    ˆ = X = =  = − n i Xi X n D X 1 2 ( ) 1 ˆ ( )   由以上可看出，显然 = − n i Xi X n X 1 2 ( ) 1 与是两个不同的统计量，但都是  的估计。这样，就会给应用带来不便，为此，R.A.Fisher 提出了以下的改进的方法：二、最（极）大似然估计法：（R.A.Fisher 提出） 1.基本思想：若总体 X 的分布律为 P X x p x ( ) ( ; ) = =  [或密度函数为 ( ; ) i f x  ]，其中 ( , , , )  = 1  2   k 为待估参数（    ）。设 ( , , , ) X1 X2  Xn 是来自总体 X 的一个样本， 1 2 ( , , , ) n x x x 是相应于样本的一样本值，易知：样本 ( , , , ) X1 X2  Xn 取到观测值 1 2 ( , , , ) n x x x 的概率为 1 1 2 2 1 { , , , } ( ; ) n n n i i p P X x X x X x p x  = = = = = = ，[或样本 1 2 ( , , , ) X X X n 落在点 1 2 ( , , , ) n x x x 的邻域（边长分别为 1 2 , , , n dx dx dx 的 n 维立方体）内的概率近似地为 1 ( ; ) n i i i p f x dx  =  （微分中值定理）]，令 1 2 1 ( ) ( , , , ) ( ; ) n n i i L L x x x p x   = = = [或 1 2 1 ( ) ( , , , ) ( ; ) n n i i L L x x x f x   = = = ]，则概率 p 随  的取值变化而变化，它是  的函数， L( )  称为样本的似然函数（注意，这里的 1 2 , , , n x x x 是已知的样本值，它们都是常数）。如果已知当   =  0 时使 L( ) 取最大值，我们自然认为 0 作为未知参数  的估计较为合理。最大似然方法就是固定样本观测值 1 2 ( , , ) n x x x ，在  取值的可能范围  内，挑选使似然函数 1 2 ( , , , ; ) L x x xn  达到最大（从而概率 p 达到最大）的参数值 ˆ  作为参数  的估计值，即 1 2 1 2 ˆ ( , , , ; ) max ( , , , ; ) L x x x L x x x n n     = ，这样得到的 ˆ  与样本值 1 2 ( , , ) n x x x 有关，常记为 1 2 ˆ ( , , ) n  x x x ，称之为参数  的最大似然估计值，而相应的统计量 1 2 ˆ ( , , )  X X X n 称为参数  的最大似然估计量。这样将原来求参数  的最大似然估计值问题就转化为求似然函数 L( )  的最

6        = − + − =   = − =     = = n i i n i i x n L L x 1 2 2 2 4 1 2 ( ) ˆ 0 2 1 2 (ln ) ( ) ˆ 0 1 (ln )        (2) (1)   由（1） 1 1 n i i x x n =   = =  ，代入（2） 2 2 2 1 1 1 1 ( ) ( ) n n i i i i x x x n n = =   = −  = −    2 , 的极大似然估计值分别为： x x n n i =  i = =1 1 ˆ ； = = − n i i x x n 1 2 2 ( ) 1 ˆ 2  , 的极大似然估计量分别为： X X n n i =  i = =1 1 ˆ ， 2 1 2 2 ( ) 1 ˆ X X B n n i ==  i − = =  例 7：设 X ~ U[a,b] a,b 未知， ( , , , ) 1 2 n x x  x 是一个样本值，求 a,b 的极大似然估计。解：由于       = − 0 其它 1 ~ ( ) a x b X f x b a 则似然函数为：          − = 0 其它 , , , ( ) 1 ( , ) 1 2 a x x x b b a L a b n  n 通过分析可知，用解似然方程极大值的方法求极大似然估计很难求解（因为无极值点），所以可用直接观察法：记 i i n i ( n ) i n ( ) x min x , x max x     = = 1 1 1 ，有 a  x1 , x2 ,  , xn  b  a  x(1) , x(n)  b 则对于满足条件： a  x(1) , x(n)  b 的任意 a,b 有 n n n b a x x L a b ( ) 1 ( ) 1 ( , ) ( ) − (1)  − = 即 L(a,b) 在 (1) ( ) , n a = x b = x 时取得最大值 n n x x L a b ( ) 1 ( , ) ( ) (1) max − = 故 a,b 的极大似然估计值为 (1) ( ) 1 1 ˆ ˆ min{ } , max{ } i n i i n i n a x x b x x     = = = = ，a,b 的极大似然估计量为 (1) ( ) 1 1 ˆ ˆ min{ } , max{ } i n i i n i n a X X b X X     = = = = 。或者令 1 ( ) 0 a x b I a x b      =   其它，则 1 X f x I a x b ~ ( ) ( ) b a =   − ，从而似然函数为： 1 1 ( , ) [ ( )] ( ) n n i i L a b I a x b b a  = =   − ，记 (1) ( ) 1 1 min , max i n i i n i n x x x x     = = ，可得 (1) ( ) 1 ( ) (1) 1 1 ( , ) [ ( )] ( ) ( ) n n n n i n L a b I a x x b b a x x  = =     − − ，故 a b, 的极大似然估计量为

8 §7.3 估计量的评选标准 0、引言从上一节得到：对于同一参数，用不同的估计方法求出的估计量可能不相同，用相同的方法也可能得到不同的估计量，也就是说，同一参数可能具有多种估计量，而且，原则上讲，其中任何统计量都可以作为未知参数的估计量，那么采用哪一个估计量为好呢？这就涉及到估计量的评价问题，而判断估计量好坏的标准是：有无系统偏差；波动性的大小；伴随样本容量的增大是否是越来越精确，这就是估计的无偏性，有效性和相合性。一、无偏性设   是未知参数  的估计量，则   是一个随机变量，对于不同的样本值就会得到不同的估计值，我们总希望估计值在  的真实值左右徘徊，而若其数学期望恰等于  的真实值，这就导致无偏性这个标准。定义 1:设    =  （ X X Xn , , , 1 2  ）是未知参数  的估计量，若 ( )  E  存在，且对   有 ( )  E  = ，则称   是  的无偏估计量，称   具有无偏性。在科学技术中， ( )  E  - 称为以   作为  的估计的系统误差，无偏估计的实际意义就是无系统误差。例 1：设总体 X 的 k 阶中心矩 m = E(X ) (k  1) k k 存在， ( , , , ) X1 X2  Xn 是 X 的一个样本，证明：不论 X 服从什么分布， = = n i k k Xi n A 1 1 是 mk 的无偏估计。证明：  X X Xn , , 1 2 与 X 同分布， E X E X mk i n k k i  ( ) = ( ) = =1,2,  , k n i k k E Xi m n  E A =  = =1 ( ) 1 ( ) 特别，不论 X 服从什么分布，只要 E(X ) 存在， X 总是 E(X ) 的无偏估计。例 2：设总体 X 的 2 E(X) =  , D(X) =  都存在，且 0 2   ，若 2 , 均为未知，则 2  的估计量 = = − n i Xi X n 1 2 2 ( ) 1 ˆ 是有偏的。证明： 2 1 2 1 2 1 2 1 X X n ( X X ) n ˆ n i i n i  =  i − =  − = = 

9 2 2 2 2 2 1 2 2 1 2 2 2 1 1 1  − +  =  =  +  −   =  − =  − + = = n n ) n ( ) ( E( X ) ( DX ( EX ) ) n E( X ) E( X ) n E( ˆ ) n i n i i 若在 2  ˆ 的两边同乘以 n −1 n ，则所得到的估计量就是无偏了即 2 2 2 ( ˆ ) 1 ˆ ) 1 (   =  − = − E n n n n E ，而 2 ˆ 1  n − n 恰恰就是样本方差 = − − = n i Xi X n S 1 2 2 ( ) 1 1 可见， 2 S 可以作为 2  的估计，而且是无偏估计。因此，常用 2 S 作为方差 2  的估计量。从无偏的角度考虑， 2 S 比 B2 作为 2  ˆ 的估计好。在实际应用中，对整个系统（整个实验）而言无系统偏差，就一次实验来讲，  ˆ 可能偏大也可能偏小，实质上并说明不了什么问题，只是平均来说它没有偏差。所以无偏性只有在大量的重复实验中才能体现出来；另一方面，我们注意到：无偏估计只涉及到一阶矩（均值），虽然计算简便，但是往往会出现一个参数的无偏估计有多个，而无法确定哪个估计量好。例 3：设总体 X ~ P( ) ，密度为         = − 0 其它 0 1 ( ; ) e x p x x    其中   0 为未知，又 ( , , , ) X1 X2  Xn 是 X 的一样本，则 X 和 [min{ , , , }] nZ = n X1 X2  Xn 都是  的无偏估计。证明： E(X) = E(X) = ， X 是  的无偏估计而 min{ , , , ) Z = X1 X2  Xn 则服从参数为 n  的指数分布，其密度为         = − 0 其它 0 ( ; ) min e x n f x nx        ( ) = , E(n ) = n E Z 即 nZ 是  的无偏估计。事实上， ( , , , ) X1 X2  Xn 中的每一个均可作为  的无偏估计。那么，究竟哪个无偏估计更好、更合理，这就看哪个估计量的观察值更接近真实值的附近，即估计量的观察值更密集的分布在真实值的附近。我们知道，方差是反映随机变量取值的分散程度。所以无偏估计以方差最小者为最好、最合理。为此引入了估计量的有效性概念

10 二、有效性：定义 2:设   1 = 1 （ X X Xn , , , 1 2  ）与    2 =  2 （ X X Xn , , , 1 2  ）都是  的无偏估计量，若有 ( ) ( ) 1 2   D   D  ，则称    2比 2 有效。若对  的无偏估计   都有： ( ) ( ) 0   D   D  ，则称   0 为  的最小方差无偏估计。例 4：在例 3 中，由于 n D X D X 2 2 ( ) ( )  =   = 又 2 2 2 ( ) ( )   = D nZ = n D Z 当 n 1 时，显然有 D(X)  D(nZ) ，故 X 较 nZ 有效。为了进一步地计算最小方差无偏估计，给出如下定理：定理:(Rao-Gramer 不等式)设总体 X 的分布密度为 f (x; ) ，( , , , ) X1 X2  Xn 是 X 的一个样本，   为  的任一无偏估计，若 f (x; ) 满足： 1) 集合 G = {x : f (x; )  0} 与  无关； 2)    f (x; ) 对一切  , x 都存在，且   + − + −   =   f (x; )dx f (x; )dx    ； 3) 记 2 ( ) [ ( ; )]  I  E f x   = ，满足 0  I( )  + ，则 ( ) 1 ( )   nI D   ，其中 I( ) 称为 Fisher 信息量。定理给出无偏估计方差的一个下界——R-C 下界，即，若 D( ) 达到 R-C 下界，则   一定是  的最小方差无偏估计。注：在定理中，条件 1），2）称为正则条件，一般分布都满足，常见的分布有 U[0,0] 不满足（其中  为未知），因而不能用定理。定义 3:设   是  的任一无偏估计，称 ( ) ( ) 1 ( )   =    D nI e 为无偏估计的有效率。定义 4:若存在  的无偏估计   ，使 ( ) = 1  e  ，则称   是  的有效估计。可见：在正态分布中， x 是 u 的有效估计； 2 s 是 2  的最小方差无偏估计，不是有效估计，其效率为： n n e s 1 ( ) 2 − = 。故：有效估计一定是最小方差无偏估计，反之不然。可见，有效估计要求的更为严格。三、一致性（相合性）关于无偏性和有效性是在样本容量固定的条件下提出的，即，我们不仅希望一个估计量

《概率论与数理统计》课程教学资源（电子教案）第七章 参数估计

《概率论与数理统计》课程教学资源（电子教案）第七章参数估计