第七章参数佔计 【授课对象】理工类本科二年级 【授课时数】6学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解参数估计的概念,熟练掌握点估计的矩估计法和极大似然估计法; 2、掌握估计量好坏的三个评选标准; 3、理解理解区间估计的概念,熟练掌握单个正态总体的均值和方差的置信区间; 知道两个正态总体的均值差和方差比的区间估计。 【本章重点】参数估计的矩估计法和极大似然估计法;区间估计的概念 【本章难点】估计的矩估计法和极大似然估计法;区间估计的概念 【授课内容及学时分配】 §7.0前言 上一章,我们讲了数理统计的基本概念,从这一章开始,我们研究数理统计的重要内容 之一即统计推断。 所谓统计推断,就是根据从总体中抽取得的一个简单随机样本对总体进行分析和推断。 即由样本来推断总体,或者由部分推断总体。一—这就是数理统计学的核心内容。它的基本 问题包括两大类问题,一类是估计理论;另一类是假设检验。而估计理论又分为参数估计与 非参数估计,参数估计又分为点估计和区间估计两种,这里我们主要研究参数估计这一部分 数理统计的内容。 §7.1参数佑计的概念 统计推断的目的,是由样本推断出总体的具体分布。一般来说,要想得到总体的精确分 布是十分困难的。由第六章知道:只有在样本容量n充分大时,经验分布函数F(x)→)F(x)(以 概率1),但在实际问题中,并不容许n很大。而由第五章的中心极限定理,可以断定在某些 条件下的分布为正态分布,也就是说,首先根据样本值,对总体分布的类型作出判断和假设, 从而得到总体的分布类型,其中含有一个或几个未知参数:其次,对另外一些并不关心其分 布类型的统计推断问题,只关心总体的某些数字特征,如期望、方差等,通常把这些数字特 征也称为参数。这时,抽样的目的就是为了解出这些未知的参数。 例1:设某总体X~p(),试由样本(X1,X2…,xn)来估计参数
1 第七章 参 数 估 计 【授课对象】理工类本科二年级 【授课时数】6 学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解参数估计的概念,熟练掌握点估计的矩估计法和极大似然估计法; 2、掌握估计量好坏的三个评选标准; 3、理解理解区间估计的概念,熟练掌握单个正态总体的均值和方差的置信区间; 知道两个正态总体的均值差和方差比的区间估计。 【本章重点】参数估计的矩估计法和极大似然估计法;区间估计的概念 【本章难点】估计的矩估计法和极大似然估计法;区间估计的概念 【授课内容及学时分配】 §7.0 前 言 上一章,我们讲了数理统计的基本概念,从这一章开始,我们研究数理统计的重要内容 之一即统计推断。 所谓统计推断,就是根据从总体中抽取得的一个简单随机样本对总体进行分析和推断。 即由样本来推断总体,或者由部分推断总体。——这就是数理统计学的核心内容。它的基本 问题包括两大类问题,一类是估计理论;另一类是假设检验。而估计理论又分为参数估计与 非参数估计,参数估计又分为点估计和区间估计两种,这里我们主要研究参数估计这一部分 数理统计的内容。 §7.1 参数估计的概念 统计推断的目的,是由样本推断出总体的具体分布。一般来说,要想得到总体的精确分 布是十分困难的。由第六章知道:只有在样本容量 n 充分大时,经验分布函数 ( ) ( ) F x F x n ⎯⎯⎯→ 一致 (以 概率 1),但在实际问题中,并不容许 n 很大。而由第五章的中心极限定理,可以断定在某些 条件下的分布为正态分布,也就是说,首先根据样本值,对总体分布的类型作出判断和假设, 从而得到总体的分布类型,其中含有一个或几个未知参数;其次,对另外一些并不关心其分 布类型的统计推断问题,只关心总体的某些数字特征,如期望、方差等,通常把这些数字特 征也称为参数。这时,抽样的目的就是为了解出这些未知的参数。 例 1:设某总体 X ~ p() ,试由样本 ( , , , ) X1 X2 Xn 来估计参数
例2:设某总体X~N(,a2),试由样本(X1,X2…,X)来估计参数μ,σ2。 在上述二例中,参数的取值虽未知,但根据参数的性质和实际问题,可以确定出参数的 取值范围,把参数的取值范围称为参数空间,记为θ。 如:例1:⊙={|4>0}例2:⊙={(μ2)|>0,H∈R} 1.定义;所谓参数估计,是指从样本(X1,X2…,Xn)中提取有关总体X的信息,即构造样本 的函数——统计量g(X1X2…Xn),然后用样本值代入,求出统计量的观测值 g(x1,x2,…xn),用该值来作为相应待估参数的值 此时,把统计量g(X1,X2…,Xn)称为参数的估计量,把g(x2x2…xn)称为参数的估计 值 2类型:包括点估计 区间估计 1)点估计:指对总体分布中的参数θ,根据样本(X1,X2…,Xn)及样本值(x1,x2…,xn),构 造一统计量g(X1X2…,Xn),将g(x,x2…x)作为O的估计值,则称g(X1,X2…Xn)为O的 点估计量,简称点估计。记为0=g(X1,X2,…X) 2)区间估计:指对总体中的一维参数O,构造两个统计量: 61=g1(X12X2,…,Xn) 62=g2(X1X2,…,Xn) 使得待估参数以较大的概率落在[θ1,θ2]内,此时,称[θ1,θ2]为θ的区间估计 §7.2点估计量的求法 0、引言: 关于点估计的一般提法:设θ为总体X分布函数中的未知参数或总体的某些未知的数字 特征,(x1,X2,…,Xn)是来自X的一个样本,(x1,x2…,x)是相应的一个样本值,点估计问题 就是构造一个适当的统计量θ(X1,X2…X),用其观察值(x1,x2…x)作为未知参数的近 似值,我们称(X1,X2…X)为参数O的点估计量,O(x,x2,…x)为参数O的点估计值,在 不至于混淆的情况下,统称为点估计。由于估计量是样本的函数,因此对于不同的样本值,θ 的估计值是不同的。 点估计量的求解方法很多,这里主要介绍矩估计法和极大似然估计法,除了这两种方法
2 例 2:设某总体 ~ ( , ) 2 X N ,试由样本 ( , , , ) X1 X2 Xn 来估计参数 2 , 。 在上述二例中,参数的取值虽未知,但根据参数的性质和实际问题,可以确定出参数的 取值范围,把参数的取值范围称为参数空间,记为 。 如:例 1: ={ | 0} 例 2: = 2 {( , ) | 0, } R 1.定义:所谓参数估计,是指从样本 ( , , , ) X1 X2 Xn 中提取有关总体 X 的信息,即构造样本 的函数——统计量 ( , , , ) g X1 X2 Xn ,然后用样本值代入,求出统计量的观测值 1 2 ( , , , ) n g x x x ,用该值来作为相应待估参数的值。 此时,把统计量 ( , , , ) g X1 X2 Xn 称为参数的估计量,把 ( , , ) 1 2, n g x x x 称为参数的估计 值。 2.类型:包括 点 估 计 区间估计 1)点估计:指对总体分布中的参数 ,根据样本 ( , , , ) X1 X2 Xn 及样本值 ( , , , ) 1 2 n x x x ,构 造一统计量 ( , , , ) g X1 X2 Xn ,将 ( , , ) 1 2, n g x x x 作为 的估计值,则称 ( , , , ) X1 X2 Xn g 为 的 点估计量,简称点估计。记为 = ( , , , ) X1 X2 Xn g 。 2)区间估计:指对总体中的一维参数 ,构造两个统计量: 1 = ( , , , ) g1 X1 X2 Xn 2 = ( , , , ) g2 X1 X2 Xn 使得待估参数以较大的概率落在[ 1 , 2 ]内,此时,称[ 1 , 2 ]为 的区间估计。 §7.2 点估计量的求法 0、引言: 关于点估计的一般提法:设 为总体 X 分布函数中的未知参数或总体的某些未知的数字 特征, ( , , , ) X1 X2 Xn 是来自 X 的一个样本, ( , , , ) 1 2 n x x x 是相应的一个样本值,点估计问题 就是构造一个适当的统计量 1 2 ˆ ( , , , ) X X X n ,用其观察值 ( , , , ) ˆ 1 2 n x x x 作为未知参数 的近 似值,我们称 1 2 ˆ ( , , , ) X X X n 为参数 的点估计量, ( , , , ) ˆ 1 2 n x x x 为参数 的点估计值,在 不至于混淆的情况下,统称为点估计。由于估计量是样本的函数,因此对于不同的样本值, 的估计值是不同的。 点估计量的求解方法很多,这里主要介绍矩估计法和极大似然估计法,除了这两种方法
之外,还有 Bayes方法和最小二乘法等。 、矩佔计法:( K. Pearson提出) 基本思想: 矩估计法是一种古老的估计方法。大家知道,矩是描写随机变量的最简单的数字特征。 样本来自于总体,从前面可以看到样本矩在一定程度上也反映了总体矩的特征,且在样本容 量n增大的条件下,样本的k阶原点矩A=∑X以概率收敛到总体X的k阶原点矩 m2=E(X),即A-→m4(m→∞)k=1,2,…,因而自然想到用样本矩作为总体矩的估 2.具体做法: 假设O=(O1,O2,…O4)为总体X的待估参数(0∈Φ),(X1,X2…,X)是来自X的一个样 本,令 即A=∑x=m=EX,1=12…k A=m 得一个包含k个未知数01,02…04的方程组,从中解出θ=(O1,O2,…4)的一组解 6=(61,B2…,6),然后用这个方程组的解O,2…,4分别作为,2….的估计量,这种估 计量称为矩估计量,矩估计量的观察值称为矩估计值。 该方法称为矩估计法。(只需掌握l=1,2的情形) 例3:设总体X的均值及方差a2都存在但均未知,且有a2>0,又设(X1,X2…,Xn)是 来自总体X的一个样本,试求μ,σ2的矩估计量 m2=E(X2)=DX)+E(X∥=0+2/A 解:因为{m=E(x=H A G=4一A所以得{a=1元(x)=x 注:上述结果表明:总体均值与方差的矩估计量的表达式不会因总体的分布不同而异;同时, 我们又注意到,总体均值是用样本均值来估计的,而总体方差(即总体的二阶中心矩)却不 是用样本方差来估计的,而是用样本二阶中心矩来估计。那么,能否用S2来估计a2呢?能 的话,S2与B,哪个更好?下节课将再作详细讨论
3 之外,还有 Bayes 方法和最小二乘法等。 一、矩估计法:(K.Pearson 提出) 1.基本思想: 矩估计法是一种古老的估计方法。大家知道,矩是描写随机变量的最简单的数字特征。 样本来自于总体,从前面可以看到样本矩在一定程度上也反映了总体矩的特征,且在样本容 量 n 增大的条件下,样本的 k 阶原点矩 1 1 n k k i i A X n = = 以概率收敛到总体 X 的 k 阶原点矩 ( ) k m E X k = ,即 ( ) 1,2, p A m n k k k ⎯⎯→ → = ,因而自然想到用样本矩作为总体矩的估 计。 2.具体做法: 假设 ( , , , ) = 1 2 k 为总体 X 的待估参数( ), ( , , , ) X1 X2 Xn 是来自 X 的一个样 本,令 1 1 2 2 k k A m A m A m = = = 即 l l n i l l Xi m EX n A = = = =1 1 ,l = 1,2, , k 得一个包含 k 个未知数 k 1 ,2 , , 的方程组,从中解出 ( , , , ) = 1 2 k 的一组解 ) ˆ , , ˆ , ˆ ( ˆ = 1 2 k ,然后用这个方程组的解 k , , , 1 2 分别作为 k , , , 1 2 的估计量,这种估 计量称为矩估计量,矩估计量的观察值称为矩估计值。 该方法称为矩估计法。(只需掌握 l =1,2 的情形) 例 3:设总体 X 的均值 及方差 2 都存在但均未知,且有 2 >0,又设 ( , , , ) X1 X2 Xn 是 来自总体 X 的一个样本,试求 , 2 的矩估计量。 解:因为 = = + = + = = 2 2 2 2 2 1 m E( X ) D( X ) [ E( X )] m E( X ) 令 + = = 2 2 2 1 A A = − = 2 2 1 2 1 A A A 所以得 = − = − = = = n i i n i i X X n X X n X 1 2 1 2 2 2 ( ) 1 ( ) 1 ˆ ˆ 注:上述结果表明:总体均值与方差的矩估计量的表达式不会因总体的分布不同而异;同时, 我们又注意到,总体均值是用样本均值来估计的,而总体方差(即总体的二阶中心矩)却不 是用样本方差来估计的,而是用样本二阶中心矩来估计。那么,能否用 2 S 来估计 2 呢?能 的话, 2 S 与 B2 哪个更好?下节课将再作详细讨论
这样看来,虽然矩估计法计算简单,不管总体服从什么分布,都能求出总体矩的估计量, 但它仍然存在着一定的缺陷:对于一个参数,可能会有多种估计量。比如下面的例子: 例4:设X~P(k,4),未知,(X1,X2,…,Xn)是X的一个样本,求λ。 ∵E(X)=λ,D(X)=元 所以由例3可知:E(X)=→=DX)=2→A=x1-x)2 由以上可看出,显然F与∑(x,-x)是两个不同的统计量,但都是的估计。这样,就会 给应用带来不便,为此,R. A Fisher提出了以下的改进的方法: 、最(极)大似然估计法:(R. 4. Fisher提出) 1基本思想: 若总体X的分布律为P(X=x)=p(x,O)[或密度函数为f(x;O)],其中b=(1,O2,…,O)为 待估参数(O∈)。 设(X13K2,…Xn)是来自总体X的一个样本,(x1,x2…x)是相应于样本的一样本值,易 知:样本(X1,X2…,X)取到观测值(x1,x2…,x)的概率为 P=PX=x,Xx2=x2…,X=x}=∏p(x;),[或样本(X1X2,…,X)落在点 (x1,x2,…,xn)的邻域(边长分别为dx1,dx2,…,axn的n维立方体)内的概率近似地为 p=∏f(x:0)(微分中值定理)],令L(0)=L(x,x2,…,x)=∏p(x,0)[或 L(0)=L(x,x2…,x)=∏f(x,0)],则概率p随的取值变化而变化,它是O的函数,L(O)称 为样本的似然函数(注意,这里的x1x2,…,xn是已知的样本值,它们都是常数)。如果已知当 θ=a∈⊙时使L(O)取最大值,我们自然认为作为未知参数O的估计较为合理 最大似然方法就是固定样本观测值(x1x2…xn),在θ取值的可能范围⊙内,挑选使似然 函数L(x1,x2…,x;)达到最大(从而概率p达到最大)的参数值6作为参数的估计值,即 L(x1,x2…,x;6)=maxl(x,x2…,x;),这样得到的与样本值(x,x2…x,)有关,常记为 θ(x,x2…x),称之为参数的最大似然估计值,而相应的统计量θ(X1X2…X)称为参数O的 最大似然估计量。这样将原来求参数θ的最大似然估计值问题就转化为求似然函数L(0)的最
4 这样看来,虽然矩估计法计算简单,不管总体服从什么分布,都能求出总体矩的估计量, 但它仍然存在着一定的缺陷:对于一个参数,可能会有多种估计量。比如下面的例子: 例 4:设 X ~ P(k,), 未知, ( , , , ) X1 X2 Xn 是 X 的一个样本,求 。 E(X ) = , D(X ) = 所以由例 3 可知: E(X ) = ˆ = X = = = − n i Xi X n D X 1 2 ( ) 1 ˆ ( ) 由以上可看出,显然 = − n i Xi X n X 1 2 ( ) 1 与 是两个不同的统计量,但都是 的估计。这样,就会 给应用带来不便,为此,R.A.Fisher 提出了以下的改进的方法: 二、最(极)大似然估计法:(R.A.Fisher 提出) 1.基本思想: 若总体 X 的分布律为 P X x p x ( ) ( ; ) = = [或密度函数为 ( ; ) i f x ],其中 ( , , , ) = 1 2 k 为 待估参数( )。 设 ( , , , ) X1 X2 Xn 是来自总体 X 的一个样本, 1 2 ( , , , ) n x x x 是相应于样本的一样本值,易 知:样本 ( , , , ) X1 X2 Xn 取到观测值 1 2 ( , , , ) n x x x 的概率为 1 1 2 2 1 { , , , } ( ; ) n n n i i p P X x X x X x p x = = = = = = ,[或样本 1 2 ( , , , ) X X X n 落在点 1 2 ( , , , ) n x x x 的邻域(边长分别为 1 2 , , , n dx dx dx 的 n 维立方体)内的概率近似地为 1 ( ; ) n i i i p f x dx = (微分中值定理)],令 1 2 1 ( ) ( , , , ) ( ; ) n n i i L L x x x p x = = = [或 1 2 1 ( ) ( , , , ) ( ; ) n n i i L L x x x f x = = = ],则概率 p 随 的取值变化而变化,它是 的函数, L( ) 称 为样本的似然函数(注意,这里的 1 2 , , , n x x x 是已知的样本值,它们都是常数)。如果已知当 = 0 时使 L( ) 取最大值,我们自然认为 0 作为未知参数 的估计较为合理。 最大似然方法就是固定样本观测值 1 2 ( , , ) n x x x ,在 取值的可能范围 内,挑选使似然 函数 1 2 ( , , , ; ) L x x xn 达到最大(从而概率 p 达到最大)的参数值 ˆ 作为参数 的估计值,即 1 2 1 2 ˆ ( , , , ; ) max ( , , , ; ) L x x x L x x x n n = ,这样得到的 ˆ 与样本值 1 2 ( , , ) n x x x 有关,常记为 1 2 ˆ ( , , ) n x x x ,称之为参数 的最大似然估计值,而相应的统计量 1 2 ˆ ( , , ) X X X n 称为参数 的 最大似然估计量。这样将原来求参数 的最大似然估计值问题就转化为求似然函数 L( ) 的最
大值问题了。 2具体做法: ①在很多情况下,p(x,O)和f(x,O)关于θ可微,因此据似然函数的特点,常把它变为如 下形式:hL()=∑加fx1:0)(或∑hpx,0)),该式称为对数似然函数。由高等数学知 L(与血L(O)的最大值点相同,令hL0=01=12.…,k,求解得:0=(x,x2…x), 从而可得参数6的极大似然估计量为θ=0(X,X2…,Xn); ②若p(x,O)和f(x,O)关于θ不可微时,需另寻方法。 例5:设X~B(1,p),p为未知参数,(x1,x2…,x)是一个样本值,求参数p的极大似然 估计 解:因为总体X的分布律为:P{X=x}=p2(1-p)x,x=0,1 故似然函数为L(p)=∏p3(1-p)3=p(1-p)x1=01(=12,…m) 而hL(p)=∑x,)hp+(n-∑x(1-p) ∑x,(m-∑x,) 令L(p=2-+ p-1=0,解得p的最大似然估计值为/ 所以p的最大似然估计量为:p=∑X=X。 例6:设X~N(A,2),,a2未知,(X1,X2,…,Xn)为X的一个样本,(x,x2…,xn)是 (X12x2,…,Xn)的一个样本值,求,σ2的极大似然估计值及相应的估计量。 解:∵X~f(x,p,O) R 所以似然函数为:L(A,a2)= (2xo2)=22x 取对数:hL(,a2)=-(h2z+ha2) 分别对,σ2求导数
5 大值问题了。 2.具体做法: ①在很多情况下, p x( ; ) 和 f x( ; ) 关于 可微,因此据似然函数的特点,常把它变为如 下形式: = = n i i ln L( ) ln f ( x ; ) 1 (或 = n i i ln p( x ; ) 1 ),该式称为对数似然函数。由高等数学知: L()与ln L() 的最大值点相同,令 i k L i 0 1,2, , ln ( ) = = ,求解得: 1 2 ( , , , ) n = x x x , 从而可得参数 的极大似然估计量为 1 2 ˆ ( , , , ) = X X X n ; ②若 p x( ; ) 和 f x( ; ) 关于 不可微时,需另寻方法。 例 5:设 X ~ B(1, p), p 为未知参数, 1 2 ( , , , ) n x x x 是一个样本值,求参数 p 的极大似然 估计。 解:因为总体 X 的分布律为: x x P X x p p − = = − 1 { } (1 ) , x =0,1 故似然函数为 − = − = = = − = − n i i n i i i i n x n x i x x L p p p p p 1 1 ( ) (1 ) (1 ) 1 1 x , (i , , n ) i = 01 =12 而 = = = + − − n i n i i i ln L( p ) ( x )ln p ( n x )ln( p ) 1 1 1 令 0 1 1 1 = − − = + = = ( p ) ( n x ) p x [ln L( p )]' n i i n i i ,解得 p 的最大似然估计值为 1 1 ˆ n i i p x x n = = = 所以 p 的最大似然估计量为: X X n p n i = i = =1 1 ˆ 。 例 6:设 ~ ( , ) 2 X N , , 2 未知, ( , , , ) X1 X2 Xn 为 X 的一个样本, ( , , , ) 1 2 n x x x 是 ( , , , ) X1 X2 Xn 的一个样本值,求 , 2 的极大似然估计值及相应的估计量。 解: X f x e x R x = − − 2 2 2 ( ) 2 1 ~ ( ; , ) 所以似然函数为: = − − − − = = = n − i x n i n i i x L e e 1 ( ) 2 2 1 2 2 2 1 2 2 2 2 ( ) (2 ) 2 1 ( , ) 取对数: = = − + − − n i i x n L 1 2 2 2 2 ( ) 2 1 (ln 2 ln ) 2 ln ( , ) 分别对 , 2 求导数:
hD)=∑(x-)=0 (n L (x1-)2=0 (2) 2a22 由(1)→=∑x=x,代入(2 ∑(x-p) (x1-x)2 从a2的极大似然估计值分别为=1x=x:2=(x-x σ3的极大似然估计量分别为:=∑x,=X,G2=1 ∑(X1-X)=B2 例7:设X~U[a,b]a,b未知,(x1x2,…,xn)是一个样本值,求a,b的极大似然估计 解:由于X~f(x)={b a≤x≤b 其它 a≤x1,x2 b (b-a) 则似然函数为:L(a,b)= 其它 通过分析可知,用解似然方程极大值的方法求极大似然估计很难求解(因为无极值点), 所以可用直接观察法: 记x1)=mmx1,xm=max,有a≤x1,x2,…xn≤ba≤x,xm)≤b 则对于满足条件:a≤x1,xm)≤b的任意a,b有L(an,b) 即L(ab)在a=x1),b=xm时取得最大值Lm(a,b)= 故a,b的极大似然估计值为a=x1=min{x},b=xm)=max{x},a,b的极大似然估计量为 Xo=min(X,, b=x( 1a≤x≤b 或者令1(a≤x5b)=10其它·则x-f(x)=1(a≤x≤b) 从而似然函数为:L(a,b)=~1 [(a≤x≤b,记x)=minx max x ,可得 L(a,b)=丌 [(a≤x≤xn)≤b)≤ ,故a,b的极大似然估计量为
6 = − + − = = − = = = n i i n i i x n L L x 1 2 2 2 4 1 2 ( ) ˆ 0 2 1 2 (ln ) ( ) ˆ 0 1 (ln ) (2) (1) 由(1) 1 1 n i i x x n = = = ,代入(2) 2 2 2 1 1 1 1 ( ) ( ) n n i i i i x x x n n = = = − = − 2 , 的极大似然估计值分别为: x x n n i = i = =1 1 ˆ ; = = − n i i x x n 1 2 2 ( ) 1 ˆ 2 , 的极大似然估计量分别为: X X n n i = i = =1 1 ˆ , 2 1 2 2 ( ) 1 ˆ X X B n n i == i − = = 例 7:设 X ~ U[a,b] a,b 未知, ( , , , ) 1 2 n x x x 是一个样本值,求 a,b 的极大似然估计。 解:由于 = − 0 其它 1 ~ ( ) a x b X f x b a 则似然函数为: − = 0 其它 , , , ( ) 1 ( , ) 1 2 a x x x b b a L a b n n 通过分析可知,用解似然方程极大值的方法求极大似然估计很难求解(因为无极值点), 所以可用直接观察法: 记 i i n i ( n ) i n ( ) x min x , x max x = = 1 1 1 ,有 a x1 , x2 , , xn b a x(1) , x(n) b 则对于满足条件: a x(1) , x(n) b 的任意 a,b 有 n n n b a x x L a b ( ) 1 ( ) 1 ( , ) ( ) − (1) − = 即 L(a,b) 在 (1) ( ) , n a = x b = x 时取得最大值 n n x x L a b ( ) 1 ( , ) ( ) (1) max − = 故 a,b 的极大似然估计值为 (1) ( ) 1 1 ˆ ˆ min{ } , max{ } i n i i n i n a x x b x x = = = = ,a,b 的极大似然估计量为 (1) ( ) 1 1 ˆ ˆ min{ } , max{ } i n i i n i n a X X b X X = = = = 。 或者令 1 ( ) 0 a x b I a x b = 其它 ,则 1 X f x I a x b ~ ( ) ( ) b a = − , 从而似然函数为: 1 1 ( , ) [ ( )] ( ) n n i i L a b I a x b b a = = − ,记 (1) ( ) 1 1 min , max i n i i n i n x x x x = = ,可得 (1) ( ) 1 ( ) (1) 1 1 ( , ) [ ( )] ( ) ( ) n n n n i n L a b I a x x b b a x x = = − − ,故 a b, 的极大似然估计量为
a=X 3极大似然估计量有如下的性质: 设的函数u=l(0),θ∈,具有单值反函数O=(an)。又设是x的密度函数 f(x,O)[或分布列p(x,0)](形式已知)中参数O的极大似然估计,则=l(0)是v(0)的极大 似然估计。 例如,在例6中得到a2的极大似然估计为a2=∑(X1-X)2 而 H=(a2)=√G2具有单值反函数a2=2(>0)据上述性质有: 标准差a的极大似然估计为G=√G ∑(X1-X 课后作业:1、认真阅读P150-653 2、作业:P101,3 、预习:估计量的评选标准和区间估计
7 (1) ( ) ˆ ˆ n a X b X = = 。 3.极大似然估计量有如下的性质: 设 的函数 u = u( ), ,具有单值反函数 = (u) 。又设 ~ 是 X 的密度函数 f (x; ) [或分布列 p x( ; ) ](形式已知)中参数 的极大似然估计,则 ) ~ ( ~ = u 是 u( ) 的极大 似然估计。 例如,在例 6 中得到 2 的极大似然估计为 = = − n i Xi X n 1 2 2 ( ) 1 ˆ 而 2 2 = ( ) = 具有单值反函数 ( 0) 2 2 = 据上述性质有: 标准差 的极大似然估计为 = = = − n i Xi X n 1 2 2 ( ) 1 ˆ ˆ 课后作业:1、认真阅读 P150-163; 2、作业:P190 1,3 3、预习:估计量的评选标准和区间估计
§7.3佑计量的评选标准 0、引言 从上一节得到:对于同一参数,用不同的估计方法求出的估计量可能不相同,用相同的 方法也可能得到不同的估计量,也就是说,同一参数可能具有多种估计量,而且,原则上讲, 其中任何统计量都可以作为未知参数的估计量,那么采用哪一个估计量为好呢?这就涉及到 估计量的评价问题,而判断估计量好坏的标准是:有无系统偏差;波动性的大小;伴随样本 容量的增大是否是越来越精确,这就是估计的无偏性,有效性和相合性 、无偏性 设θ是未知参数θ的估计量,则θ是一个随机变量,对于不同的样本值就会得到不同的估 计值,我们总希望估计值在θ的真实值左右徘徊,而若其数学期望恰等于θ的真实值,这就 导致无偏性这个标准。 定义1:设0=0(X1,X2…Xn)是未知参数的估计量,若E(O)存在,且对v∈有 E(θ)=θ,则称θ是θ的无偏估计量,称θ具有无偏性。 在科学技术中,E(O)-称为以0作为的估计的系统误差,无偏估计的实际意义就是无 系统误差。 例1:设总体X的k阶中心矩m=E(X)(k≥1)存在,(X1X2,…,Xn)是X的一个样本, 证明:不论x服从什么分布,4=∑X是m2的无偏估计 证明::X1,X2…xn与X同分布,∴E(X)=E(X)=m1i=12.…,n E(A)=∑E(x)=m特别,不论x服从什么分布,只要E(X)存在,总是E(X)的 无偏估计。 例2:设总体X的E(X)=,D(X)=a2都存在,且a2>0,若山,.2均为未知,则a2的 估计量2=1(x-x)是有偏的 证明:∵G2=1 (X1-X户2=∑x2-X
8 §7.3 估计量的评选标准 0、引言 从上一节得到:对于同一参数,用不同的估计方法求出的估计量可能不相同,用相同的 方法也可能得到不同的估计量,也就是说,同一参数可能具有多种估计量,而且,原则上讲, 其中任何统计量都可以作为未知参数的估计量,那么采用哪一个估计量为好呢?这就涉及到 估计量的评价问题,而判断估计量好坏的标准是:有无系统偏差;波动性的大小;伴随样本 容量的增大是否是越来越精确,这就是估计的无偏性,有效性和相合性。 一、无偏性 设 是未知参数 的估计量,则 是一个随机变量,对于不同的样本值就会得到不同的估 计值,我们总希望估计值在 的真实值左右徘徊,而若其数学期望恰等于 的真实值,这就 导致无偏性这个标准。 定义 1:设 = ( X X Xn , , , 1 2 )是未知参数 的估计量,若 ( ) E 存在,且对 有 ( ) E = ,则称 是 的无偏估计量,称 具有无偏性。 在科学技术中, ( ) E - 称为以 作为 的估计的系统误差,无偏估计的实际意义就是无 系统误差。 例 1:设总体 X 的 k 阶中心矩 m = E(X ) (k 1) k k 存在, ( , , , ) X1 X2 Xn 是 X 的一个样本, 证明:不论 X 服从什么分布, = = n i k k Xi n A 1 1 是 mk 的无偏估计。 证明: X X Xn , , 1 2 与 X 同分布, E X E X mk i n k k i ( ) = ( ) = =1,2, , k n i k k E Xi m n E A = = =1 ( ) 1 ( ) 特别,不论 X 服从什么分布,只要 E(X ) 存在, X 总是 E(X ) 的 无偏估计。 例 2:设总体 X 的 2 E(X) = , D(X) = 都存在,且 0 2 ,若 2 , 均为未知,则 2 的 估计量 = = − n i Xi X n 1 2 2 ( ) 1 ˆ 是有偏的。 证明: 2 1 2 1 2 1 2 1 X X n ( X X ) n ˆ n i i n i = i − = − = =
E(G2)=∑E(x2)-Ex)=∑E(x)-(Dx+(Ex) =(G2+μ2) 若在G2的两边同乘以n,则所得到的估计量就是无偏了 即E(n=162)=n=1()=a2, 而—G2恰恰就是样本方差S ∑(X1-)2 可见,S2可以作为σ2的估计,而且是无偏估计。因此,常用S2作为方差σ2的估计量。 从无偏的角度考虑,S2比B2作为G2的估计好。 在实际应用中,对整个系统(整个实验)而言无系统偏差,就一次实验来讲,θ可能偏 大也可能偏小,实质上并说明不了什么问题,只是平均来说它没有偏差。所以无偏性只有在 大量的重复实验中才能体现出来;另一方面,我们注意到:无偏估计只涉及到一阶矩(均值), 虽然计算简便,但是往往会出现一个参数的无偏估计有多个,而无法确定哪个估计量好 6 例3:设总体X~P(0),密度为p(x,O) 其中>0为未知,又 0其它 (x12X2…,Xn)是X的一样本,则X和n=mmn{X1,X2,…,Xn门都是O的无偏估计。 证明:∵E(X)=E(X)=θ,∴是θ的无偏估计 而Z=mn{X1,X2…Xn)则服从参数为一的指数分布,其密度为 fmin(x: 0) E(Z)=-,→E(n)=b 0其它 即n是O的无偏估计。事实上,(X1,X2…,Xn)中的每一个均可作为O的无偏估计。 那么,究竟哪个无偏估计更好、更合理,这就看哪个估计量的观察值更接近真实值的附 近,即估计量的观察值更密集的分布在真实值的附近。我们知道,方差是反映随机变量取值 的分散程度。所以无偏估计以方差最小者为最好、最合理。为此引入了估计量的有效性概念
9 2 2 2 2 2 1 2 2 1 2 2 2 1 1 1 − + = = + − = − = − + = = n n ) n ( ) ( E( X ) ( DX ( EX ) ) n E( X ) E( X ) n E( ˆ ) n i n i i 若在 2 ˆ 的两边同乘以 n −1 n ,则所得到的估计量就是无偏了 即 2 2 2 ( ˆ ) 1 ˆ ) 1 ( = − = − E n n n n E , 而 2 ˆ 1 n − n 恰恰就是样本方差 = − − = n i Xi X n S 1 2 2 ( ) 1 1 可见, 2 S 可以作为 2 的估计,而且是无偏估计。因此,常用 2 S 作为方差 2 的估计量。 从无偏的角度考虑, 2 S 比 B2 作为 2 ˆ 的估计好。 在实际应用中,对整个系统(整个实验)而言无系统偏差,就一次实验来讲, ˆ 可能偏 大也可能偏小,实质上并说明不了什么问题,只是平均来说它没有偏差。所以无偏性只有在 大量的重复实验中才能体现出来;另一方面,我们注意到:无偏估计只涉及到一阶矩(均值), 虽然计算简便,但是往往会出现一个参数的无偏估计有多个,而无法确定哪个估计量好。 例 3:设总体 X ~ P( ) ,密度为 = − 0 其它 0 1 ( ; ) e x p x x 其中 0 为未知,又 ( , , , ) X1 X2 Xn 是 X 的一样本,则 X 和 [min{ , , , }] nZ = n X1 X2 Xn 都是 的无偏估计。 证明: E(X) = E(X) = , X 是 的无偏估计 而 min{ , , , ) Z = X1 X2 Xn 则服从参数为 n 的指数分布,其密度为 = − 0 其它 0 ( ; ) min e x n f x nx ( ) = , E(n ) = n E Z 即 nZ 是 的无偏估计。事实上, ( , , , ) X1 X2 Xn 中的每一个均可作为 的无偏估计。 那么,究竟哪个无偏估计更好、更合理,这就看哪个估计量的观察值更接近真实值的附 近,即估计量的观察值更密集的分布在真实值的附近。我们知道,方差是反映随机变量取值 的分散程度。所以无偏估计以方差最小者为最好、最合理。为此引入了估计量的有效性概念
、有效性: 定义2:设B1=日1(X1,X2…,Xn)与2=02(X1X2,…Xn)都是θ的无偏估计量,若 有D(1)1时,显然有D(X)<D(mZ),故X较nZ有效 为了进一步地计算最小方差无偏估计,给出如下定理: 定理:(Rao- Gramer不等式)设总体x的分布密度为f(xO),(X1,X2,…Xn)是X的一个 样本,θ为θ的任一无偏估计,若f(x,O)满足: 1)集合G={x:f(x,O)≠0}与θ无关 af(; 8) 对一切6x都存在,且 f(; 0)dx f(x; e)dx 3)记(O)=Ef(x,O)2,满足0<0)<+,则D(Oy(O) 其中(0)称为 Fisher信息量。 定理给出无偏估计方差的一个下界一一RC下界,即,若D)达到RC下界,则0一定 是b的最小方差无偏估计。 注:在定理中,条件1),2)称为正则条件,一般分布都满足,常见的分布有U[00]不 满足(其中O为未知),因而不能用定理。 定义3:设O是O的任一无偏估计,称c(0)=n(、为无偏估计的有效率 D(6) 定义4:若存在θ的无偏估计,使e(O)=1,则称O是O的有效估计 可见:在正态分布中,x是的有效估计;s2是o2的最小方差无偏估计,不是有效估 计,其效率为:e(s2)= 故:有效估计一定是最小方差无偏估计,反之不然。可见,有效估计要求的更为严格。 、一致性(相合性) 关于无偏性和有效性是在样本容量固定的条件下提出的,即,我们不仅希望一个估计量
10 二、有效性: 定义 2:设 1 = 1 ( X X Xn , , , 1 2 )与 2 = 2 ( X X Xn , , , 1 2 )都是 的无偏估计量,若 有 ( ) ( ) 1 2 D D ,则称 2比 2 有效。若对 的无偏估计 都有: ( ) ( ) 0 D D ,则称 0 为 的最小方差无偏估计。 例 4:在例 3 中,由于 n D X D X 2 2 ( ) ( ) = = 又 2 2 2 ( ) ( ) = D nZ = n D Z 当 n 1 时,显然有 D(X) D(nZ) ,故 X 较 nZ 有效。 为了进一步地计算最小方差无偏估计,给出如下定理: 定理:(Rao-Gramer 不等式)设总体 X 的分布密度为 f (x; ) ,( , , , ) X1 X2 Xn 是 X 的一个 样本, 为 的任一无偏估计,若 f (x; ) 满足: 1) 集合 G = {x : f (x; ) 0} 与 无关; 2) f (x; ) 对一切 , x 都存在,且 + − + − = f (x; )dx f (x; )dx ; 3) 记 2 ( ) [ ( ; )] I E f x = ,满足 0 I( ) + ,则 ( ) 1 ( ) nI D , 其中 I( ) 称为 Fisher 信息量。 定理给出无偏估计方差的一个下界——R-C 下界,即,若 D( ) 达到 R-C 下界,则 一定 是 的最小方差无偏估计。 注:在定理中,条件 1),2)称为正则条件,一般分布都满足,常见的分布有 U[0,0] 不 满足(其中 为未知),因而不能用定理。 定义 3:设 是 的任一无偏估计,称 ( ) ( ) 1 ( ) = D nI e 为无偏估计的有效率。 定义 4:若存在 的无偏估计 ,使 ( ) = 1 e ,则称 是 的有效估计。 可见:在正态分布中, x 是 u 的有效估计; 2 s 是 2 的最小方差无偏估计,不是有效估 计,其效率为: n n e s 1 ( ) 2 − = 。 故:有效估计一定是最小方差无偏估计,反之不然。可见,有效估计要求的更为严格。 三、一致性(相合性) 关于无偏性和有效性是在样本容量固定的条件下提出的,即,我们不仅希望一个估计量