
内容提要上次课的回顾1最小二乘估计(LSE)矩估计(ME)1小结与应用实例
内容提要 上次课的回顾 最小二乘估计( 最小二乘估计(LSE ) 矩估计(ME) 小结与应用实例 小结与应用实例

Review ofthelast lecture上次课的回顾MLE介绍MLE的性质MLE的数值确定线性模型的MLE
上次课的回顾 MLE介绍 MLE的性质 MLE的数值确定 线性模型的MLE Review of the last lecture Review of the last lecture

最大似然估计原理最大似然估计常用来估计未知的非随机参量,它定义为使似然函数最大的0值作为估计量。对于未知非随机被估计量A,观测矢量x的概率密度函数p(x;の),称之为似然函数。最大似然估计的基本原理是对于某个选定的θ,考虑x落在一个小区域内的概率p(x;0)dx,取p(x;)dx 最大的那个对应的é,作为估计量
最大似然估计原理 最大似然估计常用来估计未知的非随机参 最大似然估计常用来估计未知的非随机参 量,它定义为使似然函数最大的 量,它定义为使似然函数最大的 值作为估 计量。 对于未知非随机被估计量 对于未知非随机被估计量 ,观测矢量 的 概率密度函数 ,称之为似然函数。 ,称之为似然函数。 最大似然估计的基本原理是对于某个选定 最大似然估计的基本原理是对于某个选定 的 ,考虑 落在一个小区域内的概 落在一个小区域内的概 率 ,取 最大的那个对应 最大的那个对应 的 作为估计量 。 θ θ x p(; ) x θ θ x p d (; ) x x θ p(; ) x x θ d ˆθ ML

最大似然估计量的构造根据最大似然估计原理,如果已知似然函数p(x,①)那么最大似然估计量,可由方程a ln p(x;0)p(x; 0)=0=0or0=00=0MLa0a0MI解得,该方程称为最大似然方程。最大似然估计也适用于随机参量,但主要是对于不知道先验PDF情况的估计。或者在随机参量情况下,虽然知道被估计量的先验PDF但不用,而用最大似然估计构造估计量也是可以的
最大似然估计量的构造 根据最大似然估计原理,如果已知似然函 根据最大似然估计原理,如果已知似然函 数 , 那么最大似然估计量 那么最大似然估计量 可由方程 解得,该方程称为最大似然方程。 解得,该方程称为最大似然方程。 最大似然估计也适用于随机参量 最大似然估计也适用于随机参量 ,但主要是对 于不知道先验PDF情况的估计。或者在随机参量 情况的估计。或者在随机参量 情况下,虽然知道被估计量的先验 情况下,虽然知道被估计量的先验PDF但不用, 而用最大似然估计构造估计量也是可以的。 而用最大似然估计构造估计量也是可以的。 p(; ) x θ ˆθ ML ˆ ˆ (; ) ln ( ; ) 0 0 ML ML p p or θ θ θ θ θ θ θ θ = = ∂ ∂ = = ∂ ∂ x x θ

Maximumlikelihoodestimation最大似然估计基于最大似然原理的估计,是人们获得实用估计的最通用的方法。该方法在MVU估计量不存在或者存在但不能求解的情况下是很有效的。利用它可以简便地实现对复杂的估计问题的求解。对于绝大多数适用的最大似然估计,当观测数据足够多时,其性能是最优的,非常接近于MVU估计量。几乎所有适用的估计都是基于最大似然原理
最大似然估计 基于最大似然原理的估计,是人们获得实用估 基于最大似然原理的估计,是人们获得实用估 计的最通用的方法。该方法在 计的最通用的方法。该方法在MVU估计量不存 在或者存在但不能求解的情况下是很有效的。 在或者存在但不能求解的情况下是很有效的。 利用它可以简便地实现对复杂的估计问题的求 利用它可以简便地实现对复杂的估计问题的求 解。 对于绝大多数适用的最大似然估计,当观测数 对于绝大多数适用的最大似然估计,当观测数 据足够多时,其性能是最优的,非常接近于 据足够多时,其性能是最优的,非常接近于 MVU估计量。 几乎所有适用的估计都是基于最大似然原理。 几乎所有适用的估计都是基于最大似然原理。 Maximum likelihood estimation Maximum likelihood estimation

MaximumlikelihoodestimationMLE的性质1一渐进特性定理7.1:MLE的渐近特性:如果数据x的PDF P(x;0)满足某些正则条件,那么对于足够多的数据记录,未知参数的MLE渐近服从 ~ N(0, I-1(0))其中I(①)是在未知参数真值处计算的Fisher信息正则条件要求对数似然函数的导数存在,也就是要求Fisher信息非零根据渐进分布,MLE可视为渐进无偏的和渐进达到CRLB,因此它是渐进有效的,因此也是渐进最佳的。当然,实际上运用其渐进特性的主要问题一直是N必须取多大?幸好在很多感兴趣的情况中,数据记录长度基本满足要求
定理7.1:MLE的渐近特性:如果数据x的PDF 满足 某些正则条件,那么对于足够多的数据记录 对于足够多的数据记录,未知参数的 MLE渐近服从 其中 是在未知参数真值处计算的Fisher信息 正则条件要求对数似然函数的导数存在,也就是要求Fisher 信息非零 MLE的性质1-渐进特性 根据渐进分布,MLE可视为渐进无偏的和渐进达到CRLB,因此它是渐 进有效的,因此也是渐进最佳的。当然,实际上运用其渐进特性的主 要问题一直是N必须取多大?幸好在很多感兴趣的情况中,数据记录 长度基本满足要求。 Maximum likelihood estimation Maximum likelihood estimation

MaximumlikelihoodestimationMLE的性质2一不变性定理7.2 MLE的不变性参数α=g(の)的MLE由下式给出,其中PDFp(x;)是参数θ的函数。α = g(0)其中é是 的MLE。使 p(x;)最大可求得的MLE如果g不是一对一的函数,那么使得修正后的似然函数P(x;の)最大的α定义为:max。, p(x; 0)p(x; α) =[0:α=g(0)]
参数 的MLE由下式给出,其中PDF 是参数 的函数。 其中 是 的MLE。使 最大可求得 的MLE。 如果g不是一对一的函数,那么使得修正后的似然函数 最大的 定义为: MLE的性质2-不变性 定理7.2 MLE 7.2 MLE的不变性 Maximum likelihood estimation Maximum likelihood estimation

MaximumlikelihoodestimationMLE的数值确定我们总MILE的一个独特的优点在于,对于一个给定的数据集,可以在数值上求出它一→如果θ值的允许范围在[a,b]中,那么我们只需要在此区间上使P(x;①)最大既可,采用网络搜索法。一如果θ的范围没有控制在有限区间内,我们只好通过选迭代求最大值。经典的方法有:Newton一Raphson方法(Newton-RaphsonMethod)·得分法(MethodofScoring)·数学期望最大算法(ExpectationMaximizationAlgorithm)一→由于是数值过程,对于任何数据集,我们都要重复最大化过程,似然函数对于每个数据集是变化的
MLE的一个独特的优点在于, 的一个独特的优点在于,对于一个给定的数据集,我们总 对于一个给定的数据集,我们总 可以在数值上求出它 可以在数值上求出它。 如果 值的允许范围在 值的允许范围在[a,b]中,那么我们只需要在此区间上使 中,那么我们只需要在此区间上使 最大既可, 采用网络搜索法。 采用网络搜索法。 如果 的范围没有控制在有限区间内,我们只好通过迭代求最 的范围没有控制在有限区间内,我们只好通过迭代求最 大值。经典的方法有: 大值。经典的方法有: •Newton-Raphson Raphson方法(Newton-Raphson Raphson Method) •得分法(Method of Scoring Method of Scoring) •数学期望最大算法( 数学期望最大算法(Expectation Maximization Algorithm) 由于是数值过程,对于任何数据集,我们都要重复最大化 由于是数值过程,对于任何数据集,我们都要重复最大化 过程,似然函数对于每个数据集是变化的。 过程,似然函数对于每个数据集是变化的。 MLE的数值确定 Maximum likelihood estimation Maximum likelihood estimation

Maximumlikelihoodestimation线性模型的最佳MLE定理7.5(线性模型的最佳MLE)如果观测数据x可以由一般线性模型表示x=HO+w其中H是一个秩为p的N×p矩阵,且N>p,0是一个被估计的p×1参数矢量,而且w是一个PDF为N(OC)的噪声矢量,那么的MLE为=(H"C-"H)-"HTC-'x也是一个有效估计量,它达到了CRLB,所以它是MVU估计量。的PDF为~ N(O,(H"C-"H)-")结论推广:如果有效估计量存在,那么它就可由MLE求出
线性模型的最佳MLE 11 1 1 1 7.5 ˆ ( ) ˆ ˆ , ˆ ( ,( ) ) T T T HC H HC CRLB MVU PDF N HC H θ θ θ θ θ θ θ θ −− − − − × × = ∼ 定理 (线性模型的最佳MLE) 如果观测数据x可以由一般线性模型表示 x=H +w 其中H是一个秩为p的N p矩阵,且N>p, 是一个被估计的p 1参数矢量, 而且w是一个PDF为N(0,C)的噪声矢量,那么 的MLE为 x 也是一个有效估计量,它达到了 所以它是 估计量。 的 为 结论推广:如果有效估计量存在,那么它就可由 结论推广:如果有效估计量存在,那么它就可由MLE求出 Maximum likelihood estimation Maximum likelihood estimation

LeastsguaresEstimation,LSE高斯与最小二乘18o1意大利天文学家GiuseppePiazzi发现了第一颗小行星谷神星,在4o关的跟踪观测后,谷神星运行至太阳背后。GiuseppePiazzi失去了谷神星的位置。随后全世界的科学家通过GiuseppePiazzi的观测数据并始了寻找谷神星的行动。但是大多数的计算都没有结果,只有当时年仅24岁的高斯成功计算出了谷神星的轨道,奥地利天文学家HeinrichOlbers在高斯计算出的轨道上发现了重新发现了谷神星,从此高斯闻名世界。高斯只作了3次观测就提出了一种计算轨道参数的方法,而且达到的精确度使得天文学家在1801年未和1802年初能够掌无困难地再次确定谷神星的位置。高斯的这个最小二乘的方法发表在1809年的著作《天体运动论》中。法国科学家勒证德也于1806年独立发明最小二乘法。1829年,高斯提供了这个方法较其它方法为优的证明:最小二乘法在很大方面上优化效果强于其它方法,被称为高斯-莫卡夫定理
高斯与最小二乘 1801意大利天文学家Giuseppe Piazzi Giuseppe Piazzi发现了第一颗小行星谷神 星, 在40天的跟踪观测后,谷神星运行至太阳背后。Giuseppe Giuseppe Piazzi失去了谷神星的位置。随后全世界的科学家通过 Giuseppe Piazzi Giuseppe Piazzi的观测数据开始了寻找谷神星的行动。但是大 多数的计算都没有结果,只有当时年仅24岁的高斯成功计算出了 谷神星的轨道,奥地利天文学家Heinrich Heinrich Olbers在高斯计算出 的轨道上发现了重新发现了谷神星,从此高斯闻名世界。 高斯只作了 3次观测就提出了一种计算轨道参数的方法,而且达 到的精确度使得天文学家在1801年末和1802年初能够毫无困难 地再次确定谷神星的位置。 高斯的这个最小二乘的方法发表在1809年的著作 《天体运动论 》 中。法国科学家勒让德也于1806年独立发明最小二乘法。1829 年,高斯提供了这个方法较其它方法为优的证明:最小二乘法在 很大方面上优化效果强于其它方法,被称为高斯 -莫卡夫定理。 Least squares Estimation, LSE Least squares Estimation, LSE