粒子物理与核物理实验中的 数据分析 陈少敏 清华大学 第七讲:最大似然法(I)
粒子物理与核物理实验中的 数据分析 陈少敏 清华大学 第七讲:最大似然法(I)
本讲要点 似然函数,最大似然估计量 ▣ 指数与高斯概率密度函数的参数确定举 ▣最大似然估计量的方差 >解析法 >蒙特卡罗法 >RCF边界法 >图解法 口不等精度观测结果的并合 2
2 本讲要点 似然函数,最大似然估计量 指数与高斯概率密度函数的参数确定举 最大似然估计量的方差 不等精度观测结果的并合 ¾解析法 ¾蒙特卡罗法 ¾RCF边界法 ¾图解法
参数估计量的好坏标准 符合程度(一致性) Lim0=0, LimP(0-0>8)=0,对任何ε>0都成立。 n->o0 偏置大小(无偏性) b=E[0-0=0 物理研究中如何 寻找未知参数? 方差大小(有效性) 对任何估计量0,都有Lim VI,]≤1,则渐进效佳估计量。 n→0 vie,] 最大似然法是用来寻求未知参数适当估计值的一种方法 3
3 参数估计量的好坏标准 符合程度(一致性) 偏置大小(无偏性) 方差大小(有效性) ˆ , ˆ (| | ) 0, >0 n n Li m Li m P θ θ θ θ ε ε →∞ →∞ = − > = 对任何 都成立。 ˆ b E = [ ] θ θ− = 0 ' ˆ [ ] ˆ ˆ ' 1 ˆ [ ] n n n V Lim V θ θ θ →∞ θ 对任何估计量 ,都有 ≤ ,则 渐进效佳估计量。 最大似然法是用来寻求未知参数适当估计值的一种方法 最大似然法是用来寻求未知参数适当估计值的一种方法 物理研究中如何 寻找未知参数?
参数估计与概率大小的关系 考虑有数据样本元=(x,,xn),这里x服从pdf分布f(x;0) 目标:估计0。或者更为一般地,估计0=(0,,0m) 如果f(x;)为真,则有 P(对所有在[x,x,+dx]观察到的x)=∏f(x,0)dx i=l 如果假设(包括0的取值)为真 可以预料会使观测结果具有高的概率。 如果假设的0取值远离真值 会使观测结果具有低的概率。 4
4 参数估计与概率大小的关系 1 ( ,..., ) pdf ( ; ) n x x = x x f x θ G 考虑有数据样本 ,这里 服从 分布 。 1 ( ,..., ) θ θ = θ θ m G 目标:估计 。或者更为一般地,估计 如果 (; f x θ ) 为真,则有 1 ( [ , ] ) ( , ) n i i i i i i i P x x dx x f x θ dx = 对所有在 + = 观察到的 ∏ 如果假设 (包括 θ 的取值 )为真 可以预料会使观测结果具有高的概率。 如果假设的 θ 取值远离真值 会使观测结果具有低的概率
似然函数 根据参数好坏与概率大小的关系,可以认为真实的0应使得下式定义的 似然函数 注意:虽然L(O)=∫ampe(;8), L(0)=Πfx,e) 但是L()只是的函数。这是 i 因为在实验完成以后,就可 以被当做常数。 有大的数值。 在经典统计理论里,L(0)并不是0的概率密度函数。 0不是一个随机变量,但0却是。 在贝叶斯统计理论里,把L()=L(x|0)看作给定情况下,x的概率密度 函数,然后利用贝叶斯定理得到验后概率密度函数p(Ox)。 5
5 似然函数 在经典统计理论里,L(θ )并不是θ 的概率密度函数。 根据参数好坏与概率大小的关系,可以认为真实的θ 应使得下式定义的 似然函数 ∏ = = n i i L f x 1 (θ ) ( ,θ ) ˆ θ θ 不是一个随机变量,但 却是。 有大的数值。 () ( ; ), ( ) L fsample x L x θ θ θ θ = G G 注意:虽然 但是 只是 的函数。这是 因为在实验完成以后, 就可 以被当做常数。 ( ) ( | ) (|) L L x x p x θ θ θ θ = G G G 在贝叶斯统计理论里,把 看作给定 情况下, 的概率密度 函数,然后利用贝叶斯定理得到验后概率密度函数
最大似然估计量 定义最大似然估计量0为使得L()最大的值。通过解下列方程 aL(0) =0 i=1,.,m a0, 通常可以找到对于m个参数的解6,,n。 有时候L(0)可以有好几个极大值 取最大值 注意,1)该方法利用了所有信息,与如何划分数据分布区间无关: 2)定义的最大似然估计量并不保证它们总是最优的。 需要对诸如无偏性,有效性等问题进行研究 多数情况下对于足够大样本,最大似然法的确能给出了期待的好结果。 即使是小样本的情况,虽然并不总是达到最优,但它通常仍然能给出最 好的实用解。 6
6 最大似然估计量 取最大值 取最大值 ˆ 定义最大似然估计量θ θ 为使得 L ( ) 最大的 θ值。通过解下列方程 1 ˆ ˆ ,..., 通常可以找到对于 m 个参数的解 θ θ m 。 i m L i 0 1,..., ( ) = = ∂ ∂ θ θ 有时候 L ( θ ) 可以有好几个极大值 注意, 1)该方法利用了所有信息,与如何划分数据分布区间无关; 2)定义的最大似然估计量并不保证它们总是最优的。 需要对诸如无偏性,有效性等问题进行研究 多数情况下对于足够大样本,最大似然法的确能给出了期待的好结果。 即使是小样本的情况,虽然并不总是达到最优,但它通常仍然能给出最 好的实用解
最大似然估计量的唯一性 考虑0的最大似然估计值是下列方程的解 olog L(0) =0 a0 如果选用另一个等价参数h(8),则h的最大似然估计值是下列方程的解 alog L(0) =0 8h 而对于 因此,h的最大似然 olog L(0) alog L(0)80 估计值与参数选取无 Oh a0 8h 关,具有唯一性。 Oh 只要 ≠0,就有 a0 alog L(0) alogL(0)80 =0 ah(0) 0=0 a0 Oh →h=h(⊙) = 7
7 最大似然估计量的唯一性 考虑 θ 的最大似然估计值是下列方程的解 lo g ( ) 0 L θ θ ∂ = ∂ 如果选用另一个等价参数 h ( θ ) , 则 h 的最大似然估计值是下列方程的解 lo g ( ) 0 L h ∂ θ = ∂ 而对于 lo g L L ( ) lo g ( ) h h θ θ θ θ ∂ ∂ ∂ = ∂ ∂ ∂ , 0 h θ ∂ ≠ ∂ 只要 就有 ˆ ˆ lo g ( ) lo g ( ) 0 ( ) L L h h θ θ θ θ θ θ θ θ θ = = ∂ ∂ ∂ = = ∂ ∂ ∂ ˆ ˆ h h = ( ) θ 因此, h 的最大似然 估计值与参数选取无 关,具有唯一性。 因此, h 的最大似然 估计值与参数选取无 关,具有唯一性
最大似然估计量的渐进性 如果元=(x,,xn)是分布f(x;O)的随机样本,0是参数0的最大似然 估计。则当样本容量→0时,0的分布趋近于一个正态分布,即 f(d:0)=(d,0,VL0]) 其中方差 [=- a2log f(x;0) a20 在推断大样本的最大似然估计的误差时,可以利用 测量误差理论中最常见的正态分布进行推断。 注意:样本容量多大,才能近似利用极限正态分布,才可以看作最 有效的估计,这将依赖于观测量的概率密度函数的具体形式。但对 于指数型分布会有一些最优性质
8 最大似然估计量的渐进性 1 ˆ ( ,..., ) ( ; ) ˆ n x x x f x n θ θ θ θ = → ∞ G 如果 是分布 的随机样本, 是参数 的最大似然 估计。则当样本容量 时, 的分布趋近于一个正态分布,即 ˆ ˆ f N ( ; θ θ θ ) = ( ;θ,V [ θ ] ) 其中方差 1 1 2 2 2 2 lo g ( ) 1 lo g ( ; ) [ ] L f x V n θ θ θ θ θ − − ⎛ ⎞ ∂ ∂⎛ ⎞ = −⎜ ⎟ = − ⎜ ⎟ ⎜ ⎟ ∂ ∂ ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ 在推断大样本的最大似然估计的误差时,可以利用 测量误差理论中最常见的正态分布进行推断。 注意:样本容量多大,才能近似利用极限正态分布,才可以看作最 有效的估计,这将依赖于观测量的概率密度函数的具体形式。但对 于指数型分布会有一些最优性质。 注意:样本容量多大,才能近似利用极限正态分布,才可以看作最 有效的估计,这将依赖于观测量的概率密度函数的具体形式。但对 于指数型分布会有一些最优性质
例子:指数概率密度函数参数 考虑指数概率密度函数 f(t;t)=Le-u T 并假设有一数据样本t1,.,tn。通常为了方便起见,可采用对数形式(对同 样的参数值,该定义并不会改变最大值的位置) eue)立oeu,-2oeg 例子:用蒙特卡罗 0.75 方法产生具有仁1 的50个t值,得到 令logL-0,并求解, 0.5 t=1.062 0.25 是平均寿命的 n 最大似然估计 0 i=1 5
9 例子:指数概率密度函数参数 考虑指数概率密度函数 τ τ τ 1 / ( ; ) t f t e− = 并假设有一数据样本 t1,…,tn。通常为了方便起见,可采用对数形式(对同 样的参数值,该定义并不会改变最大值的位置)。 1 1 1 log ( ) log ( ; ) log n n i i i i t L f τ τ t = = τ τ ⎛ ⎞ = = − ⎜ ⎟ ⎝ ⎠ ∑ ∑ log 0 L τ τ ∂ = ∂ 令 ,并求解 , ∑ = = n i i t n 1 1 τ ˆ 例子:用蒙特卡罗 方法产生具有τ=1 的50个 t 值,得到 τ ˆ =1.062 是平均寿命的 最大似然估计
最大似然估计的偏向性问题 对样本求平均 i= n i=l 所得到平均值是x的一个无偏估计量吗? 原则上可以通过找出概率密度函数(例如采用蒙特卡罗方法) g(i;r) 并计算出偏置的大小 b=ETil-t 来检查估计量是否是无偏的 但是… 10
10 最大似然估计的偏向性问题 所得到平均值是 τ 的一个无偏估计量吗? 原则上可以通过找出概率密度函数 (例如采用蒙特卡罗方法 ) ∑= = n i i t n 1 1 τˆ g (τˆ;τ ) b = E [τˆ ] − τ 对样本求平均 并计算出偏置的大小 来检查估计量是否是无偏的 但是 …