421 所以 , 为了将 J 的较粗估计 Jn , 修改为较精的估计

点击下载：《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第15章与数据建模有关的几个算法

正在加载图片...

所以,为了将9的较粗估计9,修改为较精的估计⑨n1,只需找9n1使 L(9n1)-L(9n)≥0.也就是只需要找n1使 Q(9n1|9n)-Q(9n|9n)≥0 (15.4) 于是我们就得到如下的 Dempster- Laird- Rubin的酬M算法,简称 Rub in算法或EM算法 (1)设置初值9 (2)(E步骤)对于n20,计算Q(|9,)=「g/(,xy)/(0,x1y)dx (3)(M-步骤)(修正9的估计)取⑨n+!使 Q(9m+1 9n)=Max @( 9n) (15.5) 由于将9n修正为9n时,Q(9n1|9)比Q(9n|9n)大,所以L(⑨n)是不减的,这就说明 9有收敛的趋势. Rubin证明了,在一定的条件下,9确实按概率收敛于某个9.于是我们可以合理地把9作为分布的参数9的较佳的估计注1L(9)是多峰函数的时候,9有可能是L(9)的局部最大值,甚至是鞍点,为了纠正这种不足,一般可以从多个初始值出发,找到多个9值进行比较注2所谓“缺失资料”可见之于两种情形:一种是观测资料的丢失,另一种是人为地设置一些“后台操作的”辅助随机变量,称之为潜变量,将他们视为缺失的资料,即将他们视为不能直接测量到的状态随机变量.这种潜变量的取法可以非常灵活,依赖于人们对于问题的认识,经验的积累与对于技术掌握的成熟程度.从数学处理的角度考虑,最好能选取潜变量X,使它与观测随机变量γ的联合分布是指数型分布(参见第1章),这时E-步骤就很容易计算. 注3在离散随机变量的情形,E一步骤中的积分应该相应的改为求和。以上算法也同样将隐马氏模型中的Baum- Welsh算法,纳入了EM算法的框架. 1.3EM算法的变通一广义EM算法在实际计算中,又因为E-步骤的计算量很大,人们常常并不真去计算条件期望,而是采用随机模拟.即:用在(9,})已知的条件下,用随机模拟得到X的 Bayes分布的若干独立随机数,代入log∫(φ,Ⅺ)后作样本平均,用来代替Q(φ|9n)·这就大大地减少了计算量.实践表明这样的简化,常可以得到相当满意的效果同样,也因为M步骤的计算量也很大,人们也常常并不去算最大,而是任意找一个 φ,只要满足Q(φ|9)-Q(9|9n)≥0,就取φ为⑨n1·这样简化了的算法,称为广义 421421 所以 , 为了将 J 的较粗估计 Jn , 修改为较精的估计 Jn+1 , 只需找 Jn+1 使 L(Jn+1 ) - L(Jn ) ³ 0. 也就是只需要找Jn+1 使 Q(Jn+1 |Jn ) -Q(Jn | Jn ) ³ 0 . (15. 4) 于是我们就得到如下的 Dempster– Laird- Rubin 的 EM 算法, 简称 Rubin 算法或 EM 算法: (1) 设置初值 J0；（2）（E-步骤）对于n ³ 0, 计算 ( | ) Q j Jn f x y f x y d x X Y log ( , , ) ( , | ) | j q ò = ；（3）（M -步骤）（修正J 的估计）取Jn +1 使 ( | ) ( | ) Q Jn+1 Jn = Maxj Q j Jn . (15. 5) 由于将Jn修正为Jn+1时, ( | ) Q Jn+1 Jn 比 ( | ) Q Jn Jn 大, 所以 ( ) L Jn 是不减的, 这就说明 Jn有收敛的趋势. Rubin 证明了，在一定的条件下，Jn确实按概率收敛于某个 ^ J ．于是我们可以合理地把 ^ J 作为分布的参数J 的较佳的估计注 1 L(J) 是多峰函数的时候， ^ J 有可能是 L(J) 的局部最大值，甚至是鞍点，为了纠正这种不足，一般可以从多个初始值出发，找到多个 ^ J 值进行比较．注 2 所谓“ 缺失资料”可见之于两种情形：一种是观测资料的丢失，另一种是人为地设置一些“后台操作的”辅助随机变量，称之为潜变量，将他们视为缺失的资料，即将他们视为不能直接测量到的状态随机变量. 这种潜变量的取法可以非常灵活, 依赖于人们对于问题的认识, 经验的积累与对于技术掌握的成熟程度. 从数学处理的角度考虑, 最好能选取潜变量 X ,使它与观测随机变量Y 的联合分布是指数型分布 (参见第 1 章), 这时 E-步骤就很容易计算. 注 3 在离散随机变量的情形，E－步骤中的积分应该相应的改为求和。以上算法也同样将隐马氏模型中的 Baum-Welsh 算法, 纳入了 EM 算法的框架．１．３ EM 算法的变通 – 广义 EM 算法在实际计算中, 又因为 E-步骤的计算量很大, 人们常常并不真去计算条件期望, 而是采用随机模拟. 即: 用在( ,Y) Jn 已知的条件下, 用随机模拟得到 X 的 Bayes 分布的若干独立随机数, 代入 log f (j, X) 后作样本平均, 用来代替 ( | ) Q j Jn . 这就大大地减少了计算量. 实践表明这样的简化, 常可以得到相当满意的效果. 同样, 也因为 M-步骤的计算量也很大, 人们也常常并不去算最大, 而是任意找一个 j , 只要满足Q(j |Jn ) - Q(Jn |Jn ) ³ 0, 就取j 为 Jn+1 . 这样简化了的算法, 称为广义

<<向上翻页向下翻页>>

点击下载：《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第15章与数据建模有关的几个算法