《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第8章 Monte Carlo与Markov Chain Monte Carlo（MCMC）方法.pdf_大学文库

龚光鲁,钱敏平著应用随机过程教程及其在算法与智能计算中的应用清华大学出版社,2003 第8章 Monte Carlo与 Markov chain monte carlo(MCMC)方法在许多很复杂的统计问题中,有时很难直接对各种统计方法进行理论分析.为了评估它们的优劣,常见的实用办法是做随机模拟:即设法按问题的要求与条件去构造出一系列的模拟样本,用它们的样本频率代替对应的概率作统计分析与推断,观察由这些摸拟样品所作出的推断的正确率.因为在概率论初期发展时,随机模拟的原型常常来自博采,于是人们就以博采之都 Monte carlo作为随机模拟方法的别称.久而久之, Monte carlo方法作为名称倒比随机模拟方法更为广泛地被常用了.相仿地,人们还把组合计算中的某些随机模拟方法, 称为 Las vegas方法,这是以美国的博采城 Las vegas命名的般随机模拟方法的长处是,计算的复杂度不依赖于计算空间的维数因此,在计算非常高维数的积分(或多指标的求和)时, Monte Carlo方法比通常的计算方法有明显的优越性.而很多的 Monte carlo计算问题,可归结为计算积分或庞大和数的问题 1.计算积分的 Monte carlo方法与采样量估计通过构造独立同分布随机数,计算积分的 Monte carlo方法,也称为静态 Monte Carlo 方法,其思想可以在本节中,通过估计最简单的积分f(x)dx得到阐明.对于高维积分, 其思路与一维积分是一样的.另一方面,在甚高维情形,因为计算量太大,用静态 Monte Carlo方法处理速度太慢.我们在第2节中通过构造 Markov链的极限不变分布,来模拟计算积分的方法(称为动态 Monte Carlo方法, Markov链 Monte carlo方法,MCMC),将更为适用 1.1用频率估计概率来计算积分的 Monte Carlo方法假定0≤f(x)≤M.那么由积分的面积含义有 f(x)ax=S|,(其中S|为S={(x,y):a≤x≤b,f(x)≥y}的面积) 考虑平面区域Ω=如,b×[0,M上的均匀随机变量5,则 p=P(∈S) 「/(x)k 对于N个独立的-均匀随机数;,(≤N),记 Ns={1,…5x}中落在S中的频数于是,利用大数定律便知 (b-a)

202 龚光鲁，钱敏平著应用随机过程教程及其在算法与智能计算中的应用清华大学出版社,2003 第 8 章 Monte Carlo 与 Markov Chain Monte Carlo (MCMC) 方法在许多很复杂的统计问题中,有时很难直接对各种统计方法进行理论分析．为了评估它们的优劣,常见的实用办法是做随机模拟：即设法按问题的要求与条件去构造出一系列的模拟样本,用它们的样本频率代替对应的概率作统计分析与推断, 观察由这些摸拟样品所作出的推断的正确率．因为在概率论初期发展时, 随机模拟的原型常常来自博采, 于是人们就以博采之都 Monte Carlo 作为随机模拟方法的别称. 久而久之, Monte Carlo 方法作为名称倒比随机模拟方法更为广泛地被常用了. 相仿地, 人们还把组合计算中的某些随机模拟方法, 称为 Las Vegas 方法, 这是以美国的博采城 Las Vegas 命名的. 一般随机模拟方法的长处是，计算的复杂度不依赖于计算空间的维数. 因此, 在计算非常高维数的积分（或多指标的求和）时, Monte Carlo 方法比通常的计算方法有明显的优越性. 而很多的 Monte Carlo 计算问题, 可归结为计算积分或庞大和数的问题. 1. 计算积分的 Monte Carlo 方法与采样量估计通过构造独立同分布随机数, 计算积分的 Monte Carlo 方法, 也称为静态 Monte Carlo 方法, 其思想可以在本节中,通过估计最简单的积分 ò b a f (x)dx 得到阐明. 对于高维积分, 其思路与一维积分是一样的. 另一方面，在甚高维情形, 因为计算量太大, 用静态 Monte Carlo 方法处理速度太慢. 我们在第 2 节中通过构造 Markov 链的极限不变分布，来模拟计算积分的方法（称为动态 Monte Carlo 方法， Markov 链 Monte Carlo 方法, MCMC), 将更为适用. 1. 1 用频率估计概率来计算积分的 Monte Carlo 方法假定 0 £ f ( x) £ M . 那么由积分的面积含义有 f (x)dx | S | b a = ò , (其中| S | 为 S ={(x, y) : a £ x £ b, f (x) ³ y} D 的面积 ). 考虑平面区域W =[a,b]´[0,M ] D 上的均匀随机变量x , 则 b a M p P S ( ) 1 ( ) - = Î = D x ò b a f (x)dx . 对于 N 个独立的W -均匀随机数 ,(i N) xi £ , 记 { , , } NS 1 N = x L x 中落在 S 中的频数，于是，利用大数定律便知 D = ^ I N N b a M S ( - ) （８．１）

1.用于生成较复杂的随机数: *实现对高维分布(或高维格点分布)兀取样,得到丌随机数是实现重要度采样的一种方法.对∫(x)的重要性采样,就是取得兀(=丌(x)= a f(x) -)随机数 lf() dy 2.实现高维积分(或项数极多的求和)的数值计算(典例是 Gibbs分布的各种泛函的平均值的计算).对于∫(x)≥0,作以丌=丌(x)= A f(x) 为极限分布的 Markov链X f()dy 利用遍历定理可以由这个 Markov链的一条轨道,得到分布密度x(x)的估计,记为r(x).再用作为积分/=∫/(x女的估计丌(x) 3.用模拟方法估计最可几轨道.例如,如果模拟了100条轨道,那么就能以大概率推断,最可几轨道就在这些轨道的邻近.当统计量的分布未知时,可以用模拟方法从频率估计置信限 4.用被估参数的 Bayes分布(参见第9章)的取样,来估计参数 5.求复杂样本空间上函数的极值(模拟退火) 2.1 Gibbs采样法( Gibbs sampler) 1.用MCMC方法得到 Gibbs分布的样本与估计 Gibbs分布在第6章中,我们考虑了在d维的N一格点集上的 Ising模型的 Gibbs分布 em(m,由于所涉及的状态空间(全体组态的集合)S=+1非常大(例如,把一幅256×256个采样点的黑白图像看成一个组态,则d=2,N=256,S中有 236256(=2>260010809个元素),这就使得分母中的求和无法实际完成而MOMC 方法就是以通过构造一个以这个Gibs分布r;= 为不变分布的离散时间的 Markov链Xn(它就是 Glauber动力学中的连续时间的 Markov链的离散时间采样),作为模拟计算的基点的.构造的 Markov链必须易于计算,所以我们要求它的概率转移速率只容许在组态的一个格点上变动.这样的变动方式,称为Gibs方式,这种抽样方法称为Gibs采样法,或者 Gibbs样本生成法这个 Markov链的不变分布正是此 Gibbs分布丌,我们还要求此 Markov链的转移矩阵满足Pn—→1π.这就是说,要求Gibs分布是 Glauber 动力学的极限分布. 于是,当n大时,X的一个样本可以近似地认为取自Gibs分布的一个样本,即按此

208 1. 用于生成较复杂的随机数： * 实现对高维分布（或高维格点分布）p 取样, 得到p 随机数. * 是实现重要度采样的一种方法. 对| f (x) |的重要性采样, 就是取得 p ( ò D = = f y dy f x x | ( )| | ( ) | p( ) )随机数. 2. 实现高维积分（或项数极多的求和）的数值计算（典例是 Gibbs 分布的各种泛函的平均值的计算）. 对于 f (x) ³ 0 , 作以p ò D = = f y dy f x x ( ) ( ) p( ) 为极限分布的 Markov 链 Xn ，利用遍历定理可以由这个 Markov 链的一条轨道，得到分布密度p (x) 的估计，记为 ( ) ^ p x ．再用 ( ) ( ) ^ x f x p 作为积分 ò I = f (x)dx 的估计. 3. 用模拟方法估计最可几轨道. 例如, 如果模拟了 100 条轨道, 那么就能以大概率推断, 最可几轨道就在这些轨道的邻近. 当统计量的分布未知时, 可以用模拟方法从频率估计置信限. ４. 用被估参数的 Bayes 分布（参见第 9 章）的取样，来估计参数．５. 求复杂样本空间上函数的极值(模拟退火). 2. 1 Gibbs 采样法 (Gibbs sampler) 1. 用 MCMC 方法得到 Gibbs 分布的样本与估计 Gibbs 分布在第６章中，我们考虑了在 d 维的 N - 格点集上的 Ising 模型的 Gibbs 分布 åÎ - - = S H H e e h b h b x p x ( ) ( ) , 由于所涉及的状态空间 (全体组态的集合) N d S {1, , ) { 1,1} L = - 非常大 (例如, 把一幅 256´ 256 个采样点的黑白图像看成一个组态, 则d = 2, N = 256 , S 中有 2 ( 2 2 10 ) 256 256 2 60000 18000 16 = > > ´ 个元素), 这就使得分母中的求和无法实际完成. 而 MCMC 方法就是以通过构造一个以这个 Gibbs 分布 åÎ - - = S H H e e h b h b x p x ( ) ( ) 为不变分布的离散时间的 Markov 链 Xn (它就是 Glauber 动力学中的连续时间的 Markov 链的离散时间采样), 作为模拟计算的基点的．构造的 Markov 链必须易于计算, 所以我们要求它的概率转移速率只容许在组态的一个格点上变动．这样的变动方式, 称为 Gibbs 方式, 这种抽样方法称为 Gibbs 采样法，或者 Gibbs 样本生成法. 这个 Markov 链的不变分布正是此 Gibbs 分布p , 我们还要求此 Markov 链的转移矩阵满足 P n ¾n®¾¥® p T 1 . 这就是说, 要求 Gibbs 分布是 Glauber 动力学的极限分布. 于是, 当n 大时, Xn 的一个样本可以近似地认为取自 Gibbs 分布的一个样本, 即按此

Markov链沿任意一条轨道充分发展,就得到 Gibbs分布的近似取样. 再则,Gtbs分布的归一化常数(称为配分常数∑c1(),是一个巨大的求和,即个”离散的”积分.用随机模拟法计算这个"离散的”积分的最佳随机数正服从 Gibbs分布 (即重要度采样).对于Gibs分布的取样,用通常的取舍原则常常并不可行.例如,分别取 C=1,h()=em5),而参考密度p0(5)为组态空间上的均匀分布,这时e)的值常常小得超出计算精度,而求和变量ξ的范围是庞大的组态空间,这就导致求和无法实际计算.所以需要用 Markov链 Monte carlo方法.用MCMC方法生成了以 Gibbs分布为极限分布的 Markov链Xn以后,由遍历定理用 Markov链的一条轨道,可给出极限分布(Gibs分布)的估计:对于充分大的N,可令丌=(1(xx+1)+…l(X2) (8.8) -H(5) 再用e-(5)除以Gbs分布在ξ处的估计值作为配分函数的估计.在理论上这个估计应该与5的取法无关,但是,在实际计算中对多个不同的组态1分别估计此和数后, 再作平均常常能降低方差. 在第6章中,我们曾给出了用 Glauber动力学构造的两个不同的连续时间的 Markov链 (对应于两个不同的转移概率速率矩阵Q,它们都以Gibs分布π为极限分布,而且都是可逆的较为深入的理论研究表明,使用不可逆的,且以丌为不变分布的 Markov链作 Markov Monte carlo,会加快这个极限的收敛速度然而,在另一方面这种做法又会增加计算的复杂程度.再则,为减少估计的方差而作的努力也常会增加计算时间.这就是说,在计算中,我们会面临难以两全的抉择.在实际中如何采取折衷,既要看问题的性质,又要参考实践的经验,没有统一的原则用以完成MCMC采样操作的 Markov链,可构造如下: 在第6章中,对于d维有限格点上,由具有两个自旋的组态空间上的能量函数 H()=-22 n(x)n(y)-hEn(x) 可构造如下的转移概率速率 C(x,5),(n=5) (≠ξ的其它情形) (C(x,)的两种取法各为: (x,)=eP(H(H() (8.11)

209 Markov 链沿任意一条轨道充分发展, 就得到 Gibbs 分布的近似取样. 再则，Gibbs 分布的归一化常数(称为配分常数) b (x ) h H S e - Î å , 是一个巨大的求和，即一个”离散的”积分．用随机模拟法计算这个＂离散的＂积分的最佳随机数正服从 Gibbs 分布 (即重要度采样)．对于 Gibbs 分布的取样, 用通常的取舍原则常常并不可行．例如，分别取 C =1, ( ) ( ) b x x H h e - = , 而参考密度 ( ) 0 p x 为组态空间上的均匀分布，这时 bH (x ) e - 的值常常小得超出计算精度, 而求和变量x 的范围是庞大的组态空间, 这就导致求和无法实际计算．所以需要用 Markov 链 Monte Carlo 方法. 用 MCMC 方法生成了以 Gibbs 分布为极限分布的 Markov 链 Xn 以后, 由遍历定理用 Markov 链的一条轨道, 可给出极限分布（Gibbs 分布）的估计: 对于充分大的 N ，可令 ( ( ) ( )) 1 { } 1 { } 2 ^ N X N I X I N x x p x = + +L ，（８．８）再用 bH (x ) e - 除以 Gibbs 分布在x 处的估计值 ^ ( ) x b x p H e - , 作为配分函数的估计．在理论上这个估计应该与x 的取法无关. 但是, 在实际计算中对多个不同的组态 i x 分别估计此和数后，再作平均常常能降低方差．在第 6 章中, 我们曾给出了用 Glauber 动力学构造的两个不同的连续时间的 Markov 链 (对应于两个不同的转移概率速率矩阵 Q), 它们都以 Gibbs 分布p 为极限分布, 而且都是可逆的. 较为深入的理论研究表明, 使用不可逆的, 且以p 为不变分布的 Markov 链作 Markov Monte Carlo, 会加快这个极限的收敛速度. 然而, 在另一方面这种做法又会增加计算的复杂程度. 再则, 为减少估计的方差而作的努力也常会增加计算时间. 这就是说，在计算中，我们会面临难以两全的抉择. 在实际中如何采取折衷，既要看问题的性质, 又要参考实践的经验，没有统一的原则．用以完成 MCMC 采样操作的 Markov 链，可构造如下：在第 6 章中, 对于d 维有限格点上，由具有两个自旋的组态空间上的能量函数 = - å - å x y相邻 x H x y h x , ( ) ( ) ( ) 2 1 (h) h h h , (8. 9) 可构造如下的转移概率速率 î í ì ¹ = = h x的其它情形） x h x xh 0 ( ( , ), ( ) x C x q (8. 10) (C(x,x ) 的两种取法各为： ( ( ) ( )) ( , ) b x x x H H C x e - - = (8. 11) 或

211 min( 1, ), ( ) ~ p p j i i j ij = ij ¹ p p (8. 15) ( å¹ = - j i ii ij p 1 p ) 为转移的时齐 Markov 链, 其中 ~ P ( ) ~ = pij 是一个对称的互通转移矩阵, 称为预选矩阵，或访问方案，使用它是为了减少或简化状态间的连接, 以加快 Markov 链的分布向不变分布收敛的速度. 显见p 是它的可逆分布（注意在 Gibbs 分布情形，状态i, j 体现为组态 x ,h ，于是在计算（８．１５）式的转移概率时 , 就只需算比值 ( ) ( ( ) ( ) x h p p b x h h x = ¹ - H -H e , 而并不需要计算配分函数． Glauber 动力学的构架，也正是用了这一点）. 由这个有限状态 Markov 链的互通性，我们有 P n ¾n®¾¥® p T = 1 . 因此, 在时间发展充分长以后, 我们可以用 Metropolis 的 Markov 链所处的状态, 作为按分布p 取的样本. 也就是说，与 Gibbs 采样法一样，Metropolis 方法也给出了在计算机上模拟p - 随机数的一个算法. Metropolis 提出的这种采样法, 称为 Metropolis 采样法. 它与 Gibbs 采样法的不同处在于, 对于 Metropolis 采样法而言，任意两个组态x ,h ，只要预选概率 0 ~ pxh > 就可以转移. Metropolis 采样在时刻n 的更新 (n) ® (n+1) x x 可具体采取如下的操作: (1) 设当前为时刻 n , 取的状态为 x i n = ( ) . 对它作随机扰动, 即取一个分布为 ( , , ) ~ 1 ~ i iK p L p 的随机数，设为 j ; (2) 若 ³ 1 i j p p ，则将状态更新为 x j n = ( +1) ；否则进行（３）； (3) 独立地取一个U[0,1] 随机数U , 如果 i j U p p £ , 则将状态更新为x j n = ( +1) ；否则状态不更新，即令 x i n = ( +1) . （请读者证明，如此由i 到 j 的转移的可能性恰是（８．１５）式规定的转移概率）． ~ P的对称性并非必要. 理论分析指出, 经过适当的选取 (研究矩阵 ~ P的第二个特征值), 使用非对称的 ~ P 可能加快收敛速度. 对于非对称的预选矩阵 ~ P, Metropolis 采样法所构造的 Markov 链的转移应取下式：