268 0 ( , ) * £ h p p d x C z e _中国高校课件下载中心

点击下载：《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第10章隐马氏模型（Hidden Markov Model, HMM）及其应用

正在加载图片...

0≤Mp)-3h一DA)dx C(=)e H(p)+λ(=)4(=)-hC(=) 得到 (p)≤A(=)(z)-hC(x 于是我们有 C(e-=)In[ C(=e A(=)h(二,x) H(p) dx=(=)(=)-nC()≥H(p) [注1]上面我们用相对熵h(=,x)作为准距离,而不是用更为合理的[h(z,x)+(x,= 也可以用与它相应的h(x,=),只要易于计算,不管用那一个都行 [注2] Dirichlet分布的密度函数为 f(x1…,x)=Cx-1…x c=n(a,a-t( dd) r(a)=xoeg-tdr +a 例10.11中的最大熵分布恰是 Dirichlet分布.在生物信息论中,常常需要估计概率向量组成的空间上的分布密度.例10.11说明,在平均相对熵给定的条件下, Dirichlet分布是”最吃亏的”分布.用它作为先验分布”看起来更为保险".这就解释了在生物信息论中,人们常常喜欢用 Dirichlet分布作为先验分布的原因相对熵应用的一个实例一在各个测试特征(统计量)中选择几个最为有效的相对熵方法 (特征量选取的相对熵方法) 假定我们有两组性质完全不同的群体,例如一组是健康人,另一组是SARS(非典型性肺炎)病毒持带人.又假定人们已经提出了N种区别健康人与SARS病毒持带人的不同特征。我们要在其中选取区别效果最好的M个特征.相对熵方法是较为有效的一种方法,其实际操作为用一个给定的区分特征,对上面的一组健康人测定了一组数据,简称为甲数据组:又对上面的 SARS( Severe Acute Respiratory Syndrome)病毒持带人测定了一组数据,简称为乙数据组.再进行如下的步骤: (1)分别找出此两个数据组的近似分布:从数据组出发,应用统计中的核估计的思想,分别得到其近似分布密度曲线 (2)计算此两个分布密度的相对熵h 实践证明,用数值计算求此两个分布密度的相对熵,对于计算格点大小的划分并不太敏感.相反地,如果直接将两个直方图作为离散分布求相对熵,则对于直方图的计算格点大小的划分十分敏感, 以致得到的计算结果很不稳定) (3)将甲乙两组数据合并再随机地重组为和以前个数相同的两组(随机地重排( Random Sorting)后,再按原来的各组的个数顺序分成两组),用(1),(2)步骤计算其相对熵 (4)重复地作(3)多次(例如1万次),计算其中相对熵大于h。的次数所占的频率,记 P268 0 ( , ) * £ h p p d x C z e p x p x ò - z h z x = ( ) ( , ) ( ) ( ) ( )ln l = - H( p) + l(z)m(z) - ln C(z) 得到 H( p) £ l(z)m(z) - ln C(z) . 于是我们有 H( * p ) = C z e C z e d x z h z x z h z x ) ln[ ( ) ] ( ) ( , ) ( ) ( , ) l l - - ò - （＝l(z)m(z) - ln C(z) ³ H( p ). [注 1] 上面我们用相对熵h(z, x) 作为准距离, 而不是用更为合理的 [ 2 1 h(z, x) + h( x,z)] . 也可以用与它相应的 h(x, z) , 只要易于计算,不管用那一个都行. [注２] Diriclet 分布的密度函数为 { 1) 1 1 1 1 1 1 ( , , ) + + = - - = d d d d x x f x L x Cx Lx I L a a , 其中 ò ¥ - - G = G + + G G = 0 1 1 1 , ( ) ( ) ( ) ( ) C x e dx x d d a a a a a a L L . 例１０.１１中的最大熵分布恰是 Dirichlet 分布. 在生物信息论中，常常需要估计概率向量组成的空间上的分布密度．例１０.１１说明，在平均相对熵给定的条件下，Dirichlet 分布是＂最吃亏的＂分布．用它作为先验分布＂看起来更为保险＂．这就解释了在生物信息论中，人们常常喜欢用 Dirichlet 分布作为先验分布的原因．相对熵应用的一个实例－在各个测试特征（统计量）中选择几个最为有效的相对熵方法（特征量选取的相对熵方法）假定我们有两组性质完全不同的群体，例如一组是健康人，另一组是SARS（非典型性肺炎）病毒持带人．又假定人们已经提出了 N 种区别健康人与 SARS 病毒持带人的不同特征．我们要在其中选取区别效果最好的 M 个特征．相对熵方法是较为有效的一种方法，其实际操作为: 用一个给定的区分特征，对上面的一组健康人测定了一组数据，简称为甲数据组；又对上面的 SARS (Severe Acute Respiratory Syndrome) 病毒持带人测定了一组数据，简称为乙数据组．再进行如下的步骤：（１）分别找出此两个数据组的近似分布：从数据组出发，应用统计中的核估计的思想，分别得到其近似分布密度曲线；（２）计算此两个分布密度的相对熵 0 h ；（实践证明，用数值计算求此两个分布密度的相对熵，对于计算格点大小的划分并不太敏感．相反地，如果直接将两个直方图作为离散分布求相对熵，则对于直方图的计算格点大小的划分十分敏感 , 以致得到的计算结果很不稳定）．（３）将甲乙两组数据合并,再随机地重组为和以前个数相同的两组 (随机地重排（Random Sorting）后，再按原来的各组的个数顺序分成两组)，用（１），（２）步骤计算其相对熵；（４）重复地作（３）多次（例如１万次），计算其中相对熵大于 0 h 的次数所占的频率，记为 p ．

<<向上翻页向下翻页>>

点击下载：《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第10章隐马氏模型（Hidden Markov Model, HMM）及其应用