正在加载图片...
0≤Mp)-3h一DA)dx C(=)e H(p)+λ(=)4(=)-hC(=) 得到 (p)≤A(=)(z)-hC(x 于是我们有 C(e-=)In[ C(=e A(=)h(二,x) H(p) dx=(=)(=)-nC()≥H(p) [注1]上面我们用相对熵h(=,x)作为准距离,而不是用更为合理的[h(z,x)+(x,= 也可以用与它相应的h(x,=),只要易于计算,不管用那一个都行 [注2] Dirichlet分布的密度函数为 f(x1…,x)=Cx-1…x c=n(a,a-t( dd) r(a)=xoeg-tdr +a 例10.11中的最大熵分布恰是 Dirichlet分布.在生物信息论中,常常需要估计概率向 量组成的空间上的分布密度.例10.11说明,在平均相对熵给定的条件下, Dirichlet分 布是”最吃亏的”分布.用它作为先验分布”看起来更为保险".这就解释了在生物信息论 中,人们常常喜欢用 Dirichlet分布作为先验分布的原因 相对熵应用的一个实例一在各个测试特征(统计量)中选择几个最为有效的相对熵方法 (特征量选取的相对熵方法) 假定我们有两组性质完全不同的群体,例如一组是健康人,另一组是SARS(非典型性肺 炎)病毒持带人.又假定人们已经提出了N种区别健康人与SARS病毒持带人的不同特征。我们 要在其中选取区别效果最好的M个特征.相对熵方法是较为有效的一种方法,其实际操作为 用一个给定的区分特征,对上面的一组健康人测定了一组数据,简称为甲数据组:又对上面的 SARS( Severe Acute Respiratory Syndrome)病毒持带人测定了一组数据,简称为乙数据组.再进行 如下的步骤: (1)分别找出此两个数据组的近似分布:从数据组出发,应用统计中的核估计的思想,分别 得到其近似分布密度曲线 (2)计算此两个分布密度的相对熵h 实践证明,用数值计算求此两个分布密度的相对熵,对于计算格点大小的划分并不太敏感.相反 地,如果直接将两个直方图作为离散分布求相对熵,则对于直方图的计算格点大小的划分十分敏感, 以致得到的计算结果很不稳定) (3)将甲乙两组数据合并再随机地重组为和以前个数相同的两组(随机地重排( Random Sorting)后,再按原来的各组的个数顺序分成两组),用(1),(2)步骤计算其相对熵 (4)重复地作(3)多次(例如1万次),计算其中相对熵大于h。的次数所占的频率,记 P268 0 ( , ) * £ h p p d x C z e p x p x ò - z h z x = ( ) ( , ) ( ) ( ) ( )ln l = - H( p) + l(z)m(z) - ln C(z) 得到 H( p) £ l(z)m(z) - ln C(z) . 于是我们有 H( * p ) = C z e C z e d x z h z x z h z x ) ln[ ( ) ] ( ) ( , ) ( ) ( , ) l l - - ò - ( =l(z)m(z) - ln C(z) ³ H( p ). [注 1] 上面我们用相对熵h(z, x) 作为准距离, 而不是用更为合理的 [ 2 1 h(z, x) + h( x,z)] . 也可以用与它相应的 h(x, z) , 只要易于计算,不管用那一个都行. [注2] Diriclet 分布的密度函数为 { 1) 1 1 1 1 1 1 ( , , ) + + = - - = d d d d x x f x L x Cx Lx I L a a , 其中 ò ¥ - - G = G + + G G = 0 1 1 1 , ( ) ( ) ( ) ( ) C x e dx x d d a a a a a a L L . 例10.11中的最大熵分布恰是 Dirichlet 分布. 在生物信息论中,常常需要估计概率向 量组成的空间上的分布密度.例10.11说明,在平均相对熵给定的条件下,Dirichlet 分 布是"最吃亏的"分布.用它作为先验分布"看起来更为保险".这就解释了在生物信息论 中,人们常常喜欢用 Dirichlet 分布作为先验分布的原因. 相对熵应用的一个实例 - 在各个测试特征(统计量)中选择几个最为有效的相对熵方法 (特征量选取的相对熵方法) 假定我们有两组性质完全不同的群体, 例如一组是健康人,另一组是SARS(非典型性肺 炎)病毒持带人.又假定人们已经提出了 N 种区别健康人与 SARS 病毒持带人的不同特征.我们 要在其中选取区别效果最好的 M 个特征.相对熵方法是较为有效的一种方法,其实际操作为: 用一个给定的区分特征,对上面的一组健康人测定了一组数据,简称为甲数据组;又对上面的 SARS (Severe Acute Respiratory Syndrome) 病毒持带人测定了一组数据,简称为乙数据组.再进行 如下的步骤: (1)分别找出此两个数据组的近似分布:从数据组出发,应用统计中的核估计的思想,分别 得到其近似分布密度曲线; (2)计算此两个分布密度的相对熵 0 h ; (实践证明,用数值计算求此两个分布密度的相对熵,对于计算格点大小的划分并不太敏感.相反 地,如果直接将两 个直方图作为离散分布求相对熵,则对于直方图的计算格点大小的划分十分敏感 , 以致得到的计算结果很不稳定). (3)将甲乙两组数据合并,再随机地重组为和以前个数相同的两组 (随机地重排(Random Sorting)后,再按原来的各组的个数顺序分成两组),用(1),(2)步骤计算其相对熵; (4)重复地作(3)多次(例如1万次),计算其中相对熵大于 0 h 的次数所占的频率,记 为 p .
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有