正在加载图片...
龚光鲁,钱敏平著应用随机过程教程一与在算法和智能计算中的应用 清华大学出版社,2003 第10章隐马氏模型( Hidden markov model,HM)及其应用 1.熵与相对熵 1.1离散分布的熵与相对熵 熵的概念出自C. Shannon.引进这个指标的目的在于刻画一个离散分布(一个离散随机 变量)或一个分布密度(一个连续型随机变量)的不确定性的大小.也就是说知道了此随机变量 的取值所获得的信息的大小 定义10.1对于离散分布p=(P1…Pn…),我们定义它的熵为 H(p)=∑php 又定义分布p关于分布q=( )的Kul|back- Le ibler相对熵为 P Pi 命题10.2相对熵h(p,q)≥0,而且h(p,q)=0,当且仅当p=q时成立等号. 证明[O,∞)上函数g(t)=t-1-ht在t≠1时恒正(这一结论可由g的导数直接可以看 ),且g()=0.取t=9,于是h9≤9-1,即hP≥1-9,而且等号仅当 Pi Pi P=1时成立.从而有 ∑p2h2≥∑p-9)=0 q P 所以结论成立 这个命题表明,相对熵在相当程度上表达了p与q的差别:当p=q时,h(p,q)=0.而 当所有的p都与q1接近时,h(p,q)就很小.从而h(p,q)可以看成p与q之间的一种 准距离”.这里我们之所以称它为准距离,是因为它既不对称(即h(p,q)≠h(q,p)), 也不满足三角形不等式。所以不满足第9章中的距离公理 例10.3(有限个值的分布的熵) 分布p=(P12…,PN)的熵满足 ∑p,hP,≤hN 且等号当且仅当分布在N个值均匀时成立.即以相同概率取N个值的分布(称为离散均匀分 布)的熵最大 证明记分布nN’).于是本结论是相对熵不等式h(p,n)≥0的变形 例10.4(数学期望固定条件下的离散的最大熵分布) 假定存在实数a,使x1≥a,(≥1).对于固定的(x1…,xn;…)与μ,在满足 P(=x)=p1,E5=265 龚光鲁, 钱敏平著 应用随机过程教程 – 与在算法和智能计算中的应用 清华大学出版社, 2003 第 10 章 隐马氏模型(Hidden Markov Model, HMM)及其应用 1. 熵与相对熵 1. 1 离散分布的熵与相对熵 熵的概念出自 C.Shannon. 引进这个指标的目的在于刻画一个离散分布(一个离散随机 变量)或一个分布密度(一个连续型随机变量)的不确定性的大小. 也就是说知道了此随机变量 的取值所获得的信息的大小. 定义10.1 对于离散分布p ( , , , ) = p1 L pn L , 我们定义它的熵为 H(p)=- åi i i p ln p . 又定义分布 p 关于分布 q ( , , , ) = q1 L qn L 的 Kullback- Leibler 相对熵为 h(p,q)=åi i i i q p p ln . 命题10.2 相对熵 h(p,q)≥0,而且 h(p,q)=0, 当且仅当 p = q 时成立等号. 证明 [0,¥) 上函数 g(t)=t -1 - ln t D 在t ¹ 1时恒正 (这一结论可由 g 的导数直接可以看 出), 且 g(1) = 0 . 取 i i p q t = ,于是 i i p q ln ≤ i i p q -1, 即 i i q p ln i i p q ³ 1- ,而且等号仅当 = 1 i i q p 时成立.从而有 åi i i i q p p ln ³ å - = i i i i p q p (1 ) 0 . 所以结论成立. 这个命题表明,相对熵在相当程度上表达了 p 与 q 的差别:当 p = q 时,h(p,q)=0. 而 当所有的 pi 都与 qi 接近时,h(p,q)就很小. 从而 h(p,q)可以看成 p 与 q 之间的一种 “准距离”. 这里我们之所以称它为准距离,是因为它既不对称 (即 h(p,q)¹ h(q,p)), 也不满足三角形不等式。所以不满足第 9 章中的距离公理. 例10.3 (有限个值的分布的熵) 分布 p ( , , ) 1 N = p L p 的熵满足 H(p)= p p N i i i - å ln £ ln . 且等号当且仅当分布在 N 个值均匀时成立. 即以相同概率取 N 个值的分布(称为离散均匀分 布)的熵最大. 证明 记分布 n = ) 1 , , 1 ( N N L . 于是本结论是相对熵不等式 h(p,n)≥0 的变形. 例10.4 (数学期望固定条件下的离散的最大熵分布) 假定存在实数a ,使 x ³ ,(i ³ 1) i a . 对于固定的 ( , , , ) x1 L xn L 与 m , 在满足 P(x = xi ) = pi ,Ex = m
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有