第二章信息量和熵 ●●●●● ●●●● ●●。●●
第二章 信息量和熵
●●● ●●● ●●●●● ●●●● 信息量和熵 ●●● ●●●● ●●0● ●2.1离散变量的非平均信息量 ●2.2离散集的平均自信息量一熵 ●2.3离散集的平均互信息量 ●24连续随机变量的互信息和熵 ●2.5凸函数和互信息的凸性
信息量和熵 ⚫ 2.1 离散变量的非平均信息量 ⚫ 2.2 离散集的平均自信息量-熵 ⚫ 2.3 离散集的平均互信息量 ⚫ 2.4 连续随机变量的互信息和熵 ⚫ 2.5 凸函数和互信息的凸性
21离散变量的非平均信 息量 ●●●●● ●●●● ●●。●●
2.1 离散变量的非平均信 息量
●●● ●●● ●●●●● ●●● 输入,输出空间定义 ●●●●● ●●●● ●●0● 输入空间X={xbk=1,2,…,K},概率记为q(x) ·输出空间y=ym=12…概率记为y 联合空间XY={xy:k=1,2,…,K广=-1,2,…,丹,概率 为p(xky) p(wyi=p(xklyyolyy=p(ylxkqrR
输入,输出空间定义 ⚫ 输入空间X={xk ,k=1,2,…,K},概率记为q(xk ) ⚫ 输出空间Y={yj ,j=1,2,…,J},概率记为ω(yj ) ⚫ 联合空间XY={xk yj ;k=1,2,…,K;j=1,2,…,J}, 概率 为p(xk yj ) p(xk yj )= p(xk |yj )ω(yj )= p(yj |xk )q(xk )
●●●●● ●●●● 非平均互信息量 ●●●●● ●●●● ●●0● ●例2.1.1 输入消息码字p(x) 收到0 收到01 收到011 X1 000 1/8 14 X2 001 1/8 14 0 X3 010 1/8 14 1/2 X4 011 1/8 14 1/2 X5 100 1/8 X6 101 1/8 110 1/8 0000 0000 00010000 6 1/8
非平均互信息量 ⚫ 例2.1.1 输入消息 码字 p(xk ) 收到0 收到01 收到011 X1 X2 X3 X4 X5 X6 X7 x8 000 001 010 011 100 101 110 111 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/4 1/4 1/4 1/4 0 0 0 0 0 0 1/2 1/2 0 0 0 0 0 0 0 1 0 0 0 0
●●●●● ●●●● 非平均互信息量 ●●●●● ●●●● ●●0● 输入消息码字p(x) 收到0 收到01收到011 X1 000 1/8 1/6 〈2 001 14 1/3 0 X3 010 1/8 1/6 1/3 4 011 14 1/3 2/3 X5 100 1/16 6 101 1/16 X7 110 1/16 0000 0000 00010000 X8 111 1/16
非平均互信息量 输入消息 码字 p(xk ) 收到0 收到01 收到011 X1 X2 X3 X4 X5 X6 X7 x8 000 001 010 011 100 101 110 111 1/8 1/4 1/8 1/4 1/16 1/16 1/16 1/16 1/6 1/3 1/6 1/3 0 0 0 0 0 0 1/3 2/3 0 0 0 0 0 0 0 1 0 0 0 0
●●● ●●●●● ●●●● 非平均互信息量 ●●● ●●●● ●●0● ●例2.1.2 输入消息码字p(x) 收到0收到01收到011 X1 000 1/2 1-p 1/2 1-p X2 111 1/2 p 1/2 p -p 0 1-p
非平均互信息量 ⚫ 例2.1.2 输入消息 码字 p(xk ) 收到0 收到01 收到011 X1 X2 000 111 1/2 1/2 1-p p 1/2 1/2 1-p p 1-p 1-p 0 0 1 1 p p
●●● ●●● ●●●●● ●●● 非平均互信息量 ●●● ●●●● ●●0● I(xk; yi)=f(q(k), p(k yi) I(k,yi=l(xk; yi+1(xkyi2 lid +I(xk; yi3 yiyi
非平均互信息量 ( ; ) ( ( ), ( | )) k j k k j I x y = f q x p x y ( ; | ) ( ; ) ( ; ) ( ; | ) 3 1 2 1 2 1 k j j j k j k j k j j I x y y y I x y I x y I x y y + = +
●●● ●●●●● ●●●● 非平均互信息量 ●●●●● ●●●● ●●0● 定义211(非平均互信息量)给定一个二维离 散型随机变量{(x,Y),(xhy)rk=1~K 产1~}(因此就给定了两个离散型随机变量 X, xk gk k=1~K}和{Y,y2W产=1-)。事件 x∈X与事件y∈Y的互信息量定义为 P(X=xkr=y, P(r=y,IX=xk) =1o9 109 P(X=Xr P(r=y) P((X,r=(xk,y) =log P(X=xP(r=y
非平均互信息量 定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk , yj ), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量 {X, xk , qk , k=1~K}和{Y, yj , wj , j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为 ( | ) ( | ) ( ; ) log log ( ) ( ) (( , ) ( , )) log log ( ) ( ) k j j k k j a a k j k j kj a a k j k j P X x Y y P Y y X x I x y P X x P Y y P X Y x y r P X x P Y y q w = = = = = = = = = = = = =
●●●●● ●●●● 非平均互信息量 ●●● ●●●● ●●0● 其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特” 几点说明: (1)I(xk;y)=og1(y(qx)。因此有对称性: Kivi=lvj;xx) (2)当9时(xy)=0。(当两个事件相互独 立时,互信息量为0)。 (3)当n>9时(xk;y)>0,当r9时1(xy)0。 (当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)
非平均互信息量 其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。 几点说明: (1)I(xk ; yj )=loga (rkj/(qkwj ))。因此有对称性: I(xk ; yj )=I(yj ; xk )。 (2)当rkj=qkwj时I(xk ; yj )=0。(当两个事件相互独 立时,互信息量为0)。 (3)当rkj>qkwj时I(xk ; yj )>0,当rkj<qkwj时I(xk ; yj )<0。 (当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)