§9.4信息的度量与应用 怎么度量 对于系统,可以利用守恒 关系有A+I=B,得I=B-A。 首先分析一下问题的认识过程 1对一问题毫无了解,对它的认识是不确定的 通过眢种途径获得信息,逐渐消除不确定性 可否用消除不确定性的多少来度量信息! 黑箱(信息1)灰箱信息Ⅱ白箱 不确定度A 不确定度B 不确定度C
§ 9.4 信息的度量与应用 怎么度量信息 首先分析一下问题的认识过程 1.对一问题毫无了解,对它的认识是不确定的 2. 通过各种途径获得信息,逐渐消除不确定性 3. 对这一问题非常的了解,不确定性很小 黑箱 不确定度A 灰箱 不确定度B 白箱 不确定度C 信息I 信息II 对于系统,可以利用守恒 关系有 A+I=B,得I=B-A。 可否用消除不确定性的多少来度量信息!
几个例子 例12当你要到大会堂去找某一个人时,甲告诉你两条消息: (1)此人不坐在前十排,(2)他也不坐在后十排;乙只告 诉你一条消息:此人坐在第十五排。问谁提供的信息量大? 乙虽然只提供了一条消息,但这一条消息对此人在什么 位置上这一不确定性消除得更多,所以后者包含的信息量应 比前者提供的两条消息所包含的总信息量更大 例13假如在盛夏季节气象台突然预报“明天无雪”的消 息。在明天是否下雪的问题上,根本不存在不确定性,所 以这条消息包含的信息量为零
几个例子: 例12 当你要到大会堂去找某一个人时,甲告诉你两条消息: (1)此人不坐在前十排,(2)他也不坐在后十排;乙只告 诉你一条消息:此人坐在第十五排。问谁提供的信息量大? 乙虽然只提供了一条消息,但这一条消息对此人在什么 位置上这一不确定性消除得更多,所以后者包含的信息量应 比前者提供的两条消息所包含的总信息量更大 例13 假如在盛夏季节气象台突然预报“明天无雪”的消 息。在明天是否下雪的问题上,根本不存在不确定性,所 以这条消息包含的信息量为零
是否存在信息量的度量公式 基于前面的观点,美国贝尔实验室的学者香农( Shannon) 应用概率论知识和逻辑方法推导出了信息量的计算公式 In his words just wondered how things were put together. Claude elwood shannon (April 30, 1916-February 24 200 1)has been called"the father of information theory
是否存在信息量的度量公式 基于前面的观点,美国贝尔实验室的学者香农(Shannon) 应用概率论知识和逻辑方法推导出了信息量的计算公式 In his words "I just wondered how things were put together." Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory
Shannon提出的四条基本性质(不妨称它们为公理) 公理1信息量是该事件发生概率的连续函数 公理2如果事件A发生必有事件B发生,则得知事件A发生 的信息量大于或等于得知事件B发生的信息量。 公理3如果事件A和事件B的发生是相互独立的,则获知 A、B事件将同时发生的信息量应为单独获知两事件 发生的信息量之和。 公理4任何信息的信息量均是有限的。 上述公理怎样推出信息量的计算公式呢 将某事件发生的信息记为M,该事件发生的概率记为p,记 M的信息量为I(M)
Shannon提出的四条基本性质 (不妨称它们为公理 ) 公理1 信息量是该事件发生概率的连续函数 公理2 如果事件A发生必有事件B发生,则得知事件A发生 的信息量大于或等于得知事件B发生的信息量。 公理3 如果事件A和事件B的发生是相互独立的,则获知 A、B事件将同时发生的信息量应为单独获知两事件 发生的信息量之和。 公理4 任何信息的信息量均是有限的。 将某事件发生的信息记为M,该事件发生的概率记为p,记 M的信息量为I(M)。 上述公理怎样推出信息量的计算公式呢
定理12 满足公理1公理4的信息量计算公式为(M)=-Clog,p 其中C是任意正常数,对数之底可取任意为不为1的正实 数 证明: 由公理1I(M)=f(p),函数连续。 由公理2若A发生必有B发生,则pPB, 有pA)≥(PB),故函数是单调不增的。 由公理3若A、B是两个独立事件,则A、B同时发生 的概率为pPB,有(P、P=fp)+(p 先作变量替换令pa,即q=-logP记 f(m)=f(e°)=g(q),又PAPx=e+)有 g(qA+n)=g(q)+g(4),g亦为连续函数
定理11.2 满足公理1—公理4的信息量计算公式为I(M)=-Cloga p, 其中C是任意正常数,对数之底a可取任意为不为1的正实 数。 证明: 由公理1 I(M)=f(p),函数f连续。 由公理2 若A发生必有B发生,则pA ≤pB, 有f(pA )≥f(PB ) ,故函数f是单调不增的。 由公理3 若A、B是两个独立事件,则A、B同时发生 的概率为pA pB,有f(PAPB )=f(pA )+f(pB )。 先作变量替换 令p=a-q,即q=-logaP 记 ( ) qA qB A B p p e − + f ( p) f (e ) g(q) = q = = − ( ) ( ) ( ) g qA + qB = g qA + g qB ,又 有: ,g亦为连续函数
g(x+y)=g(x)+g(y)的连续函数有怎样的性质 首先,由g(0)=g(0+0)=2g(0得出g(0)=0或g(0)=∞。 但由公理4,后式不能成立,故必有g(0)=0。 记g(1)=C,容易求得g(2)=2C,g(3)=3C,,一般地, 有g(n)=nC。进而 8(1)=g g(1) n丿,可得 于是对一切正有理数m/n,g(m/n)=(m/n)C。 由连续性可知:对一切非负实数x,有g(x)=Cx 当x取负实数时,由g(x)+g(-x)=g(0)=0,可得 出g(x)g(x)=cx也成立,从而对一切实数x,g(x)=Cx, 故g(q)=Cq 现作逆变换q=- loga p, MI(M=f(P)=-Clog P(11.3) 证毕
g(x+y)=g(x)+g(y)的连续函数有怎样的性质 首先,由g(0)=g(0+0)=2g(0)得出g(0)=0或g(0)=∞。 但由公理4,后式不能成立,故必有g(0)=0。 记g(1)=C,容易求得g(2)=2C,g(3)=3C,…,一般地, 有g(n)=nC。进而 ,可得 。 于是对一切正有理数 m/n,g(m/n) =(m/n)C。 = = + + n ng n n g g 1 1 1 (1) (1) 1 1 g n n g = 由连续性可知:对一切非负实数x,有g(x)=Cx 当x取负实数时,由g(x)+g(-x)=g(0)=0,可得 出g(x)=―g(―x)=cx也成立,从而对一切实数x,g(x)=Cx, 故g(q)=Cq。 现作逆变换q=-loga p, 得I(M)=f(P)=-ClogaP (11.3) 证毕
各种信息量单位 若取a=2,C=1,此时信息量单位称为比特 若取a=10,C=1,此时信息量单位称为迪吉特 若取a=e,C=1,此时信息量单位称为奈特
各种信息量单位 若取a=2,C=1,此时信息量单位称为比特 若取a=10,C=1,此时信息量单位称为迪吉特 若取a=e,C=1,此时信息量单位称为奈特
例14设剧院有1280个座位,分为3排,每排40座。现欲从中 找出某人,求以下信息的信息量。(i)某人在第十排;〔i) 某人在第15座;(ⅲi)某人在第士排第15座。 解 对于相应不独立的信息,要计算 哑率可以认为 在已获得某信息后其余信息的信 餮的,故 息量时,需要用到条件概率公式 可以参阅信息论书籍。∠ 1092 3 2 P(比行 (i)“某八在第15座”f5b+5361032bt 2_0≈532(比特 谧)“某人在第十排第15座”包含的信息量为 bg2280103(比持)
例14 设剧院有1280个座位,分为32排,每排40座。现欲从中 找出某人,求以下信息的信息量。(i)某人在第十排;(ii) 某人在第15座;(iii)某人在第十排第15座。 解: 在未知任何信息的情况下, 此人在各排的概率可以认为 是相等的,他坐在各座号上的概率也可以认为是相等的,故 (i)“某人在第十排”包含的信息量为 32 5 (比特) 1 log − 2 = (ii)“某人在第15座”包含的信息量为 40 5.32 (比特) 1 log − 2 (iii)“某人在第十排第15座”包含的信息量为 1280 10.32(比特) 1 log − 2 = 5bit+5.32bit=10.32bit 这一例子反映了对完全独立的 几条信息,其总信息量等于各 条信息的信息量之和。 对于相应不独立的信息,要计算 在已获得某信息后其余信息的信 息量时,需要用到条件概率公式, 可以参阅信息论书籍
至此,我们已经引入了信息度量的定量公式。如前 所述,它是信息对消除问题的不确定性的度量。这种讲 法似乎有点难以为人们所接受,其实,这只是人们的习 惯在起作用。这里,我们不妨来作一比较。在人们搞清 热的奥秘以前,温度也是一个较为抽象的概念,因它实 质上是物体分子运动平均速度的一种映。人们天生就知 道冷和热,但如何来度量它却曾经是一个难题。只有在 解决了这一问题以后,以定量分析为主的热力学才能得 到飞速的发展。信息问题也是这样,人们对各种信息包 含的实质“内容”究竟有多少往往也有一个直观的感觉, 但用什么方法来度量它,却比“今天15度”这样的讲法 更不易理解,因为它是通过较为抽象的概率来计算的
至此,我们已经引入了信息度量的定量公式。如前 所述,它是信息对消除问题的不确定性的度量。这种讲 法似乎有点难以为人们所接受,其实,这只是人们的习 惯在起作用。这里,我们不妨来作一比较。在人们搞清 热的奥秘以前,温度也是一个较为抽象的概念,因它实 质上是物体分子运动平均速度的一种映。人们天生就知 道冷和热,但如何来度量它却曾经是一个难题。只有在 解决了这一问题以后,以定量分析为主的热力学才能得 到飞速的发展。信息问题也是这样,人们对各种信息包 含的实质“内容”究竟有多少往往也有一个直观的感觉, 但用什么方法来度量它,却比“今天15度”这样的讲法 更不易理解,因为它是通过较为抽象的概率来计算的
平均信息量(熵)问题 设某一实验可能有N种结果,它们出现的概率分别为p1…,则 事先告诉你将出现第评种结果的信息,其信息量为-log21,而该 实验的不确定性则可用这组信息的平均信息量(或熵) H=∑plog2P来表示 例15投掷一枚骼子的结果有六种,即出现16点、出现每 种情况的概率均为1/6,故熵H-log6≈2.585(比特)。 投掷一枚硬币的结果为正、反面两种,出现的概率均为 1/2,故熵H=og2=1(比特)。 向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出 现的概率为1,故熵H-og21=0 从例子可以看出,熵实质上反映的是问题的“模糊度”,熵为 零时问题是完全清楚的,熵越大则问题的模糊程度也越大
平均信息量(熵)问题 设某一实验可能有N种结果,它们出现的概率分别为p1 ,…,pN ,则 事先告诉你将出现第i种结果的信息,其信息量为-log2 pi,而该 实验的不确定性则可用这组信息的平均信息量(或熵) 来表示 = = − N i i i H p p 1 2 log 例15 投掷一枚骼子的结果有六种,即出现1—6点、出现每 种情况的概率均为1/6,故熵 H=log2 6≈2.585(比特)。 投掷一枚硬币的结果为正、反面两种,出现的概率均为 1/2,故熵 H=log2 2=1(比特)。 向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出 现的概率为1,故熵H=log2 1=0 从例子可以看出,熵实质上反映的是问题的“模糊度”,熵为 零时问题是完全清楚的,熵越大则问题的模糊程度也越大