第25卷第4期增刊 仪器仪表学报 2004年8月 被测量信息熵、测量误差熵及其关系 童玲陈光福 (电子科技大学自动化工程学院成都610054) 摘要从信息论角度建立被测量、测量误差和测量结果的数学模型。给出被测量信息熵、测量误差嫡和测量结果信息熵的定 义、相互关系以及求解方法。并指出典型分布下不确定度、置信系数与信息熵的数学关系。 关键词测量信息论信息嫡可能性分布函数 Information Entropy of Measured Quantities,Error Information and Information Entropy of Measured Results Tong Ling Chen Guangju (School of Automation Engineering,UESTC,Chengdu 610054,China) Abstract The mathematical models of the measured quantity,measuring error and measuring result are built from the information theory view.The information entropy of measured quantity and measuring result,and the error entropy are defined.The relationship of them is shown.Finally,the relation formula of the error entropy and the uncertainty is given. Key words Measurement information theory Information entropy Probability distribution “测量”实际上是信息论中对被观测信息(被测量)的编 1引 言 码和处理过程,与其它信息编码不同的是它的编码结 果是数量,多数为十进制。不同单位的编码结果不同, “测量”的经典解释为用实验的方法获取被测量值 但它并不影响被观测信息(被测量值)的客观性(量值 的过程,其过程的物理含义为以基准、标准或工作用测 大小),这是单位换算的基础。因此我们可以认为信息 量器具给出的量值为基本单位,去比对被测量值,所获 论是处理测量及其结果的一套重要理论,测量信息论 得的单位的倍数为测量结果。它是用实验的方法对被 是信息论总体的一个研究分支,是信息论的一个重要 测量进行量化的过程,其中的关键为“实验”和“量化”。 应用研究领域。 “实验”是一个物理过程,它保证测量不是通过计算、仿 真或其它手段进行,强调其客观性,从而使得“测量”成 2被测量信息熵 为一切科学研究和工程技术的基础。而“量化”则是通 过人类发明和创造的一些方法和规则对被测量值进行 在传统的测量理论中,被测量被视为“一个”客观 离散和编码,以便于进行识别、存储、显示等处理。大多 存在的、不变(测量过程中)的量值,此量值具有数字上 数“量化”采用十进制技术,形成了一整套自然界量值 的连续性,不能为基本单位的整数分割。 数字化方法。“量化”过程既体现了人类的主观思 而实际被测量不是一个不变的、单一量值。在各种 想一用人类规定的一系列基本单位(如SI制中的基 因素影响下(如环境、人为、设备等),除掉单向漂移变 本单位系列)以及导出单位和单位进制去对被测量进 化,任何一个被测量都是一个随时间变化的随机参量, 行编码,同时也客观体现了科学技术发展水平一单 即被测量本质上为一个随机过程。被测量X的实际数 位的精度、对被测量的分辨率以及量程等在任何时候 学模型可以表示为一个可能性分布函数一pdf随被 都体现了当时科学技术的最高水平。因此从本质上看 测量量值和时间变化的连续信源集合。测量过程就是
第25卷第4期增刊 仪器仪表学报 2004年8月 被测量信息熵、测量误差熵及其关系 童玲陈光祸 (电子科技大学自动化工程学院 成都 610054) 摘要 从信息论角度建立被测量、测量误差和测量结果的数学模型。给出被测量信息熵、测量误差熵和测量结果信息熵的定 义、相互关系以及求解方法。并指出典型分布下不确定度、置信系数与信息熵的数学关系。 关键词 测量信息论信息熵可能性分布函数 Information Entropy of Measured Quantities,Error Information and Information Entropy of Measured Results Tong Ling Chen Guangju (School of Automation Engineering,UESTC,Chengdu 61 0054,China) Abstract The mathematical models of the measured quantity,measuring error and measuring result are built from the information theory view.The information entropy of measured quantity and measuring result,and the error entropy are defined.The relationship of them is shown.Finally,the relation formula of the error entropy and the uncertainty is given. Key words Measurement information theory Information entropy Probability distribution 1 引 言 “测量”的经典解释为用实验的方法获取被测量值 的过程。其过程的物理含义为以基准、标准或工作用测 量器具给出的量值为基本单位,去比对被测量值,所获 得的单位的倍数为测量结果。它是用实验的方法对被 测量进行量化的过程,其中的关键为“实验”和“量化”。 “实验”是一个物理过程,它保证测量不是通过计算、仿 真或其它手段进行,强调其客观性,从而使得“测量”成 为一切科学研究和工程技术的基础。而“量化”则是通 过人类发明和创造的一些方法和规则对被测量值进行 离散和编码,以便于进行识别、存储、显示等处理。大多 数“量化”采用十进制技术,形成了一整套自然界量值 数字化方法。“量化”过程既体现了人类的主观思 想——用人类规定的一系列基本单位(如SI制中的基 本单位系列)以及导出单位和单位进制去对被测量进 行编码,同时也客观体现了科学技术发展水平——单 位的精度、对被测量的分辨率以及量程等在任何时候 都体现了当时科学技术的最高水平。因此从本质上看 “测量”实际上是信息论中对被观测信息(被测量)的编 码和处理过程,与其它信息编码不同的是它的编码结 果是数量,多数为十进制。不同单位的编码结果不同, 但它并不影响被观测信息(被测量值)的客观性(量值 大小),这是单位换算的基础。因此我们可以认为信息 论是处理测量及其结果的一套重要理论,测量信息论 是信息论总体的一个研究分支,是信息论的一个重要 应用研究领域。 2被测量信息熵 在传统的测量理论中,被测量被视为“一个”客观 存在的、不变(测量过程中)的量值,此量值具有数字上 的连续性,不能为基本单位的整数分割。 而实际被测量不是一个不变的、单一量值。在各种 因素影响下(如环境、人为、设备等),除掉单向漂移变 化,任何一个被测量都是一个随时间变化的随机参量, 即被测量本质上为一个随机过程。被测量X的实际数 学模型可以表示为一个可能性分布函数——pdf随被 测量量值和时间变化的连续信源集合。测量过程就是
822 仪器仪表学报 第25卷 追求在P(x,t)分布下的集合的数学期望值X(t)以及 设测量结果集合由数据{yy1,yn}构成,其概率 不确定性一信息熵Hx(t)的操作。 空间为: 根据概率论和Shannon的信息论定义,被测量的 y…yyn-1 Σp=1 (3) 数学期望和信息熵分别为: Lp。p1…p…p。-1 i= 被测量数学期望: 则测量结果信息熵为: m一1 十 X(t)=∫xp[x,t]dx (1) HY)=-三.py)log:p) (4) 被测量信息熵: H(X.t)--Sp(x.t)log-P(x.t)dx 4被测量集合与测量结果集合的关系及其 (2) 测量误差熵 被测量数学期望反映了被测量的随机平均特性;而被 测量信息熵则是被测量信源集合不确定性或离散性的 如图1示,信源集合为连续集合,其元素的概率分 体现。 布为p(x),信源集合中的任何一个值都会对结果集合 自然界存在的所有客观量值的pdf都随时间变 中的所有元素产生影响,是结果集合的条件。针对信源 化,其数学期望和信息熵也随时间变化。相对于测量操 集合中的某一个值x,有结果集合的条件熵为: 作而言,有的量变化慢,有的变化快。严格按照此模型 进行测量是不可行的。经简化后的、可操作的物理模型 H(Y/x)=-Zp(y:/x)log:p(y:/x) (5) 是:被测量是一个客观存在、单一的、固定不变的量值: 被测量是一个拥有一定概率分布不随时间变化的连续 Y={y。,y,,“ 集合;被测量概率分布满足时间遍历条件的连续集合。 3测量结果信息熵 代表测量结果的数据构成测量的另一个信息集 合一一测量结果信息集合。与被测量信源集合不同的 图1连续分布信源集合与结果集合的关系 是:它不是一个独立存在的信息集合,它所含的信息内 以整个信源集合为条件的结果集合的条件熵为: 容(测量结果数据)和信息量(与不确定性相关的测量 H(Y/X)=-Jp(x)H(Y/x)dx 结果信息熵)由被测量信源和测量过程(测量原理、技 m】 术、设备以及人员等)决定;其次它是一个离散集合,离 =-[p(x)>p(y:/x)logp(y:/x)dx (6) j0 散的最小间距与测量分辨率有关,同时也正是由于其 --fZp(x.y,log.p(y:/x)dx 1 离散特性,使得被测量信源的部分信息丢失(作为连续 其中p(x)dx为信源集合取x的概率,p(x,y)=p(x)P 集合的信源的处于阶梯之间的信息丢失),表现在信息 (y/x)。 量减少,信息熵变化。由于测量结果信息集合由双重不 若测量结果信息集合的信息熵为H(Y),则被测 确定因素决定,其各种特性远比被测量信源复杂,用信 量集合和测量结果集合交互熵为: 息论的方法准确地获得测量结果信息集合的各种特性 H(X·Y)=H(Y)-H(Y/X) (7) 参数,并从中分析出有关被测量信源的相关特性,合理 式中H(X·Y)代表通过测量从被测量信源集合传递 地评价测量质量和测量系统是测量信息论研究的主要 到测量结果信息集合的“真信息”的信息熵。H(YX) 内容之一。 则代表由于测量引人的误差和干扰信息的信息熵,称 测量结果信息集合是离散的具有一定概率分布的 为误差熵。如果整个测量没有任何误差和干扰,则测量 集合。此集合的不确定性可用信息熵来表示。测量结果 结果信息集合中的所有信息都来自于信源集合,全部 信息集合不是一个独立存在的信息集合,它是以信源 为“真实”信息,则有: 集合的内容及其分布为条件而存在的。二者之间的关 H(Y/X)=0,H(X·Y)=H(Y) (8) 系充分反应了测量过程的质量,因此在测量信息论中 但必须指出的是,由于测量过程中的各种因素(如量值 用表示二者之间关系的信息量参数来表示测量的质 离散化),并不是所有被测量信源集合的信息全部到达 量
822 仪器仪表学报 第2 5卷 追求在p(x,t)分布下的集合的数学期望值趸两以及 不确定性——信息熵H。(t)的操作。 根据概率论和Shannon的信息论定义,被测量的 数学期望和信息熵分别为: 被测量数学期望: +∞ 雨万一,xp[-x,t-]dx 被测量信息熵: H(X,t)一一,P(x,t)l092P(x,t)dx (2) 被测量数学期望反映了被测量的随机平均特性;而被 测量信息熵则是被测量信源集合不确定性或离散性的 体现。 自然界存在的所有客观量值的pdf都随时间变 化,其数学期望和信息熵也随时间变化。相对于测量操 作而言,有的量变化慢,有的变化快。严格按照此模型 进行测量是不可行的。经简化后的、可操作的物理模型 是:被测量是一个客观存在、单一的、固定不变的量值; 被测量是一个拥有一定概率分布不随时间变化的连续 集合;被测量概率分布满足时间遍历条件的连续集合。 3测量结果信息熵 代表测量结果的数据构成测量的另一个信息集 合一一测量结果信息集合。与被测量信源集合不同的 是:它不是一个独立存在的信息集合.它所含的信息内 容(测量结果数据)和信息量(与不确定性相关的测量 结果信息熵)由被测量信源和测量过程(测量原理、技 术、设备以及人员等)决定;其次它是一个离散集合,离 散的最小间距与测量分辨率有关,同时也正是由于其 离散特性,使得被测量信源的部分信息丢失(作为连续 集合的信源的处于阶梯之间的信息丢失),表现在信息 量减少,信息熵变化。由于测量结果信息集合由双重不 确定因素决定,其各种特性远比被测量信源复杂,用信 息论的方法准确地获得测量结果信息集合的各种特性 参数,并从中分析出有关被测量信源的相关特性,合理 地评价测量质量和测量系统是测量信息论研究的主要 内容之一。 测量结果信息集合是离散的具有一定概率分布的 集合。此集合的不确定性可用信息熵来表示。测量结果 信息集合不是一个独立存在的信息集合,它是以信源 集合的内容及其分布为条件而存在的。二者之间的关 系充分反应了测量过程的质量,因此在测量信息论中 用表示二者之间关系的信息量参数来表示测量的质 量。 设测量结果集合由数据{Y。,Y1,...Y。}构成,其概率 空间为: Y:PY H…乳…n。i魏一1 (3) t-p0 Pl…Pi…P。一1 J1一。 则测量结果信息熵为: H(Y)一一∑P(y,)log:P(y,) (4) 4 被测量集合与测量结果集合的关系及其 测量误差熵 如图1示,信源集合为连续集合,其元素的概率分 布为P(x),信源集合中的任何一个值都会对结果集合 中的所有元素产生影响,是结果集合的条件。针对信源 集合中的某一个值X,有结果集合的条件熵为: m 1 H(Y/x)一一∑P(y。/x)log。P(y,/x) (5) 1—0 耋兰至酚/ \) 。 \ ~≮一—+()/ 图1 连续分布信源集合与结果集合的关系 以整个信源集合为条件的结果集合的条件熵为: H(Y/X)一一IP(x)H(Y/x)dx m—l —Ip(x)∑P(y,/x)l092P(y,/x)dx (6) s 1一U m 1 一一,∑P(x,y,)log 2P(y,/x)dx 其中P(x)dx为信源集合取X的概率,P(x,Y,)一p(x)p (y,/x)。 若测量结果信息集合的信息熵为H(Y),则被测 量集合和测量结果集合交互熵为: H(X·Y)一H(Y)一H(Y/X) (7) 式中H(x·Y)代表通过测量从被测量信源集合传递 到测量结果信息集合的“真信息”的信息熵。H(Y/x) 则代表由于测量引入的误差和干扰信息的信息熵,称 为误差熵。如果整个测量没有任何误差和干扰,则测量 结果信息集合中的所有信息都来自于信源集合,全部 为“真实”信息,则有: H(Y/X)一0,H(X·Y)一H(Y) (8) 但必须指出的是,由于测量过程中的各种因素(如量值 离散化),并不是所有被测量信源集合的信息全部到达
第4期增刊 被测耻信息熵、测量误差熵及其关系 823 测量结果集合中,有一部分信息被“丢失”,此时测建结 式中。为标准不确定度·A与分布函数有关的因子。 果信息集合的信息熵等于交互熵,但并不等于被测量 若将A视为扩展因子.则以bt为单位的扩展不确定 信源集合的信息熵。因此说误差熵H(Y/X)作为被测 度即为误差熵。 量信源(信源集合的信息嫡已知),测量结果的信息嫡 与标准源的信息熵之差即为中并不包含由于测量导致 5结束语 的信息损失所引起的信息熵变化。这部分信息熵为: H(X/Y)=H(X)-H(X·Y) (9) 以Shannon信息论为理论基础的测量信息论是 在没有信息“丢失”时(测量系统分辨率很高时,可作此 以信息熵为研究核心的一套现代测量数据和测量系统 近似),有H(X/Y)=0,此时H(X)=H(X·Y).则误 评价理论。它摒弃了传统的测量数学模型(如真值、误 差熵H(Y/X): 差等),代之以集合、分布、信息熵、信息传递等现代信 H(Y/X)=H(Y)-H(X) (10) 息论模型。在以模块化测量为发展趋势的测量仪器和 即若已知被测量信源集合的信息熵H(X),通过测量 系统的研酐究中,测量技术与信息技术和计算机技术的 获得的结果信息集合的信息熵为H(Y),二者之差即 融合是现代测量技术研究的核心,而测量信息论将为 为测量导致的误差嫡,即测量的不确定性。通常在检定 其提供强有力的理论支撑。尽管测量信息论的研究还 测量仪器或系统时,用已知标准源被检定仪器或系统 处于起步阶段,但不可否认的是它必将成为信息论的 的误差熵。这其中包含人为和环境因素,但一般误差嫡 一个重要研究分支。 是在标准人员(检定员)和标准环境(计量室)前提下给 参考文献 出。在用标准测量仪器或系统测量被测量值时,由于测 量系统的误差熵已知,测量结果信息集合的信息熵减 1捷莫尼科夫.信息工程基础.北京:机械工业出版社· 去误差熵即可得到被测源的信息熵(前提时“丢失”的 1985. 信息熵可忽略)。 2金振玉.信息论.北京:北京理工大学出版社,1991. 例如在经典测量模型中,被测量被视为单一、不变 3 West B.J..Measuremnt,information and uncertainty. 量值,被测量信息熵为0,则测量误差熵即为测量结果 Netherlands:Mathematics &Computers in Simulation, 信息熵,它代表了测量结果的分布状况,表现为测量结 1987,29(3≈4):169189 4 Weise K,Woger W.A Bayesian theory of measurement 果的不确定性。在几种典型分布中,误差熵与标准不确 uncetainty.UK:Measurement Science and Technology, 定度有如下关系四: 1993,4(1):111. H(Y/X)=H(Y)=log2 (Ao) (11) (上接第820页) 正在进行基于荧光机理的特征参数的提取工作。基于统 结 论 计特征参数组合,采用神经网络模式识别技术对不同的 油类进行鉴别的工作将另文发表。 三维荧光谱的平均值、标准差、重心、激发发射波长 参考文献 相关系数、平均峰度和偏度,以及密集椭圆长轴斜率是对 油种较为敏感的统计特征参数。这些统计参量从不同侧 1 Ndou TT,Warner IM.Chem.Rev [J].1991,91:493 面多角度反映了三维荧光谱的宏观分布特征,具有形象 2刘志宏,蔡汝秀.三维荧光光谱分析技术应用进展.分析 直观的优点,而且可以利用功能强大的MATLAB工具 科学学报,2000,16(6):516~523. 箱很容易地实现三维荧光谱各种形式的绘图和各种参数 3胡泽建,王克言,冉绍春.三维荧光谱参量化方法及其在 计算。缺点是缺乏与荧光机理相关的物理意义。目前我们 油种鉴别中的应用.黄渤海海洋,1998,16(4):35~41
第4期增刊 被测量信息熵、测量误差熵及其关系 测量结果集合中,有一部分信息被“丢失”,此时测量结 果信息集合的信息熵等于交互熵,但并不等于被测量 信源集合的信息熵。因此说误差熵H(Y/X)作为被测 量信源(信源集合的信息熵已知),测量结果的信息熵 与标准源的信息熵之差即为中并不包含由于测量导致 的信息损失所弓l起的信息熵变化。这部分信息熵为: H(x/Y)一H(X)一H(X·Y) (9) 在没有信息“丢失”时(测量系统分辨率很高时,可作此 近似),有H(X/Y)一0,此时}l(X)一H(X·Y).则误 差熵H(Y/X): H(Y/X)一H(Y)一H(X) (10) 即若已知被测量信源集合的信息熵H(X),通过测量 获得的结果信息集合的信息熵为H(Y),二者之差即 为测量导致的误差熵,即测量的不确定性。通常在检定 测量仪器或系统时,用已知标准源被检定仪器或系统 的误差熵。这其中包含人为和环境因素,但一般误差熵 是在标准人员(检定员)和标准环境(计量室)前提下给 出。在用标准测量仪器或系统测量被测量值时,由于测 量系统的误差熵已知,测量结果信息集合的信息熵减 去误差熵即可得到被测源的信息熵(前提时“丢失”的 信息熵可忽略)。 例如在经典测量模型中,被测量被视为单一、不变 量值,被测量信息熵为0,则测量误差熵即为测量结果 信息熵,它代表了测量结果的分布状况,表现为测量结 果的不确定性。在几种典型分布中,误差熵与标准不确 定度有如下关系n]: H(Y/X)一H(Y)一log,(Ad) (11) (上接第820页) 4 结 论 三维荧光谱的平均值、标准差、重心、激发发射波长 相关系数、平均峰度和偏度,以及密集椭圆长轴斜率是对 油种较为敏感的统计特征参数。这些统计参量从不同侧 面多角度反映了三维荧光谱的宏观分布特征,具有形象 直观的优点,而且可以利用功能强大的MATI。AB工具 箱很容易地实现三维荧光谱各种形式的绘图和各种参数 计算。缺点是缺乏与荧光机理相关的物理意义。目前我们 823 式中盯为标准不确定度.A、≠,与分布函数有关的因子。 若将A视为扩展因子.则以b:t为单位的扩展不确定 度即为误差熵。 5 结束语 以Shannon信息论为理论基础的测量信息论是 以信息熵为研究核心的一套现代测量数据和测量系统 评价理论。它摒弃了传统的测量数学模型(如真值、误 差等),代之以集合、分布、信息熵、信息传递等现代信 息论模型。在以模块化测量为发展趋势的测量仪器和 系统的研究中,测量技术与信息技术和计算机技术的 融合是现代测量技术研究的核心,而测量信息论将为 其提供强有力的理论支撑。尽管测量信息论的研究还 处于起步阶段,但不可否认的是它必将成为信息论的 …个重要研究分支。 参考文献 1 捷莫尼科夫.信息工程基础.北京:机械工业出版社. 1 985. 2金振玉.信息论.北京:北京理工大学出版社,1991. 3 West B.J..Measuremnt,information and uncertainty. Netherlands:Mathematics&Computers in Simulation, 1987,29(3~4):169~189. 4 Weise K·Woger W.A Bayesian theory of measurement uncetainty.UK:Measurement Science and Technology, ]993。4(】):]~]】. 正在进行基于荧光机理的特征参数的提取工作。基于统 计特征参数组合,采用神经网络模式识别技术对不同的 油类进行鉴别的工作将另文发表。 参考文献 1 Ndou’fT,Warner IM.Chem.Rev EJ].1 991.91:493. 2刘志宏,蔡汝秀.三维荧光光谱分析技术应用进展.分析 科学学报,2000,16(6):516~523. 3胡泽建,王克言,冉绍春.三维荧光谱参量化方法及其在 油种鉴别中的应用.黄渤海海洋,1998,1 6(4):35~41.