第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201405061 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150302.1106.004.html 模式匹配不确定性的多因素集结度量 胡文彬,潘祝山,纪兆辉 (淮海工学院计算机工程学院,江苏连云港222005) 摘要:为了能够有效度量模式匹配的不确定性,提出了一个模式匹配不确定性的度量模型,根据不确定性因素间 的关系提出了一个集结算子。使用全知嫡度量语义匹配和属性匹配的不确定性,引入过程不确定性的度量方法度 量匹配决策过程的不确定性。使用多因素集结算子判断各因素的影响程度,并可合成各度量结果。实验证明,所提 模型和方法能够有效度量模式匹配的不确定性,且具有高效性和可扩展性。 关键词:模式定义:模式分析:模式匹配:不确定性分析:数据不确定性度量:度量方法:决策分析:嫡:集结评估方法 中图分类号:TP18:TP391文献标志码:A文章编号:1673-4785(2015)02-0286-07 中文引用格式:胡文彬,潘祝山,纪兆辉.模式匹配不确定性的多因素集结度量[J].智能系统学报,2015,10(2):286-292. 英文引用格式:HU Wenbin,PAN Zhushan,JI Zhaohui..Uncertain measure for schema matching based on the aggregation of un- certain factors[J].CAAI Transactions on Intelligent Systems,2015,10(2):286-292. Uncertain measure for schema matching based on the aggregation of uncertain factors HU Wenbin,PAN Zhushan,JI Zhaohui (School of Computer Engineering,Huaihai Institute of Technology,Lianyungang 222005,China) Abstract:To measure efficiently uncertainty of schema matching,a measure model based on all uncertain factors was proposed and an aggregation operator was given according to the relations of uncertain factors.A measure meth- od of semantic matching and attribute matching based on all known entropy uncertain ratio was designed.A measure algorithm of process uncertainty was introduced to measure uncertainty of a decision making process.The aggrega- tion operator based on relationships between uncertain factors was proposed to determine influence degree of uncer- tain factors and merge all measure values in the measure process.The real world examples illustrate that the pro- posed model and methods can completely reflect three factors of uncertainty and can measure efficiently uncertainty for schema matching.The proposed methods are efficient and scalable. Keywords:schema definition;schema analysis;schema matching;uncertainty analysis;measured data uncertain- ty;measurement method;decision analysis;entropy;aggregation estimation method 模式匹配是许多领域的关键操作,是模式对象 影响模式集成的整个过程[),被认为是开展大规模 间的映射或相应关系的识别)。由于模式对象间 数据集成的一个关键瓶颈,不确定性管理是未来的 的语义不能完全来源于数据和元数据信息,因此模 挑战之一[3)。通常,自动或是半自动模式匹配的方 式匹配中存在固有的不确定性,而且其不确定性会 法都是耗时和难于实施的,尤其是进行大规模模式 匹配就更困难了,但若能在具体模式匹配实施前,对 收稿日期:2014-06-06.网络出版日期:2015-03-02. 整个过程进行不确定性度量,将会为模式匹配在语 基金项目:国家自然科学基金资助项目(60903027);江苏省自然科学重 大研究项目资助项目(BK2011023):江苏省自然科学基金资 义Wb、模式集成、无线网络和电子商务等诸多领 助项目(BK2011370). 域中的高效应用提供决策参考。 通信作者:胡文彬.E-mail:hwb1008@163.com
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201405061 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150302.1106.004.html 模式匹配不确定性的多因素集结度量 胡文彬,潘祝山,纪兆辉 (淮海工学院 计算机工程学院,江苏 连云港 222005) 摘 要:为了能够有效度量模式匹配的不确定性,提出了一个模式匹配不确定性的度量模型,根据不确定性因素间 的关系提出了一个集结算子。 使用全知熵度量语义匹配和属性匹配的不确定性,引入过程不确定性的度量方法度 量匹配决策过程的不确定性。 使用多因素集结算子判断各因素的影响程度,并可合成各度量结果。 实验证明,所提 模型和方法能够有效度量模式匹配的不确定性,且具有高效性和可扩展性。 关键词:模式定义;模式分析;模式匹配;不确定性分析;数据不确定性度量;度量方法;决策分析;熵;集结评估方法 中图分类号: TP18;TP391 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0286⁃07 中文引用格式:胡文彬,潘祝山,纪兆辉. 模式匹配不确定性的多因素集结度量[J]. 智能系统学报, 2015, 10(2): 286⁃292. 英文引用格式:HU Wenbin, PAN Zhushan, JI Zhaohui. Uncertain measure for schema matching based on the aggregation of un⁃ certain factors[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 286⁃292. Uncertain measure for schema matching based on the aggregation of uncertain factors HU Wenbin, PAN Zhushan, JI Zhaohui (School of Computer Engineering, Huaihai Institute of Technology, Lianyungang 222005, China) Abstract:To measure efficiently uncertainty of schema matching, a measure model based on all uncertain factors was proposed and an aggregation operator was given according to the relations of uncertain factors. A measure meth⁃ od of semantic matching and attribute matching based on all known entropy uncertain ratio was designed. A measure algorithm of process uncertainty was introduced to measure uncertainty of a decision making process. The aggrega⁃ tion operator based on relationships between uncertain factors was proposed to determine influence degree of uncer⁃ tain factors and merge all measure values in the measure process. The real world examples illustrate that the pro⁃ posed model and methods can completely reflect three factors of uncertainty and can measure efficiently uncertainty for schema matching. The proposed methods are efficient and scalable. Keywords:schema definition; schema analysis; schema matching;uncertainty analysis; measured data uncertain⁃ ty; measurement method; decision analysis; entropy; aggregation estimation method 收稿日期:2014⁃06⁃06. 网络出版日期:2015⁃03⁃02. 基金项目:国家自然科学基金资助项目(60903027);江苏省自然科学重 大研究项目资助项目(BK2011023);江苏省自然科学基金资 助项目(BK2011370). 通信作者:胡文彬. E⁃mail:hwb1008@ 163.com. 模式匹配是许多领域的关键操作,是模式对象 间的映射或相应关系的识别[1] 。 由于模式对象间 的语义不能完全来源于数据和元数据信息,因此模 式匹配中存在固有的不确定性,而且其不确定性会 影响模式集成的整个过程[2] ,被认为是开展大规模 数据集成的一个关键瓶颈,不确定性管理是未来的 挑战之一[3] 。 通常,自动或是半自动模式匹配的方 法都是耗时和难于实施的,尤其是进行大规模模式 匹配就更困难了,但若能在具体模式匹配实施前,对 整个过程进行不确定性度量,将会为模式匹配在语 义 Web、模式集成、无线网络和电子商务等诸多领 域中的高效应用提供决策参考
第2期 胡文彬,等:模式匹配不确定性的多因素集结度量 ·287. 模式匹配实质上是一多属性决策过程),其过 1模式匹配中的不确定性 程中需要考虑一定的不确定性。对模式匹配不确定 性的度量研究目前比较少,相关领域主要针对科学 根据不确定性模式匹配的处理过程,模式匹配 数据库和确定数据库进行基于确定语义的匹配操 (schema matching,SM)的不确定性主要出现在语义 作,主要目的是尽量提高映射结果的正确率。不确 匹配、属性匹配和匹配决策过程中,存在于其中的不 定模式匹配的相关研究中,基于不确定语义映射的 确定性表现),可归结为语义因素、属性因素和过 模式集成)、基于相似度计算的方法、基于概率 程决策因素,这3个不确定性因素具有源发性和主 映射的模式匹配方法[6、基于by-table和by-tuple的 导性。 数据集成方法[]和To即-K方法[劉等均是在匹配结 定义1不确定语义匹配。2个模式S,和S,的 果上尽量提高输出正确率,而抛弃掉一些不确定性 不确定语义匹配是一个三元组〈S,O,UM〉,其中S 信息和结果,因此会丢失一些对用户有用的信息,并 是模式有限集,S,S2∈S,0∈S是模式对象有限集, 且这些研究工作中均未对整个匹配的不确定性进行 UM={(r11,m〉,(T2,m2〉,…,〈Tk,mk〉, 度量,未考虑匹配过程中不确定性因素对结果的综 〈r21,m〉,…,〈T,m〉}是模式对象间的不确定 合影响。由B.Liu在2007年提出的不确定性度量 匹配关系集,r∈R,i=1,2,…,n,j=1,2,…,k,n= 适用于不精确数量数据的度量[910。与本文相近的 S,I和k=1S2I为所包含模式对象的个数,R={相等, 工作有AMUR算法和粗糙集(rough set,RS)的不确 包含,相交,超集,不相交,不相容}是6种相互排斥 定性度量,AMUR算法处理的对象是RFD数据[。 的语义关系集,m:为r,的不确定率。 RS理论是由波兰科学家Pawlak[2]在1982年提出 定义2不确定属性匹配。2个模式对象的不 的一种有效处理不确定性的工具,对S不确定性 确定属性匹配是一个三元组〈A,T,UD〉,其中A是 度量的研究是近年来的研究热点,在经典RS理论 属性集,T={ANM,ATM,KRM,DIM}是匹配类型集, 中,产生不确定性的原因有集合的粗糙性和知识 ANM是属性名匹配,ATM是属性数据类型匹配, (概念)的不确定性)。基于信息熵的度量方法[ KRM是关键字约束匹配,DM是数据实例匹配, 能够反映出产生不确定性的2个因素,但不能够全 UD={(A,UD1〉,(A2,UD2〉,〈A,UD3〉,〈A4 面地反映出知识不确定性,该方法被应用在粗糙集 UD,〉}是各类属性匹配的不确定率集,A,∈A。 的异常值发觉中:基于不确定熵的度量方法[1)综合 定义3不确定决策过程。不确定决策过程 了粗糙熵、精确度和包含度3种基本方法,能够反映 UDP是一个四元组〈T,ST,P,),其中T是任务集, 出粗糙性和知识的不确定性:基于知识粒度的不确 ST是状态集,P是不确定度集,f:T×ST→P是一个 定性度量方法[1)适于解决集合的粗糙性:定位服务 决策函数。 的不确定性度量方法[6]运用粗糙集和证据理论进 定义4模式匹配的不确定性度量。模式匹配 行不确定性度量。这些方法的实际应用范围有限, 的不确定性度量是满足系统不确定性度量[1]中4 容易受系统规模的影响,且未详细讨论不确定性因 个条件的不确定性度量。 素对度量结果的影响程度。 本文针对不确定性模式匹配的处理过程],提 2模式匹配的不确定性度量 出了一个多因素集结的模式匹配不确定性度量模型, 2.1不确定性度量模型 根据语义匹配和属性匹配不确定性因素的特点,运用 模式集成中的模式匹配不确定性度量模型由模 全知嫡度量其中的不确定性,并引入过程不确定性度 式对象清洗(schema object cleanout,SOC)、语义匹 量方法对匹配决策的不确定性进行了度量。根据不 配不确定性度量(uncertainty measure of semantic 确定性因素间的相互关系,给出了一个集结算子,用 matching,UMSM)、属性匹配不确定性度量(uncer- 于判断各不确定性因素的影响程度和合成度量结果 tainty measure of attribute matching,UMAM)、决策过 以生成总不确定率。所提出的模型和方法能够有效 程不确定性度量(uncertainty measure of process, 度量模式匹配的不确定性,能够综合各不确定性因素 UMP)和不确定性度量合成器(uncertainty measure 产生的影响,能够处理大规模模式匹配的不确定性度 synthesizer,UMS)5个模块组成。模式匹配不确定 量,为复杂系统的不确定性度量奠定了基础。 性度量模型的框架如图1所示
模式匹配实质上是一多属性决策过程[4] ,其过 程中需要考虑一定的不确定性。 对模式匹配不确定 性的度量研究目前比较少,相关领域主要针对科学 数据库和确定数据库进行基于确定语义的匹配操 作,主要目的是尽量提高映射结果的正确率。 不确 定模式匹配的相关研究中,基于不确定语义映射的 模式集成[2] 、基于相似度计算的方法[5] 、基于概率 映射的模式匹配方法[6] 、基于 by⁃table 和 by⁃tuple 的 数据集成方法[7] 和 Top⁃K 方法[8] 等均是在匹配结 果上尽量提高输出正确率,而抛弃掉一些不确定性 信息和结果,因此会丢失一些对用户有用的信息,并 且这些研究工作中均未对整个匹配的不确定性进行 度量,未考虑匹配过程中不确定性因素对结果的综 合影响。 由 B.Liu 在 2007 年提出的不确定性度量 适用于不精确数量数据的度量[9⁃10] 。 与本文相近的 工作有 AMUR 算法和粗糙集(rough set, RS)的不确 定性度量,AMUR 算法处理的对象是 RFID 数据[11] 。 RS 理论是由波兰科学家 Pawlak [12] 在 1982 年提出 的一种有效处理不确定性的工具,对 RS 不确定性 度量的研究是近年来的研究热点,在经典 RS 理论 中,产生不确定性的原因有集合的粗糙性和知识 (概念)的不确定性[13] 。 基于信息熵的度量方法[14] 能够反映出产生不确定性的 2 个因素,但不能够全 面地反映出知识不确定性,该方法被应用在粗糙集 的异常值发觉中;基于不确定熵的度量方法[13] 综合 了粗糙熵、精确度和包含度 3 种基本方法,能够反映 出粗糙性和知识的不确定性;基于知识粒度的不确 定性度量方法[15]适于解决集合的粗糙性;定位服务 的不确定性度量方法[16] 运用粗糙集和证据理论进 行不确定性度量。 这些方法的实际应用范围有限, 容易受系统规模的影响,且未详细讨论不确定性因 素对度量结果的影响程度。 本文针对不确定性模式匹配的处理过程[17] ,提 出了一个多因素集结的模式匹配不确定性度量模型, 根据语义匹配和属性匹配不确定性因素的特点,运用 全知熵度量其中的不确定性,并引入过程不确定性度 量方法对匹配决策的不确定性进行了度量。 根据不 确定性因素间的相互关系,给出了一个集结算子,用 于判断各不确定性因素的影响程度和合成度量结果 以生成总不确定率。 所提出的模型和方法能够有效 度量模式匹配的不确定性,能够综合各不确定性因素 产生的影响,能够处理大规模模式匹配的不确定性度 量,为复杂系统的不确定性度量奠定了基础。 1 模式匹配中的不确定性 根据不确定性模式匹配的处理过程,模式匹配 (schema matching,SM)的不确定性主要出现在语义 匹配、属性匹配和匹配决策过程中,存在于其中的不 确定性表现[17] ,可归结为语义因素、属性因素和过 程决策因素,这 3 个不确定性因素具有源发性和主 导性。 定义 1 不确定语义匹配。 2 个模式 S1和 S2的 不确定语义匹配是一个三元组〈 S,O,UM〉,其中 S 是模式有限集,S1 ,S2∈S,O∈Si是模式对象有限集, UM = {〈 r1 1 , m11 〉, 〈 r12 , m12 〉, …, 〈 r1k, m1k 〉, 〈r21 , m21 〉, …, 〈rnk, mnk〉}是模式对象间的不确定 匹配关系集,rij∈R,i = 1,2,…,n,j = 1,2,…,k,n = | S1 |和 k = | S2 |为所包含模式对象的个数,R = {相等, 包含,相交,超集,不相交,不相容}是 6 种相互排斥 的语义关系集,mij为 rij的不确定率。 定义 2 不确定属性匹配。 2 个模式对象的不 确定属性匹配是一个三元组〈A,T,UD〉,其中 A 是 属性集,T = {ANM,ATM,KRM,DIM}是匹配类型集, ANM 是属性名匹配,ATM 是属性数据类型匹配, KRM 是关键字约束匹配,DIM 是数据实例匹配, UD= {〈 A1 , UD 1 〉,〈 A2 , UD2 〉, 〈 A3 , UD3 〉,〈 A4 , UD4 〉}是各类属性匹配的不确定率集,Ai∈A。 定义 3 不确定决策过程。 不确定决策过程 UDP 是一个四元组〈T,ST,P, f〉,其中 T 是任务集, ST 是状态集,P 是不确定度集,f:T×ST→P 是一个 决策函数。 定义 4 模式匹配的不确定性度量。 模式匹配 的不确定性度量是满足系统不确定性度量[18] 中 4 个条件的不确定性度量。 2 模式匹配的不确定性度量 2.1 不确定性度量模型 模式集成中的模式匹配不确定性度量模型由模 式对象清洗( schema object cleanout,SOC)、语义匹 配不确定性度量 ( uncertainty measure of semantic matching,UMSM)、属性匹配不确定性度量( uncer⁃ tainty measure of attribute matching,UMAM)、决策过 程不 确 定 性 度 量 ( uncertainty measure of process, UMP)和不确定性度量合成器( uncertainty measure synthesizer,UMS) 5 个模块组成。 模式匹配不确定 性度量模型的框架如图 1 所示。 第 2 期 胡文彬,等:模式匹配不确定性的多因素集结度量 ·287·
·288· 智能系统学报 第10卷 H(C)为C在U上的信息熵,且H(C)=- USUMAM 42 UMP EP SOD result US ∑1sEP(X,)logp(X,)(0/IND(C)=1X,.X, PRD UMSM UMS …,Xn},n=IO/IND(C)I),H(D1C)为条件嫡,且 图1模式匹配不确定性的度量模型 H(D1C)=-∑1EP(X)∑1P(y1 Fig.1 Uncertainty measure model for schema matching X)log(p(yIX)(0/IND(D)={Y,Y2,…,Y}, 待匹配模式集作为输入,由SOC清洗掉确定模式对 m=1O/ND(D)I),H(D)为D在U上的信息熵。 象,不确定部分(uncertainty set,US)由UMSM和 可将模式匹配看做一个决策系统,C的元素为 UMAM进行语义匹配和属性匹配不确定性的度量, 定义1中R所包含的元素,D={0(不是),1(是),2 再由PUM对整个决策过程的不确定性进行度量,最 (不确定)}。所定义的不确定率满足粗糙集不确定 后由UMS合成各度量结果而得到总不确定率。 性度量的基本准则。 2.2模式对象清洗 定理模式匹配的全知熵不确定率满足粗糙 模式匹配的复杂度会随数据集成规模的增大而 集不确定性度量的基本准则。 增大,对输入模式进行预处理至关重要。在S0C中 证明全知嫡不确定率4=1-(H(C→ 使用属性约减方法[1)对输入模式所包含的模式对 D)-H(D))/(log(IOI)-H(D))=1-(H(C)+ 象进行等价类划分(equipollence partition,EP)后,再 H(D1C)-H(D))/(log(IO1)-H(D))。R,和R2 进行正域约减(positive region deduction,PRD)和模 是U上的2个等价关系。 式对象约简(schema object deduction,SOD),得到可 1)0≤(H(C)+H(DIC)-H(D))/ 能存在不确定性的部分—模式对象约简集。模式 (log(IO1)-H(D))≤1,因此0≤μm≤1非负; 匹配不确定性的度量规模经过SOC的处理后明显 2)若R,≈R2,则H(C1)=H(C2),H(D1)= 缩小。 H(D2),所以u满足不变性: 2.3基于全知熵的不确定性度量 3)若R,<R2,则根据文献的定理7有H(C,)< 粗糙性是指由于知识的不完备性或不精确性, HC2),H(D)<H(D2),所以L满足单调性。 导致对象与对象之间不可分辨,从而使得对象与概 综上所述,模式匹配的全知嫡不确定率满足粗 念之间的关系具有不确定性。信息熵是信息理 糙集不确定性度量的基本准则]。 论中用于分析不确定程度的一种重要度量,以所需 2.3.2语义匹配的不确定性度量 信息量的多少来衡量不确定性的程度2。基于信 语义匹配是用于确定各模式及其模式对象间匹 息嫡的度量方式中全知嫡不确定率对系统的不确定 配程度的过程之一,由于模式对象的语义不能完全 性比较敏感,能够较为准确地反映不确定性的变化 来源于数据和元数据信息,并且识别确定的语义映 规律2)。模式匹配的执行过程能够表达其系统内 射是非常困难的,因此语义匹配中产生的不确定性 的条件属性知识和决策属性知识,模式匹配的不确 是模式匹配中存在不确定性的主因之一[2)。语义 定性结构和程度可由属性知识完全确定,因此基于 匹配是一决策过程,语义匹配的不确定率如下: 全知嫡的度量方式适于度量模式匹配的不确定性。 八1=1- 2.3.1模式匹配的全知嫡不确定率 (H(CD)-H(D))/(log(I 0 1)-H(D)) 定义5模式匹配的全知嫡不确定率。四元组 式中:C,是语义匹配条件属性集,D,是语义匹配决 DS=(O,MA,V,)为模式匹配决策系统,其中,0为 策属性集,0,∈0是模式对象集。 模式对象有限集;MA=CUD是匹配属性的集合,C为 2.3.3属性匹配的不确定性度量 不确定匹配关系集,D为决策属性集,C∩D=中,a∈ 属性匹配不确定性的度量由UMAM来完成,实 CUD;V=UV.是属性的值域,f:O×MA→V是一个信 现属性名匹配(ANM)、数据类型匹配(ATM)、关键 息函数。模式匹配的全知嫡不确定率定义为 字约束匹配(KRM)和数据实例匹配(DIM)的不确 八=1- 定性度量,计算出属性匹配的总不确定率。属性匹 (H(C-D)-H(D))/(log(I 1)-H(D)) 配过程同样是一决策过程,其中的条件属性集合均 式中:Hm(C→D)=H(C)+H(DIC)为全知嫡21 为{相等,包含,相交,超集,不相交}
图 1 模式匹配不确定性的度量模型 Fig.1 Uncertainty measure model for schema matching 待匹配模式集作为输入,由 SOC 清洗掉确定模式对 象,不确定部分 ( uncertainty set, US) 由 UMSM 和 UMAM 进行语义匹配和属性匹配不确定性的度量, 再由 PUM 对整个决策过程的不确定性进行度量,最 后由 UMS 合成各度量结果而得到总不确定率。 2.2 模式对象清洗 模式匹配的复杂度会随数据集成规模的增大而 增大,对输入模式进行预处理至关重要。 在 SOC 中 使用属性约减方法[19] 对输入模式所包含的模式对 象进行等价类划分(equipollence partition,EP)后,再 进行正域约减( positive region deduction,PRD)和模 式对象约简(schema object deduction,SOD),得到可 能存在不确定性的部分———模式对象约简集。 模式 匹配不确定性的度量规模经过 SOC 的处理后明显 缩小。 2.3 基于全知熵的不确定性度量 粗糙性是指由于知识的不完备性或不精确性, 导致对象与对象之间不可分辨,从而使得对象与概 念之间的关系具有不确定性[12] 。 信息熵是信息理 论中用于分析不确定程度的一种重要度量,以所需 信息量的多少来衡量不确定性的程度[20] 。 基于信 息熵的度量方式中全知熵不确定率对系统的不确定 性比较敏感,能够较为准确地反映不确定性的变化 规律[21] 。 模式匹配的执行过程能够表达其系统内 的条件属性知识和决策属性知识,模式匹配的不确 定性结构和程度可由属性知识完全确定,因此基于 全知熵的度量方式适于度量模式匹配的不确定性。 2.3.1 模式匹配的全知熵不确定率 定义 5 模式匹配的全知熵不确定率。 四元组 DS = (O, MA, V, f)为模式匹配决策系统,其中,O 为 模式对象有限集;MA=C∪D 是匹配属性的集合,C 为 不确定匹配关系集,D 为决策属性集,C∩D = ϕ,a∈ C∪D;V=∪Va是属性的值域,f:O×MA→V 是一个信 息函数。 模式匹配的全知熵不确定率定义为 μall = 1 - (Hall(C → D) - H(D)) / (log(| O | ) - H(D)) 式中:Hall(C→D) = H(C) +H(D | C) 为全知熵[21] , H(C) 为 C 在 U 上 的 信 息 熵, 且 H ( C ) = - ∑1≤i≤n p(Xi)log(p(Xi)) ( O/ IND( C) = { X1 ,X2 , …,Xn },n = | O/ IND(C) | ),H(D | C) 为条件熵,且 H ( D | C ) = - ∑1≤i≤n p(Xi)∑1≤j≤m p(Yj | Xi)log(p(Yj | Xi)) ( O/ IND(D)= {Y1 ,Y2 ,…,Ym }, m = |O/ IND(D) | ),H(D)为 D 在 U 上的信息熵。 可将模式匹配看做一个决策系统,C 的元素为 定义 1 中 R 所包含的元素,D = {0(不是),1(是),2 (不确定)}。 所定义的不确定率满足粗糙集不确定 性度量的基本准则。 定理 模式匹配的全知熵不确定率满足粗糙 集不确定性度量的基本准则。 证明 全知熵不确定率 μall = 1 - ( Hall ( C→ D) - H(D)) / (log( |O| ) - H(D))= 1-(H(C) + H(D| C)- H(D)) / (log( |O| ) - H(D))。 R1和 R2 是 U 上的 2 个等价关系。 1) 0 ≤ ( H ( C ) + H ( D | C ) - H ( D )) / (log( |O| ) - H(D))≤1,因此 0≤μall≤1 非负; 2)若 R1 ≈R2 ,则 H( C1 ) = H( C2 ),H( D1 ) = H(D2 ),所以 μall满足不变性; 3)若R1﹤R2,则根据文献[22]的定理7 有H(C1) < H(C2), H(D1)<H(D2),所以 μall满足单调性。 综上所述,模式匹配的全知熵不确定率满足粗 糙集不确定性度量的基本准则[23] 。 2.3.2 语义匹配的不确定性度量 语义匹配是用于确定各模式及其模式对象间匹 配程度的过程之一,由于模式对象的语义不能完全 来源于数据和元数据信息,并且识别确定的语义映 射是非常困难的,因此语义匹配中产生的不确定性 是模式匹配中存在不确定性的主因之一[24] 。 语义 匹配是一决策过程,语义匹配的不确定率如下: μ1 = 1 - (Hall(C1 → D1) - H(D1)) / (log(| O1 | ) - H(D1)) 式中:C1是语义匹配条件属性集,D1是语义匹配决 策属性集,O1∈O 是模式对象集。 2.3.3 属性匹配的不确定性度量 属性匹配不确定性的度量由 UMAM 来完成,实 现属性名匹配(ANM)、数据类型匹配(ATM)、关键 字约束匹配(KRM)和数据实例匹配(DIM) 的不确 定性度量,计算出属性匹配的总不确定率。 属性匹 配过程同样是一决策过程,其中的条件属性集合均 为{相等,包含,相交,超集,不相交}。 ·288· 智 能 系 统 学 报 第 10 卷
第2期 胡文彬,等:模式匹配不确定性的多因素集结度量 ·289 根据定义5属性匹配的不确定率如下: 须执行的过程,因此可令K(B)=0,K(B,)=0。 3不确定性因素的集结度量 式中:4=1-(H(Cx一Dx)-H(D:)/ 3.1不确定性因素影响程度的判断 (log(1U2I)-H(D2:)),i=1,2,3,4,分别是4种属 影响模式匹配的不确定因素之间往往不是孤立 性匹配的不确定率,“2/ 4j=1,2,34,是各属 的,它们之间可能存在着某些关系,这将影响不确定性 的准确度量,各因素及其权重的简单线性组合也从一 性匹配不确定率的权值。 定程度上忽略了这些因素之间存在的相互关系。 2.4匹配决策过程的不确定性度量 定义6不确定性的集结度量。U(SM)=f 模式匹配是根据运行时管理者的决策或过程数 (S(SM),A(SM),P(SM))称为模式匹配SM不确 据有条件执行的,因而其过程中存在不确定性是毫 定性的集结度量,U(SM)∈[0,1],U(SM)越大SM 无疑问的2]。用Petrinets表示模式匹配的决策过 的不确定性就越大,其中f称为以S(SM)、A(SM) 程(decision process,DP),如图2。 和P(SM)为自变量的不确定性度量函数,f:[0,1]× [0,1]×[0,1]→[0,1]。 基于f对SM不确定性的度量将所有不确定性 B B 因素映射到一个[0,1]上,反映了模式匹配的不确 定性。 图2模式匹配的过程模型 模式匹配中任何不确定因素的细微变化都将影 Fig.2 Process model of schema matching 响到整个过程。综合语义匹配、属性匹配和决策过 t:为任务块,B,为SOC的执行过程,B2为语义匹 程这3个方面的不确定因素以进行模式匹配不确定 配和属性匹配的顺序执行过程,B,为属性匹配的执 性的客观度量,而不是各因素的简单线性组合,需要 行过程,B,为匹配结果合并过程。图2可转换为图 考虑这3个因素的内在关系。为了讨论单个因素对 3形式。 不确定性的影响以及多个因素集结起来对不确定性 的影响,下面给出相关定义。 定义7分别对因素S(SM),A(SM)和P(SM) 作如下变换: 图3转换后的过程模型 S'(SM)=2S(SM)-1 Fig.3 Converted process model A'(SM)=2A(SM)-1 决策过程不确定性的计算通式如下: P'(SM)=2P(SM)-1 K(DP)= 令因素e∈{S(SM),A(SM),P(SM)},相应地, ze{S'(SM),A'(SM),P'(SM)}称为因素e对SM ∑p(BS)logP(BS)+∑p(B,)U(B,) 不确定性的影响,ze[-1,1]。若≥0,则称e为积 K= 式中:N是过程中任务的总数量,M是可能被执行任 极因素:若z=0,则称e为不变因素;若z|z2 ∑(T×K(B,) 1⊕2=了21+22+·2,1≤0,2≤0,或 3= 8 1≥0,2≤0,lz1|<z2 式中:T:是任务B被执行的次数。由于B,和B4为必 0,其他
根据定义 5 属性匹配的不确定率如下: μ2 = ∑ 4 i = 1 (μ 2 2i /∑ 4 j = 1 μ2j) 式中: μ2i = 1 - ( Hall ( C2i → D2i ) - H ( D2i )) / (log( |U2i | ) - H(D2i)),i = 1,2,3,4,分别是 4 种属 性匹配的不确定率, μ2 i /∑ 4 j = 1 μ2j ,j = 1,2,3,4,是各属 性匹配不确定率的权值。 2.4 匹配决策过程的不确定性度量 模式匹配是根据运行时管理者的决策或过程数 据有条件执行的,因而其过程中存在不确定性是毫 无疑问的[25] 。 用 Petrinets 表示模式匹配的决策过 程(decision process,DP),如图 2。 图 2 模式匹配的过程模型 Fig.2 Process model of schema matching t i为任务块,B1为 SOC 的执行过程,B2为语义匹 配和属性匹配的顺序执行过程,B3为属性匹配的执 行过程,B4为匹配结果合并过程。 图 2 可转换为图 3 形式。 图 3 转换后的过程模型 Fig.3 Converted process model 决策过程不确定性的计算通式如下: Κ(DP) = - ∑ M k = 1 p(BSk) log2 p(BSk) + ∑ N g = 1 p(Bg )U(Bg ) 式中:N 是过程中任务的总数量,M 是可能被执行任 务的总数,BSk是第 k 个可能被执行的任务,P(BSk) 是执行概率,Bg是过程中第 g 个任务,P(Bg )是为了 完成整个过程而由所有 M 个可执行任务执行的 Bg 的概率, U(Bg ) = ∑ N i = 1 P(Bi) log2(Bi) 。 决策过程不确定率 μ3的计算公式如下: μ3 = ∑ N i = 1 (Ti × Κ(Bi)) ∑ N i = 1 Ti 式中:Ti是任务 Bi被执行的次数。 由于 B1和 B4为必 须执行的过程,因此可令 K(B1 )= 0,K(B4 )= 0。 3 不确定性因素的集结度量 3.1 不确定性因素影响程度的判断 影响模式匹配的不确定因素之间往往不是孤立 的,它们之间可能存在着某些关系,这将影响不确定性 的准确度量,各因素及其权重的简单线性组合也从一 定程度上忽略了这些因素之间存在的相互关系[26] 。 定义 6 不确定性的集结度量。 U( SM) = f (S(SM), A(SM), P(SM)) 称为模式匹配 SM 不确 定性的集结度量,U(SM) ∈[0,1],U(SM)越大 SM 的不确定性就越大,其中 f 称为以 S(SM)、 A( SM) 和 P(SM)为自变量的不确定性度量函数,f:[0,1] × [0,1]×[0,1] →[0,1]。 基于 f 对 SM 不确定性的度量将所有不确定性 因素映射到一个[0,1]上,反映了模式匹配的不确 定性。 模式匹配中任何不确定因素的细微变化都将影 响到整个过程。 综合语义匹配、属性匹配和决策过 程这 3 个方面的不确定因素以进行模式匹配不确定 性的客观度量,而不是各因素的简单线性组合,需要 考虑这 3 个因素的内在关系。 为了讨论单个因素对 不确定性的影响以及多个因素集结起来对不确定性 的影响,下面给出相关定义。 定义 7 分别对因素 S(SM),A(SM)和 P(SM) 作如下变换: S′(SM) = 2S(SM) - 1 A′(SM) = 2A(SM) - 1 P′(SM) = 2P(SM) - 1 令因素 e∈{S(SM),A(SM),P(SM)},相应地, z∈{S′(SM),A′( SM),P′( SM)} 称为因素 e 对 SM 不确定性的影响,z∈[ -1,1]。 若 z≥0,则称 e 为积 极因素;若 z = 0,则称 e 为不变因素;若 z<0,则称 e 为消极因素。 定义 8 若给定 z1 ,z2 ∈{ S′( SM),A′( SM), P′(SM)},z1≠z2 ,集结算子定义如下: z1 z2 = z1 + z2 - z1·z2 , z1 ≥ 0,z2 ≥ 0,或 z1 ≥ 0,z2 ≤ 0, z1 > z2 z1 + z2 + z1·z2 , z1 ≤ 0,z2 ≤ 0,或 z1 ≥ 0,z2 ≤ 0, z1 < z2 0,其他 ì î í ï ï ï ï ï ï ï ï ï ï ïï 第 2 期 胡文彬,等:模式匹配不确定性的多因素集结度量 ·289·
·290 智能系统学报 第10卷 若已存在一个不确定因素e1,再给定一个不确 (ATM)、关键字匹配(KRM)和数据实例匹配(DIM)4 定因素e2,它们的影响分别为1和2,则2个因素c 个过程,每个过程中条件属性个数1C1=6,条件属性 之间的内在相互关系有如下特性: 值域VC={0,1,2},每个过程中的模式个数和模式对 1)增长性,若e2是一个积极因素,即z2>0。e,和 象个数见表3。模式匹配的不确定率见表4。 e,对SM不确定性的集结影响z应该满足z>z1:若e, Student PID pname ser class native birthday speciality_id dep_id 也是一个积极因素,则>2也同样成立。 030405唐杰男030404051江苏南京02/09/81102001 02 030506陈海爱男030404051江苏南京06/06/82102002 03 2)不变性,若e2是一个不变因素,即2=0。e1 030505陈珂山男030404051苏州10/09/82102001 02 和e,对SM不确定性的集结影响z应该满足z=z1, 图4存储在校生数据的模式截图 即SM的不确定性受e,的影响大:若e,也是一个不 Fig.4 Schema data of undergraduate 变因素,则SM的不确定性不受加入因素的影响。 3)减弱性,若e2是一个消极因素,即z2 序无关。 4 2008p 9 3.2总不确定率 5 2009sp 模式匹配的总不确定率主要由3部分来确定, 注:表中数据为2005年春至2009年春江苏省VFP二级考试 分别是语义匹配的不确定率S(M)、属性匹配的不 的数据情况 确定率A(M)和决策过程的不确定率P(M)。由于 表2语义匹配不确定性度量的实验参数 1⊕2⊕z∈[-1,1],而模式匹配不确定性度量函数 Table 2 Experiment parameters of uncertainty measure- 的值域为[0,1],因此模式匹配不确定性的度量函 ment for semantic matching 数(即,总不确定率)定义为 模式 模式对 条件属性 决策属性 Lale =f(S(M),A(M),P(M))= No. 个数1S1象个数1U川IC,1 Vc ID,I 1/2[z1⊕x2⊕z3]+1/2 2 610,1.2}10,1,2 式中:a1,2,a3∈{S'(M),A'(M),P'(M)},S(M)= 2 52 6{0,1,2}1{0,1,2} u1,A(M)=u2,P(M)=3o 注:{0,1,2}中,0一是,1一不是,2一不确定 4 实验与分析 表3属性匹配不确定性度量的实验参数 4.1实验 Table 3 Experiment parameters of uncertainty measure- 设计2种实验方案:1)较小不确定性的度量。对 ment for attribute matching 2个模式S,(在校生)和S2(毕业生)间的匹配进行不 方案1 方案2 匹配类型 确定性度量,所包含模式对象的详细信息分别如图 ISI IUI ISI IUI 4、5所示:2)多模式对象匹配不确定性的度量。对5 ANM v 301 个模式间的匹配进行不确定性度量,共包含57个模 ATM 2 16 j 301 式对象,实验数据情况见表1。实验参数见表2。属 KRM 2 2 5 5 性匹配包括属性名匹配(ANM)、属性类型匹配 DIM 2 300 5 3501
若已存在一个不确定因素 e1 ,再给定一个不确 定因素 e2 ,它们的影响分别为 z1和 z2 ,则 2 个因素 c 之间的内在相互关系有如下特性: 1)增长性,若 e2是一个积极因素,即 z2>0。 e1和 e2对 SM 不确定性的集结影响 z 应该满足 z> z1 ;若 e1 也是一个积极因素,则 z> z2也同样成立。 2)不变性,若 e2是一个不变因素,即 z2 = 0。 e1 和 e2对 SM 不确定性的集结影响 z 应该满足 z = z1 , 即 SM 的不确定性受 e1的影响大;若 e1也是一个不 变因素,则 SM 的不确定性不受加入因素的影响。 3)减弱性,若 e2是一个消极因素,即 z2<0。 e1和 e2对 SM 不确定性的集结影响 z 应该满足 z< z1 ;若 e1 也是一个消极因素,则 z< z2也同样成立。 一个积极 因素和一个消极因素对 SM 不确定性的集结影响取 决于绝对值大的因素,且集结影响值小于较大的绝 对值。 4)有界性,z1⊕z2∈[-1,1],以确保多个因素的 集结影响可以通过两两集结来实现。 5)交换率,z1⊕z2 = z2⊕z1 ,这可以保证 2 个给 定不确定性因素对 SM 不确定性的影响保持不变。 6)结合率, (z1⊕z2 )⊕z3 = z1⊕( z2⊕z3 ),这表 明 2 个以上因素的集结影响与各因素参与计算的次 序无关。 3.2 总不确定率 模式匹配的总不确定率主要由 3 部分来确定, 分别是语义匹配的不确定率 S(M)、属性匹配的不 确定率 A(M)和决策过程的不确定率 P(M)。 由于 z1⊕z2⊕z3∈[-1,1],而模式匹配不确定性度量函数 的值域为[0,1],因此模式匹配不确定性的度量函 数(即,总不确定率)定义为 μwhole = f(S(M), A(M), P(M)) = 1 / 2 [z1 ⊕ z2 ⊕ z3 ] + 1 / 2 式中:z1 ,z2 ,z3∈{S′(M),A′(M),P′(M)},S(M) = μ1 ,A(M)= μ2 ,P(M)= μ3 。 4 实验与分析 4.1 实验 设计 2 种实验方案:1)较小不确定性的度量。 对 2 个模式 S1(在校生)和 S2(毕业生)间的匹配进行不 确定性度量,所包含模式对象的详细信息分别如图 4、5 所示;2)多模式对象匹配不确定性的度量。 对 5 个模式间的匹配进行不确定性度量,共包含 57 个模 式对象,实验数据情况见表 1。 实验参数见表 2。 属 性匹配包 括 属 性 名 匹 配 ( ANM)、属 性 类 型 匹 配 (ATM)、关键字匹配(KRM)和数据实例匹配(DIM)4 个过程,每个过程中条件属性个数| C | = 6,条件属性 值域 VC={0,1,2},每个过程中的模式个数和模式对 象个数见表 3。 模式匹配的不确定率见表 4。 图 4 存储在校生数据的模式截图 Fig.4 Schema data of undergraduate 图 5 存储毕业生数据的模式截图 Fig.5 Schema data of graduate 表 1 实验数据情况 Table 1 Experimental data 序号 年份 对象个数 1 2005sp 17 2 2006au 17 3 2007au 7 4 2008sp 9 5 2009sp 7 注:表中数据为 2005 年春至 2009 年春江苏省 VFP 二级考试 的数据情况 表 2 语义匹配不确定性度量的实验参数 Table 2 Experiment parameters of uncertainty measure⁃ ment for semantic matching No. 模式 个数| S | 模式对 象个数|U| 条件属性 | C1 | VC1 决策属性 |D1 | VD1 1 2 2 6 {0,1,2} 1 0,1,2} 2 5 52 6 {0,1,2} 1 {0,1,2} 注:{0,1,2}中,0—是,1—不是,2—不确定 表 3 属性匹配不确定性度量的实验参数 Table 3 Experiment parameters of uncertainty measure⁃ ment for attribute matching 匹配类型 方案 1 | S | |U| 方案 2 | S | |U| ANM 2 12 5 301 ATM 2 16 5 301 KRM 2 2 5 5 DIM 2 300 5 3 501 ·290· 智 能 系 统 学 报 第 10 卷
第2期 胡文彬,等:模式匹配不确定性的多因素集结度量 ·291· 表42种方案下的模式匹配的不确定率 [2]MAGNANI M,RIZOPOULOS N,BRIEN P,et al.Schema Table 4 Uncertainty ratio of schema matching from two integration based on uncertain semantic mappings[J].Lec- projects ture Notes in Computer Science,2005(3716):31-46. 第1种方案 第2种方案 [3]HALEVY A,RAJARAMAN A,ORDILLE J.Data integra- USM 41=0 41=0.34 tion:the teenage years[Z].Seoul,2006:9-16. UAM u3=0.21 [4]翁年凤,刁兴春,曹建军,等.不确定模式匹配研究综述 43=0.95 [J刀.计算机科学,2011,38(12):1-5. DP 43=0.17 43=0.17 WENG Nianfeng,DIAO Xingchun,CHAO Jianjun,et al. 总计 ubh.=0.19 Mwbole =0.72 Survey of uncertain schema matching[J].Computer Sci- 4.2分析 ence,2011,38(12):1-5. 第1种方案中,首先通过S0C处理后,匹配规模 [5]姜芳艽,孟小峰,贾琳琳.Deep Web集成服务的不确定 比2中降低50%。2个模式的模式对象名语义相同, 模式匹配[J].计算机学报,2008,31(8):1412-1421. 因此μ,=0。属性匹配中只有属性名匹配具有不确定 JIANG Fangjiao,MENG Xiaofeng,JIA Linlin.Uncertain 性。决策过程中的不确定率随模式匹配规模的减小 schema matching in deep web integration service[J].Chi- 而降低,利用公式计算得到的u值符合实际情况。 nese Journal of Computers,2008,31(8):1412-1421. [6]MAGNANI M,MONTESI D.Probabilistic data integration 第2种方案中,模式对象规模和属性匹配的规模突然 [R].Bologna(italy):UBLCS,2009. 增大,通过S0C的处理后,匹配规模降低了近1/10, [7]DONG X L,HALEVY A,YU CONG.Data integration with 同时计算效率也明显提高,不确定率随匹配规模增大 uncertainty[J].The VLDB Journal,2009,18:469-500. 而增大符合不确定性度量的基本准则。实验表明度 [8]AVIGDOR G.Managing uncertainty in schema matching 量模式匹配不确定性的模型和不确定率计算方法具 with top-k schema mappings[J].Journal on Data Seman- 有可行性、有效性、可扩展性和高效性。 tics,2006,6:90-114. [9]LIU Baoding.Uncertainty theory[M].Berlin:Springer-Ver- 5 结束语 1ag,2007:3-12. 模式匹配的不确定性研究是国际上相关领域近 [10]LIU Baoding.Some research problems in uncertainty theory [J].Journal of Uncertain Systems,2009,3(1):3-10. 年来才兴起的热点研究方向,度量原始匹配的不确 [11]王永利,钱江波,孙淑荣.AMUR:一种RFID数据不确 定性是关键问题。本文根据模式匹配中产生不确定 定性的自适应度量算法[J].电子学报,2011,39(3): 性的主要因素,首次将全知嫡不确定率和过程不确 579-584 定率结合起来,并证明模式匹配的全知熵不确定率 WANG Yongli,QIAN Jiangbo,SUN Shurong.AMUR:an 满足粗糙集不确定性度量的基本准则,提出了一个 adaptive measuring algorithm of underlying uncertainty for 多因素集结的模式匹配不确定性度量模型,利用集 rfid data[J].Chinese of Journal Electronics,2011,39 结算子判断各不确定性因素对模式匹配不确定性的 (3):579-584 影响程度和合成各阶段的度量结果,实验证明本文 [12]PAWLAL Z.Rough sets[J].International Journal of Com- 提出的方法与已有方法相比可获得更加合理的度量 puter and Information Science,1982,11(5):341-356. 结果。所提模型解决了不确定性度量中规模限制问 [13]QIU Taorong,YOU Min,GE Hanjuan,et al.A method of 题,使得大规模模式匹配不确定性的处理复杂度降 uncertainty measure based on rough set[Z].2008:544- 547 低。下一步的工作将探讨动态环境下模式匹配不确 [14]JIANG Feng,SUI Yuefei,CAO Cungen.An information 定性的度量方法及其处理过程中不确定性传播的测 entropy-based approach to outlier detection in rough sets 算方法。 [J].Expert Systems with Applications,2010,37(9): 参考文献: 6338-6344. [15]LIANG Jiye,WANG Junhong,QIAN Yuhua.A new meas- [1]SHVAIKO P,EUZENAT J.A survey of schema-based matc- ure of uncertainty based on knowledge granulation for rough hing approaches[J].Journal on Data Semantics IV,2005 sets[]].Information Sciences,2009,179(4):458-470. (3730):146-171 [16]IFTIKHAR-U S,ARYYA G.Managing uncertainty in loca-
表 4 2 种方案下的模式匹配的不确定率 Table 4 Uncertainty ratio of schema matching from two projects 第 1 种方案 第 2 种方案 USM μ1 = 0 μ1 = 0.34 UAM μ2 = 0.21 μ2 = 0.95 DP μ3 = 0.17 μ3 = 0.17 总计 μwhole = 0.19 μwhole = 0.72 4.2 分析 第 1 种方案中,首先通过 SOC 处理后,匹配规模 比[2]中降低 50%。 2 个模式的模式对象名语义相同, 因此 μ1 = 0。 属性匹配中只有属性名匹配具有不确定 性。 决策过程中的不确定率随模式匹配规模的减小 而降低,利用公式计算得到的 μwhole值符合实际情况。 第 2 种方案中,模式对象规模和属性匹配的规模突然 增大,通过 SOC 的处理后,匹配规模降低了近 1/ 10, 同时计算效率也明显提高,不确定率随匹配规模增大 而增大符合不确定性度量的基本准则。 实验表明度 量模式匹配不确定性的模型和不确定率计算方法具 有可行性、有效性、可扩展性和高效性。 5 结束语 模式匹配的不确定性研究是国际上相关领域近 年来才兴起的热点研究方向,度量原始匹配的不确 定性是关键问题。 本文根据模式匹配中产生不确定 性的主要因素,首次将全知熵不确定率和过程不确 定率结合起来,并证明模式匹配的全知熵不确定率 满足粗糙集不确定性度量的基本准则,提出了一个 多因素集结的模式匹配不确定性度量模型,利用集 结算子判断各不确定性因素对模式匹配不确定性的 影响程度和合成各阶段的度量结果,实验证明本文 提出的方法与已有方法相比可获得更加合理的度量 结果。 所提模型解决了不确定性度量中规模限制问 题,使得大规模模式匹配不确定性的处理复杂度降 低。 下一步的工作将探讨动态环境下模式匹配不确 定性的度量方法及其处理过程中不确定性传播的测 算方法。 参考文献: [1]SHVAIKO P, EUZENAT J. A survey of schema⁃based matc⁃ hing approaches[ J]. Journal on Data Semantics IV, 2005 (3730): 146⁃171. [2]MAGNANI M, RIZOPOULOS N, BRIEN P, et al. Schema integration based on uncertain semantic mappings[ J]. Lec⁃ ture Notes in Computer Science, 2005(3716): 31⁃46. [3]HALEVY A, RAJARAMAN A, ORDILLE J. Data integra⁃ tion:the teenage years[Z]. Seoul, 2006: 9⁃16. [4]翁年凤,刁兴春,曹建军,等. 不确定模式匹配研究综述 [J]. 计算机科学, 2011, 38(12): 1⁃5. WENG Nianfeng, DIAO Xingchun, CHAO Jianjun, et al. Survey of uncertain schema matching [ J]. Computer Sci⁃ ence, 2011, 38(12): 1⁃5. [5]姜芳艽,孟小峰,贾琳琳. Deep Web 集成服务的不确定 模式匹配[J]. 计算机学报, 2008, 31(8): 1412⁃1421. JIANG Fangjiao, MENG Xiaofeng, JIA Linlin. Uncertain schema matching in deep web integration service[ J]. Chi⁃ nese Journal of Computers, 2008, 31(8): 1412⁃1421. [6] MAGNANI M, MONTESI D. Probabilistic data integration [R]. Bologna(italy): UBLCS, 2009. [7]DONG X L, HALEVY A, YU CONG. Data integration with uncertainty[J]. The VLDB Journal, 2009, 18: 469⁃500. [8] AVIGDOR G. Managing uncertainty in schema matching with top⁃k schema mappings[ J]. Journal on Data Seman⁃ tics, 2006, 6: 90⁃114. [9]LIU Baoding. Uncertainty theory[M]. Berlin: Springer⁃Ver⁃ lag, 2007: 3⁃12. [10]LIU Baoding. Some research problems in uncertainty theory [J]. Journal of Uncertain Systems, 2009, 3(1): 3⁃10. [11]王永利,钱江波,孙淑荣. AMUR:一种 RFID 数据不确 定性的自适应度量算法[ J]. 电子学报, 2011, 39(3): 579⁃584. WANG Yongli, QIAN Jiangbo, SUN Shurong. AMUR: an adaptive measuring algorithm of underlying uncertainty for rfid data [ J]. Chinese of Journal Electronics, 2011, 39 (3): 579⁃584. [12]PAWLAL Z. Rough sets[J]. International Journal of Com⁃ puter and Information Science, 1982, 11(5): 341⁃356. [13]QIU Taorong, YOU Min, GE Hanjuan, et al. A method of uncertainty measure based on rough set [ Z]. 2008: 544⁃ 547. [14] JIANG Feng, SUI Yuefei, CAO Cungen. An information entropy⁃based approach to outlier detection in rough sets [J]. Expert Systems with Applications, 2010, 37 ( 9): 6338⁃6344. [15]LIANG Jiye, WANG Junhong, QIAN Yuhua. A new meas⁃ ure of uncertainty based on knowledge granulation for rough sets[J]. Information Sciences, 2009, 179(4): 458⁃470. [16]IFTIKHAR⁃U S, ARYYA G. Managing uncertainty in loca⁃ 第 2 期 胡文彬,等:模式匹配不确定性的多因素集结度量 ·291·
.292. 智能系统学报 第10卷 tion services using rough set and evidence theory[J].Ex- [24]MAGNANI M,MONTESI D.Uncertainty in data integra- pert System with Application,2007,32(2):386-396. tion:current approaches and open problems [M].En- [17]胡文彬,李千目,张宏.基于领域知识的不确定性关系 schede,The Netherlands:the Centre for Telematics and 模式集成[J].南京理工大学学报:自然科学版,2010, Information Technology,2007:26-32. 34(4):409-414. [25]JUNG J Y,CHIN C H,CARDOSO J.An entropy-based HU Wenbin,LI Qianmu,ZHANG Hong.Uncertain rela- uncertainty measure of process models[J].Information tion schema integration based on domain knowledge[J]. Processing Letters,2011,111(3):135-141. Journal of Nanjing University of Science and Technology: [26]岳昆,刘惟一,王晓玲.一种基于不确定性因素叠加的 Natural Science,2010,34(4):409-414. Wb服务质量度量方法[J].计算机研究与发展, [18]胡文彬,张宏,李千目.基于全知嫡的模式集成不确定 2009,46(5):841-849. 性度量模型[J].南京航空航天大学学报,2012,44 YUE Kun,LIU Weiyi,WANG Xiaoling.An approach for (4):575-579. measuring quality of web services based on the superposi- HU Wenbin,ZHANG Hong,LI Qianmu.Uncertainty tion of uncertain factors[J].Journal of Computer Research measure model of schema integration based on all known and Development,2009,46(5):841-849. entropy[J].Journal of Nanjing University of Aeronautics 作者简介: Astronautics,2012,44(4):575-579. 胡文彬,女,1976年生,博士,中国 [19]WANG J G,MENG G Y,ZHENG X L.The attribute re- 计算机学会会员,主要研究方向为数据 duce based on rough sets and sat algorithm[Z].2008:98- 集成、社会网络、隐私保护,作为主要成 102 员完成省级课题1项,参与完成市级课 [20]LIANG Jiye,QIAN Yuhua.Information granules and entro- 题2项。发表学术论文10余篇,其中 py theory in information systems[].Science in China Se. 被EI检索3篇。 ries F:Information Sciences,2008,51(10):1427-1444. [21]赵军,周应华.基于粗集理论的系统不确定性度量方式 潘祝山,男,1968年生,副教授,主 研究[J].小型微型计算机系统,2010,31(2):354- 要研究方向为人工智能、确定性理论。 359. 参与省市级课题多项。 ZHAO Jun,ZHOU Yinghua.Study on system uncertainty measures based on rough set theory[J].Journalof Chinese Computer Systems,2010,31(2):354-359. [22]YU Daren,HU Qinghua,WU Congxin.Uncertainty meas- 纪兆辉,男,1971年生,副教授,中 ures for fuzzy relations and their applications[J].Applied 国计算机学会高级会员,主要研究方向 Soft Computing,2007,7(3):1135-1143. 为数据挖掘,语义Web、多Agent等。发 [23]胡军,王国胤.粗糙集的不确定性度量准则[J].模式识 表学术论文20余篇,主持、参与省市级 别与人工智能,2010,23(5):606-615. 科研课题10余项。 HU Jun,WANG Guoyin.Uncertainty measure rule sets of rough sets[J].Pattern Recognition and Artificial Intelli- gence.2010,23(5):606-615
tion services using rough set and evidence theory[ J]. Ex⁃ pert System with Application, 2007, 32(2): 386⁃396. [17]胡文彬,李千目,张宏. 基于领域知识的不确定性关系 模式集成[J]. 南京理工大学学报:自然科学版, 2010, 34(4): 409⁃414. HU Wenbin, LI Qianmu, ZHANG Hong. Uncertain rela⁃ tion schema integration based on domain knowledge [ J]. Journal of Nanjing University of Science and Technology: Natural Science, 2010, 34(4): 409⁃414. [18]胡文彬,张宏,李千目. 基于全知熵的模式集成不确定 性度量模型[ J]. 南京航空航天大学学报, 2012, 44 (4): 575⁃579. HU Wenbin, ZHANG Hong, LI Qianmu. Uncertainty measure model of schema integration based on all known entropy[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2012, 44(4): 575⁃579. [19]WANG J G, MENG G Y, ZHENG X L. The attribute re⁃ duce based on rough sets and sat algorithm[Z]. 2008: 98⁃ 102. [20]LIANG Jiye, QIAN Yuhua. Information granules and entro⁃ py theory in information systems[J]. Science in China Se⁃ ries F: Information Sciences, 2008, 51(10): 1427⁃1444. [21]赵军,周应华. 基于粗集理论的系统不确定性度量方式 研究[J]. 小型微型计算机系统, 2010, 31 ( 2): 354⁃ 359. ZHAO Jun, ZHOU Yinghua. Study on system uncertainty measures based on rough set theory[ J]. Journalof Chinese Computer Systems, 2010, 31(2): 354⁃359. [22]YU Daren, HU Qinghua, WU Congxin. Uncertainty meas⁃ ures for fuzzy relations and their applications[ J]. Applied Soft Computing, 2007, 7(3): 1135⁃1143. [23]胡军,王国胤. 粗糙集的不确定性度量准则[J]. 模式识 别与人工智能, 2010, 23(5): 606⁃615. HU Jun, WANG Guoyin. Uncertainty measure rule sets of rough sets [ J]. Pattern Recognition and Artificial Intelli⁃ gence. 2010, 23(5): 606⁃615. [24] MAGNANI M, MONTESI D. Uncertainty in data integra⁃ tion: current approaches and open problems [ M ]. En⁃ schede, The Netherlands: the Centre for Telematics and Information Technology, 2007: 26⁃32. [25] JUNG J Y, CHIN C H, CARDOSO J. An entropy⁃based uncertainty measure of process models [ J ]. Information Processing Letters, 2011, 111(3): 135⁃141. [26]岳昆,刘惟一,王晓玲. 一种基于不确定性因素叠加的 Web 服务质 量 度 量 方 法 [ J]. 计 算 机 研 究 与 发 展, 2009, 46(5): 841⁃849. YUE Kun, LIU Weiyi, WANG Xiaoling. An approach for measuring quality of web services based on the superposi⁃ tion of uncertain factors[ J].Journal of Computer Research and Development, 2009, 46(5): 841⁃849. 作者简介: 胡文彬,女,1976 年生,博士,中国 计算机学会会员,主要研究方向为数据 集成、社会网络、隐私保护,作为主要成 员完成省级课题 1 项,参与完成市级课 题 2 项。 发表学术论文 10 余篇,其中 被 EI 检索 3 篇。 潘祝山,男,1968 年生,副教授,主 要研究方向为人工智能、确定性理论。 参与省市级课题多项。 纪兆辉,男,1971 年生,副教授,中 国计算机学会高级会员,主要研究方向 为数据挖掘、语义 Web、多 Agent 等。 发 表学术论文 20 余篇,主持、参与省市级 科研课题 10 余项。 ·292· 智 能 系 统 学 报 第 10 卷