第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0l:10.3969/j.issn.1673-4785. 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150326.1014.002.html 基于基元和知网的问题相关度计算 曹礼园,李卫华 (广东工业大学计算机学院,广东广州510006) 摘要:通过对可拓学的基元和复合元与知网的研究,利用Howt中的词语相似度的计算方法改进词语相关度的计 算方法,建立基元相关度计算方法,进而建立目标相关度和条件相关度的计算机方法,形成问题相关度的计算。改 进了相关度算法,传统方法只通过上下位关系计算词语相关度,将知网描述的其他15个关系也考虑进来,并提出了 负相关的概念,将相关度的取值范围定在[-1,1],对应了关联函数的值域。通过对基元中特征与特征的对应关系, 计算出基元的相关度,进而计算问题的相关度。通过对数据库里的上千个矛盾问题进行测试,证实了这种方法可有 效增加策略生成途径,使矛盾问题解决的概率大大提高。 关键词:可拓学:知网:相关度:基元:关联函数 中图分类号:TP311文献标志码:A文章编号:1673-4785(2015)02-0234-06 中文引用格式:曹礼园,李卫华.基于基元和知网的问题相关度计算[J].智能系统学报,2015,10(2):234-239. 英文引用格式:CAO Liyuan,.LI Weihua.Calculation of correlation problem based on basic element and HowNet[J].CAAI Trans- actions on Intelligent Systems,2015,10(2):234-239. Calculation of correlation problem based on basic element and HowNet CAO Liyuan,LI Weihua (College of Computer,Guangdong University of Technology,Guangzhou 510006,China) Abstract:Based on the basic-element and composite elements of extenics and HowNet research,the words similari- ty computing method in HowNet is used to improve the calculation method for the relationship of words.The basic- element correlation calculation method is built to establish a method for basic-element target correlation and basic- element conditions correlation.This is used to derive the method to calculate correlation of problem.There is im- provement with the correlation algorithm,but the traditional method calculates the correlation of words only by hy- ponymy.In this paper,an additional fifteen relationships described in HowNet is taken into account.The concept of negative correlation is put forward and the range of correlation is in set [-1,1],which corresponds to the range of the correlation function.Through the corresponding relationship between the features in the basic element,the cor- relation between basic elements is calculated and the correlation of problems can be calculated.Based on the test of thousands of contradictory problems in the database,the results showed that this method can effectively increase the amount of strategy generating approaches and the probability of contradictory problems to be solved is greatly promo- ted. Keywords:extenics;HowNet;correlation;basicelement;dependent function 可拓学山是一门中国原创的新学科,它以形式 化的模型,探讨事物拓展的可能性以及开拓创新的 规律与方法,并用于解决矛盾问题。知网(How- 收稿日期:2013-10-06.网络出版日期:2015-03-26 基金项目:国家自然科学基金资助项目(61273306) Nt)是一个以汉语和英语的词语所代表的概念为描 通信作者:曹礼园.E-mail:369206663@qq.com. 述对象,以揭示概念与概念之间以及概念所具有的
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785. 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150326.1014.002.html 基于基元和知网的问题相关度计算 曹礼园,李卫华 (广东工业大学 计算机学院, 广东 广州 510006) 摘 要:通过对可拓学的基元和复合元与知网的研究,利用 Hownet 中的词语相似度的计算方法改进词语相关度的计 算方法,建立基元相关度计算方法,进而建立目标相关度和条件相关度的计算机方法,形成问题相关度的计算。 改 进了相关度算法,传统方法只通过上下位关系计算词语相关度,将知网描述的其他 15 个关系也考虑进来,并提出了 负相关的概念,将相关度的取值范围定在[-1,1],对应了关联函数的值域。 通过对基元中特征与特征的对应关系, 计算出基元的相关度,进而计算问题的相关度。 通过对数据库里的上千个矛盾问题进行测试,证实了这种方法可有 效增加策略生成途径,使矛盾问题解决的概率大大提高。 关键词:可拓学;知网;相关度;基元;关联函数 中图分类号:TP311 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0234⁃06 中文引用格式:曹礼园,李卫华. 基于基元和知网的问题相关度计算[J]. 智能系统学报, 2015, 10(2): 234⁃239. 英文引用格式:CAO Liyuan, LI Weihua. Calculation of correlation problem based on basic element and HowNet[J]. CAAI Trans⁃ actions on Intelligent Systems, 2015, 10(2): 234⁃239. Calculation of correlation problem based on basic element and HowNet CAO Liyuan, LI Weihua (College of Computer, Guangdong University of Technology, Guangzhou 510006, China) Abstract:Based on the basic⁃element and composite elements of extenics and HowNet research, the words similari⁃ ty computing method in HowNet is used to improve the calculation method for the relationship of words. The basic⁃ element correlation calculation method is built to establish a method for basic⁃element target correlation and basic⁃ element conditions correlation. This is used to derive the method to calculate correlation of problem. There is im⁃ provement with the correlation algorithm, but the traditional method calculates the correlation of words only by hy⁃ ponymy. In this paper, an additional fifteen relationships described in HowNet is taken into account. The concept of negative correlation is put forward and the range of correlation is in set [-1, 1], which corresponds to the range of the correlation function. Through the corresponding relationship between the features in the basic element, the cor⁃ relation between basic elements is calculated and the correlation of problems can be calculated. Based on the test of thousands of contradictory problems in the database, the results showed that this method can effectively increase the amount of strategy generating approaches and the probability of contradictory problems to be solved is greatly promo⁃ ted. Keywords:extenics; HowNet; correlation; basicelement;dependent function 收稿日期:2013⁃10⁃06. 网络出版日期:2015⁃03⁃26. 基金项目:国家自然科学基金资助项目(61273306). 通信作者:曹礼园.E⁃mail:369206663@ qq.com. 可拓学[1]是一门中国原创的新学科,它以形式 化的模型,探讨事物拓展的可能性以及开拓创新的 规律与方法,并用于解决矛盾问题。 知网[2] ( How⁃ Net)是一个以汉语和英语的词语所代表的概念为描 述对象,以揭示概念与概念之间以及概念所具有的
第2期 曹礼园,等:基于基元和知网的问题相关度计算 ·235· 属性之间的关系为基本内容的常识知识库。知网的 们之间的相关度通过函数rele(B,B2):S×S→[-1, 建网方式、知识获取和表达方式、事件概念分类方法 1],表示集合S中2个词语B,和B,的相关程度。 和其自行设计的知识数据描述拓学中提出解决矛盾 相关度函数的性质具有自反性和对称性,即对 问题的策略生成知识需求。本文将可拓学和知网这 于B,∈S,B2∈S,形式上有: 个中国原创的理论和应用工具相结合,进一步提高 1)rele(B,B2)∈[-1,1]。相关度的计算值为 了可拓学智能化水平,拓展了知网的应用。在文献 [-1,1]中的一个实数。 [3]中,蔡文教授首先提出物元模型的概念,文献 2)相关关系具有自反性,rele(B,B2)=rele [4]提出了关联函数的构造方法。知网是我国著名 (B2,B1)。 机器翻译专家董振东先生创立的一个知识系统,它 3)rele(B,B2)=1,当且仅当B,=B,即如果2 包含丰富的语义知识和世界知识。文献[5]通过知 个词汇是词语等价,则相关度为1。 识描述结构和上下位关系计算义原相似度,文献 4)rele(B,B2)=-1,当且仅当即存在对义或反 [6]和[7]分别提出了一种利用相关度来计算词语 义关系,相关度为-1。 相关度的算法。 5)rele(B,B2)=0。如果2个基元没有任何共 同特征,那么其相关度为0。 1 传统的可拓策略生成系统分析问题 定义2正相关。给定2个基元B,和B,如 的不足 rele(B,B2)>0,则称B,、B2正相关。 定义3负相关。给定2个基元B,和B2,如 传统的策略生成系统是先建立可拓模型,即建 rele(B,B2)<0,则称B,、B,负相关。 立问题P的核问题P。的可拓模型为P。=go×L。,其 在知网中,美丽与漂亮的相关度为1,美丽与丑 中,g。为问题的目标,1。为问题的条件。再确定问 陋的相关度0.814815,在情感分析中,美丽与丑陋 题的关联函数K,然后对问题P。进行相容性分析, 是反义的。美丽和丑陋在句子中是可以替换的,但 若不相容(目标与条件有矛盾),则对问题的目标或 这并不符合句子的原意。 条件进行可拓分析,得到问题的发散树或相关树,通 负相关是指2个词语是对义或者反义,或者两 过对问题发散树或相关树的“叶”基元进行可拓变 者在路径中存在对义或反义关系。如:假设O,与 换,生成候选策略集合,最后对策略集合中的策略进 O3是反义(对义)关系(根据《同义、反义以及对义组 行优度评价,推荐优度较高的策略供决策者选择。 的形成》获得),则O,、O,的相关度就是在路径中存 这种分析问题的方法存在着一些不足之处。 在对义或反义关系,rele(Os,O,)为负数。 首先,这个解决问题的方法对每个问题都进行 2.2词语相关度计算 整个过程,当遇到类似的问题时,系统依然重复上次 相似的词语相关的可能性也大些,把词语的相 策略生成的过程,增加了策略生成的时间。 似度和基于直接关系和语义关系挖掘规则获得的关 其次,这个过程无法对问题进行归类。也找不 系作为判断是否相关的依据而得出来的基本相关度 到问题之间关联性,因而无法对问题进行归并,进而 找到通用解。同时导致策略的针对性不强。 部分按比例相加,就得到了词语的相关度。 可见,在可拓策略生成系统中,在原问题和核问 2.2.1相似度部分Sim(W,W2) 题建模后,增加另一个过程一一进入矛盾问题库,用 2个词语相似度计算,直接采用文献[5]中方法 问题相关度判断是否与已有矛盾问题相关(或相 计算。 同)是非常重要的。如果问题与已在问题库的问题 2.2.2基本相关度部分Rele_prim(W,W2) 类似,则可直接进入可拓策略库搜索选取相应的策 对于2个汉语词语W和W2,如果W,有n个义 略,缩短问题解决的时间,提高问题解决的概率。 项(概念):S1,S2,…,Sn,W2有m个义项(概念): S,S2,…,Sn规定,W,和W2的相关度是各个概念 2 词语相关度计算模型 的相关度绝对值最大的那个值,也就是说: 2.1 词语相关概念 Rele_prim(W,W2)= 定义1词语相关度。给定2个词语B和B,它 ±.m Rele-prim(S,S)川
属性之间的关系为基本内容的常识知识库。 知网的 建网方式、知识获取和表达方式、事件概念分类方法 和其自行设计的知识数据描述拓学中提出解决矛盾 问题的策略生成知识需求。 本文将可拓学和知网这 个中国原创的理论和应用工具相结合,进一步提高 了可拓学智能化水平,拓展了知网的应用。 在文献 [3]中,蔡文教授首先提出物元模型的概念,文献 [4]提出了关联函数的构造方法。 知网是我国著名 机器翻译专家董振东先生创立的一个知识系统,它 包含丰富的语义知识和世界知识。 文献[5]通过知 识描述结构和上下位关系计算义原相似度,文献 [6]和[7]分别提出了一种利用相关度来计算词语 相关度的算法。 1 传统的可拓策略生成系统分析问题 的不足 传统的策略生成系统是先建立可拓模型,即建 立问题 P 的核问题 P 0的可拓模型为 P0 = g0 × l 0 ,其 中, g 0为问题的目标, l 0为问题的条件。 再确定问 题的关联函数 K,然后对问题 P0 进行相容性分析, 若不相容(目标与条件有矛盾),则对问题的目标或 条件进行可拓分析,得到问题的发散树或相关树,通 过对问题发散树或相关树的“叶”基元进行可拓变 换,生成候选策略集合,最后对策略集合中的策略进 行优度评价,推荐优度较高的策略供决策者选择。 这种分析问题的方法存在着一些不足之处。 首先,这个解决问题的方法对每个问题都进行 整个过程,当遇到类似的问题时,系统依然重复上次 策略生成的过程,增加了策略生成的时间。 其次,这个过程无法对问题进行归类。 也找不 到问题之间关联性,因而无法对问题进行归并,进而 找到通用解。 同时导致策略的针对性不强。 可见,在可拓策略生成系统中,在原问题和核问 题建模后,增加另一个过程――进入矛盾问题库,用 问题相关度判断是否与已有矛盾问题相关(或相 同)是非常重要的。 如果问题与已在问题库的问题 类似,则可直接进入可拓策略库搜索选取相应的策 略,缩短问题解决的时间,提高问题解决的概率。 2 词语相关度计算模型 2.1 词语相关概念 定义 1 词语相关度。 给定 2 个词语 B1和 B2 ,它 们之间的相关度通过函数 rele(B1 ,B2 ):S × S→[-1, 1],表示集合 S 中 2 个词语 B1和 B2的相关程度。 相关度函数的性质具有自反性和对称性,即对 于 B1∈S,B2∈S,形式上有: 1)rele(B1 , B2 )∈[-1,1]。 相关度的计算值为 [-1,1]中的一个实数。 2) 相关关系具有自反性,rele(B1 ,B2 ) = rele (B2 ,B1 ) 。 3)rele(B1 , B2 )= 1,当且仅当 B1 = B2 ,即如果 2 个词汇是词语等价,则相关度为 1。 4)rele(B1 ,B2 )= -1,当且仅当即存在对义或反 义关系,相关度为-1。 5)rele(B1 , B2 )= 0。 如果 2 个基元没有任何共 同特征,那么其相关度为 0。 定义 2 正相关。 给定 2 个基元 B1 和 B2 ,如 rele(B1 ,B2 ) >0,则称 B1 、B2正相关。 定义 3 负相关。 给定 2 个基元 B1 和 B2 ,如 rele(B1 ,B2 ) <0,则称 B1 、B2负相关。 在知网中,美丽与漂亮的相关度为 1,美丽与丑 陋的相关度 0.814 815,在情感分析中,美丽与丑陋 是反义的。 美丽和丑陋在句子中是可以替换的,但 这并不符合句子的原意。 负相关是指 2 个词语是对义或者反义,或者两 者在路径中存在对义或反义关系。 如:假设 O1 与 O3是反义(对义)关系(根据《同义、反义以及对义组 的形成》获得),则 O5 、O9的相关度就是在路径中存 在对义或反义关系,rele(O5 ,O9 )为负数。 2.2 词语相关度计算 相似的词语相关的可能性也大些,把词语的相 似度和基于直接关系和语义关系挖掘规则获得的关 系作为判断是否相关的依据而得出来的基本相关度 部分按比例相加,就得到了词语的相关度。 2.2.1 相似度部分 Sim( W1 ,W2 ) 2 个词语相似度计算,直接采用文献[5]中方法 计算。 2.2.2 基本相关度部分 Rele_prim(W1 ,W2 ) 对于 2 个汉语词语 W1和 W2 ,如果 W1有 n 个义 项(概念): S11 ,S12 ,…,S1n ,W2有 m 个义项(概念): S11 ,S12 ,…,S1n 规定, W1 和 W2 的相关度是各个概念 的相关度绝对值最大的那个值,也就是说: Rele_prim(W1 ,W2 ) = ± max i = 1..n,j = 1...m | Rele_prim(S1i,S2j) | 第 2 期 曹礼园,等: 基于基元和知网的问题相关度计算 ·235·
.236. 智能系统学报 第10卷 这样,就把2个词语之间的相关度问题归结到了2 关系、对义关系、部件-整体关系、属性-宿主、材料 个概念之间的相关度问题。 成品、施事/经验者/关系主体-事件关系、受事/内 下面来计算2个义项S,和S,之间的相关度。 容/领属物等-事件关系、工具-事件关系、场所-事 S,与S2的知网形式化表示为 件、时间-事件关系、值-属性关系、实体-值关系、事 S1=(P11P12,…) 件-角色关系、相关关系等16种关系。间接关系指 S2=(P2P2,…) 根据语义关系挖掘规则获得的关系[。 定义相对相关度Rele-prim,(S,S2), Rele_prim(S,S2)= Rele_prim,(S,S2)代表概念相对于概念S,在关系 [w,Rele_prim,(S,S2)+ i上的相对相关度,定义 wRele_prim,(S2,S,)]/2 1,(p=P3j=1,2,3,…,n)) Re le_prim;(S1,S2)= 0,其他 式中:∑,=1,∑=1ij=%,#,,*,@,$, 它包括直接关系和间接关系。 &,其中间接关系挖掘规则总结如表1。 直接关系包括上下位关系之外、同义关系、反义 表1知网间接关系挖掘规则 Table 1 HowNet indirect relation mining rules 直接关系 关系符 间接关系挖掘规则 部分-整体 % 以下位义原为主要特征的概念与原概念也构成部分与整体关系。 1)以相关义原为主要特性或第二特性的概念与原概念相关: 相关关系 2)具体相同相关元素的概念是相关的。 材料-成品关系 成品的解释义原与材料概念相关。 1)以相同事件义原为施事,经验者的概念相互关联: 施事/经验者/ 2)以事件为角色的概念与原概念相关: 关系主体-事件 3)与事件构成时间/地点-事件关系的概念与原概念: 或工作-时间关系 4)以事件义原为主要特征的概念与原概念。 1)与事件存在施事、受事关系的概念与原概念相关: 时间地点 @ 2)以事件为角色的概念与原概念相关: 事件关系 3)以事件义原为主要特征的概念与原概念相关。 1)与事件存在施事、受事关系的概念与原概念相关; 受事/内容/ 2)以事件为角色的概念与原概念相关: 领属物-事件 3)以事件构成时间/地点-事件关系的概念与原概念相关: 4)以事件义原为主要特征的概念与原概念相关。 1)以宿主为主要特征的概念与原概念之间同样存在宿主-属性关 宿主-属性 系; 2)以该属性所对应属性值概念与原概念具有属性-值关系。 0:是S,对S2对应的关系的权值,w是S2对S “国庆”和“烟花炮竹”通过事件“祝贺”相关,计 对应的关系的权值,都是可调节的参数。 算如下: 例如: 在关系@上S,与S2相关,在关系*上S2与S,相关, 国庆:timel时间,dayl日,@congratudate|祝贺,# 所以Re le_prim(S1,S2)=(w@*1+w,*1)/2 countryl国家 2.2.3词语相关度Rele(W,W2)计算 烟花炮竹:tooll用具,*whileAway I消闲,*con- Re le(WI,W2)= gratulate|祝贺 BSim(S1,S2)+B2Rele_prim;(S1,S2)
这样,就把 2 个词语之间的相关度问题归结到了 2 个概念之间的相关度问题。 下面来计算 2 个义项 S1和 S2之间的相关度。 S1 与 S2 的知网形式化表示为 S1 = (p11 ,p12 ,…) S2 = (p21 ,p22 ,…) 定 义 相 对 相 关 度 Re le _ primi (S1 ,S2 ), Rele_primi ( S1 ,S2 ) 代表概念相对于概念 S1 在关系 i 上的相对相关度,定义 Re le_primi(S1 ,S2 ) = 1,(p1i = p2j,j = 1,2,3,…,n) 0,其他 { 它包括直接关系和间接关系。 直接关系包括上下位关系之外、同义关系、反义 关系、对义关系、部件-整体关系、属性-宿主、材料- 成品、施事/ 经验者/ 关系主体-事件关系、受事/ 内 容/ 领属物等-事件关系、工具-事件关系、场所-事 件、时间-事件关系、值-属性关系、实体-值关系、事 件-角色关系、相关关系等 16 种关系。 间接关系指 根据语义关系挖掘规则获得的关系[9] 。 Rele_prim(S1 ,S2 ) = [∑wiRele_primi(S1 ,S2 ) + ∑wjRele_primj(S2 ,S1 )] / 2 式中: ∑ m 1 wi = 1,∑ n 1 wj = 1i,j = %,#,?,∗,@ , $ , &,其中间接关系挖掘规则总结如表 1。 表 1 知网间接关系挖掘规则 Table 1 HowNet indirect relation mining rules 直接关系 关系符 间接关系挖掘规则 部分-整体 % 以下位义原为主要特征的概念与原概念也构成部分与整体关系。 相关关系 # 1)以相关义原为主要特性或第二特性的概念与原概念相关; 2)具体相同相关元素的概念是相关的。 材料-成品关系 ? 成品的解释义原与材料概念相关。 施事/ 经验者/ 关系主体-事件 或工作-时间关系 ∗ 1)以相同事件义原为施事,经验者的概念相互关联; 2)以事件为角色的概念与原概念相关; 3)与事件构成时间/ 地点-事件关系的概念与原概念; 4)以事件义原为主要特征的概念与原概念。 时间地点- 事件关系 @ 1)与事件存在施事、受事关系的概念与原概念相关; 2)以事件为角色的概念与原概念相关; 3)以事件义原为主要特征的概念与原概念相关。 受事/ 内容/ 领属物-事件 $ 1)与事件存在施事、受事关系的概念与原概念相关; 2)以事件为角色的概念与原概念相关; 3)以事件构成时间/ 地点-事件关系的概念与原概念相关; 4)以事件义原为主要特征的概念与原概念相关。 宿主-属性 & 1)以宿主为主要特征的概念与原概念之间同样存在宿主-属性关 系; 2)以该属性所对应属性值概念与原概念具有属性-值关系。 wi 是 S1 对 S2 对应的关系的权值,wj 是 S2 对 S1 对应的关系的权值,都是可调节的参数。 例如: 国庆:time |时间,day |日,@ congratudate | 祝贺,# country |国家 烟花炮竹:tool |用具,∗whileAway | 消闲,∗con⁃ gratulate |祝贺 “国庆”和“烟花炮竹”通过事件“祝贺”相关,计 算如下: 在关系@上S1 与S2 相关,在关系∗上S2 与S1 相关, 所以 Re le_prim(S1,S2) = (w@ ∗1 + w∗∗1) / 2 2.2.3 词语相关度 Rele(W1 ,W2 ) 计算 Re le(W1 ,W2 ) = β1 Sim(S1 ,S2 ) + β2Rele_primi(S1 ,S2 ) ·236· 智 能 系 统 学 报 第 10 卷
第2期 曹礼园,等:基于基元和知网的问题相关度计算 .237· 式中:B1+B2=1。 5)没有建立起对应关系的特征与空特征对应。 B,和B,是相似度Sim(S,S2)和基本相关度3.2基元相关度计算 Rele_prim(S,S2)在总体相关度所占的比例。 每一个特征就是一个词语,特征对应特征,相当 于词语对应词语,即用词语相关度计算方法计算对 3基元及问题相关度计算 应特征相关度。将对应起来的特征分别计算关联 3.1基元概念以及基元与基元的对应关系 度,最后按比例相加,就是基元相关,计算公式为 3.1.1基元的概念 Rele_B(B,B)=>R,Rele(W:,W:) 定义4以物0为对象,Cn为特征,0关于 C的量值V构成的有序三元组: R是一个比例系数,等于1/k 3.3问题相关度计算 M=(Om,Cm,Vn) 作为描述物的基本元,称为一维物元,0。、Cm、 问题建模是按以下步骤进行: V三者称为物元M的三要素,其中Cn和V构成的 界定问题1的目标g,与条件l,和问题2的目标 二元组(Cm,Vn)称为物0的特征元。 82与条件2,并用基元表示分别建立问题的可拓模 为方便起见,把物元的全体记为£(M),物的全 型P,=g1×L1、P2=g2×L利用基元相关公式分别 计算出目标基元和条件基元的相关度以后,再计算 体记为£(0m),特征的全体记为£(Cm)。关于特 问题相关度Rele_P(P,P2),计算公式为 征C.的取值范围记为V(Cm),称为C的量域。 Rele_P(P,P2)= 一物具有多个特征,与一维物元相仿,可以定义 多维物元: Rele_B(B,Ba)×Rele_B,(B,B2) 定义5物0,n个特征名cn1,cn2,…,cnn及 4 案例分析 0m关于cm(i=1,2,…,n)对应的量值vm(i=1,2, 利用以下6个问题测试问题相关度问题: …,n)所构成的阵列: P曹冲称象; P2用直尺测量一张纸的厚度: Cm2 M= =[O.C V] P,把一根长为2m、宽为1.2m、高为0.5m的桌 子抬进高为2m、宽为1m的门; Cmn P,把一根长为3m、半径为0.2m的竹杆抬进高 称为n维物元,其中 为2.5m、宽为2m的城门; Cml 根据文献[1]中的方法,建立问题的可拓模型 P=G×L,进而提取核问题: C= V= .. P。=g0×l0 C P1=g1*L1= 3.1.2基元与基元之间的对应关系 「大象A, 重量,x 在基元中,最重要是的特征与特征的对应关系。 可分性, 依靠下列方法建立基元的特征与另一基元的特征的 [秤B,称量,[0,200] 对应关系: P2=g2*l2= 1)首先计算2个基元的所有特征两两之间的相 纸张A, 关度; 厚度, 2)从所有的相关度值中选择最大的一个,将这 可叠加性, 1 个相关度值对应的2个特征对应起来; [直尺B,测量,[1,20]] 3)从所有的相关度值中删去那些已经建立对应 P3=g3×13= 关系的特征的相关度值: 「桌子长 271 「门宽11 4)重复上述2)和3),直到所有的相关度值都 高2 宽1.2 被删除; 高0.5」
式中: β1 + β2 = 1。 β1 和 β2 是相似度 Sim(S1 ,S2 ) 和基本相关度 Rele_prim(S1 ,S2 ) 在总体相关度所占的比例。 3 基元及问题相关度计算 3.1 基元概念以及基元与基元的对应关系 3.1.1 基元的概念 定义 4 以物 Om 为对象,Cm 为特征,Om 关于 Cm的量值 Vm构成的有序三元组: M = (Om , Cm , Vm ) 作为描述物的基本元,称为一维物元,Om 、Cm 、 Vm三者称为物元 M 的三要素,其中 Cm和 Vm构成的 二元组(Cm , Vm )称为物 Om的特征元。 为方便起见,把物元的全体记为£ (M),物的全 体记为£ (Om ),特征的全体记为£ (Cm )。 关于特 征 Cm的取值范围记为 V(Cm ),称为 Cm的量域。 一物具有多个特征,与一维物元相仿,可以定义 多维物元: 定义 5 物 Om , n 个特征名 cm 1 ,cm 2 ,…,cm n及 Om关于 cm i( i = 1,2,…,n) 对应的量值 vmi( i = 1,2, …,n)所构成的阵列: M = Om cm1 vm1 cm2 vm2 ︙ ︙ cmn vmn é ë ê ê ê ê ê ê ù û ú ú ú ú ú ú = [Om Cm Vm ] 称为 n 维物元,其中 Cm = cm1 cm2 ︙ cmn é ë ê ê ê ê ê ê ù û ú ú ú ú ú ú Vm = vm1 vm2 ︙ vmn é ë ê ê ê ê ê ê ù û ú ú ú ú ú ú 3.1.2 基元与基元之间的对应关系 在基元中,最重要是的特征与特征的对应关系。 依靠下列方法建立基元的特征与另一基元的特征的 对应关系: 1)首先计算 2 个基元的所有特征两两之间的相 关度; 2)从所有的相关度值中选择最大的一个,将这 个相关度值对应的 2 个特征对应起来; 3)从所有的相关度值中删去那些已经建立对应 关系的特征的相关度值; 4)重复上述 2) 和 3),直到所有的相关度值都 被删除; 5)没有建立起对应关系的特征与空特征对应。 3.2 基元相关度计算 每一个特征就是一个词语,特征对应特征,相当 于词语对应词语,即用词语相关度计算方法计算对 应特征相关度。 将对应起来的特征分别计算关联 度,最后按比例相加,就是基元相关,计算公式为 Rele_B(B1 ,B2 ) = ∑ k 1 RiRele(W1 ,W2 ) Ri 是一个比例系数,等于 1 / k 3.3 问题相关度计算 问题建模是按以下步骤进行: 界定问题 1 的目标 g1 与条件 l 1 和问题 2 的目标 g2 与条件 l 2 ,并用基元表示分别建立问题的可拓模 型 P1 = g1 × l 1 、 P2 = g2 × l 2 利用基元相关公式分别 计算出目标基元和条件基元的相关度以后,再计算 问题相关度 Rele_P(P1 ,P2 ), 计算公式为 Rele_P(P1 ,P2 ) = Rele_Bg(Bg1 ,Bg2 ) × Rele_Bl(Bl1 ,Bl2 ) 4 案例分析 利用以下 6 个问题测试问题相关度问题: P1 曹冲称象; P2 用直尺测量一张纸的厚度; P3 把一根长为 2 m、宽为 1.2 m、高为 0.5 m 的桌 子抬进高为 2 m、宽为 1 m 的门; P4 把一根长为 3 m、半径为 0.2 m 的竹杆抬进高 为 2.5 m、宽为 2 m 的城门; 根据文献[1] 中的方法,建立问题的可拓模型 P =G × L ,进而提取核问题: P0 = g0 × l 0 P1 = g1∗l 1 = 大象 A, 重 量, 可分性, x - 1 é ë ê ê ê ù û ú ú ú ∗ [秤 B, 称 量, [0,200] ] P2 = g2∗l 2 = 纸张 A, 厚 度, 可叠加性, y 1 é ë ê ê ê ù û ú ú ú ∗ [直尺 B, 测 量, [1,20] ] P3 = g3 × l 3 = 门 宽 1 高 2 é ë ê ê ù û ú ú × 桌子 长 2 宽 1.2 高 0.5 é ë ê ê êê ù û ú ú úú 第 2 期 曹礼园,等: 基于基元和知网的问题相关度计算 ·237·
·238, 智能系统学报 第10卷 P4=g4×L4= 将相关问题放在一起研究,并运用可拓学策略生 「城宽2.51 「竹杆 长 3 成方法再次研究解决矛盾问题,实验结果如下。 高2」 半径0.2 表2实验结果 问题相关度计算 Table 2 Result of test Rele_P(P1,P2)=-0.394 方法 无问题相 基于问题 Rele_P(P1,P3)=+0.204 数量 关度方法 相关度计算 Rele_P(P,P4)=+0.075 解决的问题数量 1390 1539 Rele_P(P2,P3)=-0.076 未解决的问题数量 392 241 Rele_P(P2,P4)=+0.204 在运用基于问题相关度计算方法后,有73.85% Rele_P(P3,P4)=+0.654 的问题是相关的,其中有140个未解决的问题被解 在参数的选择上,由于一般认为%、#、?、*、@、 决了,而在已经解决的问题中,有325个问题找到了 $、&所代表的关系权重程度逐渐下降,即表1中的 更好的方法改进策略。所以在总体情况下,基于问 关系的重要程度逐步下降。经多次测试,最终设置 题相关度方法对策略生成的改进量为19.27%:其中 参数如下:w1=0.25,w2=0.2,03=0.2,w4=0.15, 是将未解决的问题变成已解决5.80%,13.46%是将 05=0.10,06=0.05,107=0.05,其中,1~7分别指关 已解决的问题找到更好的策略。 系%、#、?、*、@、$、&。 对于相关度的太低的相关度值,可以认为它不6结束语 相关,把相关度大于0.3作为相关的阈值。 通过计算基元的相关度进而计算问题的相关 Rele_P(P1,P2)=-0.394 度,可以使相关度很高的问题归类。正相关度高的 Rele_P(P3,P4)=+0.654 问题之间,可通过解决问题A而找出类似的方法解 解决策略:Rele_P(P,Pz)=-0.394说明这个 决问题B,而负相关的问题之间,通过解决问题A,而 矛盾问题是负相关的。对于P,采取复制变换,用 逆向找出解决问题B的方法。而将相关问题归类 测量N张纸的厚度N×y∈[1,20]cm。 后,可通过归纳总结得出此类问题的一般特征,找出 通过解决问题P,采用可拓变换中的逆变换找 解决此类问题的一般规律,进而改进策略生成方法, 出解决问题P,的方法,即利用分解变换(在利用分 使未解决的矛盾问题得到解决,或者使已解决的矛 解变换的之前,先利用置换变换)。 盾问题找到更优的策略。 Rele_P(P3,P4)=+0.654 实践证明,这种方法可有效增加策略生成途径, 说明这2个矛盾问题是高度正相关的,P,、P4 使矛盾问题解决的概率大大提高。 可采取类似的方法解决。对P,将桌子旋转,高变 为宽,宽变为高,则可抬入门内。对P,也可采取这 参考文献: 种方法。 [1]杨春燕,蔡文.可拓工程[M].北京:科学出版社,2007: 5实验及结果 1-344. [2]董振东.How Net[EB/0L].[2013-05-12].htp://www 根据上述方法,利用C++,采用VS编程环境实 keenage.com. 现计算问题相关度程序,并对问题库里的2413个矛 [3]蔡文.可拓集合和不相容问题[J].科学探索报,1983 盾问题的问题相关度计算。实验参数设置如下: (1):83-97 01=0.25,102=0.2,03=0.2,104=0.15,05=0.10, CAI Wen.Extension set and non compatible problems [J]. w6=0.05,w7=0.05。 Science Journal,1983 (1):83-97 其中,1~7分别指关系%、#、?、*、@、$、&。阈 [4]李桥兴,刘思峰.基于区间距和区间侧距的初等关联函 值为0.3。 数构造[J].哈尔滨工业大学学报,2006,38(7):1097- 通过计算,其中1782个与其他问题相关。 1100
P4 = g4 × l 4 = 城 宽 2.5 高 2 é ë ê ê ù û ú ú × 竹杆 长 3 半径 0.2 é ë ê ê ù û ú ú 问题相关度计算 Rele_P(P1 ,P2 ) = - 0.394 Rele_P(P1 ,P3 ) = + 0.204 Rele_P(P1 ,P4 ) = + 0.075 Rele_P(P2 ,P3 ) = - 0.076 Rele_P(P2 ,P4 ) = + 0.204 Rele_P(P3 ,P4 ) = + 0.654 在参数的选择上,由于一般认为%、#、?、∗、@ 、 $ 、& 所代表的关系权重程度逐渐下降,即表 1 中的 关系的重要程度逐步下降。 经多次测试,最终设置 参数如下: w1 = 0.25,w2 = 0.2,w3 = 0.2,w4 = 0.15, w5 =0.10,w6 = 0.05,w7 = 0.05, 其中,1~7 分别指关 系%、#、?、∗、@ 、 $ 、&。 对于相关度的太低的相关度值,可以认为它不 相关,把相关度大于 0.3 作为相关的阈值。 Rele_P(P1 ,P2 ) = - 0.394 Rele_P(P3 ,P4 ) = + 0.654 解决策略: Rele_P(P1 ,P2 ) = - 0.394 说明这个 矛盾问题是负相关的。 对于 P1 ,采取复制变换,用 测量 N 张纸的厚度 N × y ∈[1,20]cm。 通过解决问题 P1 ,采用可拓变换中的逆变换找 出解决问题 P2 的方法,即利用分解变换(在利用分 解变换的之前,先利用置换变换)。 Rele_P(P3 ,P4 ) = + 0.654 说明这 2 个矛盾问题是高度正相关的, P3 、 P4 可采取类似的方法解决。 对 P3 ,将桌子旋转,高变 为宽,宽变为高,则可抬入门内。 对 P4 也可采取这 种方法。 5 实验及结果 根据上述方法,利用 C++,采用 VS 编程环境实 现计算问题相关度程序,并对问题库里的 2 413 个矛 盾问题的问题相关度计算。 实验参数设置如下: w1 =0.25,w2 = 0.2,w3 = 0.2,w4 = 0.15,w5 = 0.10, w6 =0.05,w7 = 0.05。 其中,1~7 分别指关系%、#、?、∗、@ 、 $ 、&。 阈 值为 0.3。 通过计 算,其 中 1 782 个 与 其 他 问 题 相 关。 将相关问题放在一起研究,并运用可拓学策略生 成方法再次研究解决矛盾问题,实验结果如下。 表 2 实验结果 Table 2 Result of test 方法 数量 无问题相 关度方法 基于问题 相关度计算 解决的问题数量 1 390 1 539 未解决的问题数量 392 241 在运用基于问题相关度计算方法后,有 73.85% 的问题是相关的,其中有 140 个未解决的问题被解 决了,而在已经解决的问题中,有 325 个问题找到了 更好的方法改进策略。 所以在总体情况下,基于问 题相关度方法对策略生成的改进量为 19.27%:其中 是将未解决的问题变成已解决 5.80%, 13.46%是将 已解决的问题找到更好的策略。 6 结束语 通过计算基元的相关度进而计算问题的相关 度,可以使相关度很高的问题归类。 正相关度高的 问题之间,可通过解决问题 A 而找出类似的方法解 决问题 B,而负相关的问题之间,通过解决问题 A,而 逆向找出解决问题 B 的方法。 而将相关问题归类 后,可通过归纳总结得出此类问题的一般特征,找出 解决此类问题的一般规律,进而改进策略生成方法, 使未解决的矛盾问题得到解决,或者使已解决的矛 盾问题找到更优的策略。 实践证明,这种方法可有效增加策略生成途径, 使矛盾问题解决的概率大大提高。 参考文献: [1]杨春燕,蔡文. 可拓工程[M]. 北京:科学出版社, 2007: 1⁃344. [2] 董振东. HowNet [ EB/ OL] . [ 2013⁃05⁃12]. http: / / www. keenage.com. [3]蔡文. 可拓集合和不相容问题[ J]. 科学探索报,1983 (1): 83⁃97 CAI Wen. Extension set and non compatible problems [ J]. Science Journal, 1983 (1): 83⁃97 [4]李桥兴,刘思峰. 基于区间距和区间侧距的初等关联函 数构造[J]. 哈尔滨工业大学学报, 2006, 38(7) :1097⁃ 1100. ·238· 智 能 系 统 学 报 第 10 卷
第2期 曹礼园,等:基于基元和知网的问题相关度计算 ·239. LI Qiaoxing,LIU Sifeng.Elementary dependent function is [10]刘宗妹.本体可拓模型的复合元实现及应用研究[D]. constructed based on the interval distance and lateral dis- 广州:广东工业大学,2010:1-48. tance[J].Journal of Harbin Institute of Technology,2006, LIU Zongmei.Meta ontology extension model research and 38(7):1097-1100. application of the[D].Guangzhou:Guangdong University [5]刘群,李素建.基于《知网》的词汇语义相似度计算[J] of Technology,2010:1-48. 计算语言学及中文信息处理,2002(7):59-76. [11]李立希,杨春燕,李铧汶.可拓策略生成系统[M].北京: LIU Qun,LI Sujian.based on How Net semantic similarity 科学出版社,2006:1-231, calculation[J].Computational Linguistics and Chinese Infor- [12]方卓君,李卫华,李承晓.自助游可拓策略生成系统的研 mation Processing,2002(7):59-76. 究与实现[J].广东工业大学学报,2009,26(2):83 [6]赵应秋,罗军,张君艳基于知网的词语语义相关度计 89. 算[J].信息技术,2010(3):90-93. FANG Zhuojun,LI Weihua,LI Chengxiao.The self-help ZHAO Yingqiu,LUO Jun,ZHANG Junyan.The word se- travel extension and implementation[].Journal of Guang- mantic relevancy computation based on HowNet[J].Infor- dong University of Technology,2009,26(2):83-89. mation Technology.2010(3):90-93. [13]李承晓,李卫华.租房可拓策略生成系统[J].智能系统 [7]许云,樊效忠,张锋.基于知网的语义相关度计算[J刀] 学报,2011,6(3):272-278. 北京理工大学学报,2005,25(5):411414. LI Chengxiao,LI Weihua.The extension strategy genera- XU Yun,FAN Xiaozhong,ZHANG Feng.Semantic relevan- ting system for rental of intelligent[J].CAAI Transactions cy computing based on How Net[J].Journal of Beijing Insti- on Intelligent Systems,2011,6(3):272-278. tute of Technology,2005,25(5):411-414. 作者简介: [8]江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词 曹礼园,女,1987年生,硕士研究 语语义形似度计算[J].中文信息学报,2008,22(5): 生,主要研究方向为智能软件。 84-89. JIANG Min,XIAO Shibin,WANG Hongwei,et al.An im- proved word similarity computing method based on HowNet [J].Journal of Chinese Information Processing,2008,22 (5):84-89. 李卫华,女,1957年生,教授,主要 [9]王红玲,吕强,徐瑞.中文语义相关度计算模型研究[J] 研究方向为面向Agent计算、网络信息 计算机工程与应用,2009,45(7):22-26 系统、智能软件。发表学术论文40余 WANG Hongling,LV Qiang,XU Rui.Chinese semantic rel- 篇。 ativity calculation of model [J]Computer Engineering and Applications,2009,45(7):22-26
LI Qiaoxing, LIU Sifeng. Elementary dependent function is constructed based on the interval distance and lateral dis⁃ tance[J]. Journal of Harbin Institute of Technology, 2006, 38 (7): 1097⁃1100. [5]刘群,李素建.基于《知网》 的词汇语义相似度计算[ J]. 计算语言学及中文信息处理, 2002(7): 59⁃76. LIU Qun, LI Sujian. based on HowNet semantic similarity calculation[J]. Computational Linguistics and Chinese Infor⁃ mation Processing, 2002(7): 59⁃76. [6]赵应秋, 罗军, 张君艳. 基于知网的词语语义相关度计 算[J]. 信息技术, 2010 (3): 90⁃93. ZHAO Yingqiu, LUO Jun, ZHANG Junyan. The word se⁃ mantic relevancy computation based on HowNet[ J]. Infor⁃ mation Technology, 2010 (3): 90⁃93. [7]许云, 樊效忠, 张锋. 基于知网的语义相关度计算[ J]. 北京理工大学学报, 2005, 25(5): 411⁃414. XU Yun, FAN Xiaozhong, ZHANG Feng. Semantic relevan⁃ cy computing based on HowNet[J]. Journal of Beijing Insti⁃ tute of Technology, 2005, 25 (5): 411⁃414. [8]江敏,肖诗斌,王弘蔚,等. 一种改进的基于《知网》的词 语语义形似度计算[J]. 中文信息学报, 2008, 22( 5) : 84⁃89. JIANG Min, XIAO Shibin, WANG Hongwei, et al. An im⁃ proved word similarity computing method based on HowNet [J]. Journal of Chinese Information Processing, 2008, 22 (5): 84⁃89. [9]王红玲,吕强,徐瑞. 中文语义相关度计算模型研究[ J]. 计算机工程与应用, 2009, 45(7): 22⁃26 WANG Hongling, LV Qiang, XU Rui. Chinese semantic rel⁃ ativity calculation of model [ J] Computer Engineering and Applications, 2009, 45 (7): 22⁃26. [10]刘宗妹. 本体可拓模型的复合元实现及应用研究[D]. 广州: 广东工业大学, 2010: 1⁃48. LIU Zongmei. Meta ontology extension model research and application of the[D]. Guangzhou: Guangdong University of Technology, 2010: 1⁃48. [11]李立希,杨春燕,李铧汶.可拓策略生成系统[M]. 北京: 科学出版社, 2006: 1⁃231. [12]方卓君,李卫华,李承晓.自助游可拓策略生成系统的研 究与实现[ J]. 广东工业大学学报, 2009, 26( 2): 83⁃ 89. FANG Zhuojun, LI Weihua, LI Chengxiao. The self⁃help travel extension and implementation[J]. Journal of Guang⁃ dong University of Technology, 2009, 26 (2): 83⁃89. [13]李承晓,李卫华. 租房可拓策略生成系统[ J]. 智能系统 学报, 2011, 6(3): 272⁃278. LI Chengxiao, LI Weihua. The extension strategy genera⁃ ting system for rental of intelligent[ J]. CAAI Transactions on Intelligent Systems, 2011, 6 (3): 272⁃278. 作者简介: 曹礼园,女, 1987 年生,硕士研究 生,主要研究方向为智能软件。 李卫华,女,1957 年生,教授,主要 研究方向为面向 Agent 计算、网络信息 系统、智能软件。 发表学术论文 40 余 篇。 第 2 期 曹礼园,等: 基于基元和知网的问题相关度计算 ·239·