正在加载图片...
第2期 曹礼园,等:基于基元和知网的问题相关度计算 ·235· 属性之间的关系为基本内容的常识知识库。知网的 们之间的相关度通过函数rele(B,B2):S×S→[-1, 建网方式、知识获取和表达方式、事件概念分类方法 1],表示集合S中2个词语B,和B,的相关程度。 和其自行设计的知识数据描述拓学中提出解决矛盾 相关度函数的性质具有自反性和对称性,即对 问题的策略生成知识需求。本文将可拓学和知网这 于B,∈S,B2∈S,形式上有: 个中国原创的理论和应用工具相结合,进一步提高 1)rele(B,B2)∈[-1,1]。相关度的计算值为 了可拓学智能化水平,拓展了知网的应用。在文献 [-1,1]中的一个实数。 [3]中,蔡文教授首先提出物元模型的概念,文献 2)相关关系具有自反性,rele(B,B2)=rele [4]提出了关联函数的构造方法。知网是我国著名 (B2,B1)。 机器翻译专家董振东先生创立的一个知识系统,它 3)rele(B,B2)=1,当且仅当B,=B,即如果2 包含丰富的语义知识和世界知识。文献[5]通过知 个词汇是词语等价,则相关度为1。 识描述结构和上下位关系计算义原相似度,文献 4)rele(B,B2)=-1,当且仅当即存在对义或反 [6]和[7]分别提出了一种利用相关度来计算词语 义关系,相关度为-1。 相关度的算法。 5)rele(B,B2)=0。如果2个基元没有任何共 同特征,那么其相关度为0。 1 传统的可拓策略生成系统分析问题 定义2正相关。给定2个基元B,和B,如 的不足 rele(B,B2)>0,则称B,、B2正相关。 定义3负相关。给定2个基元B,和B2,如 传统的策略生成系统是先建立可拓模型,即建 rele(B,B2)<0,则称B,、B,负相关。 立问题P的核问题P。的可拓模型为P。=go×L。,其 在知网中,美丽与漂亮的相关度为1,美丽与丑 中,g。为问题的目标,1。为问题的条件。再确定问 陋的相关度0.814815,在情感分析中,美丽与丑陋 题的关联函数K,然后对问题P。进行相容性分析, 是反义的。美丽和丑陋在句子中是可以替换的,但 若不相容(目标与条件有矛盾),则对问题的目标或 这并不符合句子的原意。 条件进行可拓分析,得到问题的发散树或相关树,通 负相关是指2个词语是对义或者反义,或者两 过对问题发散树或相关树的“叶”基元进行可拓变 者在路径中存在对义或反义关系。如:假设O,与 换,生成候选策略集合,最后对策略集合中的策略进 O3是反义(对义)关系(根据《同义、反义以及对义组 行优度评价,推荐优度较高的策略供决策者选择。 的形成》获得),则O,、O,的相关度就是在路径中存 这种分析问题的方法存在着一些不足之处。 在对义或反义关系,rele(Os,O,)为负数。 首先,这个解决问题的方法对每个问题都进行 2.2词语相关度计算 整个过程,当遇到类似的问题时,系统依然重复上次 相似的词语相关的可能性也大些,把词语的相 策略生成的过程,增加了策略生成的时间。 似度和基于直接关系和语义关系挖掘规则获得的关 其次,这个过程无法对问题进行归类。也找不 系作为判断是否相关的依据而得出来的基本相关度 到问题之间关联性,因而无法对问题进行归并,进而 找到通用解。同时导致策略的针对性不强。 部分按比例相加,就得到了词语的相关度。 可见,在可拓策略生成系统中,在原问题和核问 2.2.1相似度部分Sim(W,W2) 题建模后,增加另一个过程一一进入矛盾问题库,用 2个词语相似度计算,直接采用文献[5]中方法 问题相关度判断是否与已有矛盾问题相关(或相 计算。 同)是非常重要的。如果问题与已在问题库的问题 2.2.2基本相关度部分Rele_prim(W,W2) 类似,则可直接进入可拓策略库搜索选取相应的策 对于2个汉语词语W和W2,如果W,有n个义 略,缩短问题解决的时间,提高问题解决的概率。 项(概念):S1,S2,…,Sn,W2有m个义项(概念): S,S2,…,Sn规定,W,和W2的相关度是各个概念 2 词语相关度计算模型 的相关度绝对值最大的那个值,也就是说: 2.1 词语相关概念 Rele_prim(W,W2)= 定义1词语相关度。给定2个词语B和B,它 ±.m Rele-prim(S,S)川属性之间的关系为基本内容的常识知识库。 知网的 建网方式、知识获取和表达方式、事件概念分类方法 和其自行设计的知识数据描述拓学中提出解决矛盾 问题的策略生成知识需求。 本文将可拓学和知网这 个中国原创的理论和应用工具相结合,进一步提高 了可拓学智能化水平,拓展了知网的应用。 在文献 [3]中,蔡文教授首先提出物元模型的概念,文献 [4]提出了关联函数的构造方法。 知网是我国著名 机器翻译专家董振东先生创立的一个知识系统,它 包含丰富的语义知识和世界知识。 文献[5]通过知 识描述结构和上下位关系计算义原相似度,文献 [6]和[7]分别提出了一种利用相关度来计算词语 相关度的算法。 1 传统的可拓策略生成系统分析问题 的不足 传统的策略生成系统是先建立可拓模型,即建 立问题 P 的核问题 P 0的可拓模型为 P0 = g0 × l 0 ,其 中, g 0为问题的目标, l 0为问题的条件。 再确定问 题的关联函数 K,然后对问题 P0 进行相容性分析, 若不相容(目标与条件有矛盾),则对问题的目标或 条件进行可拓分析,得到问题的发散树或相关树,通 过对问题发散树或相关树的“叶”基元进行可拓变 换,生成候选策略集合,最后对策略集合中的策略进 行优度评价,推荐优度较高的策略供决策者选择。 这种分析问题的方法存在着一些不足之处。 首先,这个解决问题的方法对每个问题都进行 整个过程,当遇到类似的问题时,系统依然重复上次 策略生成的过程,增加了策略生成的时间。 其次,这个过程无法对问题进行归类。 也找不 到问题之间关联性,因而无法对问题进行归并,进而 找到通用解。 同时导致策略的针对性不强。 可见,在可拓策略生成系统中,在原问题和核问 题建模后,增加另一个过程――进入矛盾问题库,用 问题相关度判断是否与已有矛盾问题相关(或相 同)是非常重要的。 如果问题与已在问题库的问题 类似,则可直接进入可拓策略库搜索选取相应的策 略,缩短问题解决的时间,提高问题解决的概率。 2 词语相关度计算模型 2.1 词语相关概念 定义 1 词语相关度。 给定 2 个词语 B1和 B2 ,它 们之间的相关度通过函数 rele(B1 ,B2 ):S × S→[-1, 1],表示集合 S 中 2 个词语 B1和 B2的相关程度。 相关度函数的性质具有自反性和对称性,即对 于 B1∈S,B2∈S,形式上有: 1)rele(B1 , B2 )∈[-1,1]。 相关度的计算值为 [-1,1]中的一个实数。 2) 相关关系具有自反性,rele(B1 ,B2 ) = rele (B2 ,B1 ) 。 3)rele(B1 , B2 )= 1,当且仅当 B1 = B2 ,即如果 2 个词汇是词语等价,则相关度为 1。 4)rele(B1 ,B2 )= -1,当且仅当即存在对义或反 义关系,相关度为-1。 5)rele(B1 , B2 )= 0。 如果 2 个基元没有任何共 同特征,那么其相关度为 0。 定义 2 正相关。 给定 2 个基元 B1 和 B2 ,如 rele(B1 ,B2 ) >0,则称 B1 、B2正相关。 定义 3 负相关。 给定 2 个基元 B1 和 B2 ,如 rele(B1 ,B2 ) <0,则称 B1 、B2负相关。 在知网中,美丽与漂亮的相关度为 1,美丽与丑 陋的相关度 0.814 815,在情感分析中,美丽与丑陋 是反义的。 美丽和丑陋在句子中是可以替换的,但 这并不符合句子的原意。 负相关是指 2 个词语是对义或者反义,或者两 者在路径中存在对义或反义关系。 如:假设 O1 与 O3是反义(对义)关系(根据《同义、反义以及对义组 的形成》获得),则 O5 、O9的相关度就是在路径中存 在对义或反义关系,rele(O5 ,O9 )为负数。 2.2 词语相关度计算 相似的词语相关的可能性也大些,把词语的相 似度和基于直接关系和语义关系挖掘规则获得的关 系作为判断是否相关的依据而得出来的基本相关度 部分按比例相加,就得到了词语的相关度。 2.2.1 相似度部分 Sim( W1 ,W2 ) 2 个词语相似度计算,直接采用文献[5]中方法 计算。 2.2.2 基本相关度部分 Rele_prim(W1 ,W2 ) 对于 2 个汉语词语 W1和 W2 ,如果 W1有 n 个义 项(概念): S11 ,S12 ,…,S1n ,W2有 m 个义项(概念): S11 ,S12 ,…,S1n 规定, W1 和 W2 的相关度是各个概念 的相关度绝对值最大的那个值,也就是说: Rele_prim(W1 ,W2 ) = ± max i = 1..n,j = 1...m | Rele_prim(S1i,S2j) | 第 2 期 曹礼园,等: 基于基元和知网的问题相关度计算 ·235·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有