属性之间的关系为基本内容的常识知识库。知网的建网方式、知识获取和表达方

正在加载图片...

第2期曹礼园，等：基于基元和知网的问题相关度计算 ·235· 属性之间的关系为基本内容的常识知识库。知网的们之间的相关度通过函数rele(B,B2):S×S→[-1，建网方式、知识获取和表达方式、事件概念分类方法 1],表示集合S中2个词语B,和B,的相关程度。和其自行设计的知识数据描述拓学中提出解决矛盾相关度函数的性质具有自反性和对称性，即对问题的策略生成知识需求。本文将可拓学和知网这于B,∈S,B2∈S,形式上有：个中国原创的理论和应用工具相结合，进一步提高 1)rele(B,B2)∈[-1,1]。相关度的计算值为了可拓学智能化水平，拓展了知网的应用。在文献 [-1,1]中的一个实数。 [3]中，蔡文教授首先提出物元模型的概念，文献 2)相关关系具有自反性，rele(B,B2)=rele [4]提出了关联函数的构造方法。知网是我国著名 (B2,B1)。机器翻译专家董振东先生创立的一个知识系统，它 3)rele(B,B2)=1,当且仅当B,=B,即如果2 包含丰富的语义知识和世界知识。文献[5]通过知个词汇是词语等价，则相关度为1。识描述结构和上下位关系计算义原相似度，文献 4)rele(B,B2)=-1,当且仅当即存在对义或反 [6]和[7]分别提出了一种利用相关度来计算词语义关系，相关度为-1。相关度的算法。 5)rele(B,B2)=0。如果2个基元没有任何共同特征，那么其相关度为0。 1 传统的可拓策略生成系统分析问题定义2正相关。给定2个基元B,和B,如的不足 rele(B,B2)>0,则称B,、B2正相关。定义3负相关。给定2个基元B,和B2,如传统的策略生成系统是先建立可拓模型，即建 rele(B,B2)<0,则称B,、B,负相关。立问题P的核问题P。的可拓模型为P。=go×L。,其在知网中，美丽与漂亮的相关度为1，美丽与丑中，g。为问题的目标，1。为问题的条件。再确定问陋的相关度0.814815，在情感分析中，美丽与丑陋题的关联函数K,然后对问题P。进行相容性分析，是反义的。美丽和丑陋在句子中是可以替换的，但若不相容（目标与条件有矛盾），则对问题的目标或这并不符合句子的原意。条件进行可拓分析，得到问题的发散树或相关树，通负相关是指2个词语是对义或者反义，或者两过对问题发散树或相关树的“叶”基元进行可拓变者在路径中存在对义或反义关系。如：假设O,与换，生成候选策略集合，最后对策略集合中的策略进 O3是反义（对义）关系（根据《同义、反义以及对义组行优度评价，推荐优度较高的策略供决策者选择。的形成》获得)，则O,、O,的相关度就是在路径中存这种分析问题的方法存在着一些不足之处。在对义或反义关系，rele(Os,O,)为负数。首先，这个解决问题的方法对每个问题都进行 2.2词语相关度计算整个过程，当遇到类似的问题时，系统依然重复上次相似的词语相关的可能性也大些，把词语的相策略生成的过程，增加了策略生成的时间。似度和基于直接关系和语义关系挖掘规则获得的关其次，这个过程无法对问题进行归类。也找不系作为判断是否相关的依据而得出来的基本相关度到问题之间关联性，因而无法对问题进行归并，进而找到通用解。同时导致策略的针对性不强。部分按比例相加，就得到了词语的相关度。可见，在可拓策略生成系统中，在原问题和核问 2.2.1相似度部分Sim(W,W2) 题建模后，增加另一个过程一一进入矛盾问题库，用 2个词语相似度计算，直接采用文献[5]中方法问题相关度判断是否与已有矛盾问题相关（或相计算。同)是非常重要的。如果问题与已在问题库的问题 2.2.2基本相关度部分Rele_prim(W,W2) 类似，则可直接进入可拓策略库搜索选取相应的策对于2个汉语词语W和W2,如果W,有n个义略，缩短问题解决的时间，提高问题解决的概率。项（概念）：S1,S2,…,Sn,W2有m个义项（概念）： S,S2,…,Sn规定，W,和W2的相关度是各个概念 2 词语相关度计算模型的相关度绝对值最大的那个值，也就是说： 2.1 词语相关概念 Rele_prim(W,W2)= 定义1词语相关度。给定2个词语B和B,它 ±.m Rele-prim(S,S)川属性之间的关系为基本内容的常识知识库。知网的建网方式、知识获取和表达方式、事件概念分类方法和其自行设计的知识数据描述拓学中提出解决矛盾问题的策略生成知识需求。本文将可拓学和知网这个中国原创的理论和应用工具相结合，进一步提高了可拓学智能化水平，拓展了知网的应用。在文献［３］中，蔡文教授首先提出物元模型的概念，文献［４］提出了关联函数的构造方法。知网是我国著名机器翻译专家董振东先生创立的一个知识系统，它包含丰富的语义知识和世界知识。文献［５］通过知识描述结构和上下位关系计算义原相似度，文献［６］和［７］分别提出了一种利用相关度来计算词语相关度的算法。１传统的可拓策略生成系统分析问题的不足传统的策略生成系统是先建立可拓模型，即建立问题Ｐ的核问题Ｐ０的可拓模型为Ｐ０＝ｇ０ × ｌ０，其中，ｇ０为问题的目标，ｌ０为问题的条件。再确定问题的关联函数Ｋ，然后对问题Ｐ０进行相容性分析，若不相容（目标与条件有矛盾），则对问题的目标或条件进行可拓分析，得到问题的发散树或相关树，通过对问题发散树或相关树的“叶”基元进行可拓变换，生成候选策略集合，最后对策略集合中的策略进行优度评价，推荐优度较高的策略供决策者选择。这种分析问题的方法存在着一些不足之处。首先，这个解决问题的方法对每个问题都进行整个过程，当遇到类似的问题时，系统依然重复上次策略生成的过程，增加了策略生成的时间。其次，这个过程无法对问题进行归类。也找不到问题之间关联性，因而无法对问题进行归并，进而找到通用解。同时导致策略的针对性不强。可见，在可拓策略生成系统中，在原问题和核问题建模后，增加另一个过程――进入矛盾问题库，用问题相关度判断是否与已有矛盾问题相关（或相同）是非常重要的。如果问题与已在问题库的问题类似，则可直接进入可拓策略库搜索选取相应的策略，缩短问题解决的时间，提高问题解决的概率。２词语相关度计算模型２．１词语相关概念定义１词语相关度。给定２个词语Ｂ１和Ｂ２，它们之间的相关度通过函数ｒｅｌｅ（Ｂ１，Ｂ２）：Ｓ × Ｓ→［－１，１］，表示集合Ｓ中２个词语Ｂ１和Ｂ２的相关程度。相关度函数的性质具有自反性和对称性，即对于Ｂ１∈Ｓ，Ｂ２∈Ｓ，形式上有：１）ｒｅｌｅ（Ｂ１，Ｂ２）∈［－１，１］。相关度的计算值为［－１，１］中的一个实数。２）相关关系具有自反性，ｒｅｌｅ（Ｂ１，Ｂ２）＝ｒｅｌｅ（Ｂ２，Ｂ１）。３）ｒｅｌｅ（Ｂ１，Ｂ２）＝１，当且仅当Ｂ１＝Ｂ２，即如果２个词汇是词语等价，则相关度为１。４）ｒｅｌｅ（Ｂ１，Ｂ２）＝－１，当且仅当即存在对义或反义关系，相关度为－１。５）ｒｅｌｅ（Ｂ１，Ｂ２）＝０。如果２个基元没有任何共同特征，那么其相关度为０。定义２正相关。给定２个基元Ｂ１和Ｂ２，如ｒｅｌｅ（Ｂ１，Ｂ２）＞０，则称Ｂ１、Ｂ２正相关。定义３负相关。给定２个基元Ｂ１和Ｂ２，如ｒｅｌｅ（Ｂ１，Ｂ２）＜０，则称Ｂ１、Ｂ２负相关。在知网中，美丽与漂亮的相关度为１，美丽与丑陋的相关度０．８１４８１５，在情感分析中，美丽与丑陋是反义的。美丽和丑陋在句子中是可以替换的，但这并不符合句子的原意。负相关是指２个词语是对义或者反义，或者两者在路径中存在对义或反义关系。如：假设Ｏ１与Ｏ３是反义（对义）关系（根据《同义、反义以及对义组的形成》获得），则Ｏ５、Ｏ９的相关度就是在路径中存在对义或反义关系，ｒｅｌｅ（Ｏ５，Ｏ９）为负数。２．２词语相关度计算相似的词语相关的可能性也大些，把词语的相似度和基于直接关系和语义关系挖掘规则获得的关系作为判断是否相关的依据而得出来的基本相关度部分按比例相加，就得到了词语的相关度。２．２．１相似度部分Ｓｉｍ（Ｗ１，Ｗ２）２个词语相似度计算，直接采用文献［５］中方法计算。２．２．２基本相关度部分Ｒｅｌｅ＿ｐｒｉｍ（Ｗ１，Ｗ２）对于２个汉语词语Ｗ１和Ｗ２，如果Ｗ１有ｎ个义项（概念）：Ｓ１１，Ｓ１２，…，Ｓ１ｎ，Ｗ２有ｍ个义项（概念）：Ｓ１１，Ｓ１２，…，Ｓ１ｎ规定，Ｗ１和Ｗ２的相关度是各个概念的相关度绝对值最大的那个值，也就是说：Ｒｅｌｅ＿ｐｒｉｍ（Ｗ１，Ｗ２）＝ ± ｍａｘｉ＝１．．ｎ，ｊ＝１．．．ｍ｜Ｒｅｌｅ＿ｐｒｉｍ（Ｓ１ｉ，Ｓ２ｊ）｜第２期曹礼园，等：基于基元和知网的问题相关度计算 ·２３５·

<<向上翻页向下翻页>>

点击下载：知识工程：基于基元和知网的问题相关度计算