正在加载图片...
·560· 智能系统学报 第13卷 式中:N为链接实体中的某个谓词长度,遍历谓词 若经过步骤2.4.1和2.4.2后,仍然还未找到 的每个字w,若w在问句中出现,则n=+1(n的初 谓词,则验证问句中是否包含表3中的规则,若包 始值为零)如 含则用规则映射后的词语去匹配链接实体在知识 本文使用的语义相似度计算是基于《知网》 库中的每个谓词,匹配谓词的方法为步骤2)中的 的相似度算法,该方法是由夏天在《汉语词语语 词汇字面相似度和语义相似度相结合的方法,若 义相似度计算研究》一文中所提出的。《知 找到相同或相似的谓词则将该谓词所对应的三元 网》是一个以汉语和英语的词语所代表的概念为 组加入三元组列表中。 描述对象,以揭示概念与概念之间以及概念所具 2.4.4同义词表映射法 有的属性之间的关系为基本内容的常识知识库。 在常见问句中还有一些问句中的谓词是以同 在《知网》中,词汇对应于若干概念,而概念是 义词的形式存在,或者每个问句格式可以对应 以义原为基础通过知识库描述语言进行定义的, 些特定的谓词。如问句中存在“有多高”这种疑问 即概念的义项表达式,义原又通过多种关系进行 词,则可以将谓词映射为“高度”。对于这些问句 描述,如上下位关系等,目前大多数学者基于《知 本文采用建立同义词表的方法来做谓词映射。如 网》的词汇语义相似度计算,其思想是整体相似 度可由部分相似度加权平均进行计算。 “什么意思”其同义词表可为“含义意义解释”。 本文字面相似度和语义相似度结合匹配谓词 本文建立了同义词映射表,部分同义词表如表4 的步骤如下: 所示。 1)计算谓词和问句的字面相似度,若字面相 表4同义词映射表 Table 4 Examples of synonym list 似度等于1,则表示谓词直接出现在问句中,并将 该谓词所对应的三元组加入三元组列表中: 问句中的词汇 同义词 2)计算谓词与问句中去除实体后的每个词的 什么意思 含义意义解释 语义相似度,若存在与谓词语义相似度等于1的 有多长 长度片长时间长度路线长度 词,则表示谓词出现在问句中,并将该谓词所对 有多少人 人口人数全院人数 应的三元组加入三元组列表中; 是哪的人 老家籍贯出生地 3)若步骤1)、2)后,问句中都没有谓词,则取 步骤1)中的字面相似度sim在0.5~1的谓词,计 有几笔 笔画笔划 … 算这些谓词与问句中去除实体后的每个词的语义 相似度,取其中之最大的谓词所对应的三元组加 同样,问句如果经过2.4.1、2.4.2和2.4.3这 入三元组列表中。 3个步骤后还没有找到相应的答案,则验证问句 2.4.3规则映射法 中是否包含表4中的词汇,若包含则用同义词表 由于2.4.1和2.4.2都是以词为单位进行谓词 中的词语去匹配实体的每个谓词,若找到相同或 查找的,但是有些属性是多个词共同表达的,如 相似的谓词则将该谓词所对应的三元组加入三元 问句“…什么时候去世”,谓词“去世地点”和“去 组列表中。 世时间”都包含“去世”,但“什么时候”表达了时 间。我们制定了规则解决这一类问句的谓词识别 2.5获取答案 在完成谓词匹配后就能够得到谓词所对应的 问题。例如,对于“什么时候”后接一个动词的, 可将其映射为动词+(时间日期)。如“什么时候去 三元组列表,三元组列表中每个对应object都是 世”,“去世”是动词,什么时候表示时间,就可以 问题的答案。三元组列表包含一个或多个答案。 映射为“去世时间”或“去世日期”。表3列出了规 这是因为知识库中存在很多同名实体,而且同名 则示例。 实体其谓词基本上是相同或相似的,导致有些问 表3规则映射表 句就会出现一个或多个答案。需要从答案列表中 Table 3 Examples of rule set 选择一个作为最终的答案,即答案筛选。本文采 规则名称 谓词映射表 用的方法是对所有答案对应的实体名称进行实体 什么时候*?W v+时间日期 消歧,消歧后得到三元组中的object作为该问题 的答案。 如何.?W v+方式方法途径 本文实体消歧的方法如下: 在哪.*N v+地点地 1)取分词后问句中所有名词(实体词除外):式中:N 为链接实体中的某个谓词长度,遍历谓词 的每个字 w,若 w 在问句中出现,则 n=n+1(n 的初 始值为零)。 本文使用的语义相似度计算是基于《知网》 的相似度算法,该方法是由夏天在《汉语词语语 义相似度计算研究》[19]一文中所提出的。《知 网》是一个以汉语和英语的词语所代表的概念为 描述对象,以揭示概念与概念之间以及概念所具 有的属性之间的关系为基本内容的常识知识库。 在《知网》中,词汇对应于若干概念,而概念是 以义原为基础通过知识库描述语言进行定义的, 即概念的义项表达式,义原又通过多种关系进行 描述,如上下位关系等,目前大多数学者基于《知 网》的词汇语义相似度计算,其思想是整体相似 度可由部分相似度加权平均进行计算。 本文字面相似度和语义相似度结合匹配谓词 的步骤如下: 1) 计算谓词和问句的字面相似度,若字面相 似度等于 1,则表示谓词直接出现在问句中,并将 该谓词所对应的三元组加入三元组列表中; 2) 计算谓词与问句中去除实体后的每个词的 语义相似度,若存在与谓词语义相似度等于 1 的 词,则表示谓词出现在问句中,并将该谓词所对 应的三元组加入三元组列表中; 3) 若步骤 1)、2) 后,问句中都没有谓词,则取 步骤 1) 中的字面相似度 sim 在 0.5~1 的谓词,计 算这些谓词与问句中去除实体后的每个词的语义 相似度,取其中之最大的谓词所对应的三元组加 入三元组列表中。 2.4.3 规则映射法 ······ 由于 2.4.1 和 2.4.2 都是以词为单位进行谓词 查找的,但是有些属性是多个词共同表达的,如 问句“ 什么时候去世”,谓词“去世地点”和“去 世时间”都包含“去世”,但“什么时候”表达了时 间。我们制定了规则解决这一类问句的谓词识别 问题。例如,对于“什么时候”后接一个动词的, 可将其映射为动词+(时间|日期)。如“什么时候去 世”,“去世”是动词,什么时候表示时间,就可以 映射为“去世时间”或“去世日期”。表 3 列出了规 则示例。 表 3 规则映射表 Table 3 Examples of rule set 规则名称 谓词映射表 什么时候.*?/v v+时间|日期 如何.*?/v v+方式|方法|途径 在哪.*?/v v+地点|地 若经过步骤 2.4.1 和 2.4.2 后,仍然还未找到 谓词,则验证问句中是否包含表 3 中的规则,若包 含则用规则映射后的词语去匹配链接实体在知识 库中的每个谓词,匹配谓词的方法为步骤 2) 中的 词汇字面相似度和语义相似度相结合的方法,若 找到相同或相似的谓词则将该谓词所对应的三元 组加入三元组列表中。 2.4.4 同义词表映射法 在常见问句中还有一些问句中的谓词是以同 义词的形式存在,或者每个问句格式可以对应一 些特定的谓词。如问句中存在“有多高”这种疑问 词,则可以将谓词映射为“高度”。对于这些问句 本文采用建立同义词表的方法来做谓词映射。如 “什么意思”其同义词表可为“含义|意义|解释”。 本文建立了同义词映射表,部分同义词表如表 4 所示。 表 4 同义词映射表 Table 4 Examples of synonym list 问句中的词汇 同义词 什么意思 含义|意义|解释 有多长 长度|片长|时间长度|路线长度 有多少人 人口|人数|全院人数 是哪的人 老家|籍贯|出生地 有几笔 笔画|笔划 ··· ··· 同样,问句如果经过 2.4.1、2.4.2 和 2.4.3 这 3 个步骤后还没有找到相应的答案,则验证问句 中是否包含表 4 中的词汇,若包含则用同义词表 中的词语去匹配实体的每个谓词,若找到相同或 相似的谓词则将该谓词所对应的三元组加入三元 组列表中。 2.5 获取答案 在完成谓词匹配后就能够得到谓词所对应的 三元组列表,三元组列表中每个对应 object 都是 问题的答案。三元组列表包含一个或多个答案。 这是因为知识库中存在很多同名实体,而且同名 实体其谓词基本上是相同或相似的,导致有些问 句就会出现一个或多个答案。需要从答案列表中 选择一个作为最终的答案,即答案筛选。本文采 用的方法是对所有答案对应的实体名称进行实体 消歧,消歧后得到三元组中的 object 作为该问题 的答案。 本文实体消歧的方法如下: 1) 取分词后问句中所有名词 (实体词除外); ·560· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有