正在加载图片...
·558· 智能系统学报 第13卷 识库,返回实体名称相同或相近的实体信息,本 和CRF模型相结合的方法。实体识别的详细流 文采用模糊匹配中后模糊匹配的方法来进行实体 程如图1所示。 链接:然后,对谓词进行识别,即需要明确问句所 开始 问内容与实体的哪个属性相关,谓词识别同样也 是该系统中一个非常重要的部分,本文采用了直 利用自定义词典分词识别实体 接谓词匹配、词汇字面相似度和语义相似度及规 则映射表3种方法来完成对问句中谓词的识别; 是否含有词性为entity的词一 最后,进行实体消歧、获取答案,由于知识库中存 在很多同名实体,而且大多数同名实体的属性也 N 相同或者相似,这就会导致答案会有多条,所以需 将一些特殊词性的词标注为实体 要对包含答案的实体进行消歧,获取唯一的答案。 1相关研究 是否含有词性为entity的词 问答系统(question answering system,QA)目 前已经成为人工智能和自然语言处理领域中一个 利用CRF模型进行实体识别 备受关注并具有广泛发展前景的研究方向。现 有的问答系统可以分为:1)基于搜索引擎的问答 结束○ 系统;2)基于社区的问答系统;3)基于知识库的 问答系统;4)基于文本的问答系统。基于搜索引 图1实体识别流程图 Fig.1 Procedure of entity recognition 擎的问答系统首先需要解析问句,获得问句主体 及类型,然后在搜索引擎返回的检索结果中按照 2.2.1自定义词典分词识别实体 问句类型抽取答案回。基于社区的问答主要是问 本文采用西南交通大学分词系统,它允许加 句与互联网上的社区中用户提出的问句经过相似 载自定义分词词典进行分词。自定义词典分词过 度计算返回结果。而基于知识库的问答系统最 程中,首先是根据词典中的词进行组块分词,若 主要的工作是进行问句理解40,提取出问句中的 在自定义词典中不存在再使用原分词算法进行分 主体和谓词。比如Poon、Yahya和Berant 词和词性标注。由此本文将知识库中的subject 分别提出了基于语义分析的问答系统构建方法, 提取出来构建自定义词典用于分词,以识别问句 其主要思路是先抽取问句中的主体和谓词,然后 中的subject。但是若将知识库中的所有subject都 转化为SPARQL结构化查询语言,之后再与知识 作为词典,可能问句中的普通词也被识别为实体。 库交互得到答案。基于自由文本的问答系统则是 所以需要对subject进行筛选后再加入词典。本 从非结构化文本中抽取问句所问的答案。例如, 文将知识库中的subject进行分词,若subject分词 Zhengte提出了一种从网页文本中抽取问句答案 之后词的数目大于2,则将该subject加入词典。 的方法。 通过此方法构建的词典中包含2761745个实体 词,其中部分词典如表1所示。 2开放领域问答系统方法概述 表1自定义分词词典 2.1知识库预处理 Table 1 The dictionary of custom segment l)对subject中的英文大小写进行统一 Subject 词性 Subject 词性 因为知识库中的subject和问句中的subject 早安起床吻 entity 体外受精胚胎移植entity 存在英文大小写不统一的问题,所以将知识库 成都汇康医院 entity 我的知己在街头 entity subject中的英文都转化为小写。 不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 2)去除subject中的一些特殊的字符 成都五牛足球俱乐部 entity 字体转换器 entity 在知识库subject中存在很多特殊字符比如 河北省滨海农业研究所entity 幸福的拾荒者 entity “.”、“+”、“.”等。这些字符会影响分词和实体链 … … 接的结果,所以将subject中的这些特殊字符去掉。 2.2实体识别 若问句中没有包含词典中的词,则利用分词 本文的实体识别采用的是自定义词典分词 系统进行实体识别。例如,若问句中出现词性为识库,返回实体名称相同或相近的实体信息,本 文采用模糊匹配中后模糊匹配的方法来进行实体 链接;然后,对谓词进行识别,即需要明确问句所 问内容与实体的哪个属性相关,谓词识别同样也 是该系统中一个非常重要的部分,本文采用了直 接谓词匹配、词汇字面相似度和语义相似度及规 则映射表 3 种方法来完成对问句中谓词的识别; 最后,进行实体消歧、获取答案,由于知识库中存 在很多同名实体,而且大多数同名实体的属性也 相同或者相似,这就会导致答案会有多条,所以需 要对包含答案的实体进行消歧,获取唯一的答案。 1 相关研究 问答系统 (question answering system, QA) 目 前已经成为人工智能和自然语言处理领域中一个 备受关注并具有广泛发展前景的研究方向[1]。现 有的问答系统可以分为:1) 基于搜索引擎的问答 系统;2) 基于社区的问答系统;3) 基于知识库的 问答系统;4) 基于文本的问答系统。基于搜索引 擎的问答系统首先需要解析问句,获得问句主体 及类型,然后在搜索引擎返回的检索结果中按照 问句类型抽取答案[2]。基于社区的问答主要是问 句与互联网上的社区中用户提出的问句经过相似 度计算返回结果[3]。而基于知识库的问答系统最 主要的工作是进行问句理解[4-10] ,提取出问句中的 主体和谓词。比如 Poon[11] 、Yahya[12]和 Berant[13-15] 分别提出了基于语义分析的问答系统构建方法, 其主要思路是先抽取问句中的主体和谓词,然后 转化为 SPARQL 结构化查询语言,之后再与知识 库交互得到答案。基于自由文本的问答系统则是 从非结构化文本中抽取问句所问的答案。例如, Zheng[16]提出了一种从网页文本中抽取问句答案 的方法。 2 开放领域问答系统方法概述 2.1 知识库预处理 1) 对 subject 中的英文大小写进行统一 因为知识库中的 subject 和问句中的 subject 存在英文大小写不统一的问题,所以将知识库 subject 中的英文都转化为小写。 2) 去除 subject 中的一些特殊的字符 在知识库 subject 中存在很多特殊字符比如 “-”、“+”、“.”等。这些字符会影响分词和实体链 接的结果,所以将 subject 中的这些特殊字符去掉。 2.2 实体识别 本文的实体识别采用的是自定义词典分词 和 CRF 模型相结合的方法。实体识别的详细流 程如图 1 所示。 开始 利用自定义词典分词识别实体 将一些特殊词性的词标注为实体 利用 CRF 模型进行实体识别 是否含有词性为 entity 的词 是否含有词性为 entity 的词 N N 结束 Y Y 图 1 实体识别流程图 Fig. 1 Procedure of entity recognition 2.2.1 自定义词典分词识别实体 本文采用西南交通大学分词系统,它允许加 载自定义分词词典进行分词。自定义词典分词过 程中,首先是根据词典中的词进行组块分词,若 在自定义词典中不存在再使用原分词算法进行分 词和词性标注。由此本文将知识库中的 subject 提取出来构建自定义词典用于分词,以识别问句 中的 subject。但是若将知识库中的所有 subject 都 作为词典,可能问句中的普通词也被识别为实体。 所以需要对 subject 进行筛选后再加入词典。本 文将知识库中的 subject 进行分词,若 subject 分词 之后词的数目大于 2,则将该 subject 加入词典。 通过此方法构建的词典中包含 2 761 745 个实体 词,其中部分词典如表 1 所示。 表 1 自定义分词词典 Table 1 The dictionary of custom segment Subject 词性 Subject 词性 早安起床吻 entity 体外受精胚胎移植 entity 成都汇康医院 entity 我的知己在街头 entity 不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 成都五牛足球俱乐部 entity 字体转换器 entity 河北省滨海农业研究所 entity 幸福的拾荒者 entity ······ ··· ··· ··· 若问句中没有包含词典中的词,则利用分词 系统进行实体识别。例如,若问句中出现词性为 ·558· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有