识库，返回实体名称相同或相近的实体信息，本文采用模糊匹配中后模糊匹配的方

正在加载图片...

·558· 智能系统学报第13卷识库，返回实体名称相同或相近的实体信息，本和CRF模型相结合的方法。实体识别的详细流文采用模糊匹配中后模糊匹配的方法来进行实体程如图1所示。链接：然后，对谓词进行识别，即需要明确问句所开始问内容与实体的哪个属性相关，谓词识别同样也是该系统中一个非常重要的部分，本文采用了直利用自定义词典分词识别实体接谓词匹配、词汇字面相似度和语义相似度及规则映射表3种方法来完成对问句中谓词的识别；是否含有词性为entity的词一最后，进行实体消歧、获取答案，由于知识库中存在很多同名实体，而且大多数同名实体的属性也 N 相同或者相似，这就会导致答案会有多条，所以需将一些特殊词性的词标注为实体要对包含答案的实体进行消歧，获取唯一的答案。 1相关研究是否含有词性为entity的词问答系统(question answering system,QA)目前已经成为人工智能和自然语言处理领域中一个利用CRF模型进行实体识别备受关注并具有广泛发展前景的研究方向。现有的问答系统可以分为：1)基于搜索引擎的问答结束○ 系统；2)基于社区的问答系统；3)基于知识库的问答系统；4)基于文本的问答系统。基于搜索引图1实体识别流程图 Fig.1 Procedure of entity recognition 擎的问答系统首先需要解析问句，获得问句主体及类型，然后在搜索引擎返回的检索结果中按照 2.2.1自定义词典分词识别实体问句类型抽取答案回。基于社区的问答主要是问本文采用西南交通大学分词系统，它允许加句与互联网上的社区中用户提出的问句经过相似载自定义分词词典进行分词。自定义词典分词过度计算返回结果。而基于知识库的问答系统最程中，首先是根据词典中的词进行组块分词，若主要的工作是进行问句理解40，提取出问句中的在自定义词典中不存在再使用原分词算法进行分主体和谓词。比如Poon、Yahya和Berant 词和词性标注。由此本文将知识库中的subject 分别提出了基于语义分析的问答系统构建方法，提取出来构建自定义词典用于分词，以识别问句其主要思路是先抽取问句中的主体和谓词，然后中的subject。但是若将知识库中的所有subject都转化为SPARQL结构化查询语言，之后再与知识作为词典，可能问句中的普通词也被识别为实体。库交互得到答案。基于自由文本的问答系统则是所以需要对subject进行筛选后再加入词典。本从非结构化文本中抽取问句所问的答案。例如，文将知识库中的subject进行分词，若subject分词 Zhengte提出了一种从网页文本中抽取问句答案之后词的数目大于2，则将该subject加入词典。的方法。通过此方法构建的词典中包含2761745个实体词，其中部分词典如表1所示。 2开放领域问答系统方法概述表1自定义分词词典 2.1知识库预处理 Table 1 The dictionary of custom segment l)对subject中的英文大小写进行统一 Subject 词性 Subject 词性因为知识库中的subject和问句中的subject 早安起床吻 entity 体外受精胚胎移植entity 存在英文大小写不统一的问题，所以将知识库成都汇康医院 entity 我的知己在街头 entity subject中的英文都转化为小写。不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 2)去除subject中的一些特殊的字符成都五牛足球俱乐部 entity 字体转换器 entity 在知识库subject中存在很多特殊字符比如河北省滨海农业研究所entity 幸福的拾荒者 entity “.”、“+”、“.”等。这些字符会影响分词和实体链 … … 接的结果，所以将subject中的这些特殊字符去掉。 2.2实体识别若问句中没有包含词典中的词，则利用分词本文的实体识别采用的是自定义词典分词系统进行实体识别。例如，若问句中出现词性为识库，返回实体名称相同或相近的实体信息，本文采用模糊匹配中后模糊匹配的方法来进行实体链接；然后，对谓词进行识别，即需要明确问句所问内容与实体的哪个属性相关，谓词识别同样也是该系统中一个非常重要的部分，本文采用了直接谓词匹配、词汇字面相似度和语义相似度及规则映射表 3 种方法来完成对问句中谓词的识别；最后，进行实体消歧、获取答案，由于知识库中存在很多同名实体，而且大多数同名实体的属性也相同或者相似，这就会导致答案会有多条，所以需要对包含答案的实体进行消歧，获取唯一的答案。 1 相关研究问答系统 (question answering system, QA) 目前已经成为人工智能和自然语言处理领域中一个备受关注并具有广泛发展前景的研究方向[1]。现有的问答系统可以分为：1) 基于搜索引擎的问答系统；2) 基于社区的问答系统；3) 基于知识库的问答系统；4) 基于文本的问答系统。基于搜索引擎的问答系统首先需要解析问句，获得问句主体及类型，然后在搜索引擎返回的检索结果中按照问句类型抽取答案[2]。基于社区的问答主要是问句与互联网上的社区中用户提出的问句经过相似度计算返回结果[3]。而基于知识库的问答系统最主要的工作是进行问句理解[4-10] ，提取出问句中的主体和谓词。比如 Poon[11] 、Yahya[12]和 Berant[13-15] 分别提出了基于语义分析的问答系统构建方法，其主要思路是先抽取问句中的主体和谓词，然后转化为 SPARQL 结构化查询语言，之后再与知识库交互得到答案。基于自由文本的问答系统则是从非结构化文本中抽取问句所问的答案。例如， Zheng[16]提出了一种从网页文本中抽取问句答案的方法。 2 开放领域问答系统方法概述 2.1 知识库预处理 1) 对 subject 中的英文大小写进行统一因为知识库中的 subject 和问句中的 subject 存在英文大小写不统一的问题，所以将知识库 subject 中的英文都转化为小写。 2) 去除 subject 中的一些特殊的字符在知识库 subject 中存在很多特殊字符比如 “-”、“+”、“.”等。这些字符会影响分词和实体链接的结果，所以将 subject 中的这些特殊字符去掉。 2.2 实体识别本文的实体识别采用的是自定义词典分词和 CRF 模型相结合的方法。实体识别的详细流程如图 1 所示。开始利用自定义词典分词识别实体将一些特殊词性的词标注为实体利用 CRF 模型进行实体识别是否含有词性为 entity 的词是否含有词性为 entity 的词 N N 结束 Y Y 图 1 实体识别流程图 Fig. 1 Procedure of entity recognition 2.2.1 自定义词典分词识别实体本文采用西南交通大学分词系统，它允许加载自定义分词词典进行分词。自定义词典分词过程中，首先是根据词典中的词进行组块分词，若在自定义词典中不存在再使用原分词算法进行分词和词性标注。由此本文将知识库中的 subject 提取出来构建自定义词典用于分词，以识别问句中的 subject。但是若将知识库中的所有 subject 都作为词典，可能问句中的普通词也被识别为实体。所以需要对 subject 进行筛选后再加入词典。本文将知识库中的 subject 进行分词，若 subject 分词之后词的数目大于 2，则将该 subject 加入词典。通过此方法构建的词典中包含 2 761 745 个实体词，其中部分词典如表 1 所示。表 1 自定义分词词典 Table 1 The dictionary of custom segment Subject 词性 Subject 词性早安起床吻 entity 体外受精胚胎移植 entity 成都汇康医院 entity 我的知己在街头 entity 不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 成都五牛足球俱乐部 entity 字体转换器 entity 河北省滨海农业研究所 entity 幸福的拾荒者 entity ······ ··· ··· ··· 若问句中没有包含词典中的词，则利用分词系统进行实体识别。例如，若问句中出现词性为 ·558· 智能系统学报第 13 卷

<<向上翻页向下翻页>>

点击下载：【知识工程】基于知识库的开放领域问答系统