【知识工程】基于知识库的开放领域问答系统

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：750.19KB

第13卷第4期智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201707039 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180409.1727.014html 基于知识库的开放领域问答系统张涛，贾真，李天瑞，黄雁勇 (西南交通大学信息科学与技术学院，四川成都611756) 摘要：问答系统能够理解用户问题，并直接返回答案。现有问答系统大多是面向领域的，仅能回答特定领域的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和 CF模型相结合的方法识别问句中的主体：其次，采用模糊匹配方法将问句中的主体与知识库中实体建立链接：然后，通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联：最后，进行实体消歧和答案获取。该系统平均F-Measure值为0.6956，表明所提方法在基于知识库的开放领域问答上具有可行性。关键词：问答系统开放领域；实体识别；实体链接：知识库中图分类号：TP391.1文献标志码：A文章编号：1673-4785(2018)04-0557-07 中文引用格式：张涛，贾真，李天瑞，等.基于知识库的开放领域问答系统J.智能系统学报，2018,13(4)：557-563 英文引用格式：ZHANG Tao,JIA Zhen,LI Tianrui,etal.Open-domain question-answering system based on large-scale knowledge baseJ.CAAI transactions on intelligent systems,2018,13(4):557-563. Open-domain question-answering system based on large-scale knowledge base ZHANG Tao,JIA Zhen,LI Tianrui,HUANG Yanyong (School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756,China) Abstract:Question-answering(QA)systems can understand user questions and return answers directly.Currently,most QA systems can only answer questions pertaining to specific domains.In this paper,we propose a method for construct- ing an open-domain QA system based on a large-scale knowledge base.First,we present an approach based on a visual dictionary and a conditional random field(CRF)model to identify the subject in question.Next,we use a fuzzy match- ing method to link the entity in question to that in the knowledge base,and apply similarity computation and rule match- ing methods to recognize the question predicates and link them to the attributes of the knowledge entity.Lastly,we im- plement entity disambiguation and answer retrieval.The mean F-measure value of the proposed system is 0.695 6, which indicates the feasibility of the proposed method for an open-domain QA system for a large-scale knowledge base. Keywords:question-answering system;open domain;entity recognition;entity linking;knowledge base 信息检索是目前互联网时代的一个热门研究克服这个缺点，用户输入问句后问答系统会给出方向。搜索引擎则是一种常见的信息检索手段，一个准确简洁的答案。它根据用户输入的查询语句进行关键字匹配，并本文提出了一种基于知识库的开放领域自动对结果进行排序，返回包含关键字的页面链接，问答系统。首先，对问句进行实体识别，即需要并不会直接给出问题的答案，需要用户自己浏览明确问句问的是关于哪个实体的，实体识别是问网页才能得到想要的答案。但是问答系统却能够答系统中非常重要的一个部分，本文提出了自定收稿日期：2017-07-25.网络出版日期：2018-04-10. 义词典分词与CRF模型相结合的命名实体识别基金项目：国家自然科学基金项目(61573292)：国家自然科学基金青年科学基金项目(61603313)】方法来完成该系统中的命名实体识别；其次，对通信作者：张涛.E-mail:tz hangswjtu小@l63.com 实体进行链接，即用问句中识别出的实体查询知

DOI: 10.11992/tis.201707039 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180409.1727.014.html 基于知识库的开放领域问答系统张涛，贾真，李天瑞，黄雁勇（西南交通大学信息科学与技术学院，四川成都 611756）摘要：问答系统能够理解用户问题，并直接返回答案。现有问答系统大多是面向领域的，仅能回答特定领域的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和 CRF 模型相结合的方法识别问句中的主体；其次，采用模糊匹配方法将问句中的主体与知识库中实体建立链接；然后，通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联；最后，进行实体消歧和答案获取。该系统平均 F-Measure 值为 0.695 6，表明所提方法在基于知识库的开放领域问答上具有可行性。关键词：问答系统；开放领域；实体识别；实体链接；知识库中图分类号：TP391.1 文献标志码：A 文章编号：1673−4785(2018)04−0557−07 中文引用格式：张涛, 贾真, 李天瑞, 等. 基于知识库的开放领域问答系统[J]. 智能系统学报, 2018, 13(4): 557–563. 英文引用格式：ZHANG Tao, JIA Zhen, LI Tianrui, et al. Open-domain question-answering system based on large-scale knowledge base[J]. CAAI transactions on intelligent systems, 2018, 13(4): 557–563. Open-domain question-answering system based on large-scale knowledge base ZHANG Tao，JIA Zhen，LI Tianrui，HUANG Yanyong (School of Information Science and Technology, Southwest Jiaotong University, Chengdu 611756, China) Abstract: Question-answering (QA) systems can understand user questions and return answers directly. Currently, most QA systems can only answer questions pertaining to specific domains. In this paper, we propose a method for constructing an open-domain QA system based on a large-scale knowledge base. First, we present an approach based on a visual dictionary and a conditional random field (CRF) model to identify the subject in question. Next, we use a fuzzy matching method to link the entity in question to that in the knowledge base, and apply similarity computation and rule matching methods to recognize the question predicates and link them to the attributes of the knowledge entity. Lastly, we implement entity disambiguation and answer retrieval. The mean F-measure value of the proposed system is 0.695 6, which indicates the feasibility of the proposed method for an open-domain QA system for a large-scale knowledge base. Keywords: question-answering system; open domain; entity recognition; entity linking; knowledge base 信息检索是目前互联网时代的一个热门研究方向。搜索引擎则是一种常见的信息检索手段，它根据用户输入的查询语句进行关键字匹配，并对结果进行排序，返回包含关键字的页面链接，并不会直接给出问题的答案，需要用户自己浏览网页才能得到想要的答案。但是问答系统却能够克服这个缺点，用户输入问句后问答系统会给出一个准确简洁的答案。本文提出了一种基于知识库的开放领域自动问答系统。首先，对问句进行实体识别，即需要明确问句问的是关于哪个实体的，实体识别是问答系统中非常重要的一个部分，本文提出了自定义词典分词与 CRF 模型相结合的命名实体识别方法来完成该系统中的命名实体识别；其次，对实体进行链接，即用问句中识别出的实体查询知收稿日期：2017−07−25. 网络出版日期：2018−04−10. 基金项目：国家自然科学基金项目 (61573292)；国家自然科学基金青年科学基金项目 (61603313). 通信作者：张涛. E-mail: tzhangswjtu@163.com. 第 13 卷第 4 期智能系统学报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018

·558· 智能系统学报第13卷识库，返回实体名称相同或相近的实体信息，本和CRF模型相结合的方法。实体识别的详细流文采用模糊匹配中后模糊匹配的方法来进行实体程如图1所示。链接：然后，对谓词进行识别，即需要明确问句所开始问内容与实体的哪个属性相关，谓词识别同样也是该系统中一个非常重要的部分，本文采用了直利用自定义词典分词识别实体接谓词匹配、词汇字面相似度和语义相似度及规则映射表3种方法来完成对问句中谓词的识别；是否含有词性为entity的词一最后，进行实体消歧、获取答案，由于知识库中存在很多同名实体，而且大多数同名实体的属性也 N 相同或者相似，这就会导致答案会有多条，所以需将一些特殊词性的词标注为实体要对包含答案的实体进行消歧，获取唯一的答案。 1相关研究是否含有词性为entity的词问答系统(question answering system,QA)目前已经成为人工智能和自然语言处理领域中一个利用CRF模型进行实体识别备受关注并具有广泛发展前景的研究方向。现有的问答系统可以分为：1)基于搜索引擎的问答结束○ 系统；2)基于社区的问答系统；3)基于知识库的问答系统；4)基于文本的问答系统。基于搜索引图1实体识别流程图 Fig.1 Procedure of entity recognition 擎的问答系统首先需要解析问句，获得问句主体及类型，然后在搜索引擎返回的检索结果中按照 2.2.1自定义词典分词识别实体问句类型抽取答案回。基于社区的问答主要是问本文采用西南交通大学分词系统，它允许加句与互联网上的社区中用户提出的问句经过相似载自定义分词词典进行分词。自定义词典分词过度计算返回结果。而基于知识库的问答系统最程中，首先是根据词典中的词进行组块分词，若主要的工作是进行问句理解40，提取出问句中的在自定义词典中不存在再使用原分词算法进行分主体和谓词。比如Poon、Yahya和Berant 词和词性标注。由此本文将知识库中的subject 分别提出了基于语义分析的问答系统构建方法，提取出来构建自定义词典用于分词，以识别问句其主要思路是先抽取问句中的主体和谓词，然后中的subject。但是若将知识库中的所有subject都转化为SPARQL结构化查询语言，之后再与知识作为词典，可能问句中的普通词也被识别为实体。库交互得到答案。基于自由文本的问答系统则是所以需要对subject进行筛选后再加入词典。本从非结构化文本中抽取问句所问的答案。例如，文将知识库中的subject进行分词，若subject分词 Zhengte提出了一种从网页文本中抽取问句答案之后词的数目大于2，则将该subject加入词典。的方法。通过此方法构建的词典中包含2761745个实体词，其中部分词典如表1所示。 2开放领域问答系统方法概述表1自定义分词词典 2.1知识库预处理 Table 1 The dictionary of custom segment l)对subject中的英文大小写进行统一 Subject 词性 Subject 词性因为知识库中的subject和问句中的subject 早安起床吻 entity 体外受精胚胎移植entity 存在英文大小写不统一的问题，所以将知识库成都汇康医院 entity 我的知己在街头 entity subject中的英文都转化为小写。不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 2)去除subject中的一些特殊的字符成都五牛足球俱乐部 entity 字体转换器 entity 在知识库subject中存在很多特殊字符比如河北省滨海农业研究所entity 幸福的拾荒者 entity “.”、“+”、“.”等。这些字符会影响分词和实体链 … … 接的结果，所以将subject中的这些特殊字符去掉。 2.2实体识别若问句中没有包含词典中的词，则利用分词本文的实体识别采用的是自定义词典分词系统进行实体识别。例如，若问句中出现词性为

识库，返回实体名称相同或相近的实体信息，本文采用模糊匹配中后模糊匹配的方法来进行实体链接；然后，对谓词进行识别，即需要明确问句所问内容与实体的哪个属性相关，谓词识别同样也是该系统中一个非常重要的部分，本文采用了直接谓词匹配、词汇字面相似度和语义相似度及规则映射表 3 种方法来完成对问句中谓词的识别；最后，进行实体消歧、获取答案，由于知识库中存在很多同名实体，而且大多数同名实体的属性也相同或者相似，这就会导致答案会有多条，所以需要对包含答案的实体进行消歧，获取唯一的答案。 1 相关研究问答系统 (question answering system, QA) 目前已经成为人工智能和自然语言处理领域中一个备受关注并具有广泛发展前景的研究方向[1]。现有的问答系统可以分为：1) 基于搜索引擎的问答系统；2) 基于社区的问答系统；3) 基于知识库的问答系统；4) 基于文本的问答系统。基于搜索引擎的问答系统首先需要解析问句，获得问句主体及类型，然后在搜索引擎返回的检索结果中按照问句类型抽取答案[2]。基于社区的问答主要是问句与互联网上的社区中用户提出的问句经过相似度计算返回结果[3]。而基于知识库的问答系统最主要的工作是进行问句理解[4-10] ，提取出问句中的主体和谓词。比如 Poon[11] 、Yahya[12]和 Berant[13-15] 分别提出了基于语义分析的问答系统构建方法，其主要思路是先抽取问句中的主体和谓词，然后转化为 SPARQL 结构化查询语言，之后再与知识库交互得到答案。基于自由文本的问答系统则是从非结构化文本中抽取问句所问的答案。例如， Zheng[16]提出了一种从网页文本中抽取问句答案的方法。 2 开放领域问答系统方法概述 2.1 知识库预处理 1) 对 subject 中的英文大小写进行统一因为知识库中的 subject 和问句中的 subject 存在英文大小写不统一的问题，所以将知识库 subject 中的英文都转化为小写。 2) 去除 subject 中的一些特殊的字符在知识库 subject 中存在很多特殊字符比如 “-”、“+”、“.”等。这些字符会影响分词和实体链接的结果，所以将 subject 中的这些特殊字符去掉。 2.2 实体识别本文的实体识别采用的是自定义词典分词和 CRF 模型相结合的方法。实体识别的详细流程如图 1 所示。开始利用自定义词典分词识别实体将一些特殊词性的词标注为实体利用 CRF 模型进行实体识别是否含有词性为 entity 的词是否含有词性为 entity 的词 N N 结束 Y Y 图 1 实体识别流程图 Fig. 1 Procedure of entity recognition 2.2.1 自定义词典分词识别实体本文采用西南交通大学分词系统，它允许加载自定义分词词典进行分词。自定义词典分词过程中，首先是根据词典中的词进行组块分词，若在自定义词典中不存在再使用原分词算法进行分词和词性标注。由此本文将知识库中的 subject 提取出来构建自定义词典用于分词，以识别问句中的 subject。但是若将知识库中的所有 subject 都作为词典，可能问句中的普通词也被识别为实体。所以需要对 subject 进行筛选后再加入词典。本文将知识库中的 subject 进行分词，若 subject 分词之后词的数目大于 2，则将该 subject 加入词典。通过此方法构建的词典中包含 2 761 745 个实体词，其中部分词典如表 1 所示。表 1 自定义分词词典 Table 1 The dictionary of custom segment Subject 词性 Subject 词性早安起床吻 entity 体外受精胚胎移植 entity 成都汇康医院 entity 我的知己在街头 entity 不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 成都五牛足球俱乐部 entity 字体转换器 entity 河北省滨海农业研究所 entity 幸福的拾荒者 entity ······ ··· ··· ··· 若问句中没有包含词典中的词，则利用分词系统进行实体识别。例如，若问句中出现词性为 ·558· 智能系统学报第 13 卷

第4期张涛，等：基于知识库的开放领域问答系统 ·559· nr、nh、nt等的词，则将其标注为实体。具体标记用技术。本文采用的是模糊匹配中后模糊匹配的的词性和词性说明如表2所示。问句中没有包含方法进行实体链接。具体方法步骤如下：这些词性，则采用图1的算法进行实体识别。 1)将问句中识别出的实体去除其中含括号的表2词性和词性说明表消歧项，只保留实体原名称，如：“武汉大学学报 Table 2 The part of speech and its instruction (医学版)/entity”,去除括号内消歧项，只保留“武词性词性说明词性词性说明汉大学学报”。 nr 人名 nt 机构团体名 2)用去除消歧项的实体名称到知识库中进行后模糊匹配查找，后模糊匹配即忽略知识库中实 ns 地名 nh 医药疾病等健康相关名词体名称后面的所有词，只关注知识库中subject的 nb 生物名 nf 食品前n个字是否与所要查找的实体名称是否一致， g 学术词汇 n为待查找实体名称的长度。如“武汉大学学 2.2.2基于CRF的实体识别报”，只关注知识库subject的前6个字是否与“武 I)CRF模型介绍汉大学学报”完全匹配。条件随机场算法(conditional random field al- 3)由于后模糊匹配有可能找出一些实体名称 gorithm,CRF)被认为是一种基于图模型的算法，根本不可能是一个实体的subject,,如在知识库中由于该图是一种无向图，因此也是一种无向图模用后模糊匹配查找“李明”，这会返回一下几个实型。在图模型中，其中的结点表示算法的输入体：“李明（苏州大学教授）”、“李明慧（大连轻工业序列和输出序列，主要用来计算输出序列的概率学院副教授)”、“李明（中医药研究教授）”等。其问题。条件随机场算法最主要的功能就是让无向中“李明慧（大连轻工业学院副教授）”就与“李明” 不可能是同一个实体，这是后模糊匹配忽略了“李图中的各个结点呈现出线性结构。线性的条件随机场算法同时也是一个有限的状态机，该状态机明”之后的所有词才导致了这个结果，对于这种情可以进行线性数据的序列标注工作。当有限状态况本文首先对查找出来的实体去除括号里面的消机接收到输入的序列后，线性的条件随机场算法歧项，然后与原查找名称进行比较，若不相等则删掉该实体。可以计算出输出序列，并且能够返回该输出序列 2.4谓词匹配的条件概率。在条件随机场算法中，训练模型的谓词匹配的作用是确定问句问的是实体的哪主要功能就是得到条件概率最大的模型。个属性（谓词）。本文采用了多种谓词匹配方法， 2)CRF实体识别其中包括直接谓词匹配法、词汇字面相似度和语由于建立词典和标记特殊词性的实体识别方义相似度相结合的方法、规则映射法以及同义词法不能完全识别出所有问句中的实体，所以本文表映射法。采用了CRF算法来做进一步的实体识别。CRF 2.4.1直接谓词匹配法是一种常见的命名实体识别方法，并取得了比较在自然语言问句中有经常会出现很多问句中好的实验结果。用CRF做命名实体识别的步骤直接包含谓词的情况，可以通过直接谓词匹配的如下：方法进行查找答案。具体方法如下：提取所有链 1)人工标注一些问句中的实体作为训练数据；接实体的谓词作为候选谓词，然后进行直接匹 2)用标注好实体的训练数据训练CRF模型；配。若问句中除去实体之外的词中包含谓词，则 3)用CRF模型来对未标注实体的问句进行将该谓词所对应的三元组加入三元组列表中。实体标注。 2.4.2词汇字面相似度和语义相似度相结合的本文利用已知实体回标的方式自动获取训练方法数据。即通过3.2.1中的方法得到实体所在的问由于语言表达的多样性，问句中的很多谓词句作为实体识别的训练数据。但是这些训练数据并不能通过直接匹配法找到。针对那些谓词不是中存在少量错误，需要人工再对训练数据做出修直接包含在问句中或谓词以同义词的形式出现在正。我们一共标注了约13000条训练数据。问句中的情况，本文采用了字面相似度和语义相 2.3实体链接似度相结合的方法来识别谓词。字面相似度计算命名实体链接是指将文本中已经识别出的命公式为名实体链接到知识库中的一个具体真实实体的过程。实体链接是目前自然语言处理领域的一种常 sim= (1)

nr、nh、nt 等的词，则将其标注为实体。具体标记的词性和词性说明如表 2 所示。问句中没有包含这些词性，则采用图 1 的算法进行实体识别。表 2 词性和词性说明表 Table 2 The part of speech and its instruction 词性词性说明词性词性说明 nr 人名 nt 机构团体名 ns 地名 nh 医药疾病等健康相关名词 nb 生物名 nf 食品 g 学术词汇 2.2.2 基于 CRF 的实体识别 1) CRF 模型介绍条件随机场算法 (conditional random field algorithm, CRF) 被认为是一种基于图模型的算法，由于该图是一种无向图，因此也是一种无向图模型 [17]。在图模型中，其中的结点表示算法的输入序列和输出序列，主要用来计算输出序列的概率问题。条件随机场算法最主要的功能就是让无向图中的各个结点呈现出线性结构。线性的条件随机场算法同时也是一个有限的状态机，该状态机可以进行线性数据的序列标注工作。当有限状态机接收到输入的序列后，线性的条件随机场算法可以计算出输出序列，并且能够返回该输出序列的条件概率。在条件随机场算法中，训练模型的主要功能就是得到条件概率最大的模型[18]。 2) CRF 实体识别由于建立词典和标记特殊词性的实体识别方法不能完全识别出所有问句中的实体，所以本文采用了 CRF 算法来做进一步的实体识别。CRF 是一种常见的命名实体识别方法，并取得了比较好的实验结果。用 CRF 做命名实体识别的步骤如下： 1) 人工标注一些问句中的实体作为训练数据； 2) 用标注好实体的训练数据训练 CRF 模型； 3) 用 CRF 模型来对未标注实体的问句进行实体标注。本文利用已知实体回标的方式自动获取训练数据。即通过 3.2.1 中的方法得到实体所在的问句作为实体识别的训练数据。但是这些训练数据中存在少量错误，需要人工再对训练数据做出修正。我们一共标注了约 13 000 条训练数据。 2.3 实体链接命名实体链接是指将文本中已经识别出的命名实体链接到知识库中的一个具体真实实体的过程。实体链接是目前自然语言处理领域的一种常用技术。本文采用的是模糊匹配中后模糊匹配的方法进行实体链接。具体方法步骤如下： 1) 将问句中识别出的实体去除其中含括号的消歧项，只保留实体原名称，如：“武汉大学学报 (医学版)/entity”，去除括号内消歧项，只保留“武汉大学学报”。 2) 用去除消歧项的实体名称到知识库中进行后模糊匹配查找，后模糊匹配即忽略知识库中实体名称后面的所有词，只关注知识库中 subject 的前 n 个字是否与所要查找的实体名称是否一致， n 为待查找实体名称的长度。如“武汉大学学报”，只关注知识库 subject 的前 6 个字是否与“武汉大学学报”完全匹配。 3) 由于后模糊匹配有可能找出一些实体名称根本不可能是一个实体的 subject，如在知识库中用后模糊匹配查找“李明”，这会返回一下几个实体：“李明 (苏州大学教授)”、“李明慧 (大连轻工业学院副教授)”、“李明 (中医药研究教授)”等。其中“李明慧 (大连轻工业学院副教授)”就与“李明” 不可能是同一个实体，这是后模糊匹配忽略了“李明”之后的所有词才导致了这个结果，对于这种情况本文首先对查找出来的实体去除括号里面的消歧项，然后与原查找名称进行比较，若不相等则删掉该实体。 2.4 谓词匹配谓词匹配的作用是确定问句问的是实体的哪个属性 (谓词)。本文采用了多种谓词匹配方法，其中包括直接谓词匹配法、词汇字面相似度和语义相似度相结合的方法、规则映射法以及同义词表映射法。 2.4.1 直接谓词匹配法在自然语言问句中有经常会出现很多问句中直接包含谓词的情况，可以通过直接谓词匹配的方法进行查找答案。具体方法如下：提取所有链接实体的谓词作为候选谓词，然后进行直接匹配。若问句中除去实体之外的词中包含谓词，则将该谓词所对应的三元组加入三元组列表中。 2.4.2 词汇字面相似度和语义相似度相结合的方法由于语言表达的多样性，问句中的很多谓词并不能通过直接匹配法找到。针对那些谓词不是直接包含在问句中或谓词以同义词的形式出现在问句中的情况，本文采用了字面相似度和语义相似度相结合的方法来识别谓词。字面相似度计算公式为 sim = n N (1) 第 4 期张涛，等：基于知识库的开放领域问答系统 ·559·

·560· 智能系统学报第13卷式中：N为链接实体中的某个谓词长度，遍历谓词若经过步骤2.4.1和2.4.2后，仍然还未找到的每个字w,若w在问句中出现，则n=+1(n的初谓词，则验证问句中是否包含表3中的规则，若包始值为零)如含则用规则映射后的词语去匹配链接实体在知识本文使用的语义相似度计算是基于《知网》库中的每个谓词，匹配谓词的方法为步骤2)中的的相似度算法，该方法是由夏天在《汉语词语语词汇字面相似度和语义相似度相结合的方法，若义相似度计算研究》一文中所提出的。《知找到相同或相似的谓词则将该谓词所对应的三元网》是一个以汉语和英语的词语所代表的概念为组加入三元组列表中。描述对象，以揭示概念与概念之间以及概念所具 2.4.4同义词表映射法有的属性之间的关系为基本内容的常识知识库。在常见问句中还有一些问句中的谓词是以同在《知网》中，词汇对应于若干概念，而概念是义词的形式存在，或者每个问句格式可以对应以义原为基础通过知识库描述语言进行定义的，些特定的谓词。如问句中存在“有多高”这种疑问即概念的义项表达式，义原又通过多种关系进行词，则可以将谓词映射为“高度”。对于这些问句描述，如上下位关系等，目前大多数学者基于《知本文采用建立同义词表的方法来做谓词映射。如网》的词汇语义相似度计算，其思想是整体相似度可由部分相似度加权平均进行计算。 “什么意思”其同义词表可为“含义意义解释”。本文字面相似度和语义相似度结合匹配谓词本文建立了同义词映射表，部分同义词表如表4 的步骤如下：所示。 1)计算谓词和问句的字面相似度，若字面相表4同义词映射表 Table 4 Examples of synonym list 似度等于1，则表示谓词直接出现在问句中，并将该谓词所对应的三元组加入三元组列表中：问句中的词汇同义词 2)计算谓词与问句中去除实体后的每个词的什么意思含义意义解释语义相似度，若存在与谓词语义相似度等于1的有多长长度片长时间长度路线长度词，则表示谓词出现在问句中，并将该谓词所对有多少人人口人数全院人数应的三元组加入三元组列表中；是哪的人老家籍贯出生地 3)若步骤1)、2)后，问句中都没有谓词，则取步骤1)中的字面相似度sim在0.5~1的谓词，计有几笔笔画笔划 … 算这些谓词与问句中去除实体后的每个词的语义相似度，取其中之最大的谓词所对应的三元组加同样，问句如果经过2.4.1、2.4.2和2.4.3这入三元组列表中。 3个步骤后还没有找到相应的答案，则验证问句 2.4.3规则映射法中是否包含表4中的词汇，若包含则用同义词表由于2.4.1和2.4.2都是以词为单位进行谓词中的词语去匹配实体的每个谓词，若找到相同或查找的，但是有些属性是多个词共同表达的，如相似的谓词则将该谓词所对应的三元组加入三元问句“…什么时候去世”，谓词“去世地点”和“去组列表中。世时间”都包含“去世”，但“什么时候”表达了时间。我们制定了规则解决这一类问句的谓词识别 2.5获取答案在完成谓词匹配后就能够得到谓词所对应的问题。例如，对于“什么时候”后接一个动词的，可将其映射为动词+（时间日期）。如“什么时候去三元组列表，三元组列表中每个对应object都是世”，“去世”是动词，什么时候表示时间，就可以问题的答案。三元组列表包含一个或多个答案。映射为“去世时间”或“去世日期”。表3列出了规这是因为知识库中存在很多同名实体，而且同名则示例。实体其谓词基本上是相同或相似的，导致有些问表3规则映射表句就会出现一个或多个答案。需要从答案列表中 Table 3 Examples of rule set 选择一个作为最终的答案，即答案筛选。本文采规则名称谓词映射表用的方法是对所有答案对应的实体名称进行实体什么时候*？W v+时间日期消歧，消歧后得到三元组中的object作为该问题的答案。如何.？W v+方式方法途径本文实体消歧的方法如下：在哪.*N v+地点地 1)取分词后问句中所有名词（实体词除外）：

式中：N 为链接实体中的某个谓词长度，遍历谓词的每个字 w，若 w 在问句中出现，则 n=n+1(n 的初始值为零)。本文使用的语义相似度计算是基于《知网》的相似度算法，该方法是由夏天在《汉语词语语义相似度计算研究》[19]一文中所提出的。《知网》是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在《知网》中，词汇对应于若干概念，而概念是以义原为基础通过知识库描述语言进行定义的，即概念的义项表达式，义原又通过多种关系进行描述，如上下位关系等，目前大多数学者基于《知网》的词汇语义相似度计算，其思想是整体相似度可由部分相似度加权平均进行计算。本文字面相似度和语义相似度结合匹配谓词的步骤如下： 1) 计算谓词和问句的字面相似度，若字面相似度等于 1，则表示谓词直接出现在问句中，并将该谓词所对应的三元组加入三元组列表中； 2) 计算谓词与问句中去除实体后的每个词的语义相似度，若存在与谓词语义相似度等于 1 的词，则表示谓词出现在问句中，并将该谓词所对应的三元组加入三元组列表中； 3) 若步骤 1)、2) 后，问句中都没有谓词，则取步骤 1) 中的字面相似度 sim 在 0.5~1 的谓词，计算这些谓词与问句中去除实体后的每个词的语义相似度，取其中之最大的谓词所对应的三元组加入三元组列表中。 2.4.3 规则映射法 ······ 由于 2.4.1 和 2.4.2 都是以词为单位进行谓词查找的，但是有些属性是多个词共同表达的，如问句“ 什么时候去世”，谓词“去世地点”和“去世时间”都包含“去世”，但“什么时候”表达了时间。我们制定了规则解决这一类问句的谓词识别问题。例如，对于“什么时候”后接一个动词的，可将其映射为动词+(时间|日期)。如“什么时候去世”，“去世”是动词，什么时候表示时间，就可以映射为“去世时间”或“去世日期”。表 3 列出了规则示例。表 3 规则映射表 Table 3 Examples of rule set 规则名称谓词映射表什么时候.*?/v v+时间|日期如何.*?/v v+方式|方法|途径在哪.*?/v v+地点|地若经过步骤 2.4.1 和 2.4.2 后，仍然还未找到谓词，则验证问句中是否包含表 3 中的规则，若包含则用规则映射后的词语去匹配链接实体在知识库中的每个谓词，匹配谓词的方法为步骤 2) 中的词汇字面相似度和语义相似度相结合的方法，若找到相同或相似的谓词则将该谓词所对应的三元组加入三元组列表中。 2.4.4 同义词表映射法在常见问句中还有一些问句中的谓词是以同义词的形式存在，或者每个问句格式可以对应一些特定的谓词。如问句中存在“有多高”这种疑问词，则可以将谓词映射为“高度”。对于这些问句本文采用建立同义词表的方法来做谓词映射。如 “什么意思”其同义词表可为“含义|意义|解释”。本文建立了同义词映射表，部分同义词表如表 4 所示。表 4 同义词映射表 Table 4 Examples of synonym list 问句中的词汇同义词什么意思含义|意义|解释有多长长度|片长|时间长度|路线长度有多少人人口|人数|全院人数是哪的人老家|籍贯|出生地有几笔笔画|笔划 ··· ··· 同样，问句如果经过 2.4.1、2.4.2 和 2.4.3 这 3 个步骤后还没有找到相应的答案，则验证问句中是否包含表 4 中的词汇，若包含则用同义词表中的词语去匹配实体的每个谓词，若找到相同或相似的谓词则将该谓词所对应的三元组加入三元组列表中。 2.5 获取答案在完成谓词匹配后就能够得到谓词所对应的三元组列表，三元组列表中每个对应 object 都是问题的答案。三元组列表包含一个或多个答案。这是因为知识库中存在很多同名实体，而且同名实体其谓词基本上是相同或相似的，导致有些问句就会出现一个或多个答案。需要从答案列表中选择一个作为最终的答案，即答案筛选。本文采用的方法是对所有答案对应的实体名称进行实体消歧，消歧后得到三元组中的 object 作为该问题的答案。本文实体消歧的方法如下： 1) 取分词后问句中所有名词 (实体词除外)； ·560· 智能系统学报第 13 卷

第4期张涛，等：基于知识库的开放领域问答系统 ·561· 2)对三元组列表中的subject进行分词并去 ①训练数据集：本文采用的训练数据集是除其中的标点符号； NLPCC2016测评提供的数据，其中包含14609 3)将所有subject分词后的所有词与步骤测试问句。 1)中的所有名词计算词汇语义相似度，取其中语 ②测试数据集，本文采用的测试数据集也是义相似度最大的subject所对应的object作为问句 NLPCC:2016测评提供的数据20，其中包括9870 的答案。条测试问句。如“西游记属于什么类型的书呢”，完成实体表6知识库三元组识别和分词后的句子为“西游记/entity属于/w什 Table 6 Triples in knowledge base 么y类型h的udel书h呢y”。该问句中，“西游 Subject Predicate Object 记”被识别为实体词，即主体subject。经过上述步成都别名成都骤1)，取问句中的名词“类型n书n”,其他词过成都中文名称成都滤掉。而经过谓词识别后得到知识库三元组如成都外文名称 Chengdu 表5所示。其中“西游记（吴承恩等著作小说）”，成都行政区类别地级市经过步骤2)的结果为“西游记nz吴承恩nr等N 著uzhe作/w小说/n”。然后将步骤1)和2)进行交成都所属地区中国西南叉计算语义相似度，取其中最大的语义相似度作成都邮政区码 610000 为该实体与问句的相似度。由于“小说”和“书”的语义相似度为1，所以该实体与问句的语义相似 3.2 实验评价指标度为l。由于其他subject与问句的语义相似没有此次评测使用了F-Measure值来衡量开放领比1大的，所以该问句的答案为subject为“《西域问答系统的性能。其相应的计算公式为游记》（吴承恩等著作小说）”所对应的object,即 “古典神魔小说”。 1 AveragedF1= (2) 表5“西游记”实体链接和谓词匹配后的三元组列表当C,中的值都不在A中，则F:为0，否则，使用 Table 5 Triple list of "Journey to the West"after en- tity link and predicate matching 式(3)计算F:的值： 2× #(C,A)、C,A) subject predicate object F:= ICl 4 西游记类型魔幻，剧情 #(C:A)#(C:.A) (3) 西游记（吴承恩等著作 IC IAI 类别古典神魔小说小说) 式中：拟C,A)为C,和A,中拥有相同答案的个数，西游记(2010年新版动 IC和A是各自中答案的总数。类型冒险，搞笑，神魔，电视画片) 33实验评测结果西游记（元代杨景贤创本文根据谓词识别方法的不同做了几组实类型杂剧作杂刷) 验，分别为直接匹配、直接匹配+组合谓词、直接西游记(2010年程力栋匹配+词语相似度、以及所有方法组合即本文最类型古装神话剧执导电视剧) 终采用的方法，其中词语相似度包含词语字面相 … 似度以及词语语义相似度。实验结果如表7所示，可见本文最终采用的方法的F值比其他几种 3实验结果及分析方法的F值都要好。表7评测结果 3.1实验数据集描述 Table 7 Evaluation results in the task 1)知识库 System F Score 本文中使用的知识库是NLPCC2016测评中直接匹配 0.4625 发布的知识库。知识库是以三元组的形式给出直接匹配+组合谓词 0.5402 的，三元组格式为(subject,predicate,object),总共有直接匹配+词语相似度 0.6623 43063796条三元组，其示例数据如表6所示。本文方法 2)数据集 0.6956

2) 对三元组列表中的 subject 进行分词并去除其中的标点符号； 3) 将所有 subject 分词后的所有词与步骤 1) 中的所有名词计算词汇语义相似度，取其中语义相似度最大的 subject 所对应的 object 作为问句的答案。如“西游记属于什么类型的书呢”，完成实体识别和分词后的句子为“西游记/entity 属于/v 什么/ry 类型/n 的/ude1 书/n 呢/y”。该问句中，“西游记”被识别为实体词，即主体 subject。经过上述步骤 1)，取问句中的名词 “类型/n 书/n”，其他词过滤掉。而经过谓词识别后得到知识库三元组如表 5 所示。其中“西游记 (吴承恩等著作小说)”，经过步骤 2) 的结果为“西游记/nz 吴承恩/nr 等/v 著/uzhe 作/v 小说/n”。然后将步骤 1) 和 2) 进行交叉计算语义相似度，取其中最大的语义相似度作为该实体与问句的相似度。由于“小说”和“书”的语义相似度为 1，所以该实体与问句的语义相似度为 1。由于其他 subject 与问句的语义相似没有比 1 大的，所以该问句的答案为 subject 为“《西游记》(吴承恩等著作小说)”所对应的 object，即 “古典神魔小说”。表 5 “西游记”实体链接和谓词匹配后的三元组列表 Table 5 Triple list of “Journey to the West” after entity link and predicate matching subject predicate object 西游记类型魔幻，剧情西游记 (吴承恩等著作小说) 类别古典神魔小说西游记 (2010 年新版动画片) 类型冒险，搞笑，神魔，电视西游记 (元代杨景贤创作杂剧) 类型杂剧西游记 (2010 年程力栋执导电视剧) 类型古装神话剧 ··· ··· ··· 3 实验结果及分析 3.1 实验数据集描述 1) 知识库 ⟨ subject,predicate,object⟩ 本文中使用的知识库是 NLPCC2016 测评中发布的知识库[19]。知识库是以三元组的形式给出的，三元组格式为，总共有 43 063 796 条三元组，其示例数据如表 6 所示。 2) 数据集 ①训练数据集：本文采用的训练数据集是 NLPCC2016 测评提供的数据[19] ，其中包含 14 609 测试问句。 ②测试数据集，本文采用的测试数据集也是 NLPCC2016 测评提供的数据[19-20] ，其中包括 9 870 条测试问句。表 6 知识库三元组 Table 6 Triples in knowledge base Subject Predicate Object 成都别名成都成都中文名称成都成都外文名称 Chengdu 成都行政区类别地级市成都所属地区中国西南成都邮政区码 610000 ··· ··· ··· 3.2 实验评价指标此次评测使用了 F-Measure 值来衡量开放领域问答系统的性能。其相应的计算公式为 AveragedF1 = 1 |Q| ∑ |Q| i=1 Fi (2) Ci Ai Fi Fi 当中的值都不在中，则为 0，否则，使用式 (3) 计算的值： Fi = 2× #(Ci ,Ai) |Ci | × #(Ci ,Ai) |Ai | #(Ci ,Ai) |Ci | + #(Ci ,Ai) |Ai | (3) #(Ci ,Ai) Ci Ai |Ci | |Ai | 式中：为和中拥有相同答案的个数，和是各自中答案的总数。 3.3 实验评测结果本文根据谓词识别方法的不同做了几组实验，分别为直接匹配、直接匹配+组合谓词、直接匹配+词语相似度、以及所有方法组合即本文最终采用的方法，其中词语相似度包含词语字面相似度以及词语语义相似度。实验结果如表 7 所示，可见本文最终采用的方法的 F 值比其他几种方法的 F 值都要好。表 7 评测结果 Table 7 Evaluation results in the task System F1 Score 直接匹配 0.462 5 直接匹配+组合谓词 0.540 2 直接匹配+词语相似度 0.662 3 本文方法 0.695 6 第 4 期张涛，等：基于知识库的开放领域问答系统 ·561·

·562· 智能系统学报第13卷 4结束语 lic:The Association for Computational Linguistics,2007: 678-687 针对NLPCC2016开放领域问答测评提供的 [8]KWIATKOWSKI T.ZETTLEMOYER L.GOLDWA- 问句，本文提出了一种基于知识库的开放领域问 TER S,et al.Lexical generalization in CCG grammar in- 题的问答系统构建方法，该方法首先对问句进行 duction for semantic parsing[Cl//Proceedings of 2011 Con- 实体识别，即提取出问句中的实体，在识别出问 ference on Empirical Methods in Natural Language Pro- 句实体之后则进行谓词匹配，将谓词匹配度高的 cessing.Stroudsburg,PA,USA:The Association for Com- object作为问句的答案返回。为了提高问答系统 putational Linguistics,2011:1512-1523. 的准确率，本文还对知识库进行了适当清理。实 [9]KWIATKOWSKI T,ZETTLEMOYER L,GOLDWA- TER S,et al.Inducing probabilistic CCG grammars from 验表明基于本文所提出的方法的平均F值为0.6956， logical form with higher-order unification[Cl//Proceedings 充分证明了本文所提出方法的可行性。 of 2010 Conference on Empirical Methods in Natural Lan- 参考文献： guage Processing.Stroudsburg,PA,USA:The Associ- ation for Computational Linguistics,2010:1223-1233. [1]MOONEY R J.Learning for semantic parsing[C]//Pro- [10]YE Zhonglin,JIA Zheng,YANG Yan,et al.Research on ceedings of the 8th International Conference on Computa- open domain question answering system[C//LI Juanzi,JI tional Linguistics and Intelligent Text Processing.Berlin, Heng,ZHAO Dongyan,et al.Proceedings of the 4th In- Heidelberg:Springer,2007:311-324. ternational Conference on Natural Language Processing [2]FILMAN R E,PANT S.Searching the internet[J].IEEE and Chinese Computing(NLPCC2015).Cham,Germany: internet computing,1998,2(4):21-23. Springer,2015:527-540. [3]JEON J.CROFT W B,LEE J H.Finding similar questions [11]POON H,DOMINGOS P.Unsupervised semantic pars- in large question and answer archives[C]//Proceedings of ing[C]//Proceedings of the 2009 Conference on Empirical the 14th ACM International Conference on Information Methods in Natural Language Processing.Stroudsburg, and Knowledge Management.New York.NY,USA: PA.USA:The Association for Computational Linguistics. ACM,2005:84-90 2009:1-10. [4]ZETTLEMOYER L S,COLLINS M.Learning to map sen- [12]YAHYA M,BERBERICH K,ELBASSUONI S,et al tences to logical form:structured classification with prob- Natural language questions for the web of data[C]//Pro- abilistic categorial grammars[Cl//Proceedings of the 21th ceedings of 2012 Joint Conference on Empirical Methods Conference on Uncertainty in Artificial Intelligence.Ar- lington,Virginia,USA:AUAI,2005:658-666 in Natural Language Processing and Computational Nat- [5]WONG Y W,MOONEY R J.Learning for semantic pars- ural Language Learning.Stroudsburg,PA,USA:ACL, 2012:379-390 ing with statistical machine translation[C]//Proceedings of the Main Conference on Human Language Technology [13]YAO Xuchen,BERANT J,VAN DURME B.Freebase QA:information extraction or semantic parsing[C]//Pro- Conference of the North American Chapter of the Associ- ation of Computational Linguistics.Stroudsburg,PA, ceedings of the ACL 2014 Workshop on Semantic Pars- USA:The Association for Computational Linguistics, ing.Baltimore,Maryland USA:The Association for Com- 2006:439-446. putational Linguistics,2014:82-86. [6]WONG Y W.MOONEY R J.Generation by inverting a [14]BERANT J,CHOU A,FROSTIG R,et al.Semantic pars- semantic parser that uses statistical machine translation ing on freebase from question-answer pairs[C]//Proceed- [C]//Proceeding of the Human Language Technology Con- ings of the 2013 Conference on Empirical Methods in ference of the North American Chapter of the Association Natural Language Processing.Stroudsburg,PA,USA:As- of Computational Linguistics.Rochester,New York,USA: sociation for Computational Linguistics,2013:1533- The Association for Computational Linguistics,2007: 1544. 172-179 [15]BERANT J,LIANG P.Semantic parsing via paraphras- [7]ZETTLEMOYER L S,COLLINS M.Online learning of ing[C]//Proceedings of the 52nd Annual Meeting of the relaxed CCG grammars for parsing to logical form[C]// Association for Computational Linguistics.Baltimore, Proceedings of the 2007 Joint Conference on Empirical Maryland,USA:Association for Computational Linguist- Methods in Natural Language Processing and Computa- ics,2014:1415-1425 tional Natural Language Learning.Prague,Czech Repub- [16]ZHENG Zhiping.AnswerBus question answering

4 结束语针对 NLPCC2016 开放领域问答测评提供的问句，本文提出了一种基于知识库的开放领域问题的问答系统构建方法，该方法首先对问句进行实体识别，即提取出问句中的实体，在识别出问句实体之后则进行谓词匹配，将谓词匹配度高的 object 作为问句的答案返回。为了提高问答系统的准确率，本文还对知识库进行了适当清理。实验表明基于本文所提出的方法的平均 F 值为 0.695 6，充分证明了本文所提出方法的可行性。参考文献： MOONEY R J. Learning for semantic parsing[C]//Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing. Berlin, Heidelberg: Springer, 2007: 311–324. [1] FILMAN R E, PANT S. Searching the internet[J]. IEEE internet computing, 1998, 2(4): 21–23. [2] JEON J, CROFT W B, LEE J H. Finding similar questions in large question and answer archives[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2005: 84–90. [3] ZETTLEMOYER L S, COLLINS M. Learning to map sentences to logical form: structured classification with probabilistic categorial grammars[C]//Proceedings of the 21th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, USA: AUAI, 2005: 658–666. [4] WONG Y W, MOONEY R J. Learning for semantic parsing with statistical machine translation[C]//Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2006: 439–446. [5] WONG Y W, MOONEY R J. Generation by inverting a semantic parser that uses statistical machine translation [C]//Proceeding of the Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Rochester, New York, USA: The Association for Computational Linguistics, 2007: 172–179. [6] ZETTLEMOYER L S, COLLINS M. Online learning of relaxed CCG grammars for parsing to logical form[C]// Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Repub- [7] lic: The Association for Computational Linguistics, 2007: 678–687. KWIATKOWSKI T, ZETTLEMOYER L, GOLDWATER S, et al. Lexical generalization in CCG grammar induction for semantic parsing[C]//Proceedings of 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2011: 1512–1523. [8] KWIATKOWSKI T, ZETTLEMOYER L, GOLDWATER S, et al. Inducing probabilistic CCG grammars from logical form with higher-order unification[C]//Proceedings of 2010 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2010: 1223–1233. [9] YE Zhonglin, JIA Zheng, YANG Yan, et al. Research on open domain question answering system[C]//LI Juanzi, JI Heng, ZHAO Dongyan, et al. Proceedings of the 4th International Conference on Natural Language Processing and Chinese Computing (NLPCC2015). Cham, Germany: Springer, 2015: 527–540. [10] POON H, DOMINGOS P. Unsupervised semantic parsing[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2009: 1–10. [11] YAHYA M, BERBERICH K, ELBASSUONI S, et al. Natural language questions for the web of data[C]//Proceedings of 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA, USA: ACL, 2012: 379–390. [12] YAO Xuchen, BERANT J, VAN DURME B. Freebase QA: information extraction or semantic parsing[C]//Proceedings of the ACL 2014 Workshop on Semantic Parsing. Baltimore, Maryland USA: The Association for Computational Linguistics, 2014: 82–86. [13] BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2013: 1533– 1544. [14] BERANT J, LIANG P. Semantic parsing via paraphrasing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 1415–1425. [15] [16] ZHENG Zhiping. AnswerBus question answering ·562· 智能系统学报第 13 卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录