第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201707039 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180409.1727.014html 基于知识库的开放领域问答系统 张涛,贾真,李天瑞,黄雁勇 (西南交通大学信息科学与技术学院,四川成都611756) 摘要:问答系统能够理解用户问题,并直接返回答案。现有问答系统大多是面向领域的,仅能回答特定领域 的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和 CF模型相结合的方法识别问句中的主体:其次,采用模糊匹配方法将问句中的主体与知识库中实体建立链 接:然后,通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联:最 后,进行实体消歧和答案获取。该系统平均F-Measure值为0.6956,表明所提方法在基于知识库的开放领域问 答上具有可行性。 关键词:问答系统开放领域;实体识别;实体链接:知识库 中图分类号:TP391.1文献标志码:A文章编号:1673-4785(2018)04-0557-07 中文引用格式:张涛,贾真,李天瑞,等.基于知识库的开放领域问答系统J.智能系统学报,2018,13(4):557-563 英文引用格式:ZHANG Tao,JIA Zhen,LI Tianrui,etal.Open-domain question-answering system based on large-scale knowledge baseJ.CAAI transactions on intelligent systems,2018,13(4):557-563. Open-domain question-answering system based on large-scale knowledge base ZHANG Tao,JIA Zhen,LI Tianrui,HUANG Yanyong (School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756,China) Abstract:Question-answering(QA)systems can understand user questions and return answers directly.Currently,most QA systems can only answer questions pertaining to specific domains.In this paper,we propose a method for construct- ing an open-domain QA system based on a large-scale knowledge base.First,we present an approach based on a visual dictionary and a conditional random field(CRF)model to identify the subject in question.Next,we use a fuzzy match- ing method to link the entity in question to that in the knowledge base,and apply similarity computation and rule match- ing methods to recognize the question predicates and link them to the attributes of the knowledge entity.Lastly,we im- plement entity disambiguation and answer retrieval.The mean F-measure value of the proposed system is 0.695 6, which indicates the feasibility of the proposed method for an open-domain QA system for a large-scale knowledge base. Keywords:question-answering system;open domain;entity recognition;entity linking;knowledge base 信息检索是目前互联网时代的一个热门研究 克服这个缺点,用户输入问句后问答系统会给出 方向。搜索引擎则是一种常见的信息检索手段, 一个准确简洁的答案。 它根据用户输入的查询语句进行关键字匹配,并 本文提出了一种基于知识库的开放领域自动 对结果进行排序,返回包含关键字的页面链接,问答系统。首先,对问句进行实体识别,即需要 并不会直接给出问题的答案,需要用户自己浏览明确问句问的是关于哪个实体的,实体识别是问 网页才能得到想要的答案。但是问答系统却能够 答系统中非常重要的一个部分,本文提出了自定 收稿日期:2017-07-25.网络出版日期:2018-04-10. 义词典分词与CRF模型相结合的命名实体识别 基金项目:国家自然科学基金项目(61573292):国家自然科学 基金青年科学基金项目(61603313)】 方法来完成该系统中的命名实体识别;其次,对 通信作者:张涛.E-mail:tz hangswjtu小@l63.com 实体进行链接,即用问句中识别出的实体查询知
DOI: 10.11992/tis.201707039 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180409.1727.014.html 基于知识库的开放领域问答系统 张涛,贾真,李天瑞,黄雁勇 (西南交通大学 信息科学与技术学院,四川 成都 611756) 摘 要:问答系统能够理解用户问题,并直接返回答案。现有问答系统大多是面向领域的,仅能回答特定领域 的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和 CRF 模型相结合的方法识别问句中的主体;其次,采用模糊匹配方法将问句中的主体与知识库中实体建立链 接;然后,通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联;最 后,进行实体消歧和答案获取。该系统平均 F-Measure 值为 0.695 6,表明所提方法在基于知识库的开放领域问 答上具有可行性。 关键词:问答系统;开放领域;实体识别;实体链接;知识库 中图分类号:TP391.1 文献标志码:A 文章编号:1673−4785(2018)04−0557−07 中文引用格式:张涛, 贾真, 李天瑞, 等. 基于知识库的开放领域问答系统[J]. 智能系统学报, 2018, 13(4): 557–563. 英文引用格式:ZHANG Tao, JIA Zhen, LI Tianrui, et al. Open-domain question-answering system based on large-scale knowledge base[J]. CAAI transactions on intelligent systems, 2018, 13(4): 557–563. Open-domain question-answering system based on large-scale knowledge base ZHANG Tao,JIA Zhen,LI Tianrui,HUANG Yanyong (School of Information Science and Technology, Southwest Jiaotong University, Chengdu 611756, China) Abstract: Question-answering (QA) systems can understand user questions and return answers directly. Currently, most QA systems can only answer questions pertaining to specific domains. In this paper, we propose a method for constructing an open-domain QA system based on a large-scale knowledge base. First, we present an approach based on a visual dictionary and a conditional random field (CRF) model to identify the subject in question. Next, we use a fuzzy matching method to link the entity in question to that in the knowledge base, and apply similarity computation and rule matching methods to recognize the question predicates and link them to the attributes of the knowledge entity. Lastly, we implement entity disambiguation and answer retrieval. The mean F-measure value of the proposed system is 0.695 6, which indicates the feasibility of the proposed method for an open-domain QA system for a large-scale knowledge base. Keywords: question-answering system; open domain; entity recognition; entity linking; knowledge base 信息检索是目前互联网时代的一个热门研究 方向。搜索引擎则是一种常见的信息检索手段, 它根据用户输入的查询语句进行关键字匹配,并 对结果进行排序,返回包含关键字的页面链接, 并不会直接给出问题的答案,需要用户自己浏览 网页才能得到想要的答案。但是问答系统却能够 克服这个缺点,用户输入问句后问答系统会给出 一个准确简洁的答案。 本文提出了一种基于知识库的开放领域自动 问答系统。首先,对问句进行实体识别,即需要 明确问句问的是关于哪个实体的,实体识别是问 答系统中非常重要的一个部分,本文提出了自定 义词典分词与 CRF 模型相结合的命名实体识别 方法来完成该系统中的命名实体识别;其次,对 实体进行链接,即用问句中识别出的实体查询知 收稿日期:2017−07−25. 网络出版日期:2018−04−10. 基金项目:国家自然科学基金项目 (61573292);国家自然科学 基金青年科学基金项目 (61603313). 通信作者:张涛. E-mail: tzhangswjtu@163.com. 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018
·558· 智能系统学报 第13卷 识库,返回实体名称相同或相近的实体信息,本 和CRF模型相结合的方法。实体识别的详细流 文采用模糊匹配中后模糊匹配的方法来进行实体 程如图1所示。 链接:然后,对谓词进行识别,即需要明确问句所 开始 问内容与实体的哪个属性相关,谓词识别同样也 是该系统中一个非常重要的部分,本文采用了直 利用自定义词典分词识别实体 接谓词匹配、词汇字面相似度和语义相似度及规 则映射表3种方法来完成对问句中谓词的识别; 是否含有词性为entity的词一 最后,进行实体消歧、获取答案,由于知识库中存 在很多同名实体,而且大多数同名实体的属性也 N 相同或者相似,这就会导致答案会有多条,所以需 将一些特殊词性的词标注为实体 要对包含答案的实体进行消歧,获取唯一的答案。 1相关研究 是否含有词性为entity的词 问答系统(question answering system,QA)目 前已经成为人工智能和自然语言处理领域中一个 利用CRF模型进行实体识别 备受关注并具有广泛发展前景的研究方向。现 有的问答系统可以分为:1)基于搜索引擎的问答 结束○ 系统;2)基于社区的问答系统;3)基于知识库的 问答系统;4)基于文本的问答系统。基于搜索引 图1实体识别流程图 Fig.1 Procedure of entity recognition 擎的问答系统首先需要解析问句,获得问句主体 及类型,然后在搜索引擎返回的检索结果中按照 2.2.1自定义词典分词识别实体 问句类型抽取答案回。基于社区的问答主要是问 本文采用西南交通大学分词系统,它允许加 句与互联网上的社区中用户提出的问句经过相似 载自定义分词词典进行分词。自定义词典分词过 度计算返回结果。而基于知识库的问答系统最 程中,首先是根据词典中的词进行组块分词,若 主要的工作是进行问句理解40,提取出问句中的 在自定义词典中不存在再使用原分词算法进行分 主体和谓词。比如Poon、Yahya和Berant 词和词性标注。由此本文将知识库中的subject 分别提出了基于语义分析的问答系统构建方法, 提取出来构建自定义词典用于分词,以识别问句 其主要思路是先抽取问句中的主体和谓词,然后 中的subject。但是若将知识库中的所有subject都 转化为SPARQL结构化查询语言,之后再与知识 作为词典,可能问句中的普通词也被识别为实体。 库交互得到答案。基于自由文本的问答系统则是 所以需要对subject进行筛选后再加入词典。本 从非结构化文本中抽取问句所问的答案。例如, 文将知识库中的subject进行分词,若subject分词 Zhengte提出了一种从网页文本中抽取问句答案 之后词的数目大于2,则将该subject加入词典。 的方法。 通过此方法构建的词典中包含2761745个实体 词,其中部分词典如表1所示。 2开放领域问答系统方法概述 表1自定义分词词典 2.1知识库预处理 Table 1 The dictionary of custom segment l)对subject中的英文大小写进行统一 Subject 词性 Subject 词性 因为知识库中的subject和问句中的subject 早安起床吻 entity 体外受精胚胎移植entity 存在英文大小写不统一的问题,所以将知识库 成都汇康医院 entity 我的知己在街头 entity subject中的英文都转化为小写。 不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 2)去除subject中的一些特殊的字符 成都五牛足球俱乐部 entity 字体转换器 entity 在知识库subject中存在很多特殊字符比如 河北省滨海农业研究所entity 幸福的拾荒者 entity “.”、“+”、“.”等。这些字符会影响分词和实体链 … … 接的结果,所以将subject中的这些特殊字符去掉。 2.2实体识别 若问句中没有包含词典中的词,则利用分词 本文的实体识别采用的是自定义词典分词 系统进行实体识别。例如,若问句中出现词性为
识库,返回实体名称相同或相近的实体信息,本 文采用模糊匹配中后模糊匹配的方法来进行实体 链接;然后,对谓词进行识别,即需要明确问句所 问内容与实体的哪个属性相关,谓词识别同样也 是该系统中一个非常重要的部分,本文采用了直 接谓词匹配、词汇字面相似度和语义相似度及规 则映射表 3 种方法来完成对问句中谓词的识别; 最后,进行实体消歧、获取答案,由于知识库中存 在很多同名实体,而且大多数同名实体的属性也 相同或者相似,这就会导致答案会有多条,所以需 要对包含答案的实体进行消歧,获取唯一的答案。 1 相关研究 问答系统 (question answering system, QA) 目 前已经成为人工智能和自然语言处理领域中一个 备受关注并具有广泛发展前景的研究方向[1]。现 有的问答系统可以分为:1) 基于搜索引擎的问答 系统;2) 基于社区的问答系统;3) 基于知识库的 问答系统;4) 基于文本的问答系统。基于搜索引 擎的问答系统首先需要解析问句,获得问句主体 及类型,然后在搜索引擎返回的检索结果中按照 问句类型抽取答案[2]。基于社区的问答主要是问 句与互联网上的社区中用户提出的问句经过相似 度计算返回结果[3]。而基于知识库的问答系统最 主要的工作是进行问句理解[4-10] ,提取出问句中的 主体和谓词。比如 Poon[11] 、Yahya[12]和 Berant[13-15] 分别提出了基于语义分析的问答系统构建方法, 其主要思路是先抽取问句中的主体和谓词,然后 转化为 SPARQL 结构化查询语言,之后再与知识 库交互得到答案。基于自由文本的问答系统则是 从非结构化文本中抽取问句所问的答案。例如, Zheng[16]提出了一种从网页文本中抽取问句答案 的方法。 2 开放领域问答系统方法概述 2.1 知识库预处理 1) 对 subject 中的英文大小写进行统一 因为知识库中的 subject 和问句中的 subject 存在英文大小写不统一的问题,所以将知识库 subject 中的英文都转化为小写。 2) 去除 subject 中的一些特殊的字符 在知识库 subject 中存在很多特殊字符比如 “-”、“+”、“.”等。这些字符会影响分词和实体链 接的结果,所以将 subject 中的这些特殊字符去掉。 2.2 实体识别 本文的实体识别采用的是自定义词典分词 和 CRF 模型相结合的方法。实体识别的详细流 程如图 1 所示。 开始 利用自定义词典分词识别实体 将一些特殊词性的词标注为实体 利用 CRF 模型进行实体识别 是否含有词性为 entity 的词 是否含有词性为 entity 的词 N N 结束 Y Y 图 1 实体识别流程图 Fig. 1 Procedure of entity recognition 2.2.1 自定义词典分词识别实体 本文采用西南交通大学分词系统,它允许加 载自定义分词词典进行分词。自定义词典分词过 程中,首先是根据词典中的词进行组块分词,若 在自定义词典中不存在再使用原分词算法进行分 词和词性标注。由此本文将知识库中的 subject 提取出来构建自定义词典用于分词,以识别问句 中的 subject。但是若将知识库中的所有 subject 都 作为词典,可能问句中的普通词也被识别为实体。 所以需要对 subject 进行筛选后再加入词典。本 文将知识库中的 subject 进行分词,若 subject 分词 之后词的数目大于 2,则将该 subject 加入词典。 通过此方法构建的词典中包含 2 761 745 个实体 词,其中部分词典如表 1 所示。 表 1 自定义分词词典 Table 1 The dictionary of custom segment Subject 词性 Subject 词性 早安起床吻 entity 体外受精胚胎移植 entity 成都汇康医院 entity 我的知己在街头 entity 不倒翁的奇幻旅程 entity 鞍山巴黎花园 entity 成都五牛足球俱乐部 entity 字体转换器 entity 河北省滨海农业研究所 entity 幸福的拾荒者 entity ······ ··· ··· ··· 若问句中没有包含词典中的词,则利用分词 系统进行实体识别。例如,若问句中出现词性为 ·558· 智 能 系 统 学 报 第 13 卷
第4期 张涛,等:基于知识库的开放领域问答系统 ·559· nr、nh、nt等的词,则将其标注为实体。具体标记 用技术。本文采用的是模糊匹配中后模糊匹配的 的词性和词性说明如表2所示。问句中没有包含 方法进行实体链接。具体方法步骤如下: 这些词性,则采用图1的算法进行实体识别。 1)将问句中识别出的实体去除其中含括号的 表2词性和词性说明表 消歧项,只保留实体原名称,如:“武汉大学学报 Table 2 The part of speech and its instruction (医学版)/entity”,去除括号内消歧项,只保留“武 词性 词性说明 词性 词性说明 汉大学学报”。 nr 人名 nt 机构团体名 2)用去除消歧项的实体名称到知识库中进行 后模糊匹配查找,后模糊匹配即忽略知识库中实 ns 地名 nh 医药疾病等健康相关名词 体名称后面的所有词,只关注知识库中subject的 nb 生物名 nf 食品 前n个字是否与所要查找的实体名称是否一致, g 学术词汇 n为待查找实体名称的长度。如“武汉大学学 2.2.2基于CRF的实体识别 报”,只关注知识库subject的前6个字是否与“武 I)CRF模型介绍 汉大学学报”完全匹配。 条件随机场算法(conditional random field al- 3)由于后模糊匹配有可能找出一些实体名称 gorithm,CRF)被认为是一种基于图模型的算法, 根本不可能是一个实体的subject,,如在知识库中 由于该图是一种无向图,因此也是一种无向图模 用后模糊匹配查找“李明”,这会返回一下几个实 型。在图模型中,其中的结点表示算法的输入 体:“李明(苏州大学教授)”、“李明慧(大连轻工业 序列和输出序列,主要用来计算输出序列的概率 学院副教授)”、“李明(中医药研究教授)”等。其 问题。条件随机场算法最主要的功能就是让无向 中“李明慧(大连轻工业学院副教授)”就与“李明” 不可能是同一个实体,这是后模糊匹配忽略了“李 图中的各个结点呈现出线性结构。线性的条件随 机场算法同时也是一个有限的状态机,该状态机 明”之后的所有词才导致了这个结果,对于这种情 可以进行线性数据的序列标注工作。当有限状态 况本文首先对查找出来的实体去除括号里面的消 机接收到输入的序列后,线性的条件随机场算法 歧项,然后与原查找名称进行比较,若不相等则 删掉该实体。 可以计算出输出序列,并且能够返回该输出序列 2.4谓词匹配 的条件概率。在条件随机场算法中,训练模型的 谓词匹配的作用是确定问句问的是实体的哪 主要功能就是得到条件概率最大的模型。 个属性(谓词)。本文采用了多种谓词匹配方法, 2)CRF实体识别 其中包括直接谓词匹配法、词汇字面相似度和语 由于建立词典和标记特殊词性的实体识别方 义相似度相结合的方法、规则映射法以及同义词 法不能完全识别出所有问句中的实体,所以本文 表映射法。 采用了CRF算法来做进一步的实体识别。CRF 2.4.1直接谓词匹配法 是一种常见的命名实体识别方法,并取得了比较 在自然语言问句中有经常会出现很多问句中 好的实验结果。用CRF做命名实体识别的步骤 直接包含谓词的情况,可以通过直接谓词匹配的 如下: 方法进行查找答案。具体方法如下:提取所有链 1)人工标注一些问句中的实体作为训练数据; 接实体的谓词作为候选谓词,然后进行直接匹 2)用标注好实体的训练数据训练CRF模型; 配。若问句中除去实体之外的词中包含谓词,则 3)用CRF模型来对未标注实体的问句进行 将该谓词所对应的三元组加入三元组列表中。 实体标注。 2.4.2词汇字面相似度和语义相似度相结合的 本文利用已知实体回标的方式自动获取训练 方法 数据。即通过3.2.1中的方法得到实体所在的问 由于语言表达的多样性,问句中的很多谓词 句作为实体识别的训练数据。但是这些训练数据 并不能通过直接匹配法找到。针对那些谓词不是 中存在少量错误,需要人工再对训练数据做出修 直接包含在问句中或谓词以同义词的形式出现在 正。我们一共标注了约13000条训练数据。 问句中的情况,本文采用了字面相似度和语义相 2.3实体链接 似度相结合的方法来识别谓词。字面相似度计算 命名实体链接是指将文本中已经识别出的命 公式为 名实体链接到知识库中的一个具体真实实体的过 程。实体链接是目前自然语言处理领域的一种常 sim= (1)
nr、nh、nt 等的词,则将其标注为实体。具体标记 的词性和词性说明如表 2 所示。问句中没有包含 这些词性,则采用图 1 的算法进行实体识别。 表 2 词性和词性说明表 Table 2 The part of speech and its instruction 词性 词性说明 词性 词性说明 nr 人名 nt 机构团体名 ns 地名 nh 医药疾病等健康相关名词 nb 生物名 nf 食品 g 学术词汇 2.2.2 基于 CRF 的实体识别 1) CRF 模型介绍 条件随机场算法 (conditional random field algorithm, CRF) 被认为是一种基于图模型的算法, 由于该图是一种无向图,因此也是一种无向图模 型 [17]。在图模型中,其中的结点表示算法的输入 序列和输出序列,主要用来计算输出序列的概率 问题。条件随机场算法最主要的功能就是让无向 图中的各个结点呈现出线性结构。线性的条件随 机场算法同时也是一个有限的状态机,该状态机 可以进行线性数据的序列标注工作。当有限状态 机接收到输入的序列后,线性的条件随机场算法 可以计算出输出序列,并且能够返回该输出序列 的条件概率。在条件随机场算法中,训练模型的 主要功能就是得到条件概率最大的模型[18]。 2) CRF 实体识别 由于建立词典和标记特殊词性的实体识别方 法不能完全识别出所有问句中的实体,所以本文 采用了 CRF 算法来做进一步的实体识别。CRF 是一种常见的命名实体识别方法,并取得了比较 好的实验结果。用 CRF 做命名实体识别的步骤 如下: 1) 人工标注一些问句中的实体作为训练数据; 2) 用标注好实体的训练数据训练 CRF 模型; 3) 用 CRF 模型来对未标注实体的问句进行 实体标注。 本文利用已知实体回标的方式自动获取训练 数据。即通过 3.2.1 中的方法得到实体所在的问 句作为实体识别的训练数据。但是这些训练数据 中存在少量错误,需要人工再对训练数据做出修 正。我们一共标注了约 13 000 条训练数据。 2.3 实体链接 命名实体链接是指将文本中已经识别出的命 名实体链接到知识库中的一个具体真实实体的过 程。实体链接是目前自然语言处理领域的一种常 用技术。本文采用的是模糊匹配中后模糊匹配的 方法进行实体链接。具体方法步骤如下: 1) 将问句中识别出的实体去除其中含括号的 消歧项,只保留实体原名称,如:“武汉大学学报 (医学版)/entity”,去除括号内消歧项,只保留“武 汉大学学报”。 2) 用去除消歧项的实体名称到知识库中进行 后模糊匹配查找,后模糊匹配即忽略知识库中实 体名称后面的所有词,只关注知识库中 subject 的 前 n 个字是否与所要查找的实体名称是否一致, n 为待查找实体名称的长度。如“武汉大学学 报”,只关注知识库 subject 的前 6 个字是否与“武 汉大学学报”完全匹配。 3) 由于后模糊匹配有可能找出一些实体名称 根本不可能是一个实体的 subject,如在知识库中 用后模糊匹配查找“李明”,这会返回一下几个实 体:“李明 (苏州大学教授)”、“李明慧 (大连轻工业 学院副教授)”、“李明 (中医药研究教授)”等。其 中“李明慧 (大连轻工业学院副教授)”就与“李明” 不可能是同一个实体,这是后模糊匹配忽略了“李 明”之后的所有词才导致了这个结果,对于这种情 况本文首先对查找出来的实体去除括号里面的消 歧项,然后与原查找名称进行比较,若不相等则 删掉该实体。 2.4 谓词匹配 谓词匹配的作用是确定问句问的是实体的哪 个属性 (谓词)。本文采用了多种谓词匹配方法, 其中包括直接谓词匹配法、词汇字面相似度和语 义相似度相结合的方法、规则映射法以及同义词 表映射法。 2.4.1 直接谓词匹配法 在自然语言问句中有经常会出现很多问句中 直接包含谓词的情况,可以通过直接谓词匹配的 方法进行查找答案。具体方法如下:提取所有链 接实体的谓词作为候选谓词,然后进行直接匹 配。若问句中除去实体之外的词中包含谓词,则 将该谓词所对应的三元组加入三元组列表中。 2.4.2 词汇字面相似度和语义相似度相结合的 方法 由于语言表达的多样性,问句中的很多谓词 并不能通过直接匹配法找到。针对那些谓词不是 直接包含在问句中或谓词以同义词的形式出现在 问句中的情况,本文采用了字面相似度和语义相 似度相结合的方法来识别谓词。字面相似度计算 公式为 sim = n N (1) 第 4 期 张涛,等:基于知识库的开放领域问答系统 ·559·
·560· 智能系统学报 第13卷 式中:N为链接实体中的某个谓词长度,遍历谓词 若经过步骤2.4.1和2.4.2后,仍然还未找到 的每个字w,若w在问句中出现,则n=+1(n的初 谓词,则验证问句中是否包含表3中的规则,若包 始值为零)如 含则用规则映射后的词语去匹配链接实体在知识 本文使用的语义相似度计算是基于《知网》 库中的每个谓词,匹配谓词的方法为步骤2)中的 的相似度算法,该方法是由夏天在《汉语词语语 词汇字面相似度和语义相似度相结合的方法,若 义相似度计算研究》一文中所提出的。《知 找到相同或相似的谓词则将该谓词所对应的三元 网》是一个以汉语和英语的词语所代表的概念为 组加入三元组列表中。 描述对象,以揭示概念与概念之间以及概念所具 2.4.4同义词表映射法 有的属性之间的关系为基本内容的常识知识库。 在常见问句中还有一些问句中的谓词是以同 在《知网》中,词汇对应于若干概念,而概念是 义词的形式存在,或者每个问句格式可以对应 以义原为基础通过知识库描述语言进行定义的, 些特定的谓词。如问句中存在“有多高”这种疑问 即概念的义项表达式,义原又通过多种关系进行 词,则可以将谓词映射为“高度”。对于这些问句 描述,如上下位关系等,目前大多数学者基于《知 本文采用建立同义词表的方法来做谓词映射。如 网》的词汇语义相似度计算,其思想是整体相似 度可由部分相似度加权平均进行计算。 “什么意思”其同义词表可为“含义意义解释”。 本文字面相似度和语义相似度结合匹配谓词 本文建立了同义词映射表,部分同义词表如表4 的步骤如下: 所示。 1)计算谓词和问句的字面相似度,若字面相 表4同义词映射表 Table 4 Examples of synonym list 似度等于1,则表示谓词直接出现在问句中,并将 该谓词所对应的三元组加入三元组列表中: 问句中的词汇 同义词 2)计算谓词与问句中去除实体后的每个词的 什么意思 含义意义解释 语义相似度,若存在与谓词语义相似度等于1的 有多长 长度片长时间长度路线长度 词,则表示谓词出现在问句中,并将该谓词所对 有多少人 人口人数全院人数 应的三元组加入三元组列表中; 是哪的人 老家籍贯出生地 3)若步骤1)、2)后,问句中都没有谓词,则取 步骤1)中的字面相似度sim在0.5~1的谓词,计 有几笔 笔画笔划 … 算这些谓词与问句中去除实体后的每个词的语义 相似度,取其中之最大的谓词所对应的三元组加 同样,问句如果经过2.4.1、2.4.2和2.4.3这 入三元组列表中。 3个步骤后还没有找到相应的答案,则验证问句 2.4.3规则映射法 中是否包含表4中的词汇,若包含则用同义词表 由于2.4.1和2.4.2都是以词为单位进行谓词 中的词语去匹配实体的每个谓词,若找到相同或 查找的,但是有些属性是多个词共同表达的,如 相似的谓词则将该谓词所对应的三元组加入三元 问句“…什么时候去世”,谓词“去世地点”和“去 组列表中。 世时间”都包含“去世”,但“什么时候”表达了时 间。我们制定了规则解决这一类问句的谓词识别 2.5获取答案 在完成谓词匹配后就能够得到谓词所对应的 问题。例如,对于“什么时候”后接一个动词的, 可将其映射为动词+(时间日期)。如“什么时候去 三元组列表,三元组列表中每个对应object都是 世”,“去世”是动词,什么时候表示时间,就可以 问题的答案。三元组列表包含一个或多个答案。 映射为“去世时间”或“去世日期”。表3列出了规 这是因为知识库中存在很多同名实体,而且同名 则示例。 实体其谓词基本上是相同或相似的,导致有些问 表3规则映射表 句就会出现一个或多个答案。需要从答案列表中 Table 3 Examples of rule set 选择一个作为最终的答案,即答案筛选。本文采 规则名称 谓词映射表 用的方法是对所有答案对应的实体名称进行实体 什么时候*?W v+时间日期 消歧,消歧后得到三元组中的object作为该问题 的答案。 如何.?W v+方式方法途径 本文实体消歧的方法如下: 在哪.*N v+地点地 1)取分词后问句中所有名词(实体词除外):
式中:N 为链接实体中的某个谓词长度,遍历谓词 的每个字 w,若 w 在问句中出现,则 n=n+1(n 的初 始值为零)。 本文使用的语义相似度计算是基于《知网》 的相似度算法,该方法是由夏天在《汉语词语语 义相似度计算研究》[19]一文中所提出的。《知 网》是一个以汉语和英语的词语所代表的概念为 描述对象,以揭示概念与概念之间以及概念所具 有的属性之间的关系为基本内容的常识知识库。 在《知网》中,词汇对应于若干概念,而概念是 以义原为基础通过知识库描述语言进行定义的, 即概念的义项表达式,义原又通过多种关系进行 描述,如上下位关系等,目前大多数学者基于《知 网》的词汇语义相似度计算,其思想是整体相似 度可由部分相似度加权平均进行计算。 本文字面相似度和语义相似度结合匹配谓词 的步骤如下: 1) 计算谓词和问句的字面相似度,若字面相 似度等于 1,则表示谓词直接出现在问句中,并将 该谓词所对应的三元组加入三元组列表中; 2) 计算谓词与问句中去除实体后的每个词的 语义相似度,若存在与谓词语义相似度等于 1 的 词,则表示谓词出现在问句中,并将该谓词所对 应的三元组加入三元组列表中; 3) 若步骤 1)、2) 后,问句中都没有谓词,则取 步骤 1) 中的字面相似度 sim 在 0.5~1 的谓词,计 算这些谓词与问句中去除实体后的每个词的语义 相似度,取其中之最大的谓词所对应的三元组加 入三元组列表中。 2.4.3 规则映射法 ······ 由于 2.4.1 和 2.4.2 都是以词为单位进行谓词 查找的,但是有些属性是多个词共同表达的,如 问句“ 什么时候去世”,谓词“去世地点”和“去 世时间”都包含“去世”,但“什么时候”表达了时 间。我们制定了规则解决这一类问句的谓词识别 问题。例如,对于“什么时候”后接一个动词的, 可将其映射为动词+(时间|日期)。如“什么时候去 世”,“去世”是动词,什么时候表示时间,就可以 映射为“去世时间”或“去世日期”。表 3 列出了规 则示例。 表 3 规则映射表 Table 3 Examples of rule set 规则名称 谓词映射表 什么时候.*?/v v+时间|日期 如何.*?/v v+方式|方法|途径 在哪.*?/v v+地点|地 若经过步骤 2.4.1 和 2.4.2 后,仍然还未找到 谓词,则验证问句中是否包含表 3 中的规则,若包 含则用规则映射后的词语去匹配链接实体在知识 库中的每个谓词,匹配谓词的方法为步骤 2) 中的 词汇字面相似度和语义相似度相结合的方法,若 找到相同或相似的谓词则将该谓词所对应的三元 组加入三元组列表中。 2.4.4 同义词表映射法 在常见问句中还有一些问句中的谓词是以同 义词的形式存在,或者每个问句格式可以对应一 些特定的谓词。如问句中存在“有多高”这种疑问 词,则可以将谓词映射为“高度”。对于这些问句 本文采用建立同义词表的方法来做谓词映射。如 “什么意思”其同义词表可为“含义|意义|解释”。 本文建立了同义词映射表,部分同义词表如表 4 所示。 表 4 同义词映射表 Table 4 Examples of synonym list 问句中的词汇 同义词 什么意思 含义|意义|解释 有多长 长度|片长|时间长度|路线长度 有多少人 人口|人数|全院人数 是哪的人 老家|籍贯|出生地 有几笔 笔画|笔划 ··· ··· 同样,问句如果经过 2.4.1、2.4.2 和 2.4.3 这 3 个步骤后还没有找到相应的答案,则验证问句 中是否包含表 4 中的词汇,若包含则用同义词表 中的词语去匹配实体的每个谓词,若找到相同或 相似的谓词则将该谓词所对应的三元组加入三元 组列表中。 2.5 获取答案 在完成谓词匹配后就能够得到谓词所对应的 三元组列表,三元组列表中每个对应 object 都是 问题的答案。三元组列表包含一个或多个答案。 这是因为知识库中存在很多同名实体,而且同名 实体其谓词基本上是相同或相似的,导致有些问 句就会出现一个或多个答案。需要从答案列表中 选择一个作为最终的答案,即答案筛选。本文采 用的方法是对所有答案对应的实体名称进行实体 消歧,消歧后得到三元组中的 object 作为该问题 的答案。 本文实体消歧的方法如下: 1) 取分词后问句中所有名词 (实体词除外); ·560· 智 能 系 统 学 报 第 13 卷
第4期 张涛,等:基于知识库的开放领域问答系统 ·561· 2)对三元组列表中的subject进行分词并去 ①训练数据集:本文采用的训练数据集是 除其中的标点符号; NLPCC2016测评提供的数据,其中包含14609 3)将所有subject分词后的所有词与步骤 测试问句。 1)中的所有名词计算词汇语义相似度,取其中语 ②测试数据集,本文采用的测试数据集也是 义相似度最大的subject所对应的object作为问句 NLPCC:2016测评提供的数据20,其中包括9870 的答案。 条测试问句。 如“西游记属于什么类型的书呢”,完成实体 表6知识库三元组 识别和分词后的句子为“西游记/entity属于/w什 Table 6 Triples in knowledge base 么y类型h的udel书h呢y”。该问句中,“西游 Subject Predicate Object 记”被识别为实体词,即主体subject。经过上述步 成都 别名 成都 骤1),取问句中的名词“类型n书n”,其他词过 成都 中文名称 成都 滤掉。而经过谓词识别后得到知识库三元组如 成都 外文名称 Chengdu 表5所示。其中“西游记(吴承恩等著作小说)”, 成都 行政区类别 地级市 经过步骤2)的结果为“西游记nz吴承恩nr等N 著uzhe作/w小说/n”。然后将步骤1)和2)进行交 成都 所属地区 中国西南 叉计算语义相似度,取其中最大的语义相似度作 成都 邮政区码 610000 为该实体与问句的相似度。由于“小说”和“书”的 语义相似度为1,所以该实体与问句的语义相似 3.2 实验评价指标 度为l。由于其他subject与问句的语义相似没有 此次评测使用了F-Measure值来衡量开放领 比1大的,所以该问句的答案为subject为“《西 域问答系统的性能。其相应的计算公式为 游记》(吴承恩等著作小说)”所对应的object,即 “古典神魔小说”。 1 AveragedF1= (2) 表5“西游记”实体链接和谓词匹配后的三元组列表 当C,中的值都不在A中,则F:为0,否则,使用 Table 5 Triple list of "Journey to the West"after en- tity link and predicate matching 式(3)计算F:的值: 2× #(C,A)、C,A) subject predicate object F:= ICl 4 西游记 类型 魔幻,剧情 #(C:A)#(C:.A) (3) 西游记(吴承恩等著作 IC IAI 类别 古典神魔小说 小说) 式中:拟C,A)为C,和A,中拥有相同答案的个数, 西游记(2010年新版动 IC和A是各自中答案的总数。 类型 冒险,搞笑,神魔,电视 画片) 33实验评测结果 西游记(元代杨景贤创 本文根据谓词识别方法的不同做了几组实 类型 杂剧 作杂刷) 验,分别为直接匹配、直接匹配+组合谓词、直接 西游记(2010年程力栋 匹配+词语相似度、以及所有方法组合即本文最 类型 古装神话剧 执导电视剧) 终采用的方法,其中词语相似度包含词语字面相 … 似度以及词语语义相似度。实验结果如表7所 示,可见本文最终采用的方法的F值比其他几种 3实验结果及分析 方法的F值都要好。 表7评测结果 3.1实验数据集描述 Table 7 Evaluation results in the task 1)知识库 System F Score 本文中使用的知识库是NLPCC2016测评中 直接匹配 0.4625 发布的知识库。知识库是以三元组的形式给出 直接匹配+组合谓词 0.5402 的,三元组格式为(subject,predicate,object),总共有 直接匹配+词语相似度 0.6623 43063796条三元组,其示例数据如表6所示。 本文方法 2)数据集 0.6956
2) 对三元组列表中的 subject 进行分词并去 除其中的标点符号; 3) 将所有 subject 分词后的所有词与步骤 1) 中的所有名词计算词汇语义相似度,取其中语 义相似度最大的 subject 所对应的 object 作为问句 的答案。 如“西游记属于什么类型的书呢”,完成实体 识别和分词后的句子为“西游记/entity 属于/v 什 么/ry 类型/n 的/ude1 书/n 呢/y”。该问句中,“西游 记”被识别为实体词,即主体 subject。经过上述步 骤 1),取问句中的名词 “类型/n 书/n”,其他词过 滤掉。而经过谓词识别后得到知识库三元组如 表 5 所示。其中“西游记 (吴承恩等著作小说)”, 经过步骤 2) 的结果为“西游记/nz 吴承恩/nr 等/v 著/uzhe 作/v 小说/n”。然后将步骤 1) 和 2) 进行交 叉计算语义相似度,取其中最大的语义相似度作 为该实体与问句的相似度。由于“小说”和“书”的 语义相似度为 1,所以该实体与问句的语义相似 度为 1。由于其他 subject 与问句的语义相似没有 比 1 大的,所以该问句的答案为 subject 为“《西 游记》(吴承恩等著作小说)”所对应的 object,即 “古典神魔小说”。 表 5 “西游记”实体链接和谓词匹配后的三元组列表 Table 5 Triple list of “Journey to the West” after entity link and predicate matching subject predicate object 西游记 类型 魔幻,剧情 西游记 (吴承恩等著作 小说) 类别 古典神魔小说 西游记 (2010 年新版动 画片) 类型 冒险,搞笑,神魔,电视 西游记 (元代杨景贤创 作杂剧) 类型 杂剧 西游记 (2010 年程力栋 执导电视剧) 类型 古装神话剧 ··· ··· ··· 3 实验结果及分析 3.1 实验数据集描述 1) 知识库 ⟨ subject,predicate,object⟩ 本文中使用的知识库是 NLPCC2016 测评中 发布的知识库[19]。知识库是以三元组的形式给出 的,三元组格式为 ,总共有 43 063 796 条三元组,其示例数据如表 6 所示。 2) 数据集 ①训练数据集:本文采用的训练数据集是 NLPCC2016 测评提供的数据[19] ,其中包含 14 609 测试问句。 ②测试数据集,本文采用的测试数据集也是 NLPCC2016 测评提供的数据[19-20] ,其中包括 9 870 条测试问句。 表 6 知识库三元组 Table 6 Triples in knowledge base Subject Predicate Object 成都 别名 成都 成都 中文名称 成都 成都 外文名称 Chengdu 成都 行政区类别 地级市 成都 所属地区 中国西南 成都 邮政区码 610000 ··· ··· ··· 3.2 实验评价指标 此次评测使用了 F-Measure 值来衡量开放领 域问答系统的性能。其相应的计算公式为 AveragedF1 = 1 |Q| ∑ |Q| i=1 Fi (2) Ci Ai Fi Fi 当 中的值都不在 中,则 为 0,否则,使用 式 (3) 计算 的值: Fi = 2× #(Ci ,Ai) |Ci | × #(Ci ,Ai) |Ai | #(Ci ,Ai) |Ci | + #(Ci ,Ai) |Ai | (3) #(Ci ,Ai) Ci Ai |Ci | |Ai | 式中: 为 和 中拥有相同答案的个数, 和 是各自中答案的总数。 3.3 实验评测结果 本文根据谓词识别方法的不同做了几组实 验,分别为直接匹配、直接匹配+组合谓词、直接 匹配+词语相似度、以及所有方法组合即本文最 终采用的方法,其中词语相似度包含词语字面相 似度以及词语语义相似度。实验结果如表 7 所 示,可见本文最终采用的方法的 F 值比其他几种 方法的 F 值都要好。 表 7 评测结果 Table 7 Evaluation results in the task System F1 Score 直接匹配 0.462 5 直接匹配+组合谓词 0.540 2 直接匹配+词语相似度 0.662 3 本文方法 0.695 6 第 4 期 张涛,等:基于知识库的开放领域问答系统 ·561·
·562· 智能系统学报 第13卷 4结束语 lic:The Association for Computational Linguistics,2007: 678-687 针对NLPCC2016开放领域问答测评提供的 [8]KWIATKOWSKI T.ZETTLEMOYER L.GOLDWA- 问句,本文提出了一种基于知识库的开放领域问 TER S,et al.Lexical generalization in CCG grammar in- 题的问答系统构建方法,该方法首先对问句进行 duction for semantic parsing[Cl//Proceedings of 2011 Con- 实体识别,即提取出问句中的实体,在识别出问 ference on Empirical Methods in Natural Language Pro- 句实体之后则进行谓词匹配,将谓词匹配度高的 cessing.Stroudsburg,PA,USA:The Association for Com- object作为问句的答案返回。为了提高问答系统 putational Linguistics,2011:1512-1523. 的准确率,本文还对知识库进行了适当清理。实 [9]KWIATKOWSKI T,ZETTLEMOYER L,GOLDWA- TER S,et al.Inducing probabilistic CCG grammars from 验表明基于本文所提出的方法的平均F值为0.6956, logical form with higher-order unification[Cl//Proceedings 充分证明了本文所提出方法的可行性。 of 2010 Conference on Empirical Methods in Natural Lan- 参考文献: guage Processing.Stroudsburg,PA,USA:The Associ- ation for Computational Linguistics,2010:1223-1233. [1]MOONEY R J.Learning for semantic parsing[C]//Pro- [10]YE Zhonglin,JIA Zheng,YANG Yan,et al.Research on ceedings of the 8th International Conference on Computa- open domain question answering system[C//LI Juanzi,JI tional Linguistics and Intelligent Text Processing.Berlin, Heng,ZHAO Dongyan,et al.Proceedings of the 4th In- Heidelberg:Springer,2007:311-324. ternational Conference on Natural Language Processing [2]FILMAN R E,PANT S.Searching the internet[J].IEEE and Chinese Computing(NLPCC2015).Cham,Germany: internet computing,1998,2(4):21-23. Springer,2015:527-540. [3]JEON J.CROFT W B,LEE J H.Finding similar questions [11]POON H,DOMINGOS P.Unsupervised semantic pars- in large question and answer archives[C]//Proceedings of ing[C]//Proceedings of the 2009 Conference on Empirical the 14th ACM International Conference on Information Methods in Natural Language Processing.Stroudsburg, and Knowledge Management.New York.NY,USA: PA.USA:The Association for Computational Linguistics. ACM,2005:84-90 2009:1-10. [4]ZETTLEMOYER L S,COLLINS M.Learning to map sen- [12]YAHYA M,BERBERICH K,ELBASSUONI S,et al tences to logical form:structured classification with prob- Natural language questions for the web of data[C]//Pro- abilistic categorial grammars[Cl//Proceedings of the 21th ceedings of 2012 Joint Conference on Empirical Methods Conference on Uncertainty in Artificial Intelligence.Ar- lington,Virginia,USA:AUAI,2005:658-666 in Natural Language Processing and Computational Nat- [5]WONG Y W,MOONEY R J.Learning for semantic pars- ural Language Learning.Stroudsburg,PA,USA:ACL, 2012:379-390 ing with statistical machine translation[C]//Proceedings of the Main Conference on Human Language Technology [13]YAO Xuchen,BERANT J,VAN DURME B.Freebase QA:information extraction or semantic parsing[C]//Pro- Conference of the North American Chapter of the Associ- ation of Computational Linguistics.Stroudsburg,PA, ceedings of the ACL 2014 Workshop on Semantic Pars- USA:The Association for Computational Linguistics, ing.Baltimore,Maryland USA:The Association for Com- 2006:439-446. putational Linguistics,2014:82-86. [6]WONG Y W.MOONEY R J.Generation by inverting a [14]BERANT J,CHOU A,FROSTIG R,et al.Semantic pars- semantic parser that uses statistical machine translation ing on freebase from question-answer pairs[C]//Proceed- [C]//Proceeding of the Human Language Technology Con- ings of the 2013 Conference on Empirical Methods in ference of the North American Chapter of the Association Natural Language Processing.Stroudsburg,PA,USA:As- of Computational Linguistics.Rochester,New York,USA: sociation for Computational Linguistics,2013:1533- The Association for Computational Linguistics,2007: 1544. 172-179 [15]BERANT J,LIANG P.Semantic parsing via paraphras- [7]ZETTLEMOYER L S,COLLINS M.Online learning of ing[C]//Proceedings of the 52nd Annual Meeting of the relaxed CCG grammars for parsing to logical form[C]// Association for Computational Linguistics.Baltimore, Proceedings of the 2007 Joint Conference on Empirical Maryland,USA:Association for Computational Linguist- Methods in Natural Language Processing and Computa- ics,2014:1415-1425 tional Natural Language Learning.Prague,Czech Repub- [16]ZHENG Zhiping.AnswerBus question answering
4 结束语 针对 NLPCC2016 开放领域问答测评提供的 问句,本文提出了一种基于知识库的开放领域问 题的问答系统构建方法,该方法首先对问句进行 实体识别,即提取出问句中的实体,在识别出问 句实体之后则进行谓词匹配,将谓词匹配度高的 object 作为问句的答案返回。为了提高问答系统 的准确率,本文还对知识库进行了适当清理。实 验表明基于本文所提出的方法的平均 F 值为 0.695 6, 充分证明了本文所提出方法的可行性。 参考文献: MOONEY R J. Learning for semantic parsing[C]//Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing. Berlin, Heidelberg: Springer, 2007: 311–324. [1] FILMAN R E, PANT S. Searching the internet[J]. IEEE internet computing, 1998, 2(4): 21–23. [2] JEON J, CROFT W B, LEE J H. Finding similar questions in large question and answer archives[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2005: 84–90. [3] ZETTLEMOYER L S, COLLINS M. Learning to map sentences to logical form: structured classification with probabilistic categorial grammars[C]//Proceedings of the 21th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, USA: AUAI, 2005: 658–666. [4] WONG Y W, MOONEY R J. Learning for semantic parsing with statistical machine translation[C]//Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2006: 439–446. [5] WONG Y W, MOONEY R J. Generation by inverting a semantic parser that uses statistical machine translation [C]//Proceeding of the Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Rochester, New York, USA: The Association for Computational Linguistics, 2007: 172–179. [6] ZETTLEMOYER L S, COLLINS M. Online learning of relaxed CCG grammars for parsing to logical form[C]// Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Repub- [7] lic: The Association for Computational Linguistics, 2007: 678–687. KWIATKOWSKI T, ZETTLEMOYER L, GOLDWATER S, et al. Lexical generalization in CCG grammar induction for semantic parsing[C]//Proceedings of 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2011: 1512–1523. [8] KWIATKOWSKI T, ZETTLEMOYER L, GOLDWATER S, et al. Inducing probabilistic CCG grammars from logical form with higher-order unification[C]//Proceedings of 2010 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2010: 1223–1233. [9] YE Zhonglin, JIA Zheng, YANG Yan, et al. Research on open domain question answering system[C]//LI Juanzi, JI Heng, ZHAO Dongyan, et al. Proceedings of the 4th International Conference on Natural Language Processing and Chinese Computing (NLPCC2015). Cham, Germany: Springer, 2015: 527–540. [10] POON H, DOMINGOS P. Unsupervised semantic parsing[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: The Association for Computational Linguistics, 2009: 1–10. [11] YAHYA M, BERBERICH K, ELBASSUONI S, et al. Natural language questions for the web of data[C]//Proceedings of 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA, USA: ACL, 2012: 379–390. [12] YAO Xuchen, BERANT J, VAN DURME B. Freebase QA: information extraction or semantic parsing[C]//Proceedings of the ACL 2014 Workshop on Semantic Parsing. Baltimore, Maryland USA: The Association for Computational Linguistics, 2014: 82–86. [13] BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2013: 1533– 1544. [14] BERANT J, LIANG P. Semantic parsing via paraphrasing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 1415–1425. [15] [16] ZHENG Zhiping. AnswerBus question answering ·562· 智 能 系 统 学 报 第 13 卷
第4期 张涛,等:基于知识库的开放领域问答系统 ·563 system[CJ//Proceedings of the Second International Con- 作者简介: ference on Human Language Technology Research.San 张涛,男,1989年生,硕士研究 Francisco,CA,USA:Morgan Kaufmann Publishers Inc, 生,主要研究方向为中文信息处理、信 2002:399-404 息抽取、智能问答。 [17]LIU F Y,LIN G S,SHEN C H.CRF learning with CNN features for image segmentation[J].Pattern recognition, 2015,48(10):2983-2992. [18]GANAPATHY S,VIJAYAKUMAR P,YOGESH P,et 贾真.女,1975年生,讲师.博士 al.An intelligent CRF based feature selection for effect- 主要研究方向为自然语言理解、中文 ive intrusion detection[].International Arab journal of in- 信息处理、信息抽取、大数据。 formation technology,2016,13(1):44-50. [19]夏天.汉语词语语义相似度计算研究).计算机工程, 2007,33(6)191-194. XIA Tian.Study on Chinese words semantic similarity computation[J].Computer engineering,2007,33(6): 李天瑞.男,1969年生.教授,博 191-194. 士生导师,博土,主要研究方向为智能 [20]WU Yunfang,LI Wei.Overview of the NLPCC-ICCPOL 信息处理、数据挖掘、云计算和大数据。 2016 shared task:Chinese word similarity measurement[Cl/ Natural Language Understanding and Intelligent Applica- tions.Cham,Germany:Springer,2016:828-839
system[C]//Proceedings of the Second International Conference on Human Language Technology Research. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc, 2002: 399–404. LIU F Y, LIN G S, SHEN C H. CRF learning with CNN features for image segmentation[J]. Pattern recognition, 2015, 48(10): 2983–2992. [17] GANAPATHY S, VIJAYAKUMAR P, YOGESH P, et al. An intelligent CRF based feature selection for effective intrusion detection[J]. International Arab journal of information technology, 2016, 13(1): 44–50. [18] 夏天. 汉语词语语义相似度计算研究[J]. 计算机工程, 2007, 33(6): 191–194. XIA Tian. Study on Chinese words semantic similarity computation[J]. Computer engineering, 2007, 33(6): 191–194. [19] WU Yunfang, LI Wei. Overview of the NLPCC-ICCPOL 2016 shared task: Chinese word similarity measurement[C]// Natural Language Understanding and Intelligent Applications. Cham, Germany: Springer, 2016: 828–839. [20] 作者简介: 张涛,男,1989 年生,硕士研究 生,主要研究方向为中文信息处理、信 息抽取、智能问答。 贾真,女,1975 年生,讲师,博士, 主要研究方向为自然语言理解、中文 信息处理、信息抽取、大数据。 李天瑞,男,1969 年生,教授,博 士生导师,博士,主要研究方向为智能 信息处理、数据挖掘、云计算和大数据。 第 4 期 张涛,等:基于知识库的开放领域问答系统 ·563·