第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201707039 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180409.1727.014html 基于知识库的开放领域问答系统 张涛,贾真,李天瑞,黄雁勇 (西南交通大学信息科学与技术学院,四川成都611756) 摘要:问答系统能够理解用户问题,并直接返回答案。现有问答系统大多是面向领域的,仅能回答特定领域 的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和 CF模型相结合的方法识别问句中的主体:其次,采用模糊匹配方法将问句中的主体与知识库中实体建立链 接:然后,通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联:最 后,进行实体消歧和答案获取。该系统平均F-Measure值为0.6956,表明所提方法在基于知识库的开放领域问 答上具有可行性。 关键词:问答系统开放领域;实体识别;实体链接:知识库 中图分类号:TP391.1文献标志码:A文章编号:1673-4785(2018)04-0557-07 中文引用格式:张涛,贾真,李天瑞,等.基于知识库的开放领域问答系统J.智能系统学报,2018,13(4):557-563 英文引用格式:ZHANG Tao,JIA Zhen,LI Tianrui,etal.Open-domain question-answering system based on large-scale knowledge baseJ.CAAI transactions on intelligent systems,2018,13(4):557-563. Open-domain question-answering system based on large-scale knowledge base ZHANG Tao,JIA Zhen,LI Tianrui,HUANG Yanyong (School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756,China) Abstract:Question-answering(QA)systems can understand user questions and return answers directly.Currently,most QA systems can only answer questions pertaining to specific domains.In this paper,we propose a method for construct- ing an open-domain QA system based on a large-scale knowledge base.First,we present an approach based on a visual dictionary and a conditional random field(CRF)model to identify the subject in question.Next,we use a fuzzy match- ing method to link the entity in question to that in the knowledge base,and apply similarity computation and rule match- ing methods to recognize the question predicates and link them to the attributes of the knowledge entity.Lastly,we im- plement entity disambiguation and answer retrieval.The mean F-measure value of the proposed system is 0.695 6, which indicates the feasibility of the proposed method for an open-domain QA system for a large-scale knowledge base. Keywords:question-answering system;open domain;entity recognition;entity linking;knowledge base 信息检索是目前互联网时代的一个热门研究 克服这个缺点,用户输入问句后问答系统会给出 方向。搜索引擎则是一种常见的信息检索手段, 一个准确简洁的答案。 它根据用户输入的查询语句进行关键字匹配,并 本文提出了一种基于知识库的开放领域自动 对结果进行排序,返回包含关键字的页面链接,问答系统。首先,对问句进行实体识别,即需要 并不会直接给出问题的答案,需要用户自己浏览明确问句问的是关于哪个实体的,实体识别是问 网页才能得到想要的答案。但是问答系统却能够 答系统中非常重要的一个部分,本文提出了自定 收稿日期:2017-07-25.网络出版日期:2018-04-10. 义词典分词与CRF模型相结合的命名实体识别 基金项目:国家自然科学基金项目(61573292):国家自然科学 基金青年科学基金项目(61603313)】 方法来完成该系统中的命名实体识别;其次,对 通信作者:张涛.E-mail:tz hangswjtu小@l63.com 实体进行链接,即用问句中识别出的实体查询知DOI: 10.11992/tis.201707039 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180409.1727.014.html 基于知识库的开放领域问答系统 张涛,贾真,李天瑞,黄雁勇 (西南交通大学 信息科学与技术学院,四川 成都 611756) 摘 要:问答系统能够理解用户问题,并直接返回答案。现有问答系统大多是面向领域的,仅能回答特定领域 的问题。文中提出了基于大规模知识库的开放领域问答系统实现方法。该系统首先采用自定义词典分词和 CRF 模型相结合的方法识别问句中的主体;其次,采用模糊匹配方法将问句中的主体与知识库中实体建立链 接;然后,通过相似度计算以及规则匹配等多种方法识别问句中的谓词并与知识库实体的属性建立关联;最 后,进行实体消歧和答案获取。该系统平均 F-Measure 值为 0.695 6,表明所提方法在基于知识库的开放领域问 答上具有可行性。 关键词:问答系统;开放领域;实体识别;实体链接;知识库 中图分类号:TP391.1 文献标志码:A 文章编号:1673−4785(2018)04−0557−07 中文引用格式:张涛, 贾真, 李天瑞, 等. 基于知识库的开放领域问答系统[J]. 智能系统学报, 2018, 13(4): 557–563. 英文引用格式:ZHANG Tao, JIA Zhen, LI Tianrui, et al. Open-domain question-answering system based on large-scale knowledge base[J]. CAAI transactions on intelligent systems, 2018, 13(4): 557–563. Open-domain question-answering system based on large-scale knowledge base ZHANG Tao,JIA Zhen,LI Tianrui,HUANG Yanyong (School of Information Science and Technology, Southwest Jiaotong University, Chengdu 611756, China) Abstract: Question-answering (QA) systems can understand user questions and return answers directly. Currently, most QA systems can only answer questions pertaining to specific domains. In this paper, we propose a method for constructing an open-domain QA system based on a large-scale knowledge base. First, we present an approach based on a visual dictionary and a conditional random field (CRF) model to identify the subject in question. Next, we use a fuzzy matching method to link the entity in question to that in the knowledge base, and apply similarity computation and rule matching methods to recognize the question predicates and link them to the attributes of the knowledge entity. Lastly, we implement entity disambiguation and answer retrieval. The mean F-measure value of the proposed system is 0.695 6, which indicates the feasibility of the proposed method for an open-domain QA system for a large-scale knowledge base. Keywords: question-answering system; open domain; entity recognition; entity linking; knowledge base 信息检索是目前互联网时代的一个热门研究 方向。搜索引擎则是一种常见的信息检索手段, 它根据用户输入的查询语句进行关键字匹配,并 对结果进行排序,返回包含关键字的页面链接, 并不会直接给出问题的答案,需要用户自己浏览 网页才能得到想要的答案。但是问答系统却能够 克服这个缺点,用户输入问句后问答系统会给出 一个准确简洁的答案。 本文提出了一种基于知识库的开放领域自动 问答系统。首先,对问句进行实体识别,即需要 明确问句问的是关于哪个实体的,实体识别是问 答系统中非常重要的一个部分,本文提出了自定 义词典分词与 CRF 模型相结合的命名实体识别 方法来完成该系统中的命名实体识别;其次,对 实体进行链接,即用问句中识别出的实体查询知 收稿日期:2017−07−25. 网络出版日期:2018−04−10. 基金项目:国家自然科学基金项目 (61573292);国家自然科学 基金青年科学基金项目 (61603313). 通信作者:张涛. E-mail: tzhangswjtu@163.com. 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018