工程科学学报 Chinese Journal of Engineering 知识图谱的最新进展、关键技术和挑战 马忠贵倪润宇余开航 Recent advances,key techniques and future challenges of knowledge graph MA Zhong-gui,NI Run-yu,YU Kai-hang 引用本文: 马忠贵,倪润宇,余开航.知识图谱的最新进展、关键技术和挑战[J.工程科学学报,2020,42(10:1254-1266.doi: 10.13374j.issn2095-9389.2020.02.28.001 MA Zhong-gui,NI Run-yu,YU Kai-hang.Recent advances,key techniques and future challenges of knowledge graph[J].Chinese Journal of Engineering,.2020.42(10y:1254-1266.doi:10.13374j.issn2095-9389.2020.02.28.001 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.02.28.001 您可能感兴趣的其他文章 Articles you may be interested in 钢包工作衬用耐火材料的研究现状及最新进展 Current research and latest developments on refractories used as ladle linings 工程科学学报.2019,41(6:695 https:/doi.org10.13374.issn2095-9389.2019.06.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报.2018.40(11):1373htps:/doi.org10.13374.issn2095-9389.2018.11.011 脉动热管的理论研究与应用新进展 New progress in the theoretical research and application of pulsating heat pipe 工程科学学报.2019,41(9%:1115htps:1doi.org/10.13374j.issn2095-9389.2019.09.002 中国膏体技术发展现状与趋势 Status and prospects of paste technology in China 工程科学学报.2018,40(5:517 https:oi.org10.13374.issn2095-9389.2018.05.001 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报.2020,42(4:500 https:/doi.org10.13374.issn2095-9389.2019.09.13.003 区块链技术及其研究进展 Survey of blockchain technology and its advances 工程科学学报.2019,41(11):1361 https:/1oi.org/10.13374.issn2095-9389.2019.03.26.004
知识图谱的最新进展、关键技术和挑战 马忠贵 倪润宇 余开航 Recent advances, key techniques and future challenges of knowledge graph MA Zhong-gui, NI Run-yu, YU Kai-hang 引用本文: 马忠贵, 倪润宇, 余开航. 知识图谱的最新进展、关键技术和挑战[J]. 工程科学学报, 2020, 42(10): 1254-1266. doi: 10.13374/j.issn2095-9389.2020.02.28.001 MA Zhong-gui, NI Run-yu, YU Kai-hang. Recent advances, key techniques and future challenges of knowledge graph[J]. Chinese Journal of Engineering, 2020, 42(10): 1254-1266. doi: 10.13374/j.issn2095-9389.2020.02.28.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001 您可能感兴趣的其他文章 Articles you may be interested in 钢包工作衬用耐火材料的研究现状及最新进展 Current research and latest developments on refractories used as ladle linings 工程科学学报. 2019, 41(6): 695 https://doi.org/10.13374/j.issn2095-9389.2019.06.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报. 2018, 40(11): 1373 https://doi.org/10.13374/j.issn2095-9389.2018.11.011 脉动热管的理论研究与应用新进展 New progress in the theoretical research and application of pulsating heat pipe 工程科学学报. 2019, 41(9): 1115 https://doi.org/10.13374/j.issn2095-9389.2019.09.002 中国膏体技术发展现状与趋势 Status and prospects of paste technology in China 工程科学学报. 2018, 40(5): 517 https://doi.org/10.13374/j.issn2095-9389.2018.05.001 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003 区块链技术及其研究进展 Survey of blockchain technology and its advances 工程科学学报. 2019, 41(11): 1361 https://doi.org/10.13374/j.issn2095-9389.2019.03.26.004
工程科学学报.第42卷.第10期:1254-1266.2020年10月 Chinese Journal of Engineering,Vol.42,No.10:1254-1266,October 2020 https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001;http://cje.ustb.edu.cn 知识图谱的最新进展、关键技术和挑战 马忠贵区,倪润宇,余开航 北京科技大学计算机与通信工程学院.北京100083 ☒通信作者,E-mail:zhongguima@ustb.edu.cn 摘要围绕知识图谱的全生命周期技术,从知识抽取、知识融合、知识推理、知识应用几个层面展开综述,重点介绍了知识 融合技术和知识推理技术.通过知识抽取技术,可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站 抽取实体、关系、属性等知识要素.通过知识融合,可消除实体、关系、属性等指称项与实体对象之间的歧义,得到一系列基 本的事实表达.通过本体抽取、知识推理和质量评估形成最终的知识图谱库.按照知识抽取、知识融合、知识推理3个步骤 对知识图谱迭代更新,实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工,从而拥有词条自动化链接、词条编 辑辅助功能,最终达成全流程自动化知识获取的目标.最后,讨论知识图谱未来的发展方向与可能存在的挑战 关键词知识工程:知识图谱:知识融合:知识推理:知识抽取与表示 分类号TP391.1 Recent advances,key techniques and future challenges of knowledge graph MA Zhong-gu,NI Run-yu,YU Kai-hang School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:zhongguima @ustb.edu.cn ABSTRACT The Google knowledge graph is a knowledge base used by Google and its services to enhance the search engine's results with information gathered from a variety of sources.Since its inception by Google to improve users'quality of experience of the search engine,the knowledge graph has become a term that is recently ubiquitously used in medical,education,finance,e-commerce and other industries to promote artificial intelligence (Al),which evolves from perceptual intelligence to cognitive intelligence.As a branch of knowledge engineering,a knowledge graph is based on the semantic network of knowledge engineering,and it combines the latest advancements achieved in machine learning,natural language processing,knowledge representation,and inference.Both academia and industries are showing keen interest in Al,and several studies are in progress under promotion of big data.With its powerful semantic processing and open interconnection capabilities,the knowledge graph can break the data isolation in different scenarios,and can generate application value in intelligent information services such as intelligent search and recommendation,intelligent question answering,and content distribution networks,thereby making information services more intelligent.The state of the art of knowledge graph technologies is outlined by introducing a process of building a knowledge graph.A knowledge graph is a structured representation of facts,consisting of entities,relations and semantic descriptions.A comprehensive summary of the overall lifecycle technologies of the knowledge graph is provided,including knowledge extraction,knowledge fusion,knowledge reasoning,and knowledge application.But the focus is on knowledge fusion and knowledge reasoning.Entities,relations,attributes,and other knowledge elements can be extracted from existing structured,semi-structured,unstructured data sources,and websites given in encyclopedia using knowledge extraction. With knowledge fusion,the ambiguity between referential items such as entities,relations,and attributes can be eliminated,and a series of basic facts can be obtained.The final knowledge base is formed through ontology extraction,knowledge reasoning and quality 收稿日期:2020-02-28 基金项目:中央高校基本科研业务费专项资金资助项目(FRF-DF-20-12,FRF-GF-18-017B)
知识图谱的最新进展、关键技术和挑战 马忠贵苣,倪润宇,余开航 北京科技大学计算机与通信工程学院,北京 100083 苣通信作者,E-mail:zhongguima@ustb.edu.cn 摘 要 围绕知识图谱的全生命周期技术,从知识抽取、知识融合、知识推理、知识应用几个层面展开综述,重点介绍了知识 融合技术和知识推理技术. 通过知识抽取技术,可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站 抽取实体、关系、属性等知识要素. 通过知识融合,可消除实体、关系、属性等指称项与实体对象之间的歧义,得到一系列基 本的事实表达. 通过本体抽取、知识推理和质量评估形成最终的知识图谱库. 按照知识抽取、知识融合、知识推理 3 个步骤 对知识图谱迭代更新,实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工,从而拥有词条自动化链接、词条编 辑辅助功能,最终达成全流程自动化知识获取的目标. 最后,讨论知识图谱未来的发展方向与可能存在的挑战. 关键词 知识工程;知识图谱;知识融合;知识推理;知识抽取与表示 分类号 TP391.1 Recent advances, key techniques and future challenges of knowledge graph MA Zhong-gui苣 ,NI Run-yu,YU Kai-hang School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: zhongguima@ustb.edu.cn ABSTRACT The Google knowledge graph is a knowledge base used by Google and its services to enhance the search engine's results with information gathered from a variety of sources. Since its inception by Google to improve users' quality of experience of the search engine, the knowledge graph has become a term that is recently ubiquitously used in medical, education, finance, e-commerce and other industries to promote artificial intelligence (AI), which evolves from perceptual intelligence to cognitive intelligence. As a branch of knowledge engineering, a knowledge graph is based on the semantic network of knowledge engineering, and it combines the latest advancements achieved in machine learning, natural language processing, knowledge representation, and inference. Both academia and industries are showing keen interest in AI, and several studies are in progress under promotion of big data. With its powerful semantic processing and open interconnection capabilities, the knowledge graph can break the data isolation in different scenarios, and can generate application value in intelligent information services such as intelligent search and recommendation, intelligent question answering, and content distribution networks, thereby making information services more intelligent. The state of the art of knowledge graph technologies is outlined by introducing a process of building a knowledge graph. A knowledge graph is a structured representation of facts, consisting of entities, relations and semantic descriptions. A comprehensive summary of the overall lifecycle technologies of the knowledge graph is provided, including knowledge extraction, knowledge fusion, knowledge reasoning, and knowledge application. But the focus is on knowledge fusion and knowledge reasoning. Entities, relations, attributes, and other knowledge elements can be extracted from existing structured, semi-structured, unstructured data sources, and websites given in encyclopedia using knowledge extraction. With knowledge fusion, the ambiguity between referential items such as entities, relations, and attributes can be eliminated, and a series of basic facts can be obtained. The final knowledge base is formed through ontology extraction, knowledge reasoning and quality 收稿日期: 2020−02−28 基金项目: 中央高校基本科研业务费专项资金资助项目(FRF-DF-20-12, FRF-GF-18-017B) 工程科学学报,第 42 卷,第 10 期:1254−1266,2020 年 10 月 Chinese Journal of Engineering, Vol. 42, No. 10: 1254−1266, October 2020 https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001; http://cje.ustb.edu.cn
马忠贵等:知识图谱的最新进展、关键技术和挑战 ·1255 evaluation.Following the three steps of knowledge extraction,knowledge fusion,and knowledge reasoning,it can iteratively update the knowledge graph and realize full process automation knowledge acquisition,such as realizing the automatic extraction,automatic association and fusion,automatic processing of fragmented Internet knowledge,and realizing automatic linking of entries and auxiliary functions of entry editing.Finally,the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering;knowledge graph;knowledge fusion;knowledge reasoning:knowledge extraction and representation 随着知识的不断积累和科学的飞速发展,人 维.限于篇幅,针对知识图谱的4个关键技术进行 类社会进行了多次改变社会结构的重大生产力革 了取舍,重点介绍了知识融合与知识推理技术的 命.最近的生产力革命正是由Wb技术发展引发 最新进展.同时,简要介绍了知识图谱目前的挑战 的信息革命.伴随着Web技术不断地演进与发 并展望了未来的发展方向 展,人类即将迈向基于知识互联的崭新“wb3.0” 1知识抽取与表示 时代川.受语义网络(Semantic network)和语义网 (Semantic web)的启发,Google公司提出了知识图 对于知识图谱而言,首要的问题是:如何从海 谱(Knowledge graph)闪,目的是为了提高搜索引擎 量的数据提取有用信息并将得到的信息有效表示 的智能能力,增强用户的搜索质量和体验.随后, 并储存,就是所谓的知识抽取与表示技术.知识抽 这一概念被传播开来,并广泛应用于医疗、教育、 取与表示,也可以称为信息抽取,其目标主要是从 金融、电商等行业中,推动人工智能从感知智能向 样本源中抽取特定种类的信息,例如实体、关系和 认知智能跨越.目前,已经涌现出一大批知识图 属性,并将这些信息通过一定形式表达并储存.对 谱,其中国外具有代表性的有YAGO!)、DBpedia、 于知识图谱,一般而言采用DF描述知识,形式上 Freebase、NELL、Probase等;国内出现了开放知 将有效信息表示为(主语,谓语,宾语)三元组的结 识图谱项目OpenKG,中文知识图谱CN-DBpedia9、 构,某些文献中也表示为(头实体,关系,尾实体) zhishi.meIo等.知识图谱的本质是连接实体间关 的结构.针对信息抽取种类的不同,知识抽取又可 系的图,即揭示实体之间关系的语义网络叫,普遍 分为实体抽取、关系抽取以及属性抽取.图1展示 采用资源描述框架(Resource description framework, 了知识图谱的技术架构. RDF)来描述知识.知识图谱全生命周期主要包括 实体抽取也称为命名实体识别,主要目标是 3种关键技术:(1)从样本源中获取数据,并将其表 从样本源中识别出命名实体.实体是知识图谱最 示为结构化知识的知识抽取与表示技术;(2)融合 基本的元素,实体抽取的完整性、准确率、召回率 异源知识的知识融合技术:(3)根据知识图谱中已 将直接影响知识图谱的质量).文献将实体抽 有的知识进行知识推理和质量评估 取的方法归纳为3种:(1)基于规则与词典的方法 近几年,越来越多的学者将目光聚焦在了认 通常需要为目标实体编写相应的规则,然后在原 知智能上,知识图谱受到越来越广泛的关注.除了 始语料中进行匹配,Quimbaya等2o提出了一个基 知识图谱的技术文章爆发式增长之外,综述文章 于词典的实体抽取方法,并应用于电子健康记录 也越来越多.文献[1]针对知识图谱的相关技术 (2)基于统计机器学习的方法.主要利用数据来对 进行了全面解析,文献12-13]综述了知识图谱核 模型进行训练,然后再利用训练好的模型去识别 心技术的研究进展以及典型应用,文献[14总结 实体,Liu等将K近邻(K-nearest neighbors,.KNN) 了面向知识图谱的推理方法并展望了未来的研究 算法和线性条件随机场(Conditional random fields, 方向,文献[15]定义知识图谱与本体的关系并简述 CRF)模型结合来识别实体,(3)面向开放域的 了已开发的国内外知识图谱.2019年年末和2020 抽取方法,主要是针对海量网络数据,Jain与 年年初,国内有3本知识图谱的专著问世6,我 Pennacchiotti2四提出通过已知实体的语义特征来 们有了写作本论文的动机.与已有的综述文献相 识别命名实体,并提出实体聚类的无监督开放域 比,本文的主要贡献如下:梳理了知识图谱全生命 聚类算法.Zhang与Elhadad2]提出一个无监督的 周期技术,从知识抽取与表示、知识融合、知识推 实体抽取方法,利用术语、语料库统计信息以及浅 理、知识应用4个层面展开综述,建立方法论思 层语法知识从生物医学中抽取实体
evaluation. Following the three steps of knowledge extraction, knowledge fusion, and knowledge reasoning, it can iteratively update the knowledge graph and realize full process automation knowledge acquisition, such as realizing the automatic extraction, automatic association and fusion, automatic processing of fragmented Internet knowledge, and realizing automatic linking of entries and auxiliary functions of entry editing. Finally, the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering; knowledge graph; knowledge fusion; knowledge reasoning; knowledge extraction and representation 随着知识的不断积累和科学的飞速发展,人 类社会进行了多次改变社会结构的重大生产力革 命. 最近的生产力革命正是由 Web 技术发展引发 的信息革命. 伴随着 Web 技术不断地演进与发 展,人类即将迈向基于知识互联的崭新“Web3.0” 时代[1] . 受语义网络(Semantic network)和语义网 (Semantic web)的启发,Google 公司提出了知识图 谱(Knowledge graph) [2] ,目的是为了提高搜索引擎 的智能能力,增强用户的搜索质量和体验. 随后, 这一概念被传播开来,并广泛应用于医疗、教育、 金融、电商等行业中,推动人工智能从感知智能向 认知智能跨越. 目前,已经涌现出一大批知识图 谱,其中国外具有代表性的有 YAGO[3]、DBpedia[4]、 Freebase[5]、NELL[6]、Probase[7] 等;国内出现了开放知 识图谱项目 OpenKG[8] ,中文知识图谱 CN-DBpedia[9]、 zhishi.me[10] 等. 知识图谱的本质是连接实体间关 系的图,即揭示实体之间关系的语义网络[11] ,普遍 采用资源描述框架(Resource description framework, RDF)来描述知识. 知识图谱全生命周期主要包括 3 种关键技术:(1)从样本源中获取数据,并将其表 示为结构化知识的知识抽取与表示技术;(2)融合 异源知识的知识融合技术;(3)根据知识图谱中已 有的知识进行知识推理和质量评估. 近几年,越来越多的学者将目光聚焦在了认 知智能上,知识图谱受到越来越广泛的关注. 除了 知识图谱的技术文章爆发式增长之外,综述文章 也越来越多. 文献 [11] 针对知识图谱的相关技术 进行了全面解析,文献 [12−13] 综述了知识图谱核 心技术的研究进展以及典型应用,文献 [14] 总结 了面向知识图谱的推理方法并展望了未来的研究 方向,文献 [15] 定义知识图谱与本体的关系并简述 了已开发的国内外知识图谱. 2019 年年末和 2020 年年初,国内有 3 本知识图谱的专著问世[16−18] ,我 们有了写作本论文的动机. 与已有的综述文献相 比,本文的主要贡献如下:梳理了知识图谱全生命 周期技术,从知识抽取与表示、知识融合、知识推 理、知识应用 4 个层面展开综述,建立方法论思 维. 限于篇幅,针对知识图谱的 4 个关键技术进行 了取舍,重点介绍了知识融合与知识推理技术的 最新进展. 同时,简要介绍了知识图谱目前的挑战 并展望了未来的发展方向. 1 知识抽取与表示 对于知识图谱而言,首要的问题是:如何从海 量的数据提取有用信息并将得到的信息有效表示 并储存,就是所谓的知识抽取与表示技术. 知识抽 取与表示,也可以称为信息抽取,其目标主要是从 样本源中抽取特定种类的信息,例如实体、关系和 属性,并将这些信息通过一定形式表达并储存. 对 于知识图谱,一般而言采用 RDF 描述知识,形式上 将有效信息表示为(主语,谓语,宾语)三元组的结 构,某些文献中也表示为(头实体,关系,尾实体) 的结构. 针对信息抽取种类的不同,知识抽取又可 分为实体抽取、关系抽取以及属性抽取. 图 1 展示 了知识图谱的技术架构. 实体抽取也称为命名实体识别,主要目标是 从样本源中识别出命名实体. 实体是知识图谱最 基本的元素,实体抽取的完整性、准确率、召回率 将直接影响知识图谱的质量[12] . 文献[19] 将实体抽 取的方法归纳为 3 种:(1)基于规则与词典的方法. 通常需要为目标实体编写相应的规则,然后在原 始语料中进行匹配,Quimbaya 等[20] 提出了一个基 于词典的实体抽取方法,并应用于电子健康记录. (2)基于统计机器学习的方法. 主要利用数据来对 模型进行训练,然后再利用训练好的模型去识别 实体,Liu 等[21] 将 K 近邻(K-nearest neighbors,KNN) 算法和线性条件随机场(Conditional random fields, CRF)模型结合来识别实体. ( 3)面向开放域的 抽取方法 . 主要是针对海量网络数据 , Jain 与 Pennacchiotti[22] 提出通过已知实体的语义特征来 识别命名实体,并提出实体聚类的无监督开放域 聚类算法. Zhang 与 Elhadad[23] 提出一个无监督的 实体抽取方法,利用术语、语料库统计信息以及浅 层语法知识从生物医学中抽取实体. 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1255 ·
.1256 工程科学学报.第42卷,第10期 Knowledge Other knowledge bases applications Intelligent search Structured data Knowledge Knowledge combination reasoning Intelligent recommendation Semi- Entity extraction Question structured Entity Quality answering data disambiguation evaluation Relation extraction Unstructured Entity alignment data Attribute extraction Knowledge extraction Knowledge fusion Knowledge Data sources graph 图1知识图谐的技术架构 Fig.I Architecture of the Knowledge Graph 通过实体抽取获取的实体之间往往是离散且 的结果.最近的工作通过强化学习来处理句子级 无关联的.通过关系抽取,可以建立起实体间的语 的去噪,这种学习将来自远程监督的标签视为事 义链接.关系抽取技术主要分为3种:(1)基于模 实.然而,很少有工作专注于直接校正噪声标签的 板的关系抽取.使用模板通过人工或者机器学习 标签级降噪.Sun等o提出了一种基于强化学习 的方法抽取实体关系,虽然准确率高且针对性强, 的标签去噪方法,用于远程监督关系提取.该模型 但是其也具有不适用于大规模数据集、低召回 由两个模块组成:抽取网络和策略网络.标签去噪 率、难以维护等缺点.(2)基于监督学习的关系抽 的核心是在策略网络中设计一个策略来获取潜在 取.将大量人工标注的数据送入模型中训练,刘克 标签,可以在其中选择使用远距离监督标签或从 彬等24根据本体知识库训练模型,在开放数据集 抽取网络预测标签的操作.实验结果表明,强化学 中对关系进行抽取,取得了极高的准确率.Sun与 习对于噪声标签的校正是有效的,并且所提出的 Han提出了名为FTK(Feature-enriched tree kernel) 方法可以胜过最新的关系抽取系统 的模型,利用设计好的有效特征训练,计算关系实 属性抽取的目标是补全实体信息,通过从样 例相似度并通过支持向量机对关系进行分类.(3) 本源中获取实体属性信息或属性值.实体属性可 基于半监督或无监督学习的关系抽取.基于少量 以看作是属性值与实体间的一种关系,因而可以 人工标注数据或者无标注数据,使用最大期望 通过关系抽取的解决思路来获得.Wu与weld (Expectation maximization)等算法的半监督关系抽 利用百科类网站的半结构化数据,训练抽取模型, 取方法进行关系抽取.Sun与Grishman2提出名 之后将抽取模型应用在非结构化数据中抽取属 为LGCo-Testing的主动学习系统,Fu与Grishman7 性.Chang等B提出了基于张量分解的关系抽取 则进一步优化了这个系统.Ji等提出基于句子 方法,这一方法也可以应用在属性抽取中,通过利 级注意力和实体描述的神经网络关系抽取模型 用关于实体种类相应的领域知识来更好地获得实 APCNNS.该模型实际采用了多示例学习的策略, 体所缺少的属性值 将同一关系的样例句子组成样例包,关系分类是 2知识融合 基于样例包的特征进行的.实验结果表明,该模型 可以有效地提高远程监督关系抽取的准确率.在 通过知识抽取与表示,初步获得了数量可观 采用多示例学习策略时,有可能出现整个样例包 的形式化知识.由于知识来源的不同,导致知识的 都包含大量噪声的情况.针对这一问题,Feng等9, 质量参差不齐,知识之间存在着冲突或者重叠.此 提出了基于强化学习的关系分类模型CNN-RL 时初步建立的知识图谱,知识的数量和质量都有 Convolutional neural networks and reinforcement 待提高.应用知识融合技术对多源知识进行处理, learning),该模型包括2个重要模块:样例选择器 一方面提升知识图谱的质量,另一方面丰富知识 和关系分类器.实验结果表明:该模型获得了比句 的存量.Zhao等B]对最新的知识融合进行了综 子级卷积神经网络和样例包级关系分类模型更好 述.早期的知识融合是通过传统的数据融合方法
通过实体抽取获取的实体之间往往是离散且 无关联的. 通过关系抽取,可以建立起实体间的语 义链接. 关系抽取技术主要分为 3 种:(1)基于模 板的关系抽取. 使用模板通过人工或者机器学习 的方法抽取实体关系,虽然准确率高且针对性强, 但是其也具有不适用于大规模数据集、低召回 率、难以维护等缺点. (2)基于监督学习的关系抽 取. 将大量人工标注的数据送入模型中训练,刘克 彬等[24] 根据本体知识库训练模型,在开放数据集 中对关系进行抽取,取得了极高的准确率. Sun 与 Han[25] 提出了名为 FTK(Feature-enriched tree kernel) 的模型,利用设计好的有效特征训练,计算关系实 例相似度并通过支持向量机对关系进行分类. (3) 基于半监督或无监督学习的关系抽取. 基于少量 人工标注数据或者无标注数据,使用最大期望 (Expectation maximization)等算法的半监督关系抽 取方法进行关系抽取. Sun 与 Grishman[26] 提出名 为 LGCo-Testing 的主动学习系统,Fu 与 Grishman[27] 则进一步优化了这个系统. Ji 等[28] 提出基于句子 级注意力和实体描述的神经网络关系抽取模型 APCNNS. 该模型实际采用了多示例学习的策略, 将同一关系的样例句子组成样例包,关系分类是 基于样例包的特征进行的. 实验结果表明,该模型 可以有效地提高远程监督关系抽取的准确率. 在 采用多示例学习策略时,有可能出现整个样例包 都包含大量噪声的情况. 针对这一问题,Feng 等[29] 提出了基于强化学习的关系分类模型 CNN-RL ( Convolutional neural networks and reinforcement learning),该模型包括 2 个重要模块:样例选择器 和关系分类器. 实验结果表明:该模型获得了比句 子级卷积神经网络和样例包级关系分类模型更好 的结果. 最近的工作通过强化学习来处理句子级 的去噪,这种学习将来自远程监督的标签视为事 实. 然而,很少有工作专注于直接校正噪声标签的 标签级降噪. Sun 等[30] 提出了一种基于强化学习 的标签去噪方法,用于远程监督关系提取. 该模型 由两个模块组成:抽取网络和策略网络. 标签去噪 的核心是在策略网络中设计一个策略来获取潜在 标签,可以在其中选择使用远距离监督标签或从 抽取网络预测标签的操作. 实验结果表明,强化学 习对于噪声标签的校正是有效的,并且所提出的 方法可以胜过最新的关系抽取系统. 属性抽取的目标是补全实体信息,通过从样 本源中获取实体属性信息或属性值. 实体属性可 以看作是属性值与实体间的一种关系,因而可以 通过关系抽取的解决思路来获得. Wu 与 Weld[31] 利用百科类网站的半结构化数据,训练抽取模型, 之后将抽取模型应用在非结构化数据中抽取属 性. Chang 等[32] 提出了基于张量分解的关系抽取 方法,这一方法也可以应用在属性抽取中,通过利 用关于实体种类相应的领域知识来更好地获得实 体所缺少的属性值. 2 知识融合 通过知识抽取与表示,初步获得了数量可观 的形式化知识. 由于知识来源的不同,导致知识的 质量参差不齐,知识之间存在着冲突或者重叠. 此 时初步建立的知识图谱,知识的数量和质量都有 待提高. 应用知识融合技术对多源知识进行处理, 一方面提升知识图谱的质量,另一方面丰富知识 的存量. Zhao 等[33] 对最新的知识融合进行了综 述. 早期的知识融合是通过传统的数据融合方法 Other knowledge bases Entity disambiguation Entity alignment Knowledge fusion Knowledge combination Knowledge reasoning Entity extraction Relation extraction Attribute extraction Knowledge extraction Quality evaluation Knowledge graph Structured data Semistructured data Unstructured data Data sources Knowledge applications Intelligent search Intelligent recommendation Question answering …… 图 1 知识图谱的技术架构 Fig.1 Architecture of the Knowledge Graph · 1256 · 工程科学学报,第 42 卷,第 10 期
马忠贵等:知识图谱的最新进展、关键技术和挑战 1257 完成,Dong等B比较了传统的数据融合方法,选 同的支持向量机的核函数来学习不同的集成学习 择了几种方法改良,并应用到知识融合中.随着知 算法,例如bagging、boosing、voting等.具体流程 识图谱的飞速发展,目前也出现了专门的知识融 是将命名实体作为输入,根据Wikipedia中的知识 合方法.下面从实体消歧、实体对齐和知识合并 生成候选实体,构造特征向量,最后送入集成学习 3个方面进行综述 模块里完成实体消歧, 2.1实体消歧 值得一提的是,Agarwal等提出了利用时间 对于知识图谱中的每一个实体都应有清晰的 的实体消歧思路,通过计算实体的时序特征来和 指向,即明确对应某个现实世界中存在的事物.初 输入的命名实体上下文的时序比较,即使命名实 步构建的知识图谱中,因数据来源复杂,存在着同 体的上下文提供的信息不充分也可以完成实体消 名异义的实体例如,名称为“乔丹”的实体既可以 歧任务.Dong)将基于相似度特征的随机森林模 指美国著名篮球运动员,也可以指葡萄牙足球运 型和基于XGBoost、基于逻辑回归以及基于神经 动员,还可以指某个运动品牌.为了确保每一个实 网络的方法进行比较,随机森林模型不仅拥有极 体有明确的含义,采用实体消歧技术来使得同名 高的准确率和召回率,且不像XGBoost和神经网 实体得以区分, 络那样容易受到超参数的影响,在实体消歧任务 利用已有的知识库和知识图谱中隐含的信息 中表现突出 来帮助进行语义消歧,Han与ZhaoBs提出使用维 2.2实体对齐 基百科(Wikipedia)作为背景知识,通过利用 在现实生活中,一个事物对应着不止一个称 Wikipedia的语义知识,例如社会关系来更精确地 呼,例如,“中华人民共和国”和“中国”都对应于 衡量实体间的相似性,从而提升实体消歧的效果, 同一个实体.在知识图谱中也同样存在着同义异 Sen提出了主题模型,利用知识库中存在的文本 名的实体,通过实体对齐,将这些实体指向同一客 信息,学习共有实体组来实现实体集体消歧 观事物.苏佳林等提出基于决策树的自适应属 Guo与Barbosa!刃基于语义相似性的自然概念提 性选择的实体对齐方法.通过联合学习将实体嵌 出了两个针对集体消歧的方法.通过在知识库上 入表示在一个向量空间后,由信息增益选出最优 知识子图中随机游走得到的概率分布来表示实体 约束属性,训练实体对齐模型,计算最优约束属性 和文档的语义,之后基于迭代的贪婪逼近算法和 相似度和实体语义相似度完成实体对齐 学习排序的方法来进行实体消歧任务,Zhu与 Cheng等I提出了一个全自动的实体对齐框架, Iglesias提出了基于语义上下文相似度的命名实 包括候选实体生成器、选择器和清理器,利用搜索 体消歧方法,基于上下文和知识图谱中实体的信 引擎使用者的查询信息和查询后的点击记录,计算 息词之间的语义相似度来进行实体消歧.另外还 出实体间的相似度,完成实体对齐任务.Pantel等s 提出了Category2Vec模型,将目录也用嵌入向量 提出了一个大规模相似性模型,在MapReduce框 的形式表示出来.主要思想是候选实体和上下文 架下实施并且部署了超过2000亿从互联网上爬取 单词间应存在语义联系,利用该联系来帮助选出 得到的单词.通过计算5亿terms得到的相似度矩 正确的实体 阵来进行实体对齐任务.Chakrabarti等刃通过一 在线百科全书由专家和网络用户编写,有着 个同义发现框架将实体相似性作为输入生成一个 高覆盖率和结构信息丰富的特点.Shen等B9提出 满足简单自然属性的同义词,提出了两种新的相 LINDEN(A framework for Linking named entities 似性度量法,并通过在bing系统上实际应用,发现 with knowledge base via semantic knowledge)模型, 可以有效识别同义词.Mudgal等s1综述了基于深 同时利用Wikipedia和WordNet,基于文本相似性 度学习的实体对齐方法,通过将这些方法分类,分 和主题一致性进行实体消歧.Ratinov等o提出名 别组合设计空间中属性嵌人、属性相似度表示、 GLOW(Global and local approaches of Wikipedia) 分类的各个方法,得到最具代表性的平滑倒词频 的系统,GLOW组合捕捉实体指称与Wikipedia题 (Smooth inverse frequency,.SIF)、循环神经网络 目间的相关性的本地模型和选择准确歧义语境的 (Recurrent neural network,RNN),Attention Hybrid 方法.统计Wikipedia中实体的频率作为候选实体 共4种解决方案 的排序依据.Alokaili与Menail提出了基于支持 针对基于嵌入表示的实体对齐,Sun等9提出 向量机的集成学习来解决实体消歧问题,使用不 自举的方法解决标记训练数据不足的问题.根据
完成,Dong 等[34] 比较了传统的数据融合方法,选 择了几种方法改良,并应用到知识融合中. 随着知 识图谱的飞速发展,目前也出现了专门的知识融 合方法. 下面从实体消歧、实体对齐和知识合并 3 个方面进行综述. 2.1 实体消歧 对于知识图谱中的每一个实体都应有清晰的 指向,即明确对应某个现实世界中存在的事物. 初 步构建的知识图谱中,因数据来源复杂,存在着同 名异义的实体. 例如,名称为“乔丹”的实体既可以 指美国著名篮球运动员,也可以指葡萄牙足球运 动员,还可以指某个运动品牌. 为了确保每一个实 体有明确的含义,采用实体消歧技术来使得同名 实体得以区分. 利用已有的知识库和知识图谱中隐含的信息 来帮助进行语义消歧,Han 与 Zhao[35] 提出使用维 基 百 科 ( Wikipedia) 作 为 背 景 知 识 , 通 过 利 用 Wikipedia 的语义知识,例如社会关系来更精确地 衡量实体间的相似性,从而提升实体消歧的效果. Sen[36] 提出了主题模型,利用知识库中存在的文本 信息 ,学习共有实体组来实现实体集体消歧 . Guo 与 Barbosa[37] 基于语义相似性的自然概念提 出了两个针对集体消歧的方法. 通过在知识库上 知识子图中随机游走得到的概率分布来表示实体 和文档的语义,之后基于迭代的贪婪逼近算法和 学习排序的方法来进行实体消歧任务. Zhu 与 Iglesias[38] 提出了基于语义上下文相似度的命名实 体消歧方法,基于上下文和知识图谱中实体的信 息词之间的语义相似度来进行实体消歧. 另外还 提出了 Category2Vec 模型,将目录也用嵌入向量 的形式表示出来. 主要思想是候选实体和上下文 单词间应存在语义联系,利用该联系来帮助选出 正确的实体. 在线百科全书由专家和网络用户编写,有着 高覆盖率和结构信息丰富的特点. Shen 等[39] 提出 LINDEN( A framework for Linking named entities with knowledge base via semantic knowledge)模型 , 同时利用 Wikipedia 和 WordNet,基于文本相似性 和主题一致性进行实体消歧. Ratinov 等[40] 提出名 为 GLOW(Global and local approaches of Wikipedia) 的系统,GLOW 组合捕捉实体指称与 Wikipedia 题 目间的相关性的本地模型和选择准确歧义语境的 方法. 统计 Wikipedia 中实体的频率作为候选实体 的排序依据. Alokaili 与 Menai[41] 提出了基于支持 向量机的集成学习来解决实体消歧问题,使用不 同的支持向量机的核函数来学习不同的集成学习 算法,例如 bagging、boosing、voting 等. 具体流程 是将命名实体作为输入,根据 Wikipedia 中的知识 生成候选实体,构造特征向量,最后送入集成学习 模块里完成实体消歧. 值得一提的是,Agarwal 等[42] 提出了利用时间 的实体消歧思路,通过计算实体的时序特征来和 输入的命名实体上下文的时序比较,即使命名实 体的上下文提供的信息不充分也可以完成实体消 歧任务. Dong[43] 将基于相似度特征的随机森林模 型和基于 XGBoost、基于逻辑回归以及基于神经 网络的方法进行比较,随机森林模型不仅拥有极 高的准确率和召回率,且不像 XGBoost 和神经网 络那样容易受到超参数的影响,在实体消歧任务 中表现突出. 2.2 实体对齐 在现实生活中,一个事物对应着不止一个称 呼,例如,“中华人民共和国”和“中国”都对应于 同一个实体. 在知识图谱中也同样存在着同义异 名的实体,通过实体对齐,将这些实体指向同一客 观事物. 苏佳林等[44] 提出基于决策树的自适应属 性选择的实体对齐方法. 通过联合学习将实体嵌 入表示在一个向量空间后,由信息增益选出最优 约束属性,训练实体对齐模型,计算最优约束属性 相似度和实体语义相似度完成实体对齐. Cheng 等[45] 提出了一个全自动的实体对齐框架, 包括候选实体生成器、选择器和清理器,利用搜索 引擎使用者的查询信息和查询后的点击记录,计算 出实体间的相似度,完成实体对齐任务. Pantel 等[46] 提出了一个大规模相似性模型,在 MapReduce 框 架下实施并且部署了超过 2000 亿从互联网上爬取 得到的单词. 通过计算 5 亿 terms 得到的相似度矩 阵来进行实体对齐任务. Chakrabarti 等[47] 通过一 个同义发现框架将实体相似性作为输入生成一个 满足简单自然属性的同义词,提出了两种新的相 似性度量法,并通过在 bing 系统上实际应用,发现 可以有效识别同义词. Mudgal 等[48] 综述了基于深 度学习的实体对齐方法,通过将这些方法分类,分 别组合设计空间中属性嵌入、属性相似度表示、 分类的各个方法,得到最具代表性的平滑倒词频 ( Smooth inverse frequency, SIF) 、循环神经网络 (Recurrent neural network,RNN)、Attention 和 Hybrid 共 4 种解决方案. 针对基于嵌入表示的实体对齐,Sun 等[49] 提出 自举的方法解决标记训练数据不足的问题. 根据 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1257 ·
·1258 工程科学学报,第42卷,第10期 全局最优目标来标记可能的对齐,并在迭代中将 3知识推理与质量评估 其加人到训练数据中,不断训练嵌入表示模型 知识推理技术可以提升知识图谱的完整性和 Guan等so发现基于监督学习的实体对齐方法,普 准确性,传统的知识推理方法拥有极高的准确率, 遍在取得标签数据上需要花费大量时间,无监督 学习方法的表现则很大程度地依赖于验证集上复 但无法适配大规模知识图谱.针对知识图谱数据 量大、关系复杂的特点,提出了面向大规模知识图 杂的相似度衡量方式.Zhang等su从实体的多视 谱的知识推理方法,并归纳为以下4类4s刃:(1)基 角出发,利用实体的名称、实体间的关系、实体的 于图结构和统计规则挖掘的推理:(2)基于知识图 属性的组合策略来学习实体的嵌入,并根据实体 谱表示学习的推理:(3)基于神经网络的推理;(4)混 的表示来完成实体对齐任务, 合推理 2.3知识合并 3.1基于图结构和统计规则挖掘的推理 实体消歧和实体对齐更多的是关注知识图谱 受传统推理地启发,基于知识图谱的图结构 中的实体,从实体层面上通过各种方法来提升知 以及挖掘蕴藏在知识图谱中的规则进行推理的方 识图谱的知识质量.知识合并则是从知识图谱整 法得以提出,并在知识推理任务上取得一定效果 体层面上进行知识的融合,基于现存的知识库和 Lao与Cohen!s81提出了路径排序算法(Path ranking 知识图谱来扩大知识图谱的规模,丰富其中蕴含 algorithm,PRA),将实体间的路径作为特征,通过 的知识.然而现存的知识库或者知识图谱都是各 随机行走算法来计算实体间是否存在潜在的关 种机构或者组织根据自己的需求设计创建,其中 系.Wang等s网设计了耦合路径排序算法(Coupled 的知识也存在着多样性和异构性,并且存在很多 path ranking algorithm,CPRA),并提出一种全新的 知识上的重复和错误,因而需要使用知识合并技 逐次聚合的策略,通过这一策略使得具有强相关 术来解决这些问题网,知识图谱的合并需要解决 度的关系聚合在一起.使用多任务学习策略预测 2个层面的问题:数据层的合并和模式层的合并5] 聚合后的关系.Xiong等6o针对多跳关系路径的 知识合并过程中可能出现的来自两个数据源的同 学习提出使用强化学习的框架,设计了一个具有 一实体的属性值却不相同的现象,我们称这种知 连续基于知识图谱嵌入状态的策略Agent,通过 识合并过程中出现的现象为知识冲突.针对知识 Agent在知识图谱的向量空间中寻找最有潜力的 冲突问题,可以采用冲突检测与消解以及真值发 关系加入路径完成推理 现等技术进行消除,再将各个来源的知识关联合 Cohent61针对如何将知识整合到梯度学习的系 并为一个知识图谱 统的问题,描述了一个概率演绎的数据库Tensorlog, 冲突消解目前的研究方向是利用图谱自身存 通过可微分的过程来进行推理.Yang等I研究了 在的特征,Trisedya等Is利用属性元组生成属性特 基于学习一阶概率逻辑规则进行知识库推理的问 征嵌入向量.使用成分函数来表示属性.将多个属 题.受到Tensorlog的启发,提出了名为神经逻辑 性值都转化为单一向量,并将相似的属性映射为 规划的框架,将一阶逻辑规则的参数和结构整合 相似的向量表示.利用这些属性特征嵌入向量将 到一个端到端的可微分模型中.设计了一个带 两个图谱中的实体嵌入转化到同一个空间中,计 Attention机制和存储功能的神经控制系统来学习 算实体的相似性.Chen等5针对多语言知识图谱 组合那些用于完成推理的规则.Kampffmeyer等s) 的合并,提出了利用实体描述的基于嵌入的半监 提出深度图传播模型,在利用图结构的便利的同 督跨语言学习方法,在一个大规模数据集上通过 时解决知识过于稀疏的问题 迭代的方式联合训练一个多语言知识图谱嵌入模 3.2基于知识图谱表示学习的推理 型和一个文字描述嵌入模型,训练模型完成图谱 表示模型将知识图谱中相应的实体和关系用 的合并.Cao等5提出多通道图神经网络模型,通 向量、矩阵或者张量的形式表示,表示后进行运算 过多个通道将两个知识图谱进行鲁棒编码.在每 完成知识推理任务,因其简单高效且适应于大规 个通道中通过不同的关系加权方案来编码知识图 模知识图谱推理的特点而不断发展 谱,使用知识图谱补全和跨知识图谱注意力策略 3.2.1基于距离的推理模型 来分别修剪每个图谱中的独有实体,通过池化技 Bordes等6提出了TransE模型,将所有的实 术组合这些通道 体和关系表示为同一个空间下的向量,假设事实元
全局最优目标来标记可能的对齐,并在迭代中将 其加入到训练数据中,不断训练嵌入表示模型. Guan 等[50] 发现基于监督学习的实体对齐方法,普 遍在取得标签数据上需要花费大量时间,无监督 学习方法的表现则很大程度地依赖于验证集上复 杂的相似度衡量方式. Zhang 等[51] 从实体的多视 角出发,利用实体的名称、实体间的关系、实体的 属性的组合策略来学习实体的嵌入,并根据实体 的表示来完成实体对齐任务. 2.3 知识合并 实体消歧和实体对齐更多的是关注知识图谱 中的实体,从实体层面上通过各种方法来提升知 识图谱的知识质量. 知识合并则是从知识图谱整 体层面上进行知识的融合,基于现存的知识库和 知识图谱来扩大知识图谱的规模,丰富其中蕴含 的知识. 然而现存的知识库或者知识图谱都是各 种机构或者组织根据自己的需求设计创建,其中 的知识也存在着多样性和异构性,并且存在很多 知识上的重复和错误,因而需要使用知识合并技 术来解决这些问题[52] . 知识图谱的合并需要解决 2 个层面的问题:数据层的合并和模式层的合并[53] . 知识合并过程中可能出现的来自两个数据源的同 一实体的属性值却不相同的现象,我们称这种知 识合并过程中出现的现象为知识冲突. 针对知识 冲突问题,可以采用冲突检测与消解以及真值发 现等技术进行消除,再将各个来源的知识关联合 并为一个知识图谱. 冲突消解目前的研究方向是利用图谱自身存 在的特征,Trisedya 等[54] 利用属性元组生成属性特 征嵌入向量. 使用成分函数来表示属性. 将多个属 性值都转化为单一向量,并将相似的属性映射为 相似的向量表示. 利用这些属性特征嵌入向量将 两个图谱中的实体嵌入转化到同一个空间中,计 算实体的相似性. Chen 等[55] 针对多语言知识图谱 的合并,提出了利用实体描述的基于嵌入的半监 督跨语言学习方法,在一个大规模数据集上通过 迭代的方式联合训练一个多语言知识图谱嵌入模 型和一个文字描述嵌入模型,训练模型完成图谱 的合并. Cao 等[56] 提出多通道图神经网络模型,通 过多个通道将两个知识图谱进行鲁棒编码. 在每 个通道中通过不同的关系加权方案来编码知识图 谱,使用知识图谱补全和跨知识图谱注意力策略 来分别修剪每个图谱中的独有实体,通过池化技 术组合这些通道. 3 知识推理与质量评估 知识推理技术可以提升知识图谱的完整性和 准确性. 传统的知识推理方法拥有极高的准确率, 但无法适配大规模知识图谱. 针对知识图谱数据 量大、关系复杂的特点,提出了面向大规模知识图 谱的知识推理方法,并归纳为以下 4 类[14, 57] :(1)基 于图结构和统计规则挖掘的推理;(2)基于知识图 谱表示学习的推理;(3)基于神经网络的推理;(4)混 合推理. 3.1 基于图结构和统计规则挖掘的推理 受传统推理地启发,基于知识图谱的图结构 以及挖掘蕴藏在知识图谱中的规则进行推理的方 法得以提出,并在知识推理任务上取得一定效果. Lao 与 Cohen[58] 提出了路径排序算法(Path ranking algorithm,PRA),将实体间的路径作为特征,通过 随机行走算法来计算实体间是否存在潜在的关 系. Wang 等[59] 设计了耦合路径排序算法(Coupled path ranking algorithm,CPRA),并提出一种全新的 逐次聚合的策略,通过这一策略使得具有强相关 度的关系聚合在一起. 使用多任务学习策略预测 聚合后的关系. Xiong 等[60] 针对多跳关系路径的 学习提出使用强化学习的框架,设计了一个具有 连续基于知识图谱嵌入状态的策略 Agent,通过 Agent 在知识图谱的向量空间中寻找最有潜力的 关系加入路径完成推理. Cohen[61] 针对如何将知识整合到梯度学习的系 统的问题,描述了一个概率演绎的数据库 Tensorlog, 通过可微分的过程来进行推理. Yang 等[62] 研究了 基于学习一阶概率逻辑规则进行知识库推理的问 题. 受到 Tensorlog 的启发,提出了名为神经逻辑 规划的框架,将一阶逻辑规则的参数和结构整合 到一个端到端的可微分模型中. 设计了一个带 Attention 机制和存储功能的神经控制系统来学习 组合那些用于完成推理的规则. Kampffmeyer 等[63] 提出深度图传播模型,在利用图结构的便利的同 时解决知识过于稀疏的问题. 3.2 基于知识图谱表示学习的推理 表示模型将知识图谱中相应的实体和关系用 向量、矩阵或者张量的形式表示,表示后进行运算 完成知识推理任务. 因其简单高效且适应于大规 模知识图谱推理的特点而不断发展. 3.2.1 基于距离的推理模型 Bordes 等[64] 提出了 TransE 模型,将所有的实 体和关系表示为同一个空间下的向量,假设事实元 · 1258 · 工程科学学报,第 42 卷,第 10 期
马忠贵等:知识图谱的最新进展、关键技术和挑战 .1259· 组中头实体向量和关系向量之和应该约等于尾实 和关系都由复平面中的向量表示,计算头实体向 体的向量.通过随机替换事实元组中的某一项来 量和根据关系向量建立的对角矩阵以及尾实体向 构建负例.计算元组中头向量和关系向量的和向 量的共轭这三者的乘积,结果的实部作为元组的 量与尾向量的距离作为候选实体的得分.尽管 得分.Liu等m提出ANALOGY模型,利用实体和 TransE模型简单且有效,但其仍然具有许多缺陷, 关系的类比性质来建模,实体由嵌入空间中的向 因而衍生出很多基于该模型的方法.Wang等s的 量表示,将关系矩阵处理得到一系列稀疏的对角 提出TransH模型,每一个关系都有一个特定的超 矩阵,减少了关系矩阵的参数.将头尾实体向量与 平面,头实体向量和尾实体向量投影至特定的关 关系矩阵的积作为元组得分 系超平面计算事实元组得分.Lin等I6提出TransR Balazevic等I提出了基于KKT(Karush Kuhn 模型,针对特定关系引入了空间.Xiao等67提出 Tucker)分解的tuckER模型,将所有实体和关系分 了ManifoldE模型,引入了特定关系参数.尾实体 别表示为行向量嵌入矩阵,从这两个矩阵中取出 向量有效范围是以头实体向量和关系实体向量的 头尾实体向量和关系向量,将这些向量和一个核 和向量为中心,以特定关系参数为半径的一个超 心张量相乘得到元组的得分.针对大部分现存的 球面.Feng等Is提出的TransF模型和ManifoldE 基于知识图谱嵌入的模型,Kristiadi等网研究了如 模型有着相似的思路,放宽了TransE中对实体关 何将文字信息整合到现存的表示模型中去,提出 系向量的要求,仅需要头实体向量位于尾实体向 了LiteralE模型,在实体的嵌入表示上加入文字信 量和负的关系向量的和向量的方向上,同时尾实 息,用实体表示和文字信息的联合表示取代原本 体向量也位于头实体向量和关系向量的和向量的 模型的单独的实体表示.Zhang等I聊提出了CrossE 方向上 模型,基于向量表示实体和关系,生成多个元组的 Kzaemi与Poole!69提出SimplE模型,允许实 特定嵌入即交互嵌入.由交互表示和尾实体的嵌 体拥有两个独立学习的向量表示,而关系由一个 入表示的匹配程度给出元组得分 向量表示.Ebisu与Ichise提出了TorusE嵌入模 基于表示学习的知识推理模型的比较如表1 型,将TransE的思想应用在李群(Lie group)理论 所示. 中的圆环面上,即在圆环面上计算表示向量间的 3.3基于神经网络的推理 距离来取得元组得分.Xu与Lim提出DihEdral模 基于神经网络的推理方法将知识图谱中事实 型,针对性地增强了知识推理的可解释性,通过离 元组表示为问量形式送入神经网络中,通过训练 散值将关系建模成组的元素,显著地缩小了解空 神经网络不断提高事实元组的得分,最终通过输 间.Sun等四提出RotatE模型,将关系看作是从头 出得分选择候选实体完成推理.Socher等8提出 实体向量向尾实体向量的旋转,元组得分通过计 适应于实体间关系推理的神经张量网络(Neural 算旋转后的头实体向量和尾实体向量的距离得到 tensor networks,NTN)模型,用双线性张量层取代 Zhang等1引入超复数的概念,提出了QuatE模 神经网络层,实体通过连续的词向量平均表示进 型,通过一个拥有三个虚部的超复数来表示知识 而提升模型的表现.Neelakantan等s2使用循环神 图谱中的实体和关系.与RotatE想法类似,QuatE 经网络来建模知识图谱中的分布式语义的多跳路 模型将关系看作超复数平面下头实体到尾实体的 径.Das等I8主要是将符号逻辑推理中丰富的多 旋转 步推理与神经网络的泛化能力相结合.通过学习 3.2.2基于语义匹配的推理模型 实体、关系和实体的种类来联合推理,并使用神经 Nickel等提出的RESCAL模型将实体和向 注意力建模来整合多跳路径.在单层RNN中分享 量联系起来,从而捕捉其中隐含的语义,潜在因子 参数来表示所有关系的逻辑组成.Graves等&刷建 间的相互作用建模后得到关系表示矩阵,计算实 立了可微神经计算机模型,将神经网络和记忆系 体向量与关系矩阵的乘积来得到元组得分 统结合起来,将通过样本学习到的知识储存起来 Yang等阿提出DistMult模型,每一个关系都表示 并进行快速知识推理 为向量,再将向量转化为对角矩阵,通过计算头尾 Dettmers等8针对知识图谱中大规模与过拟 实体向量与关系对角矩阵的乘积得到元组的得 合的问题,设计了参数简洁且计算高效的二维卷 分.Trouillon等7提出Complex模型,引入复数嵌 积神经网络(Convolutional2D,ConvE)模型 入针对不对称关系建模.在Complex模型中,实体 Vashishth等Iso基于特征排列、新的特征变形以及
组中头实体向量和关系向量之和应该约等于尾实 体的向量. 通过随机替换事实元组中的某一项来 构建负例. 计算元组中头向量和关系向量的和向 量与尾向量的距离作为候选实体的得分. 尽管 TransE 模型简单且有效,但其仍然具有许多缺陷, 因而衍生出很多基于该模型的方法. Wang 等[65] 提出 TransH 模型,每一个关系都有一个特定的超 平面,头实体向量和尾实体向量投影至特定的关 系超平面计算事实元组得分. Lin 等[66] 提出 TransR 模型,针对特定关系引入了空间. Xiao 等[67] 提出 了 ManifoldE 模型,引入了特定关系参数. 尾实体 向量有效范围是以头实体向量和关系实体向量的 和向量为中心,以特定关系参数为半径的一个超 球面. Feng 等[68] 提出的 TransF 模型和 ManifoldE 模型有着相似的思路,放宽了 TransE 中对实体关 系向量的要求,仅需要头实体向量位于尾实体向 量和负的关系向量的和向量的方向上,同时尾实 体向量也位于头实体向量和关系向量的和向量的 方向上. Kzaemi 与 Poole[69] 提出 SimplE 模型 ,允许实 体拥有两个独立学习的向量表示,而关系由一个 向量表示. Ebisu 与 Ichise[70] 提出了 TorusE 嵌入模 型 ,将 TransE 的思想应用在李群(Lie group)理论 中的圆环面上,即在圆环面上计算表示向量间的 距离来取得元组得分. Xu 与 Li[71] 提出 DihEdral 模 型,针对性地增强了知识推理的可解释性,通过离 散值将关系建模成组的元素,显著地缩小了解空 间. Sun 等[72] 提出 RotatE 模型,将关系看作是从头 实体向量向尾实体向量的旋转,元组得分通过计 算旋转后的头实体向量和尾实体向量的距离得到 Zhang 等[73] 引入超复数的概念,提出了 QuatE 模 型,通过一个拥有三个虚部的超复数来表示知识 图谱中的实体和关系. 与 RotatE 想法类似,QuatE 模型将关系看作超复数平面下头实体到尾实体的 旋转. 3.2.2 基于语义匹配的推理模型 Nickel 等[74] 提出的 RESCAL 模型将实体和向 量联系起来,从而捕捉其中隐含的语义,潜在因子 间的相互作用建模后得到关系表示矩阵,计算实 体 向 量 与 关 系 矩 阵 的 乘 积 来 得 到 元 组 得 分 . Yang 等[75] 提出 DistMult 模型,每一个关系都表示 为向量,再将向量转化为对角矩阵,通过计算头尾 实体向量与关系对角矩阵的乘积得到元组的得 分. Trouillon 等[76] 提出 Complex 模型,引入复数嵌 入针对不对称关系建模. 在 Complex 模型中,实体 和关系都由复平面中的向量表示,计算头实体向 量和根据关系向量建立的对角矩阵以及尾实体向 量的共轭这三者的乘积,结果的实部作为元组的 得分. Liu 等[77] 提出 ANALOGY 模型,利用实体和 关系的类比性质来建模,实体由嵌入空间中的向 量表示,将关系矩阵处理得到一系列稀疏的对角 矩阵,减少了关系矩阵的参数. 将头尾实体向量与 关系矩阵的积作为元组得分. Balazevic 等[78] 提出了基于 KKT(Karush Kuhn Tucker)分解的 tuckER 模型,将所有实体和关系分 别表示为行向量嵌入矩阵,从这两个矩阵中取出 头尾实体向量和关系向量,将这些向量和一个核 心张量相乘得到元组的得分. 针对大部分现存的 基于知识图谱嵌入的模型,Kristiadi 等[79] 研究了如 何将文字信息整合到现存的表示模型中去,提出 了 LiteralE 模型,在实体的嵌入表示上加入文字信 息,用实体表示和文字信息的联合表示取代原本 模型的单独的实体表示. Zhang 等[80] 提出了 CrossE 模型,基于向量表示实体和关系,生成多个元组的 特定嵌入即交互嵌入. 由交互表示和尾实体的嵌 入表示的匹配程度给出元组得分. 基于表示学习的知识推理模型的比较如表 1 所示. 3.3 基于神经网络的推理 基于神经网络的推理方法将知识图谱中事实 元组表示为向量形式送入神经网络中,通过训练 神经网络不断提高事实元组的得分,最终通过输 出得分选择候选实体完成推理. Socher 等[81] 提出 适应于实体间关系推理的神经张量网络(Neural tensor networks,NTN)模型,用双线性张量层取代 神经网络层,实体通过连续的词向量平均表示进 而提升模型的表现. Neelakantan 等[82] 使用循环神 经网络来建模知识图谱中的分布式语义的多跳路 径. Das 等[83] 主要是将符号逻辑推理中丰富的多 步推理与神经网络的泛化能力相结合. 通过学习 实体、关系和实体的种类来联合推理,并使用神经 注意力建模来整合多跳路径. 在单层 RNN 中分享 参数来表示所有关系的逻辑组成. Graves 等[84] 建 立了可微神经计算机模型,将神经网络和记忆系 统结合起来,将通过样本学习到的知识储存起来 并进行快速知识推理. Dettmers 等[85] 针对知识图谱中大规模与过拟 合的问题,设计了参数简洁且计算高效的二维卷 积 神 经 网 络 ( Convolutional 2D, ConvE) 模 型 . Vashishth 等[86] 基于特征排列、新的特征变形以及 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1259 ·
·1260 工程科学学报,第42卷,第10期 表1部分基于表示学习的知识推理模型 Table 1 Some knowledge reasoning models based on representation learning Method Scoring function The entity representations The relation representation TransE -h+1-2 h,1∈Rd reRd ManifoldE -h+t--)2 h,t∈Rd reRd SimplE ag+er.a》 he,te ERd ,∈Rd RotatE 肠or- h,tE Cd reCd QuatE ©片! h1E Hd reHd RESCAL hM! h,tERd M,ERdxd DistMult hdiag(r)t h,tERd rERd ComplEx Re(hdiag(r)) htECd reCd ANALOGY hTMt h,1ERd M,ERdxd CrossE (tanh(croh+crohor+b)t h,tERd r∈Rd 循环卷积提出InteractE模型.InteractE模型通过使 (Text-enhanced knowledge graph embedding,TKGE) 用多种排列输入,更简单的特征变形方法以及循 的组合模型,通过实体、关系和文本来提升推理的 环卷积来取得比ConvE更显著的效果 表现.Guan等!基于一个常识图的常识概念信息 3.4混合推理 提出了一个常识伴随的知识图谱嵌入(Knowledge 对于上面的几类知识推理的方法,各有其优 graph embedding with concepts,.KEC)模型,将来自 势与缺点,于是考虑结合多种方法的优势来提升 于知识图谱的事实元组通过常识概念信息修正, 推理效果,进而提出了混合推理方法.Guo等7提 从而使得模型不仅仅关注实体间的关联性还有实 出学习规则增强关系来补全知识图谱的方法,使 体存在的常识概念.因此这个模型具有明确的语 用规则来进一步改善传统关系学习得到的推理结 义性 果,提升知识推理的准确性.L山等8网提出了基于 4类知识推理方法对比如表2所示 强化学习建模的逻辑概率的知识表示和推理模 3.5质量评估 型,同时在已知的知识和由强化学习整合的经验 通过质量评估技术来对新知识进行筛选,是 上进行推理来训练强化学习的Agent..Xie等Is提 构建知识图谱中必不可少的环节.Mendes等91提 出一种利用实体描述的知识表示学习的方法,使 出了Sieve,用于简化生成高质量数据的任务,并整 用了连续词袋模型和深度卷积模型来编码实体 合进了链接数据整合框架(Linked data integration 的描述语义.之后进一步学习通过三元组和三元 framework,LDIF)中,包括一个质量评估模型和一 组中实体的描述来学习表示知识.并利用学习到 个数据融合模型.质量评估主要利用用户选择的 的知识来完成知识推理任务,Wanglo提出规则 质量因子,通过用户配置的得分函数生成质量得 嵌入神经网络(The rule-embedded neural network, 分.数据融合使用质量得分来处理用户设置的冲 ReNN).ReNN基于局部的推理检测局部模式,由 突消解任务.Fader等时基于来自网络或Wikipedia 局部模式领域知识的规则来生成规则调制映射 的lO00个句子中人工标注的实例来训练ReVerb 针对规则引起的优化问题,采用两阶段优化策略 系统的置信函数,通过一个逻辑回归分类器来评 引入规则解决了传统神经网络必须受限于数据集 估每一个通过ReVerb系统抽取得到的实例的置 的问题,从而提升了推理的准确率 信度.Google的Knowledge vault项目,通过统计 Zhang等则提出了一个名为IterE的迭代学习 全球网络中抽取数据的频率作为评估信息可信度 嵌入和规则的框架,目标是同时学习实体嵌入表 的依据,并通过已有知识库中的知识来修正可信 示和规则,并利用它们各自的优势来弥补对方的 度,这一方法有效降低了评估数据结果的不确定 不足.Nie与Sun四组合了隐形特征和图特征的 性,从而提升了知识的质量水平.Tan等97提出了 优势提出了一个名为文本强化型知识图谱嵌入 一个名为CQUAL(Contribution quality predictor)的
循环卷积提出 InteractE 模型. InteractE 模型通过使 用多种排列输入,更简单的特征变形方法以及循 环卷积来取得比 ConvE 更显著的效果. 3.4 混合推理 对于上面的几类知识推理的方法,各有其优 势与缺点,于是考虑结合多种方法的优势来提升 推理效果,进而提出了混合推理方法. Guo 等[87] 提 出学习规则增强关系来补全知识图谱的方法,使 用规则来进一步改善传统关系学习得到的推理结 果,提升知识推理的准确性. Lu 等[88] 提出了基于 强化学习建模的逻辑概率的知识表示和推理模 型,同时在已知的知识和由强化学习整合的经验 上进行推理来训练强化学习的 Agent. Xie 等[89] 提 出一种利用实体描述的知识表示学习的方法,使 用了连续词袋模型和深度卷积模型来编码实体 的描述语义. 之后进一步学习通过三元组和三元 组中实体的描述来学习表示知识. 并利用学习到 的知识来完成知识推理任务. Wang[90] 提出规则 嵌入神经网络 ( The rule-embedded neural network, ReNN). ReNN 基于局部的推理检测局部模式,由 局部模式领域知识的规则来生成规则调制映射. 针对规则引起的优化问题,采用两阶段优化策略. 引入规则解决了传统神经网络必须受限于数据集 的问题,从而提升了推理的准确率. Zhang 等[91] 提出了一个名为 IterE 的迭代学习 嵌入和规则的框架,目标是同时学习实体嵌入表 示和规则,并利用它们各自的优势来弥补对方的 不足. Nie 与 Sun[92] 组合了隐形特征和图特征的 优势提出了一个名为文本强化型知识图谱嵌入 (Text-enhanced knowledge graph embedding,TKGE) 的组合模型,通过实体、关系和文本来提升推理的 表现. Guan 等[93] 基于一个常识图的常识概念信息 提出了一个常识伴随的知识图谱嵌入(Knowledge graph embedding with concepts,KEC)模型,将来自 于知识图谱的事实元组通过常识概念信息修正, 从而使得模型不仅仅关注实体间的关联性还有实 体存在的常识概念. 因此这个模型具有明确的语 义性. 4 类知识推理方法对比如表 2 所示. 3.5 质量评估 通过质量评估技术来对新知识进行筛选,是 构建知识图谱中必不可少的环节. Mendes 等[94] 提 出了 Sieve,用于简化生成高质量数据的任务,并整 合进了链接数据整合框架(Linked data integration framework,LDIF)中,包括一个质量评估模型和一 个数据融合模型. 质量评估主要利用用户选择的 质量因子,通过用户配置的得分函数生成质量得 分. 数据融合使用质量得分来处理用户设置的冲 突消解任务. Fader 等[95] 基于来自网络或 Wikipedia 的 1000 个句子中人工标注的实例来训练 ReVerb 系统的置信函数,通过一个逻辑回归分类器来评 估每一个通过 ReVerb 系统抽取得到的实例的置 信度. Google 的 Knowledge vault 项目[96] ,通过统计 全球网络中抽取数据的频率作为评估信息可信度 的依据,并通过已有知识库中的知识来修正可信 度,这一方法有效降低了评估数据结果的不确定 性,从而提升了知识的质量水平. Tan 等[97] 提出了 一个名为 CQUAL(Contribution quality predictor)的 表 1 部分基于表示学习的知识推理模型 Table 1 Some knowledge reasoning models based on representation learning Method Scoring function The entity representations The relation representation TransE −∥h+t−r∥1/2 h,t ∈ R d r ∈ R d ManifoldE − ( ∥h+t−r∥ 2 2 −θ 2 r )2 h,t ∈ R d r ∈ R d SimplE 1 2 (⟨hei , vr ,te j ⟩ + ⟨ he j , vr −1 ,tei ⟩) he,te ∈ R d vr ∈ R d RotatE ∥h ◦ r −t∥ h,t ∈ C d r ∈ C d QuatE h⊗ r |r| ·t h,t ∈ H d r ∈ H d RESCAL h TMr t h,t ∈ R d Mr ∈ R d×d DistMult h Tdiag(r)t h,t ∈ R d r ∈ R d ComplEx Re ( h Tdiag(r)t¯ ) h,t ∈ C d r ∈ C d ANALOGY h TMr t h,t ∈ R d Mr ∈ R d×d CrossE σ ( tanh(cr ◦ h+cr ◦ h ◦ r +b)t T ) h,t ∈ R d r ∈ R d · 1260 · 工程科学学报,第 42 卷,第 10 期
马忠贵等:知识图谱的最新进展、关键技术和挑战 .1261· 表24类知识推理方法对比 Table 2 Comparisons of 4 kinds of knowledge reasoning methods Reasoning methods Advantage Disadvantage Typical model The advantages of graph structure and rules Large-scale knowledge graphs have complex Knowledge reasoning based on graph graph structures and rules are not easy to structure and statistical rule mining can significantly improve the accuracy of knowledge reasoning obtain:noise rules can mislead PRA AMIE TensoLog knowledge reasoning Knowledge reasoning based on Simple and efficient,suitable for Does not consider the deeper information in the knowledge graph,which limits its RESCAL TransE representation learning large-scale knowledge graph accuracy of reasoning Knowledge reasoning based on Outstanding learning ability and High complexity,huge number of parameters, the neural network reasoning ability and poor interpretability NTN Knowledge reasoning based Combines the advantages of several Most methods are just shallow fusion, inference methods,so its performance not taking full advantage of their TKGE on hybrid methods is excellent respective methods 方法来自动预测用户提交至知识库的知识的质 谱中诸如实体、关系的信息,许多研究进一步基于 量,主要依据提交用户的领域、提交历史、以及历 嵌入正则化来提升推荐效果.Wang等uo将图注 史准确率等数据.实验表明这一方法拥有很高的 意网络应用于实体-关系和用户-物品图的协作知 准确率和召回率 识图谱上,提出了名为知识图谱注意力网络的模 型,在端到端的模式下通过嵌入传播和基于注意 4知识图谱应用 的聚合对建模知识图谱中的高阶连通性建模 知识图谱技术提出之后,因其具有的语义处 在垂直行业或领域内,知识图谱已开始应用 理和开放互联的能力,以及其简洁灵活的表达方 在医疗领域,通过提供更加精确规范的行业数据 式等优势,受到了广泛关注.知识图谱技术的发展 以及更加丰富的表达,帮助非行业相关人员获取 得益于自然语言处理、互联网等技术的发展,而不 医疗知识的同时也帮助行业人员更直观快捷获取 断完善的知识图谱技术也可以应用到自然语言处 所需医疗知识.在金融领域,借助知识图谱检测数 理、智能问答系统、智能推荐系统等技术中,进一 据的不一致性,来识别潜在的欺诈风险.同时,利 步促进这些技术的发展,而这些技术以及知识图 用知识图谱技术分析招股书、年报、公司公告等 谱技术又可以进一步应用在诸如医疗、金融、电 金融报告,建立公司和人物的关系,在此基础上做 商等垂直行业或领域内,帮助促进行业发展6刀 更进一步的研究和更优的决策.在电商领域,阿里 构建完备的知识图谱可以帮助自然语言理解 巴巴已经通过应用知识图谱,建立商品间的关联 技术发展.针对文本分类问题,Wang等1首先利 信息,为用户提供更全面的商品信息和更智能 用知识库中的知识将短文本概念化,获得短文本 化的推荐,从而提升用户的购物服务与体验.同 的嵌入表示后送入卷积神经网络中进行分类 时,知识图谱也在教育、科研、军事等领域中广泛 Lagon等网提出了知识图谱语言模型,一种拥有 应用 从知识图谱中选择和复制知识的神经语言模型. 5知识图谱在知识融合、推理与应用中的 智能问答系统可以依靠知识图谱中的知识 挑战与展望 来回答查询.Bauer等Ilo1利用关系路径从常识网 络中获取背景常识知识,之后利用多注意力机制 自谷歌提出知识图谱概念至今,这项技术一 完成多跳推理并通过一个指针生成译码器来合成 直受到广泛的关注.随着深度学习、自然语言处 问题的答案.朱宗奎等针对中文知识图谱问答 理等相关领域的发展,知识图谱的研究热度不断 系s统,将BERT(Bidirectional encoder representations 增加.不可忽略的是,知识图谱发展至今,知识融 from transformers)模型和双向长短期记忆网络结 合、知识推理等知识图谱关键技术以及知识图谱 合,之后通过条件随机场模型来预测字符标签,从 的应用仍面临许多挑战 而识别出问题中的实体并链接到知识网络中,最 知识融合技术是知识图谱的关键技术之一 后完成答案的搜索 知识融合主要任务是将新获得的知识融入知识图 知识图谱可作为外部信息整合至推荐系统 谱中,保证知识图谱知识准确率的前提下高效地 中,使得推荐系统获得推理能力.通过利用知识图 引入新知识,是知识融合的关键.存在的挑战如
方法来自动预测用户提交至知识库的知识的质 量,主要依据提交用户的领域、提交历史、以及历 史准确率等数据. 实验表明这一方法拥有很高的 准确率和召回率. 4 知识图谱应用 知识图谱技术提出之后,因其具有的语义处 理和开放互联的能力,以及其简洁灵活的表达方 式等优势,受到了广泛关注. 知识图谱技术的发展 得益于自然语言处理、互联网等技术的发展,而不 断完善的知识图谱技术也可以应用到自然语言处 理、智能问答系统、智能推荐系统等技术中,进一 步促进这些技术的发展,而这些技术以及知识图 谱技术又可以进一步应用在诸如医疗、金融、电 商等垂直行业或领域内,帮助促进行业发展[16−17] . 构建完备的知识图谱可以帮助自然语言理解 技术发展. 针对文本分类问题,Wang 等[98] 首先利 用知识库中的知识将短文本概念化,获得短文本 的嵌入表示后送入卷积神经网络中进行分类. Lagon 等[99] 提出了知识图谱语言模型,一种拥有 从知识图谱中选择和复制知识的神经语言模型. 智能问答系统可以依靠知识图谱中的知识 来回答查询. Bauer 等[100] 利用关系路径从常识网 络中获取背景常识知识,之后利用多注意力机制 完成多跳推理并通过一个指针生成译码器来合成 问题的答案. 朱宗奎等[101] 针对中文知识图谱问答 系统,将 BERT(Bidirectional encoder representations from transformers)模型和双向长短期记忆网络结 合,之后通过条件随机场模型来预测字符标签,从 而识别出问题中的实体并链接到知识网络中,最 后完成答案的搜索. 知识图谱可作为外部信息整合至推荐系统 中,使得推荐系统获得推理能力. 通过利用知识图 谱中诸如实体、关系的信息,许多研究进一步基于 嵌入正则化来提升推荐效果. Wang 等[102] 将图注 意网络应用于实体–关系和用户–物品图的协作知 识图谱上,提出了名为知识图谱注意力网络的模 型,在端到端的模式下通过嵌入传播和基于注意 的聚合对建模知识图谱中的高阶连通性建模. 在垂直行业或领域内,知识图谱已开始应用. 在医疗领域,通过提供更加精确规范的行业数据 以及更加丰富的表达,帮助非行业相关人员获取 医疗知识的同时也帮助行业人员更直观快捷获取 所需医疗知识. 在金融领域,借助知识图谱检测数 据的不一致性,来识别潜在的欺诈风险. 同时,利 用知识图谱技术分析招股书、年报、公司公告等 金融报告,建立公司和人物的关系,在此基础上做 更进一步的研究和更优的决策. 在电商领域,阿里 巴巴已经通过应用知识图谱,建立商品间的关联 信息,为用户提供更全面的商品信息和更智能 化的推荐,从而提升用户的购物服务与体验. 同 时,知识图谱也在教育、科研、军事等领域中广泛 应用. 5 知识图谱在知识融合、推理与应用中的 挑战与展望 自谷歌提出知识图谱概念至今,这项技术一 直受到广泛的关注. 随着深度学习、自然语言处 理等相关领域的发展,知识图谱的研究热度不断 增加. 不可忽略的是,知识图谱发展至今,知识融 合、知识推理等知识图谱关键技术以及知识图谱 的应用仍面临许多挑战. 知识融合技术是知识图谱的关键技术之一. 知识融合主要任务是将新获得的知识融入知识图 谱中. 保证知识图谱知识准确率的前提下高效地 引入新知识,是知识融合的关键. 存在的挑战如 表 2 4 类知识推理方法对比 Table 2 Comparisons of 4 kinds of knowledge reasoning methods Reasoning methods Advantage Disadvantage Typical model Knowledge reasoning based on graph structure and statistical rule mining The advantages of graph structure and rules can significantly improve the accuracy of knowledge reasoning Large-scale knowledge graphs have complex graph structures and rules are not easy to obtain; noise rules can mislead knowledge reasoning PRA AMIE TensoLog Knowledge reasoning based on representation learning Simple and efficient, suitable for large-scale knowledge graph Does not consider the deeper information in the knowledge graph, which limits its accuracy of reasoning RESCAL TransE Knowledge reasoning based on the neural network Outstanding learning ability and reasoning ability High complexity, huge number of parameters, and poor interpretability NTN Knowledge reasoning based on hybrid methods Combines the advantages of several inference methods, so its performance is excellent Most methods are just shallow fusion, not taking full advantage of their respective methods TKGE 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1261 ·
·1262 工程科学学报,第42卷,第10期 下:(1)为了保证融合后知识图谱的质量,首先要 于机器的知识库,是实现机器认知智能的关键技 提升知识评估的能力.现存的知识评估方法大都 术,也是网络大数据时代中利用大数据的关键技 是针对静态知识进行评估,缺少动态知识评估手 术.本文从知识图谱构建过程中的关键技术出发, 段是目前知识评估面临的一大挑战.(2)要解决由 简略研究了知识的抽取与表示,重点分析了知识 自然语言的特殊性引发的知识冗余和缺失问题 融合和知识推理技术的研究成果.然而众多研究 当知识图谱不能准确将具有同义异名的实体对齐 成果实用性不强,知识图谱虽然已经出现了诸如 或将同名异义的实体消歧就会导致知识图谱中出 Magi1o这样的理论实践者,但距离知识图谱成为 现知识冗余或缺失.(3)目前,因自然语言的复杂 机器大脑知识库、实现机器认知智能的终极目标 性,在单一语言的背景下实体对齐和实体消歧的 还有不小的距离.未来的研究中,基于网络数据自 准确率仍然有待提高,针对多语言实体对齐或消 动构建的知识图谱将成为主流.因而需要进一步 歧更是一大挑战 提高知识抽取、知识融合和知识推理技术的准确 知识推理技术也是知识图谱的关键技术之 性,确保获取知识的质量:同时提高这些技术的效 一,通过已知的知识推理获得新知识来完善知识 率,从而保证面对大规模数据量级时的实用性.同 图谱.存在的挑战如下:(1)知识推理的主要对象 时,知识图谱虽然已经在公安情报分析、反金融欺 多是二元关系,通常处理多元关系的方法是将其 诈等实际问题中开始应用,但是其具有的巨大潜 拆分为二元关系进行推理,然而将多元关系拆分 力仍有待挖掘,如何将知识图谱技术应用在生活 会损失结构信息,如何尽可能完整地利用多元关 中的各个方面,也将是未来的主要研究方向.除此 系中复杂的隐含信息推理是知识推理的一大挑 之外,目前存在着的大量知识图谱,大多有着结构 战.(2)现有的知识推理往往都是基于大量高质量 或者语言上的差异,这种差异增大了知识图谱应 的数据集训练推理模型,在相应的测试集中测试 用的难度,制定行业规范、整合各个知识图谱、构 优化模型来完成推理.除了数据集获取成本高的 建通用知识图谱,也是未来知识图谱研究的方向 问题,通过数据集训练的模型的泛化能力也极为 之一 有限,而现实世界中人类通过少量样本学习即可 完成推理.如何模仿人脑机制实现小样本或零样 参考文献 本学习知识推理也是一大挑战.(3)知识图谱中知 [1] Sheth A,Thirunarayan K.Semantics Empowered Web 3.0: 识的有效性往往受到时间空间等动态因素约束, Managing Enterprise,Social,Sensor,and Cloud-Based Data and 如何合理利用知识的动态约束信息完成动态推理 Services for Advanced Applications.Vermont:Morgan 也是知识推理的一大挑战. Claypool,2012 知识的表达、存储与查询将是贯穿知识图谱 [2] Singhal A.Official Google Blog:Introducing the Knowledge 应用始终的问题.存在的挑战如下:(1)目前,应用 Graph:things,not strings[J/OL].Google Inc (2012-05-02)[2020- 在行业领域的知识图谱因为很大程度上依赖人工 02-281.http://googleblog.blogspot.pt/2012/05/introducing-know- ledge-graph-things-not.html 的参与构建,成本高昂.大多数研究工作主要针对 [3] Hoffart J,Suchanek F M,Berberich K,et al.YAGO2:a spatially 知识图谱的半自动构建),如何自动构建高质量 and temporally enhanced knowledge base from Wikipedia.Artif 知识图谱是知识图谱应用所面临的一大挑战.(2) Intelligence,2013,194:28 知识拥有指导功能,利用知识图谱中的知识引导 [4] Auer S,Bizer C,Kobilarov G,et al.DBpedia:a nucleus for a 机器学习中的数据学习,从而降低数据依赖打破 web of open data /Proceedings of the 6th International The 数据红利损耗殆尽后的僵局,是知识图谱应用面 Semantic Web and 2nd Asian Conference on Asian Semantic Web 临的一大挑战.(3)利用人类易懂的符号化知识图 Conference.Busan,2007:722 谱,解释各类机器学习特别是深度学习的过程,补 ) Bollacker K,Evans C,Paritosh P,et al.Freebase:a 足其在可解释性方面的短板,也是知识图谱应用 collaboratively created graph database for structuring human 面临的一大挑战.(4)未来,能否应用知识图谱中 knowledge Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data.Vancouver, 的知识,作为已知的经验,通过训练构建人工智能 2008:1247 层面上的心智模型,同样是知识图谱应用的一大 [6] Carlson A,Betteridge J,Kisiel B,et al.Toward an architecture 挑战 for never-ending language learning /Twenty-Fourth A44/ 知识图谱意在模仿人类的认知方式,构建属 Conference on Artificial Intelligence.Atlanta,2010:1306
下:(1)为了保证融合后知识图谱的质量,首先要 提升知识评估的能力. 现存的知识评估方法大都 是针对静态知识进行评估,缺少动态知识评估手 段是目前知识评估面临的一大挑战. (2)要解决由 自然语言的特殊性引发的知识冗余和缺失问题. 当知识图谱不能准确将具有同义异名的实体对齐 或将同名异义的实体消歧就会导致知识图谱中出 现知识冗余或缺失. (3)目前,因自然语言的复杂 性,在单一语言的背景下实体对齐和实体消歧的 准确率仍然有待提高,针对多语言实体对齐或消 歧更是一大挑战. 知识推理技术也是知识图谱的关键技术之 一,通过已知的知识推理获得新知识来完善知识 图谱. 存在的挑战如下:(1)知识推理的主要对象 多是二元关系,通常处理多元关系的方法是将其 拆分为二元关系进行推理,然而将多元关系拆分 会损失结构信息,如何尽可能完整地利用多元关 系中复杂的隐含信息推理是知识推理的一大挑 战. (2)现有的知识推理往往都是基于大量高质量 的数据集训练推理模型,在相应的测试集中测试 优化模型来完成推理. 除了数据集获取成本高的 问题,通过数据集训练的模型的泛化能力也极为 有限,而现实世界中人类通过少量样本学习即可 完成推理. 如何模仿人脑机制实现小样本或零样 本学习知识推理也是一大挑战. (3)知识图谱中知 识的有效性往往受到时间空间等动态因素约束, 如何合理利用知识的动态约束信息完成动态推理 也是知识推理的一大挑战. 知识的表达、存储与查询将是贯穿知识图谱 应用始终的问题. 存在的挑战如下:(1)目前,应用 在行业领域的知识图谱因为很大程度上依赖人工 的参与构建,成本高昂. 大多数研究工作主要针对 知识图谱的半自动构建[103] ,如何自动构建高质量 知识图谱是知识图谱应用所面临的一大挑战. (2) 知识拥有指导功能,利用知识图谱中的知识引导 机器学习中的数据学习,从而降低数据依赖打破 数据红利损耗殆尽后的僵局,是知识图谱应用面 临的一大挑战. (3)利用人类易懂的符号化知识图 谱,解释各类机器学习特别是深度学习的过程,补 足其在可解释性方面的短板,也是知识图谱应用 面临的一大挑战. (4)未来,能否应用知识图谱中 的知识,作为已知的经验,通过训练构建人工智能 层面上的心智模型,同样是知识图谱应用的一大 挑战. 知识图谱意在模仿人类的认知方式,构建属 于机器的知识库,是实现机器认知智能的关键技 术,也是网络大数据时代中利用大数据的关键技 术. 本文从知识图谱构建过程中的关键技术出发, 简略研究了知识的抽取与表示,重点分析了知识 融合和知识推理技术的研究成果. 然而众多研究 成果实用性不强,知识图谱虽然已经出现了诸如 Magi[104] 这样的理论实践者,但距离知识图谱成为 机器大脑知识库、实现机器认知智能的终极目标 还有不小的距离. 未来的研究中,基于网络数据自 动构建的知识图谱将成为主流. 因而需要进一步 提高知识抽取、知识融合和知识推理技术的准确 性,确保获取知识的质量;同时提高这些技术的效 率,从而保证面对大规模数据量级时的实用性. 同 时,知识图谱虽然已经在公安情报分析、反金融欺 诈等实际问题中开始应用,但是其具有的巨大潜 力仍有待挖掘,如何将知识图谱技术应用在生活 中的各个方面,也将是未来的主要研究方向. 除此 之外,目前存在着的大量知识图谱,大多有着结构 或者语言上的差异,这种差异增大了知识图谱应 用的难度,制定行业规范、整合各个知识图谱、构 建通用知识图谱,也是未来知识图谱研究的方向 之一. 参 考 文 献 Sheth A, Thirunarayan K. Semantics Empowered Web 3.0: Managing Enterprise, Social, Sensor, and Cloud-Based Data and Services for Advanced Applications. Vermont: Morgan & Claypool, 2012 [1] Singhal A. Official Google Blog: Introducing the Knowledge Graph: things, not strings[J/OL]. Google Inc (2012-05-02)[2020- 02-28]. http://googleblog.blogspot.pt/2012/05/introducing-knowledge-graph-things-not.html [2] Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: a spatially and temporally enhanced knowledge base from Wikipedia. Artif Intelligence, 2013, 194: 28 [3] Auer S, Bizer C, Kobilarov G, et al. DBpedia: a nucleus for a web of open data // Proceedings of the 6th International The Semantic Web and 2nd Asian Conference on Asian Semantic Web Conference. Busan, 2007: 722 [4] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge // Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, 2008: 1247 [5] Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning // Twenty-Fourth AAAI Conference on Artificial Intelligence. Atlanta, 2010: 1306 [6] · 1262 · 工程科学学报,第 42 卷,第 10 期