知识图谱的最新进展、关键技术和挑战

围绕知识图谱的全生命周期技术，从知识抽取、知识融合、知识推理、知识应用几个层面展开综述，重点介绍了知识融合技术和知识推理技术。通过知识抽取技术，可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站抽取实体、关系、属性等知识要素。通过知识融合，可消除实体、关系、属性等指称项与实体对象之间的歧义，得到一系列基本的事实表达。通过本体抽取、知识推理和质量评估形成最终的知识图谱库。按照知识抽取、知识融合、知识推理3个步骤对知识图谱迭代更新，实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工，从而拥有词条自动化链接、词条编辑辅助功能，最终达成全流程自动化知识获取的目标。最后，讨论知识图谱未来的发展方向与可能存在的挑战。

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：771.03KB

知识图谱的最新进展、关键技术和挑战马忠贵倪润宇余开航 Recent advances, key techniques and future challenges of knowledge graph MA Zhong-gui, NI Run-yu, YU Kai-hang 引用本文: 马忠贵, 倪润宇, 余开航. 知识图谱的最新进展、关键技术和挑战[J]. 工程科学学报, 2020, 42(10): 1254-1266. doi: 10.13374/j.issn2095-9389.2020.02.28.001 MA Zhong-gui, NI Run-yu, YU Kai-hang. Recent advances, key techniques and future challenges of knowledge graph[J]. Chinese Journal of Engineering, 2020, 42(10): 1254-1266. doi: 10.13374/j.issn2095-9389.2020.02.28.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001 您可能感兴趣的其他文章 Articles you may be interested in 钢包工作衬用耐火材料的研究现状及最新进展 Current research and latest developments on refractories used as ladle linings 工程科学学报. 2019, 41(6): 695 https://doi.org/10.13374/j.issn2095-9389.2019.06.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报. 2018, 40(11): 1373 https://doi.org/10.13374/j.issn2095-9389.2018.11.011 脉动热管的理论研究与应用新进展 New progress in the theoretical research and application of pulsating heat pipe 工程科学学报. 2019, 41(9): 1115 https://doi.org/10.13374/j.issn2095-9389.2019.09.002 中国膏体技术发展现状与趋势 Status and prospects of paste technology in China 工程科学学报. 2018, 40(5): 517 https://doi.org/10.13374/j.issn2095-9389.2018.05.001 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003 区块链技术及其研究进展 Survey of blockchain technology and its advances 工程科学学报. 2019, 41(11): 1361 https://doi.org/10.13374/j.issn2095-9389.2019.03.26.004

工程科学学报.第42卷.第10期：1254-1266.2020年10月 Chinese Journal of Engineering,Vol.42,No.10:1254-1266,October 2020 https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001;http://cje.ustb.edu.cn 知识图谱的最新进展、关键技术和挑战马忠贵区，倪润宇，余开航北京科技大学计算机与通信工程学院.北京100083 ☒通信作者，E-mail:zhongguima@ustb.edu.cn 摘要围绕知识图谱的全生命周期技术，从知识抽取、知识融合、知识推理、知识应用几个层面展开综述，重点介绍了知识融合技术和知识推理技术.通过知识抽取技术，可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站抽取实体、关系、属性等知识要素.通过知识融合，可消除实体、关系、属性等指称项与实体对象之间的歧义，得到一系列基本的事实表达.通过本体抽取、知识推理和质量评估形成最终的知识图谱库.按照知识抽取、知识融合、知识推理3个步骤对知识图谱迭代更新，实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工，从而拥有词条自动化链接、词条编辑辅助功能，最终达成全流程自动化知识获取的目标.最后，讨论知识图谱未来的发展方向与可能存在的挑战关键词知识工程：知识图谱：知识融合：知识推理：知识抽取与表示分类号TP391.1 Recent advances,key techniques and future challenges of knowledge graph MA Zhong-gu,NI Run-yu,YU Kai-hang School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:zhongguima @ustb.edu.cn ABSTRACT The Google knowledge graph is a knowledge base used by Google and its services to enhance the search engine's results with information gathered from a variety of sources.Since its inception by Google to improve users'quality of experience of the search engine,the knowledge graph has become a term that is recently ubiquitously used in medical,education,finance,e-commerce and other industries to promote artificial intelligence (Al),which evolves from perceptual intelligence to cognitive intelligence.As a branch of knowledge engineering,a knowledge graph is based on the semantic network of knowledge engineering,and it combines the latest advancements achieved in machine learning,natural language processing,knowledge representation,and inference.Both academia and industries are showing keen interest in Al,and several studies are in progress under promotion of big data.With its powerful semantic processing and open interconnection capabilities,the knowledge graph can break the data isolation in different scenarios,and can generate application value in intelligent information services such as intelligent search and recommendation,intelligent question answering,and content distribution networks,thereby making information services more intelligent.The state of the art of knowledge graph technologies is outlined by introducing a process of building a knowledge graph.A knowledge graph is a structured representation of facts,consisting of entities,relations and semantic descriptions.A comprehensive summary of the overall lifecycle technologies of the knowledge graph is provided,including knowledge extraction,knowledge fusion,knowledge reasoning,and knowledge application.But the focus is on knowledge fusion and knowledge reasoning.Entities,relations,attributes,and other knowledge elements can be extracted from existing structured,semi-structured,unstructured data sources,and websites given in encyclopedia using knowledge extraction. With knowledge fusion,the ambiguity between referential items such as entities,relations,and attributes can be eliminated,and a series of basic facts can be obtained.The final knowledge base is formed through ontology extraction,knowledge reasoning and quality 收稿日期：2020-02-28 基金项目：中央高校基本科研业务费专项资金资助项目(FRF-DF-20-12,FRF-GF-18-017B)

知识图谱的最新进展、关键技术和挑战马忠贵苣，倪润宇，余开航北京科技大学计算机与通信工程学院，北京 100083 苣通信作者，E-mail：zhongguima@ustb.edu.cn 摘要围绕知识图谱的全生命周期技术，从知识抽取、知识融合、知识推理、知识应用几个层面展开综述，重点介绍了知识融合技术和知识推理技术. 通过知识抽取技术，可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站抽取实体、关系、属性等知识要素. 通过知识融合，可消除实体、关系、属性等指称项与实体对象之间的歧义，得到一系列基本的事实表达. 通过本体抽取、知识推理和质量评估形成最终的知识图谱库. 按照知识抽取、知识融合、知识推理 3 个步骤对知识图谱迭代更新，实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工，从而拥有词条自动化链接、词条编辑辅助功能，最终达成全流程自动化知识获取的目标. 最后，讨论知识图谱未来的发展方向与可能存在的挑战. 关键词知识工程；知识图谱；知识融合；知识推理；知识抽取与表示分类号 TP391.1 Recent advances, key techniques and future challenges of knowledge graph MA Zhong-gui苣，NI Run-yu，YU Kai-hang School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: zhongguima@ustb.edu.cn ABSTRACT The Google knowledge graph is a knowledge base used by Google and its services to enhance the search engine's results with information gathered from a variety of sources. Since its inception by Google to improve users' quality of experience of the search engine, the knowledge graph has become a term that is recently ubiquitously used in medical, education, finance, e-commerce and other industries to promote artificial intelligence (AI), which evolves from perceptual intelligence to cognitive intelligence. As a branch of knowledge engineering, a knowledge graph is based on the semantic network of knowledge engineering, and it combines the latest advancements achieved in machine learning, natural language processing, knowledge representation, and inference. Both academia and industries are showing keen interest in AI, and several studies are in progress under promotion of big data. With its powerful semantic processing and open interconnection capabilities, the knowledge graph can break the data isolation in different scenarios, and can generate application value in intelligent information services such as intelligent search and recommendation, intelligent question answering, and content distribution networks, thereby making information services more intelligent. The state of the art of knowledge graph technologies is outlined by introducing a process of building a knowledge graph. A knowledge graph is a structured representation of facts, consisting of entities, relations and semantic descriptions. A comprehensive summary of the overall lifecycle technologies of the knowledge graph is provided, including knowledge extraction, knowledge fusion, knowledge reasoning, and knowledge application. But the focus is on knowledge fusion and knowledge reasoning. Entities, relations, attributes, and other knowledge elements can be extracted from existing structured, semi-structured, unstructured data sources, and websites given in encyclopedia using knowledge extraction. With knowledge fusion, the ambiguity between referential items such as entities, relations, and attributes can be eliminated, and a series of basic facts can be obtained. The final knowledge base is formed through ontology extraction, knowledge reasoning and quality 收稿日期: 2020−02−28 基金项目: 中央高校基本科研业务费专项资金资助项目（FRF-DF-20-12, FRF-GF-18-017B）工程科学学报，第 42 卷，第 10 期：1254−1266，2020 年 10 月 Chinese Journal of Engineering, Vol. 42, No. 10: 1254−1266, October 2020 https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001; http://cje.ustb.edu.cn

马忠贵等：知识图谱的最新进展、关键技术和挑战 ·1255 evaluation.Following the three steps of knowledge extraction,knowledge fusion,and knowledge reasoning,it can iteratively update the knowledge graph and realize full process automation knowledge acquisition,such as realizing the automatic extraction,automatic association and fusion,automatic processing of fragmented Internet knowledge,and realizing automatic linking of entries and auxiliary functions of entry editing.Finally,the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering;knowledge graph;knowledge fusion;knowledge reasoning:knowledge extraction and representation 随着知识的不断积累和科学的飞速发展，人维.限于篇幅，针对知识图谱的4个关键技术进行类社会进行了多次改变社会结构的重大生产力革了取舍，重点介绍了知识融合与知识推理技术的命.最近的生产力革命正是由Wb技术发展引发最新进展.同时，简要介绍了知识图谱目前的挑战的信息革命.伴随着Web技术不断地演进与发并展望了未来的发展方向展，人类即将迈向基于知识互联的崭新“wb3.0” 1知识抽取与表示时代川.受语义网络(Semantic network)和语义网 (Semantic web)的启发，Google公司提出了知识图对于知识图谱而言，首要的问题是：如何从海谱(Knowledge graph)闪，目的是为了提高搜索引擎量的数据提取有用信息并将得到的信息有效表示的智能能力，增强用户的搜索质量和体验.随后，并储存，就是所谓的知识抽取与表示技术.知识抽这一概念被传播开来，并广泛应用于医疗、教育、取与表示，也可以称为信息抽取，其目标主要是从金融、电商等行业中，推动人工智能从感知智能向样本源中抽取特定种类的信息，例如实体、关系和认知智能跨越.目前，已经涌现出一大批知识图属性，并将这些信息通过一定形式表达并储存.对谱，其中国外具有代表性的有YAGO!)、DBpedia、于知识图谱，一般而言采用DF描述知识，形式上 Freebase、NELL、Probase等；国内出现了开放知将有效信息表示为（主语，谓语，宾语）三元组的结识图谱项目OpenKG,中文知识图谱CN-DBpedia9、构，某些文献中也表示为（头实体，关系，尾实体） zhishi.meIo等.知识图谱的本质是连接实体间关的结构.针对信息抽取种类的不同，知识抽取又可系的图，即揭示实体之间关系的语义网络叫，普遍分为实体抽取、关系抽取以及属性抽取.图1展示采用资源描述框架(Resource description framework, 了知识图谱的技术架构. RDF)来描述知识.知识图谱全生命周期主要包括实体抽取也称为命名实体识别，主要目标是 3种关键技术：(1)从样本源中获取数据，并将其表从样本源中识别出命名实体.实体是知识图谱最示为结构化知识的知识抽取与表示技术；(2)融合基本的元素，实体抽取的完整性、准确率、召回率异源知识的知识融合技术：(3)根据知识图谱中已将直接影响知识图谱的质量).文献将实体抽有的知识进行知识推理和质量评估取的方法归纳为3种：(1)基于规则与词典的方法近几年，越来越多的学者将目光聚焦在了认通常需要为目标实体编写相应的规则，然后在原知智能上，知识图谱受到越来越广泛的关注.除了始语料中进行匹配，Quimbaya等2o提出了一个基知识图谱的技术文章爆发式增长之外，综述文章于词典的实体抽取方法，并应用于电子健康记录也越来越多.文献[1]针对知识图谱的相关技术 (2)基于统计机器学习的方法.主要利用数据来对进行了全面解析，文献12-13]综述了知识图谱核模型进行训练，然后再利用训练好的模型去识别心技术的研究进展以及典型应用，文献[14总结实体，Liu等将K近邻(K-nearest neighbors,.KNN) 了面向知识图谱的推理方法并展望了未来的研究算法和线性条件随机场(Conditional random fields, 方向，文献[15]定义知识图谱与本体的关系并简述 CRF)模型结合来识别实体，(3)面向开放域的了已开发的国内外知识图谱.2019年年末和2020 抽取方法，主要是针对海量网络数据，Jain与年年初，国内有3本知识图谱的专著问世6，我 Pennacchiotti2四提出通过已知实体的语义特征来们有了写作本论文的动机.与已有的综述文献相识别命名实体，并提出实体聚类的无监督开放域比，本文的主要贡献如下：梳理了知识图谱全生命聚类算法.Zhang与Elhadad2]提出一个无监督的周期技术，从知识抽取与表示、知识融合、知识推实体抽取方法，利用术语、语料库统计信息以及浅理、知识应用4个层面展开综述，建立方法论思层语法知识从生物医学中抽取实体

evaluation. Following the three steps of knowledge extraction, knowledge fusion, and knowledge reasoning, it can iteratively update the knowledge graph and realize full process automation knowledge acquisition, such as realizing the automatic extraction, automatic association and fusion, automatic processing of fragmented Internet knowledge, and realizing automatic linking of entries and auxiliary functions of entry editing. Finally, the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering； knowledge graph； knowledge fusion； knowledge reasoning； knowledge extraction and representation 随着知识的不断积累和科学的飞速发展，人类社会进行了多次改变社会结构的重大生产力革命. 最近的生产力革命正是由 Web 技术发展引发的信息革命. 伴随着 Web 技术不断地演进与发展，人类即将迈向基于知识互联的崭新“Web3.0” 时代[1] . 受语义网络（Semantic network）和语义网（Semantic web）的启发，Google 公司提出了知识图谱（Knowledge graph） [2] ，目的是为了提高搜索引擎的智能能力，增强用户的搜索质量和体验. 随后，这一概念被传播开来，并广泛应用于医疗、教育、金融、电商等行业中，推动人工智能从感知智能向认知智能跨越. 目前，已经涌现出一大批知识图谱，其中国外具有代表性的有 YAGO[3]、DBpedia[4]、 Freebase[5]、NELL[6]、Probase[7] 等；国内出现了开放知识图谱项目 OpenKG[8] ，中文知识图谱 CN-DBpedia[9]、 zhishi.me[10] 等. 知识图谱的本质是连接实体间关系的图，即揭示实体之间关系的语义网络[11] ，普遍采用资源描述框架（Resource description framework， RDF）来描述知识. 知识图谱全生命周期主要包括 3 种关键技术：（1）从样本源中获取数据，并将其表示为结构化知识的知识抽取与表示技术；（2）融合异源知识的知识融合技术；（3）根据知识图谱中已有的知识进行知识推理和质量评估. 近几年，越来越多的学者将目光聚焦在了认知智能上，知识图谱受到越来越广泛的关注. 除了知识图谱的技术文章爆发式增长之外，综述文章也越来越多. 文献 [11] 针对知识图谱的相关技术进行了全面解析，文献 [12−13] 综述了知识图谱核心技术的研究进展以及典型应用，文献 [14] 总结了面向知识图谱的推理方法并展望了未来的研究方向，文献 [15] 定义知识图谱与本体的关系并简述了已开发的国内外知识图谱. 2019 年年末和 2020 年年初，国内有 3 本知识图谱的专著问世[16−18] ，我们有了写作本论文的动机. 与已有的综述文献相比，本文的主要贡献如下：梳理了知识图谱全生命周期技术，从知识抽取与表示、知识融合、知识推理、知识应用 4 个层面展开综述，建立方法论思维. 限于篇幅，针对知识图谱的 4 个关键技术进行了取舍，重点介绍了知识融合与知识推理技术的最新进展. 同时，简要介绍了知识图谱目前的挑战并展望了未来的发展方向. 1 知识抽取与表示对于知识图谱而言，首要的问题是：如何从海量的数据提取有用信息并将得到的信息有效表示并储存，就是所谓的知识抽取与表示技术. 知识抽取与表示，也可以称为信息抽取，其目标主要是从样本源中抽取特定种类的信息，例如实体、关系和属性，并将这些信息通过一定形式表达并储存. 对于知识图谱，一般而言采用 RDF 描述知识，形式上将有效信息表示为（主语，谓语，宾语）三元组的结构，某些文献中也表示为（头实体，关系，尾实体）的结构. 针对信息抽取种类的不同，知识抽取又可分为实体抽取、关系抽取以及属性抽取. 图 1 展示了知识图谱的技术架构. 实体抽取也称为命名实体识别，主要目标是从样本源中识别出命名实体. 实体是知识图谱最基本的元素，实体抽取的完整性、准确率、召回率将直接影响知识图谱的质量[12] . 文献[19] 将实体抽取的方法归纳为 3 种：（1）基于规则与词典的方法. 通常需要为目标实体编写相应的规则，然后在原始语料中进行匹配，Quimbaya 等[20] 提出了一个基于词典的实体抽取方法，并应用于电子健康记录. （2）基于统计机器学习的方法. 主要利用数据来对模型进行训练，然后再利用训练好的模型去识别实体，Liu 等[21] 将 K 近邻（K-nearest neighbors，KNN）算法和线性条件随机场（Conditional random fields， CRF）模型结合来识别实体. （ 3）面向开放域的抽取方法 . 主要是针对海量网络数据， Jain 与 Pennacchiotti[22] 提出通过已知实体的语义特征来识别命名实体，并提出实体聚类的无监督开放域聚类算法. Zhang 与 Elhadad[23] 提出一个无监督的实体抽取方法，利用术语、语料库统计信息以及浅层语法知识从生物医学中抽取实体. 马忠贵等：知识图谱的最新进展、关键技术和挑战 · 1255 ·

.1256 工程科学学报.第42卷，第10期 Knowledge Other knowledge bases applications Intelligent search Structured data Knowledge Knowledge combination reasoning Intelligent recommendation Semi- Entity extraction Question structured Entity Quality answering data disambiguation evaluation Relation extraction Unstructured Entity alignment data Attribute extraction Knowledge extraction Knowledge fusion Knowledge Data sources graph 图1知识图谐的技术架构 Fig.I Architecture of the Knowledge Graph 通过实体抽取获取的实体之间往往是离散且的结果.最近的工作通过强化学习来处理句子级无关联的.通过关系抽取，可以建立起实体间的语的去噪，这种学习将来自远程监督的标签视为事义链接.关系抽取技术主要分为3种：(1)基于模实.然而，很少有工作专注于直接校正噪声标签的板的关系抽取.使用模板通过人工或者机器学习标签级降噪.Sun等o提出了一种基于强化学习的方法抽取实体关系，虽然准确率高且针对性强，的标签去噪方法，用于远程监督关系提取.该模型但是其也具有不适用于大规模数据集、低召回由两个模块组成：抽取网络和策略网络.标签去噪率、难以维护等缺点.(2)基于监督学习的关系抽的核心是在策略网络中设计一个策略来获取潜在取.将大量人工标注的数据送入模型中训练，刘克标签，可以在其中选择使用远距离监督标签或从彬等24根据本体知识库训练模型，在开放数据集抽取网络预测标签的操作.实验结果表明，强化学中对关系进行抽取，取得了极高的准确率.Sun与习对于噪声标签的校正是有效的，并且所提出的 Han提出了名为FTK(Feature-enriched tree kernel) 方法可以胜过最新的关系抽取系统的模型，利用设计好的有效特征训练，计算关系实属性抽取的目标是补全实体信息，通过从样例相似度并通过支持向量机对关系进行分类.(3) 本源中获取实体属性信息或属性值.实体属性可基于半监督或无监督学习的关系抽取.基于少量以看作是属性值与实体间的一种关系，因而可以人工标注数据或者无标注数据，使用最大期望通过关系抽取的解决思路来获得.Wu与weld (Expectation maximization)等算法的半监督关系抽利用百科类网站的半结构化数据，训练抽取模型，取方法进行关系抽取.Sun与Grishman2提出名之后将抽取模型应用在非结构化数据中抽取属为LGCo-Testing的主动学习系统，Fu与Grishman7 性.Chang等B提出了基于张量分解的关系抽取则进一步优化了这个系统.Ji等提出基于句子方法，这一方法也可以应用在属性抽取中，通过利级注意力和实体描述的神经网络关系抽取模型用关于实体种类相应的领域知识来更好地获得实 APCNNS.该模型实际采用了多示例学习的策略，体所缺少的属性值将同一关系的样例句子组成样例包，关系分类是 2知识融合基于样例包的特征进行的.实验结果表明，该模型可以有效地提高远程监督关系抽取的准确率.在通过知识抽取与表示，初步获得了数量可观采用多示例学习策略时，有可能出现整个样例包的形式化知识.由于知识来源的不同，导致知识的都包含大量噪声的情况.针对这一问题，Feng等9，质量参差不齐，知识之间存在着冲突或者重叠.此提出了基于强化学习的关系分类模型CNN-RL 时初步建立的知识图谱，知识的数量和质量都有 Convolutional neural networks and reinforcement 待提高.应用知识融合技术对多源知识进行处理， learning),该模型包括2个重要模块：样例选择器一方面提升知识图谱的质量，另一方面丰富知识和关系分类器.实验结果表明：该模型获得了比句的存量.Zhao等B]对最新的知识融合进行了综子级卷积神经网络和样例包级关系分类模型更好述.早期的知识融合是通过传统的数据融合方法

通过实体抽取获取的实体之间往往是离散且无关联的. 通过关系抽取，可以建立起实体间的语义链接. 关系抽取技术主要分为 3 种：（1）基于模板的关系抽取. 使用模板通过人工或者机器学习的方法抽取实体关系，虽然准确率高且针对性强，但是其也具有不适用于大规模数据集、低召回率、难以维护等缺点. （2）基于监督学习的关系抽取. 将大量人工标注的数据送入模型中训练，刘克彬等[24] 根据本体知识库训练模型，在开放数据集中对关系进行抽取，取得了极高的准确率. Sun 与 Han[25] 提出了名为 FTK（Feature-enriched tree kernel）的模型，利用设计好的有效特征训练，计算关系实例相似度并通过支持向量机对关系进行分类. （3）基于半监督或无监督学习的关系抽取. 基于少量人工标注数据或者无标注数据，使用最大期望（Expectation maximization）等算法的半监督关系抽取方法进行关系抽取. Sun 与 Grishman[26] 提出名为 LGCo-Testing 的主动学习系统，Fu 与 Grishman[27] 则进一步优化了这个系统. Ji 等[28] 提出基于句子级注意力和实体描述的神经网络关系抽取模型 APCNNS. 该模型实际采用了多示例学习的策略，将同一关系的样例句子组成样例包，关系分类是基于样例包的特征进行的. 实验结果表明，该模型可以有效地提高远程监督关系抽取的准确率. 在采用多示例学习策略时，有可能出现整个样例包都包含大量噪声的情况. 针对这一问题，Feng 等[29] 提出了基于强化学习的关系分类模型 CNN-RL （ Convolutional neural networks and reinforcement learning），该模型包括 2 个重要模块：样例选择器和关系分类器. 实验结果表明：该模型获得了比句子级卷积神经网络和样例包级关系分类模型更好的结果. 最近的工作通过强化学习来处理句子级的去噪，这种学习将来自远程监督的标签视为事实. 然而，很少有工作专注于直接校正噪声标签的标签级降噪. Sun 等[30] 提出了一种基于强化学习的标签去噪方法，用于远程监督关系提取. 该模型由两个模块组成：抽取网络和策略网络. 标签去噪的核心是在策略网络中设计一个策略来获取潜在标签，可以在其中选择使用远距离监督标签或从抽取网络预测标签的操作. 实验结果表明，强化学习对于噪声标签的校正是有效的，并且所提出的方法可以胜过最新的关系抽取系统. 属性抽取的目标是补全实体信息，通过从样本源中获取实体属性信息或属性值. 实体属性可以看作是属性值与实体间的一种关系，因而可以通过关系抽取的解决思路来获得. Wu 与 Weld[31] 利用百科类网站的半结构化数据，训练抽取模型，之后将抽取模型应用在非结构化数据中抽取属性. Chang 等[32] 提出了基于张量分解的关系抽取方法，这一方法也可以应用在属性抽取中，通过利用关于实体种类相应的领域知识来更好地获得实体所缺少的属性值. 2 知识融合通过知识抽取与表示，初步获得了数量可观的形式化知识. 由于知识来源的不同，导致知识的质量参差不齐，知识之间存在着冲突或者重叠. 此时初步建立的知识图谱，知识的数量和质量都有待提高. 应用知识融合技术对多源知识进行处理，一方面提升知识图谱的质量，另一方面丰富知识的存量. Zhao 等[33] 对最新的知识融合进行了综述. 早期的知识融合是通过传统的数据融合方法 Other knowledge bases Entity disambiguation Entity alignment Knowledge fusion Knowledge combination Knowledge reasoning Entity extraction Relation extraction Attribute extraction Knowledge extraction Quality evaluation Knowledge graph Structured data Semistructured data Unstructured data Data sources Knowledge applications Intelligent search Intelligent recommendation Question answering …… 图 1 知识图谱的技术架构 Fig.1 Architecture of the Knowledge Graph · 1256 · 工程科学学报，第 42 卷，第 10 期

马忠贵等：知识图谱的最新进展、关键技术和挑战 1257 完成，Dong等B比较了传统的数据融合方法，选同的支持向量机的核函数来学习不同的集成学习择了几种方法改良，并应用到知识融合中.随着知算法，例如bagging、boosing、voting等.具体流程识图谱的飞速发展，目前也出现了专门的知识融是将命名实体作为输入，根据Wikipedia中的知识合方法.下面从实体消歧、实体对齐和知识合并生成候选实体，构造特征向量，最后送入集成学习 3个方面进行综述模块里完成实体消歧， 2.1实体消歧值得一提的是，Agarwal等提出了利用时间对于知识图谱中的每一个实体都应有清晰的的实体消歧思路，通过计算实体的时序特征来和指向，即明确对应某个现实世界中存在的事物.初输入的命名实体上下文的时序比较，即使命名实步构建的知识图谱中，因数据来源复杂，存在着同体的上下文提供的信息不充分也可以完成实体消名异义的实体例如，名称为“乔丹”的实体既可以歧任务.Dong)将基于相似度特征的随机森林模指美国著名篮球运动员，也可以指葡萄牙足球运型和基于XGBoost、基于逻辑回归以及基于神经动员，还可以指某个运动品牌.为了确保每一个实网络的方法进行比较，随机森林模型不仅拥有极体有明确的含义，采用实体消歧技术来使得同名高的准确率和召回率，且不像XGBoost和神经网实体得以区分，络那样容易受到超参数的影响，在实体消歧任务利用已有的知识库和知识图谱中隐含的信息中表现突出来帮助进行语义消歧，Han与ZhaoBs提出使用维 2.2实体对齐基百科(Wikipedia)作为背景知识，通过利用在现实生活中，一个事物对应着不止一个称 Wikipedia的语义知识，例如社会关系来更精确地呼，例如，“中华人民共和国”和“中国”都对应于衡量实体间的相似性，从而提升实体消歧的效果，同一个实体.在知识图谱中也同样存在着同义异 Sen提出了主题模型，利用知识库中存在的文本名的实体，通过实体对齐，将这些实体指向同一客信息，学习共有实体组来实现实体集体消歧观事物.苏佳林等提出基于决策树的自适应属 Guo与Barbosa!刃基于语义相似性的自然概念提性选择的实体对齐方法.通过联合学习将实体嵌出了两个针对集体消歧的方法.通过在知识库上入表示在一个向量空间后，由信息增益选出最优知识子图中随机游走得到的概率分布来表示实体约束属性，训练实体对齐模型，计算最优约束属性和文档的语义，之后基于迭代的贪婪逼近算法和相似度和实体语义相似度完成实体对齐学习排序的方法来进行实体消歧任务，Zhu与 Cheng等I提出了一个全自动的实体对齐框架， Iglesias提出了基于语义上下文相似度的命名实包括候选实体生成器、选择器和清理器，利用搜索体消歧方法，基于上下文和知识图谱中实体的信引擎使用者的查询信息和查询后的点击记录，计算息词之间的语义相似度来进行实体消歧.另外还出实体间的相似度，完成实体对齐任务.Pantel等s 提出了Category2Vec模型，将目录也用嵌入向量提出了一个大规模相似性模型，在MapReduce框的形式表示出来.主要思想是候选实体和上下文架下实施并且部署了超过2000亿从互联网上爬取单词间应存在语义联系，利用该联系来帮助选出得到的单词.通过计算5亿terms得到的相似度矩正确的实体阵来进行实体对齐任务.Chakrabarti等刃通过一在线百科全书由专家和网络用户编写，有着个同义发现框架将实体相似性作为输入生成一个高覆盖率和结构信息丰富的特点.Shen等B9提出满足简单自然属性的同义词，提出了两种新的相 LINDEN(A framework for Linking named entities 似性度量法，并通过在bing系统上实际应用，发现 with knowledge base via semantic knowledge)模型，可以有效识别同义词.Mudgal等s1综述了基于深同时利用Wikipedia和WordNet,基于文本相似性度学习的实体对齐方法，通过将这些方法分类，分和主题一致性进行实体消歧.Ratinov等o提出名别组合设计空间中属性嵌人、属性相似度表示、 GLOW(Global and local approaches of Wikipedia) 分类的各个方法，得到最具代表性的平滑倒词频的系统，GLOW组合捕捉实体指称与Wikipedia题 (Smooth inverse frequency,.SIF)、循环神经网络目间的相关性的本地模型和选择准确歧义语境的 (Recurrent neural network,RNN),Attention Hybrid 方法.统计Wikipedia中实体的频率作为候选实体共4种解决方案的排序依据.Alokaili与Menail提出了基于支持针对基于嵌入表示的实体对齐，Sun等9提出向量机的集成学习来解决实体消歧问题，使用不自举的方法解决标记训练数据不足的问题.根据

完成，Dong 等[34] 比较了传统的数据融合方法，选择了几种方法改良，并应用到知识融合中. 随着知识图谱的飞速发展，目前也出现了专门的知识融合方法. 下面从实体消歧、实体对齐和知识合并 3 个方面进行综述. 2.1 实体消歧对于知识图谱中的每一个实体都应有清晰的指向，即明确对应某个现实世界中存在的事物. 初步构建的知识图谱中，因数据来源复杂，存在着同名异义的实体. 例如，名称为“乔丹”的实体既可以指美国著名篮球运动员，也可以指葡萄牙足球运动员，还可以指某个运动品牌. 为了确保每一个实体有明确的含义，采用实体消歧技术来使得同名实体得以区分. 利用已有的知识库和知识图谱中隐含的信息来帮助进行语义消歧，Han 与 Zhao[35] 提出使用维基百科（ Wikipedia）作为背景知识，通过利用 Wikipedia 的语义知识，例如社会关系来更精确地衡量实体间的相似性，从而提升实体消歧的效果. Sen[36] 提出了主题模型，利用知识库中存在的文本信息，学习共有实体组来实现实体集体消歧 . Guo 与 Barbosa[37] 基于语义相似性的自然概念提出了两个针对集体消歧的方法. 通过在知识库上知识子图中随机游走得到的概率分布来表示实体和文档的语义，之后基于迭代的贪婪逼近算法和学习排序的方法来进行实体消歧任务. Zhu 与 Iglesias[38] 提出了基于语义上下文相似度的命名实体消歧方法，基于上下文和知识图谱中实体的信息词之间的语义相似度来进行实体消歧. 另外还提出了 Category2Vec 模型，将目录也用嵌入向量的形式表示出来. 主要思想是候选实体和上下文单词间应存在语义联系，利用该联系来帮助选出正确的实体. 在线百科全书由专家和网络用户编写，有着高覆盖率和结构信息丰富的特点. Shen 等[39] 提出 LINDEN（ A framework for Linking named entities with knowledge base via semantic knowledge）模型，同时利用 Wikipedia 和 WordNet，基于文本相似性和主题一致性进行实体消歧. Ratinov 等[40] 提出名为 GLOW（Global and local approaches of Wikipedia）的系统，GLOW 组合捕捉实体指称与 Wikipedia 题目间的相关性的本地模型和选择准确歧义语境的方法. 统计 Wikipedia 中实体的频率作为候选实体的排序依据. Alokaili 与 Menai[41] 提出了基于支持向量机的集成学习来解决实体消歧问题，使用不同的支持向量机的核函数来学习不同的集成学习算法，例如 bagging、boosing、voting 等. 具体流程是将命名实体作为输入，根据 Wikipedia 中的知识生成候选实体，构造特征向量，最后送入集成学习模块里完成实体消歧. 值得一提的是，Agarwal 等[42] 提出了利用时间的实体消歧思路，通过计算实体的时序特征来和输入的命名实体上下文的时序比较，即使命名实体的上下文提供的信息不充分也可以完成实体消歧任务. Dong[43] 将基于相似度特征的随机森林模型和基于 XGBoost、基于逻辑回归以及基于神经网络的方法进行比较，随机森林模型不仅拥有极高的准确率和召回率，且不像 XGBoost 和神经网络那样容易受到超参数的影响，在实体消歧任务中表现突出. 2.2 实体对齐在现实生活中，一个事物对应着不止一个称呼，例如，“中华人民共和国”和“中国”都对应于同一个实体. 在知识图谱中也同样存在着同义异名的实体，通过实体对齐，将这些实体指向同一客观事物. 苏佳林等[44] 提出基于决策树的自适应属性选择的实体对齐方法. 通过联合学习将实体嵌入表示在一个向量空间后，由信息增益选出最优约束属性，训练实体对齐模型，计算最优约束属性相似度和实体语义相似度完成实体对齐. Cheng 等[45] 提出了一个全自动的实体对齐框架，包括候选实体生成器、选择器和清理器，利用搜索引擎使用者的查询信息和查询后的点击记录，计算出实体间的相似度，完成实体对齐任务. Pantel 等[46] 提出了一个大规模相似性模型，在 MapReduce 框架下实施并且部署了超过 2000 亿从互联网上爬取得到的单词. 通过计算 5 亿 terms 得到的相似度矩阵来进行实体对齐任务. Chakrabarti 等[47] 通过一个同义发现框架将实体相似性作为输入生成一个满足简单自然属性的同义词，提出了两种新的相似性度量法，并通过在 bing 系统上实际应用，发现可以有效识别同义词. Mudgal 等[48] 综述了基于深度学习的实体对齐方法，通过将这些方法分类，分别组合设计空间中属性嵌入、属性相似度表示、分类的各个方法，得到最具代表性的平滑倒词频（ Smooth inverse frequency， SIF）、循环神经网络（Recurrent neural network，RNN）、Attention 和 Hybrid 共 4 种解决方案. 针对基于嵌入表示的实体对齐，Sun 等[49] 提出自举的方法解决标记训练数据不足的问题. 根据马忠贵等：知识图谱的最新进展、关键技术和挑战 · 1257 ·

·1258 工程科学学报，第42卷，第10期全局最优目标来标记可能的对齐，并在迭代中将 3知识推理与质量评估其加人到训练数据中，不断训练嵌入表示模型知识推理技术可以提升知识图谱的完整性和 Guan等so发现基于监督学习的实体对齐方法，普准确性，传统的知识推理方法拥有极高的准确率，遍在取得标签数据上需要花费大量时间，无监督学习方法的表现则很大程度地依赖于验证集上复但无法适配大规模知识图谱.针对知识图谱数据量大、关系复杂的特点，提出了面向大规模知识图杂的相似度衡量方式.Zhang等su从实体的多视谱的知识推理方法，并归纳为以下4类4s刃：(1)基角出发，利用实体的名称、实体间的关系、实体的于图结构和统计规则挖掘的推理：(2)基于知识图属性的组合策略来学习实体的嵌入，并根据实体谱表示学习的推理：(3)基于神经网络的推理；(4)混的表示来完成实体对齐任务，合推理 2.3知识合并 3.1基于图结构和统计规则挖掘的推理实体消歧和实体对齐更多的是关注知识图谱受传统推理地启发，基于知识图谱的图结构中的实体，从实体层面上通过各种方法来提升知以及挖掘蕴藏在知识图谱中的规则进行推理的方识图谱的知识质量.知识合并则是从知识图谱整法得以提出，并在知识推理任务上取得一定效果体层面上进行知识的融合，基于现存的知识库和 Lao与Cohen!s81提出了路径排序算法(Path ranking 知识图谱来扩大知识图谱的规模，丰富其中蕴含 algorithm,PRA),将实体间的路径作为特征，通过的知识.然而现存的知识库或者知识图谱都是各随机行走算法来计算实体间是否存在潜在的关种机构或者组织根据自己的需求设计创建，其中系.Wang等s网设计了耦合路径排序算法(Coupled 的知识也存在着多样性和异构性，并且存在很多 path ranking algorithm,CPRA),并提出一种全新的知识上的重复和错误，因而需要使用知识合并技逐次聚合的策略，通过这一策略使得具有强相关术来解决这些问题网，知识图谱的合并需要解决度的关系聚合在一起.使用多任务学习策略预测 2个层面的问题：数据层的合并和模式层的合并5] 聚合后的关系.Xiong等6o针对多跳关系路径的知识合并过程中可能出现的来自两个数据源的同学习提出使用强化学习的框架，设计了一个具有一实体的属性值却不相同的现象，我们称这种知连续基于知识图谱嵌入状态的策略Agent,通过识合并过程中出现的现象为知识冲突.针对知识 Agent在知识图谱的向量空间中寻找最有潜力的冲突问题，可以采用冲突检测与消解以及真值发关系加入路径完成推理现等技术进行消除，再将各个来源的知识关联合 Cohent61针对如何将知识整合到梯度学习的系并为一个知识图谱统的问题，描述了一个概率演绎的数据库Tensorlog, 冲突消解目前的研究方向是利用图谱自身存通过可微分的过程来进行推理.Yang等I研究了在的特征，Trisedya等Is利用属性元组生成属性特基于学习一阶概率逻辑规则进行知识库推理的问征嵌入向量.使用成分函数来表示属性.将多个属题.受到Tensorlog的启发，提出了名为神经逻辑性值都转化为单一向量，并将相似的属性映射为规划的框架，将一阶逻辑规则的参数和结构整合相似的向量表示.利用这些属性特征嵌入向量将到一个端到端的可微分模型中.设计了一个带两个图谱中的实体嵌入转化到同一个空间中，计 Attention机制和存储功能的神经控制系统来学习算实体的相似性.Chen等5针对多语言知识图谱组合那些用于完成推理的规则.Kampffmeyer等s) 的合并，提出了利用实体描述的基于嵌入的半监提出深度图传播模型，在利用图结构的便利的同督跨语言学习方法，在一个大规模数据集上通过时解决知识过于稀疏的问题迭代的方式联合训练一个多语言知识图谱嵌入模 3.2基于知识图谱表示学习的推理型和一个文字描述嵌入模型，训练模型完成图谱表示模型将知识图谱中相应的实体和关系用的合并.Cao等5提出多通道图神经网络模型，通向量、矩阵或者张量的形式表示，表示后进行运算过多个通道将两个知识图谱进行鲁棒编码.在每完成知识推理任务，因其简单高效且适应于大规个通道中通过不同的关系加权方案来编码知识图模知识图谱推理的特点而不断发展谱，使用知识图谱补全和跨知识图谱注意力策略 3.2.1基于距离的推理模型来分别修剪每个图谱中的独有实体，通过池化技 Bordes等6提出了TransE模型，将所有的实术组合这些通道体和关系表示为同一个空间下的向量，假设事实元

全局最优目标来标记可能的对齐，并在迭代中将其加入到训练数据中，不断训练嵌入表示模型. Guan 等[50] 发现基于监督学习的实体对齐方法，普遍在取得标签数据上需要花费大量时间，无监督学习方法的表现则很大程度地依赖于验证集上复杂的相似度衡量方式. Zhang 等[51] 从实体的多视角出发，利用实体的名称、实体间的关系、实体的属性的组合策略来学习实体的嵌入，并根据实体的表示来完成实体对齐任务. 2.3 知识合并实体消歧和实体对齐更多的是关注知识图谱中的实体，从实体层面上通过各种方法来提升知识图谱的知识质量. 知识合并则是从知识图谱整体层面上进行知识的融合，基于现存的知识库和知识图谱来扩大知识图谱的规模，丰富其中蕴含的知识. 然而现存的知识库或者知识图谱都是各种机构或者组织根据自己的需求设计创建，其中的知识也存在着多样性和异构性，并且存在很多知识上的重复和错误，因而需要使用知识合并技术来解决这些问题[52] . 知识图谱的合并需要解决 2 个层面的问题：数据层的合并和模式层的合并[53] . 知识合并过程中可能出现的来自两个数据源的同一实体的属性值却不相同的现象，我们称这种知识合并过程中出现的现象为知识冲突. 针对知识冲突问题，可以采用冲突检测与消解以及真值发现等技术进行消除，再将各个来源的知识关联合并为一个知识图谱. 冲突消解目前的研究方向是利用图谱自身存在的特征，Trisedya 等[54] 利用属性元组生成属性特征嵌入向量. 使用成分函数来表示属性. 将多个属性值都转化为单一向量，并将相似的属性映射为相似的向量表示. 利用这些属性特征嵌入向量将两个图谱中的实体嵌入转化到同一个空间中，计算实体的相似性. Chen 等[55] 针对多语言知识图谱的合并，提出了利用实体描述的基于嵌入的半监督跨语言学习方法，在一个大规模数据集上通过迭代的方式联合训练一个多语言知识图谱嵌入模型和一个文字描述嵌入模型，训练模型完成图谱的合并. Cao 等[56] 提出多通道图神经网络模型，通过多个通道将两个知识图谱进行鲁棒编码. 在每个通道中通过不同的关系加权方案来编码知识图谱，使用知识图谱补全和跨知识图谱注意力策略来分别修剪每个图谱中的独有实体，通过池化技术组合这些通道. 3 知识推理与质量评估知识推理技术可以提升知识图谱的完整性和准确性. 传统的知识推理方法拥有极高的准确率，但无法适配大规模知识图谱. 针对知识图谱数据量大、关系复杂的特点，提出了面向大规模知识图谱的知识推理方法，并归纳为以下 4 类[14, 57] ：（1）基于图结构和统计规则挖掘的推理；（2）基于知识图谱表示学习的推理；（3）基于神经网络的推理；（4）混合推理. 3.1 基于图结构和统计规则挖掘的推理受传统推理地启发，基于知识图谱的图结构以及挖掘蕴藏在知识图谱中的规则进行推理的方法得以提出，并在知识推理任务上取得一定效果. Lao 与 Cohen[58] 提出了路径排序算法（Path ranking algorithm，PRA），将实体间的路径作为特征，通过随机行走算法来计算实体间是否存在潜在的关系. Wang 等[59] 设计了耦合路径排序算法（Coupled path ranking algorithm，CPRA），并提出一种全新的逐次聚合的策略，通过这一策略使得具有强相关度的关系聚合在一起. 使用多任务学习策略预测聚合后的关系. Xiong 等[60] 针对多跳关系路径的学习提出使用强化学习的框架，设计了一个具有连续基于知识图谱嵌入状态的策略 Agent，通过 Agent 在知识图谱的向量空间中寻找最有潜力的关系加入路径完成推理. Cohen[61] 针对如何将知识整合到梯度学习的系统的问题，描述了一个概率演绎的数据库 Tensorlog，通过可微分的过程来进行推理. Yang 等[62] 研究了基于学习一阶概率逻辑规则进行知识库推理的问题. 受到 Tensorlog 的启发，提出了名为神经逻辑规划的框架，将一阶逻辑规则的参数和结构整合到一个端到端的可微分模型中. 设计了一个带 Attention 机制和存储功能的神经控制系统来学习组合那些用于完成推理的规则. Kampffmeyer 等[63] 提出深度图传播模型，在利用图结构的便利的同时解决知识过于稀疏的问题. 3.2 基于知识图谱表示学习的推理表示模型将知识图谱中相应的实体和关系用向量、矩阵或者张量的形式表示，表示后进行运算完成知识推理任务. 因其简单高效且适应于大规模知识图谱推理的特点而不断发展. 3.2.1 基于距离的推理模型 Bordes 等[64] 提出了 TransE 模型，将所有的实体和关系表示为同一个空间下的向量，假设事实元 · 1258 · 工程科学学报，第 42 卷，第 10 期

马忠贵等：知识图谱的最新进展、关键技术和挑战 .1259· 组中头实体向量和关系向量之和应该约等于尾实和关系都由复平面中的向量表示，计算头实体向体的向量.通过随机替换事实元组中的某一项来量和根据关系向量建立的对角矩阵以及尾实体向构建负例.计算元组中头向量和关系向量的和向量的共轭这三者的乘积，结果的实部作为元组的量与尾向量的距离作为候选实体的得分.尽管得分.Liu等m提出ANALOGY模型，利用实体和 TransE模型简单且有效，但其仍然具有许多缺陷，关系的类比性质来建模，实体由嵌入空间中的向因而衍生出很多基于该模型的方法.Wang等s的量表示，将关系矩阵处理得到一系列稀疏的对角提出TransH模型，每一个关系都有一个特定的超矩阵，减少了关系矩阵的参数.将头尾实体向量与平面，头实体向量和尾实体向量投影至特定的关关系矩阵的积作为元组得分系超平面计算事实元组得分.Lin等I6提出TransR Balazevic等I提出了基于KKT(Karush Kuhn 模型，针对特定关系引入了空间.Xiao等67提出 Tucker)分解的tuckER模型，将所有实体和关系分了ManifoldE模型，引入了特定关系参数.尾实体别表示为行向量嵌入矩阵，从这两个矩阵中取出向量有效范围是以头实体向量和关系实体向量的头尾实体向量和关系向量，将这些向量和一个核和向量为中心，以特定关系参数为半径的一个超心张量相乘得到元组的得分.针对大部分现存的球面.Feng等Is提出的TransF模型和ManifoldE 基于知识图谱嵌入的模型，Kristiadi等网研究了如模型有着相似的思路，放宽了TransE中对实体关何将文字信息整合到现存的表示模型中去，提出系向量的要求，仅需要头实体向量位于尾实体向了LiteralE模型，在实体的嵌入表示上加入文字信量和负的关系向量的和向量的方向上，同时尾实息，用实体表示和文字信息的联合表示取代原本体向量也位于头实体向量和关系向量的和向量的模型的单独的实体表示.Zhang等I聊提出了CrossE 方向上模型，基于向量表示实体和关系，生成多个元组的 Kzaemi与Poole!69提出SimplE模型，允许实特定嵌入即交互嵌入.由交互表示和尾实体的嵌体拥有两个独立学习的向量表示，而关系由一个入表示的匹配程度给出元组得分向量表示.Ebisu与Ichise提出了TorusE嵌入模基于表示学习的知识推理模型的比较如表1 型，将TransE的思想应用在李群(Lie group)理论所示. 中的圆环面上，即在圆环面上计算表示向量间的 3.3基于神经网络的推理距离来取得元组得分.Xu与Lim提出DihEdral模基于神经网络的推理方法将知识图谱中事实型，针对性地增强了知识推理的可解释性，通过离元组表示为问量形式送入神经网络中，通过训练散值将关系建模成组的元素，显著地缩小了解空神经网络不断提高事实元组的得分，最终通过输间.Sun等四提出RotatE模型，将关系看作是从头出得分选择候选实体完成推理.Socher等8提出实体向量向尾实体向量的旋转，元组得分通过计适应于实体间关系推理的神经张量网络(Neural 算旋转后的头实体向量和尾实体向量的距离得到 tensor networks,NTN)模型，用双线性张量层取代 Zhang等1引入超复数的概念，提出了QuatE模神经网络层，实体通过连续的词向量平均表示进型，通过一个拥有三个虚部的超复数来表示知识而提升模型的表现.Neelakantan等s2使用循环神图谱中的实体和关系.与RotatE想法类似，QuatE 经网络来建模知识图谱中的分布式语义的多跳路模型将关系看作超复数平面下头实体到尾实体的径.Das等I8主要是将符号逻辑推理中丰富的多旋转步推理与神经网络的泛化能力相结合.通过学习 3.2.2基于语义匹配的推理模型实体、关系和实体的种类来联合推理，并使用神经 Nickel等提出的RESCAL模型将实体和向注意力建模来整合多跳路径.在单层RNN中分享量联系起来，从而捕捉其中隐含的语义，潜在因子参数来表示所有关系的逻辑组成.Graves等&刷建间的相互作用建模后得到关系表示矩阵，计算实立了可微神经计算机模型，将神经网络和记忆系体向量与关系矩阵的乘积来得到元组得分统结合起来，将通过样本学习到的知识储存起来 Yang等阿提出DistMult模型，每一个关系都表示并进行快速知识推理为向量，再将向量转化为对角矩阵，通过计算头尾 Dettmers等8针对知识图谱中大规模与过拟实体向量与关系对角矩阵的乘积得到元组的得合的问题，设计了参数简洁且计算高效的二维卷分.Trouillon等7提出Complex模型，引入复数嵌积神经网络(Convolutional2D,ConvE)模型入针对不对称关系建模.在Complex模型中，实体 Vashishth等Iso基于特征排列、新的特征变形以及

组中头实体向量和关系向量之和应该约等于尾实体的向量. 通过随机替换事实元组中的某一项来构建负例. 计算元组中头向量和关系向量的和向量与尾向量的距离作为候选实体的得分. 尽管 TransE 模型简单且有效，但其仍然具有许多缺陷，因而衍生出很多基于该模型的方法. Wang 等[65] 提出 TransH 模型，每一个关系都有一个特定的超平面，头实体向量和尾实体向量投影至特定的关系超平面计算事实元组得分. Lin 等[66] 提出 TransR 模型，针对特定关系引入了空间. Xiao 等[67] 提出了 ManifoldE 模型，引入了特定关系参数. 尾实体向量有效范围是以头实体向量和关系实体向量的和向量为中心，以特定关系参数为半径的一个超球面. Feng 等[68] 提出的 TransF 模型和 ManifoldE 模型有着相似的思路，放宽了 TransE 中对实体关系向量的要求，仅需要头实体向量位于尾实体向量和负的关系向量的和向量的方向上，同时尾实体向量也位于头实体向量和关系向量的和向量的方向上. Kzaemi 与 Poole[69] 提出 SimplE 模型，允许实体拥有两个独立学习的向量表示，而关系由一个向量表示. Ebisu 与 Ichise[70] 提出了 TorusE 嵌入模型，将 TransE 的思想应用在李群（Lie group）理论中的圆环面上，即在圆环面上计算表示向量间的距离来取得元组得分. Xu 与 Li[71] 提出 DihEdral 模型，针对性地增强了知识推理的可解释性，通过离散值将关系建模成组的元素，显著地缩小了解空间. Sun 等[72] 提出 RotatE 模型，将关系看作是从头实体向量向尾实体向量的旋转，元组得分通过计算旋转后的头实体向量和尾实体向量的距离得到 Zhang 等[73] 引入超复数的概念，提出了 QuatE 模型，通过一个拥有三个虚部的超复数来表示知识图谱中的实体和关系. 与 RotatE 想法类似，QuatE 模型将关系看作超复数平面下头实体到尾实体的旋转. 3.2.2 基于语义匹配的推理模型 Nickel 等[74] 提出的 RESCAL 模型将实体和向量联系起来，从而捕捉其中隐含的语义，潜在因子间的相互作用建模后得到关系表示矩阵，计算实体向量与关系矩阵的乘积来得到元组得分 . Yang 等[75] 提出 DistMult 模型，每一个关系都表示为向量，再将向量转化为对角矩阵，通过计算头尾实体向量与关系对角矩阵的乘积得到元组的得分. Trouillon 等[76] 提出 Complex 模型，引入复数嵌入针对不对称关系建模. 在 Complex 模型中，实体和关系都由复平面中的向量表示，计算头实体向量和根据关系向量建立的对角矩阵以及尾实体向量的共轭这三者的乘积，结果的实部作为元组的得分. Liu 等[77] 提出 ANALOGY 模型，利用实体和关系的类比性质来建模，实体由嵌入空间中的向量表示，将关系矩阵处理得到一系列稀疏的对角矩阵，减少了关系矩阵的参数. 将头尾实体向量与关系矩阵的积作为元组得分. Balazevic 等[78] 提出了基于 KKT（Karush Kuhn Tucker）分解的 tuckER 模型，将所有实体和关系分别表示为行向量嵌入矩阵，从这两个矩阵中取出头尾实体向量和关系向量，将这些向量和一个核心张量相乘得到元组的得分. 针对大部分现存的基于知识图谱嵌入的模型，Kristiadi 等[79] 研究了如何将文字信息整合到现存的表示模型中去，提出了 LiteralE 模型，在实体的嵌入表示上加入文字信息，用实体表示和文字信息的联合表示取代原本模型的单独的实体表示. Zhang 等[80] 提出了 CrossE 模型，基于向量表示实体和关系，生成多个元组的特定嵌入即交互嵌入. 由交互表示和尾实体的嵌入表示的匹配程度给出元组得分. 基于表示学习的知识推理模型的比较如表 1 所示. 3.3 基于神经网络的推理基于神经网络的推理方法将知识图谱中事实元组表示为向量形式送入神经网络中，通过训练神经网络不断提高事实元组的得分，最终通过输出得分选择候选实体完成推理. Socher 等[81] 提出适应于实体间关系推理的神经张量网络（Neural tensor networks，NTN）模型，用双线性张量层取代神经网络层，实体通过连续的词向量平均表示进而提升模型的表现. Neelakantan 等[82] 使用循环神经网络来建模知识图谱中的分布式语义的多跳路径. Das 等[83] 主要是将符号逻辑推理中丰富的多步推理与神经网络的泛化能力相结合. 通过学习实体、关系和实体的种类来联合推理，并使用神经注意力建模来整合多跳路径. 在单层 RNN 中分享参数来表示所有关系的逻辑组成. Graves 等[84] 建立了可微神经计算机模型，将神经网络和记忆系统结合起来，将通过样本学习到的知识储存起来并进行快速知识推理. Dettmers 等[85] 针对知识图谱中大规模与过拟合的问题，设计了参数简洁且计算高效的二维卷积神经网络（ Convolutional 2D， ConvE）模型 . Vashishth 等[86] 基于特征排列、新的特征变形以及马忠贵等：知识图谱的最新进展、关键技术和挑战 · 1259 ·

·1260 工程科学学报，第42卷，第10期表1部分基于表示学习的知识推理模型 Table 1 Some knowledge reasoning models based on representation learning Method Scoring function The entity representations The relation representation TransE -h+1-2 h,1∈Rd reRd ManifoldE -h+t--)2 h,t∈Rd reRd SimplE ag+er.a》 he,te ERd ,∈Rd RotatE 肠or- h,tE Cd reCd QuatE ©片！ h1E Hd reHd RESCAL hM! h,tERd M,ERdxd DistMult hdiag(r)t h,tERd rERd ComplEx Re(hdiag(r)) htECd reCd ANALOGY hTMt h,1ERd M,ERdxd CrossE (tanh(croh+crohor+b)t h,tERd r∈Rd 循环卷积提出InteractE模型.InteractE模型通过使 (Text-enhanced knowledge graph embedding,TKGE) 用多种排列输入，更简单的特征变形方法以及循的组合模型，通过实体、关系和文本来提升推理的环卷积来取得比ConvE更显著的效果表现.Guan等！基于一个常识图的常识概念信息 3.4混合推理提出了一个常识伴随的知识图谱嵌入(Knowledge 对于上面的几类知识推理的方法，各有其优 graph embedding with concepts,.KEC)模型，将来自势与缺点，于是考虑结合多种方法的优势来提升于知识图谱的事实元组通过常识概念信息修正，推理效果，进而提出了混合推理方法.Guo等7提从而使得模型不仅仅关注实体间的关联性还有实出学习规则增强关系来补全知识图谱的方法，使体存在的常识概念.因此这个模型具有明确的语用规则来进一步改善传统关系学习得到的推理结义性果，提升知识推理的准确性.L山等8网提出了基于 4类知识推理方法对比如表2所示强化学习建模的逻辑概率的知识表示和推理模 3.5质量评估型，同时在已知的知识和由强化学习整合的经验通过质量评估技术来对新知识进行筛选，是上进行推理来训练强化学习的Agent..Xie等Is提构建知识图谱中必不可少的环节.Mendes等91提出一种利用实体描述的知识表示学习的方法，使出了Sieve,用于简化生成高质量数据的任务，并整用了连续词袋模型和深度卷积模型来编码实体合进了链接数据整合框架(Linked data integration 的描述语义.之后进一步学习通过三元组和三元 framework,LDIF)中，包括一个质量评估模型和一组中实体的描述来学习表示知识.并利用学习到个数据融合模型.质量评估主要利用用户选择的的知识来完成知识推理任务，Wanglo提出规则质量因子，通过用户配置的得分函数生成质量得嵌入神经网络(The rule-embedded neural network, 分.数据融合使用质量得分来处理用户设置的冲 ReNN).ReNN基于局部的推理检测局部模式，由突消解任务.Fader等时基于来自网络或Wikipedia 局部模式领域知识的规则来生成规则调制映射的lO00个句子中人工标注的实例来训练ReVerb 针对规则引起的优化问题，采用两阶段优化策略系统的置信函数，通过一个逻辑回归分类器来评引入规则解决了传统神经网络必须受限于数据集估每一个通过ReVerb系统抽取得到的实例的置的问题，从而提升了推理的准确率信度.Google的Knowledge vault项目，通过统计 Zhang等则提出了一个名为IterE的迭代学习全球网络中抽取数据的频率作为评估信息可信度嵌入和规则的框架，目标是同时学习实体嵌入表的依据，并通过已有知识库中的知识来修正可信示和规则，并利用它们各自的优势来弥补对方的度，这一方法有效降低了评估数据结果的不确定不足.Nie与Sun四组合了隐形特征和图特征的性，从而提升了知识的质量水平.Tan等97提出了优势提出了一个名为文本强化型知识图谱嵌入一个名为CQUAL(Contribution quality predictor)的

循环卷积提出 InteractE 模型. InteractE 模型通过使用多种排列输入，更简单的特征变形方法以及循环卷积来取得比 ConvE 更显著的效果. 3.4 混合推理对于上面的几类知识推理的方法，各有其优势与缺点，于是考虑结合多种方法的优势来提升推理效果，进而提出了混合推理方法. Guo 等[87] 提出学习规则增强关系来补全知识图谱的方法，使用规则来进一步改善传统关系学习得到的推理结果，提升知识推理的准确性. Lu 等[88] 提出了基于强化学习建模的逻辑概率的知识表示和推理模型，同时在已知的知识和由强化学习整合的经验上进行推理来训练强化学习的 Agent. Xie 等[89] 提出一种利用实体描述的知识表示学习的方法，使用了连续词袋模型和深度卷积模型来编码实体的描述语义. 之后进一步学习通过三元组和三元组中实体的描述来学习表示知识. 并利用学习到的知识来完成知识推理任务. Wang[90] 提出规则嵌入神经网络（ The rule-embedded neural network， ReNN）. ReNN 基于局部的推理检测局部模式，由局部模式领域知识的规则来生成规则调制映射. 针对规则引起的优化问题，采用两阶段优化策略. 引入规则解决了传统神经网络必须受限于数据集的问题，从而提升了推理的准确率. Zhang 等[91] 提出了一个名为 IterE 的迭代学习嵌入和规则的框架，目标是同时学习实体嵌入表示和规则，并利用它们各自的优势来弥补对方的不足. Nie 与 Sun[92] 组合了隐形特征和图特征的优势提出了一个名为文本强化型知识图谱嵌入（Text-enhanced knowledge graph embedding，TKGE）的组合模型，通过实体、关系和文本来提升推理的表现. Guan 等[93] 基于一个常识图的常识概念信息提出了一个常识伴随的知识图谱嵌入（Knowledge graph embedding with concepts，KEC）模型，将来自于知识图谱的事实元组通过常识概念信息修正，从而使得模型不仅仅关注实体间的关联性还有实体存在的常识概念. 因此这个模型具有明确的语义性. 4 类知识推理方法对比如表 2 所示. 3.5 质量评估通过质量评估技术来对新知识进行筛选，是构建知识图谱中必不可少的环节. Mendes 等[94] 提出了 Sieve，用于简化生成高质量数据的任务，并整合进了链接数据整合框架（Linked data integration framework，LDIF）中，包括一个质量评估模型和一个数据融合模型. 质量评估主要利用用户选择的质量因子，通过用户配置的得分函数生成质量得分. 数据融合使用质量得分来处理用户设置的冲突消解任务. Fader 等[95] 基于来自网络或 Wikipedia 的 1000 个句子中人工标注的实例来训练 ReVerb 系统的置信函数，通过一个逻辑回归分类器来评估每一个通过 ReVerb 系统抽取得到的实例的置信度. Google 的 Knowledge vault 项目[96] ，通过统计全球网络中抽取数据的频率作为评估信息可信度的依据，并通过已有知识库中的知识来修正可信度，这一方法有效降低了评估数据结果的不确定性，从而提升了知识的质量水平. Tan 等[97] 提出了一个名为 CQUAL（Contribution quality predictor）的表 1 部分基于表示学习的知识推理模型 Table 1 Some knowledge reasoning models based on representation learning Method Scoring function The entity representations The relation representation TransE −∥h+t−r∥1/2 h,t ∈ R d r ∈ R d ManifoldE − ( ∥h+t−r∥ 2 2 −θ 2 r )2 h,t ∈ R d r ∈ R d SimplE 1 2 (⟨hei , vr ,te j ⟩ + ⟨ he j , vr −1 ,tei ⟩) he,te ∈ R d vr ∈ R d RotatE ∥h ◦ r −t∥ h,t ∈ C d r ∈ C d QuatE h⊗ r |r| ·t h,t ∈ H d r ∈ H d RESCAL h TMr t h,t ∈ R d Mr ∈ R d×d DistMult h Tdiag(r)t h,t ∈ R d r ∈ R d ComplEx Re ( h Tdiag(r)t¯ ) h,t ∈ C d r ∈ C d ANALOGY h TMr t h,t ∈ R d Mr ∈ R d×d CrossE σ ( tanh(cr ◦ h+cr ◦ h ◦ r +b)t T ) h,t ∈ R d r ∈ R d · 1260 · 工程科学学报，第 42 卷，第 10 期

马忠贵等：知识图谱的最新进展、关键技术和挑战 .1261· 表24类知识推理方法对比 Table 2 Comparisons of 4 kinds of knowledge reasoning methods Reasoning methods Advantage Disadvantage Typical model The advantages of graph structure and rules Large-scale knowledge graphs have complex Knowledge reasoning based on graph graph structures and rules are not easy to structure and statistical rule mining can significantly improve the accuracy of knowledge reasoning obtain:noise rules can mislead PRA AMIE TensoLog knowledge reasoning Knowledge reasoning based on Simple and efficient,suitable for Does not consider the deeper information in the knowledge graph,which limits its RESCAL TransE representation learning large-scale knowledge graph accuracy of reasoning Knowledge reasoning based on Outstanding learning ability and High complexity,huge number of parameters, the neural network reasoning ability and poor interpretability NTN Knowledge reasoning based Combines the advantages of several Most methods are just shallow fusion, inference methods,so its performance not taking full advantage of their TKGE on hybrid methods is excellent respective methods 方法来自动预测用户提交至知识库的知识的质谱中诸如实体、关系的信息，许多研究进一步基于量，主要依据提交用户的领域、提交历史、以及历嵌入正则化来提升推荐效果.Wang等uo将图注史准确率等数据.实验表明这一方法拥有很高的意网络应用于实体-关系和用户-物品图的协作知准确率和召回率识图谱上，提出了名为知识图谱注意力网络的模型，在端到端的模式下通过嵌入传播和基于注意 4知识图谱应用的聚合对建模知识图谱中的高阶连通性建模知识图谱技术提出之后，因其具有的语义处在垂直行业或领域内，知识图谱已开始应用理和开放互联的能力，以及其简洁灵活的表达方在医疗领域，通过提供更加精确规范的行业数据式等优势，受到了广泛关注.知识图谱技术的发展以及更加丰富的表达，帮助非行业相关人员获取得益于自然语言处理、互联网等技术的发展，而不医疗知识的同时也帮助行业人员更直观快捷获取断完善的知识图谱技术也可以应用到自然语言处所需医疗知识.在金融领域，借助知识图谱检测数理、智能问答系统、智能推荐系统等技术中，进一据的不一致性，来识别潜在的欺诈风险.同时，利步促进这些技术的发展，而这些技术以及知识图用知识图谱技术分析招股书、年报、公司公告等谱技术又可以进一步应用在诸如医疗、金融、电金融报告，建立公司和人物的关系，在此基础上做商等垂直行业或领域内，帮助促进行业发展6刀更进一步的研究和更优的决策.在电商领域，阿里构建完备的知识图谱可以帮助自然语言理解巴巴已经通过应用知识图谱，建立商品间的关联技术发展.针对文本分类问题，Wang等1首先利信息，为用户提供更全面的商品信息和更智能用知识库中的知识将短文本概念化，获得短文本化的推荐，从而提升用户的购物服务与体验.同的嵌入表示后送入卷积神经网络中进行分类时，知识图谱也在教育、科研、军事等领域中广泛 Lagon等网提出了知识图谱语言模型，一种拥有应用从知识图谱中选择和复制知识的神经语言模型. 5知识图谱在知识融合、推理与应用中的智能问答系统可以依靠知识图谱中的知识挑战与展望来回答查询.Bauer等Ilo1利用关系路径从常识网络中获取背景常识知识，之后利用多注意力机制自谷歌提出知识图谱概念至今，这项技术一完成多跳推理并通过一个指针生成译码器来合成直受到广泛的关注.随着深度学习、自然语言处问题的答案.朱宗奎等针对中文知识图谱问答理等相关领域的发展，知识图谱的研究热度不断系s统，将BERT(Bidirectional encoder representations 增加.不可忽略的是，知识图谱发展至今，知识融 from transformers)模型和双向长短期记忆网络结合、知识推理等知识图谱关键技术以及知识图谱合，之后通过条件随机场模型来预测字符标签，从的应用仍面临许多挑战而识别出问题中的实体并链接到知识网络中，最知识融合技术是知识图谱的关键技术之一后完成答案的搜索知识融合主要任务是将新获得的知识融入知识图知识图谱可作为外部信息整合至推荐系统谱中，保证知识图谱知识准确率的前提下高效地中，使得推荐系统获得推理能力.通过利用知识图引入新知识，是知识融合的关键.存在的挑战如

方法来自动预测用户提交至知识库的知识的质量，主要依据提交用户的领域、提交历史、以及历史准确率等数据. 实验表明这一方法拥有很高的准确率和召回率. 4 知识图谱应用知识图谱技术提出之后，因其具有的语义处理和开放互联的能力，以及其简洁灵活的表达方式等优势，受到了广泛关注. 知识图谱技术的发展得益于自然语言处理、互联网等技术的发展，而不断完善的知识图谱技术也可以应用到自然语言处理、智能问答系统、智能推荐系统等技术中，进一步促进这些技术的发展，而这些技术以及知识图谱技术又可以进一步应用在诸如医疗、金融、电商等垂直行业或领域内，帮助促进行业发展[16−17] . 构建完备的知识图谱可以帮助自然语言理解技术发展. 针对文本分类问题，Wang 等[98] 首先利用知识库中的知识将短文本概念化，获得短文本的嵌入表示后送入卷积神经网络中进行分类. Lagon 等[99] 提出了知识图谱语言模型，一种拥有从知识图谱中选择和复制知识的神经语言模型. 智能问答系统可以依靠知识图谱中的知识来回答查询. Bauer 等[100] 利用关系路径从常识网络中获取背景常识知识，之后利用多注意力机制完成多跳推理并通过一个指针生成译码器来合成问题的答案. 朱宗奎等[101] 针对中文知识图谱问答系统，将 BERT（Bidirectional encoder representations from transformers）模型和双向长短期记忆网络结合，之后通过条件随机场模型来预测字符标签，从而识别出问题中的实体并链接到知识网络中，最后完成答案的搜索. 知识图谱可作为外部信息整合至推荐系统中，使得推荐系统获得推理能力. 通过利用知识图谱中诸如实体、关系的信息，许多研究进一步基于嵌入正则化来提升推荐效果. Wang 等[102] 将图注意网络应用于实体–关系和用户–物品图的协作知识图谱上，提出了名为知识图谱注意力网络的模型，在端到端的模式下通过嵌入传播和基于注意的聚合对建模知识图谱中的高阶连通性建模. 在垂直行业或领域内，知识图谱已开始应用. 在医疗领域，通过提供更加精确规范的行业数据以及更加丰富的表达，帮助非行业相关人员获取医疗知识的同时也帮助行业人员更直观快捷获取所需医疗知识. 在金融领域，借助知识图谱检测数据的不一致性，来识别潜在的欺诈风险. 同时，利用知识图谱技术分析招股书、年报、公司公告等金融报告，建立公司和人物的关系，在此基础上做更进一步的研究和更优的决策. 在电商领域，阿里巴巴已经通过应用知识图谱，建立商品间的关联信息，为用户提供更全面的商品信息和更智能化的推荐，从而提升用户的购物服务与体验. 同时，知识图谱也在教育、科研、军事等领域中广泛应用. 5 知识图谱在知识融合、推理与应用中的挑战与展望自谷歌提出知识图谱概念至今，这项技术一直受到广泛的关注. 随着深度学习、自然语言处理等相关领域的发展，知识图谱的研究热度不断增加. 不可忽略的是，知识图谱发展至今，知识融合、知识推理等知识图谱关键技术以及知识图谱的应用仍面临许多挑战. 知识融合技术是知识图谱的关键技术之一. 知识融合主要任务是将新获得的知识融入知识图谱中. 保证知识图谱知识准确率的前提下高效地引入新知识，是知识融合的关键. 存在的挑战如表 2 4 类知识推理方法对比 Table 2 Comparisons of 4 kinds of knowledge reasoning methods Reasoning methods Advantage Disadvantage Typical model Knowledge reasoning based on graph structure and statistical rule mining The advantages of graph structure and rules can significantly improve the accuracy of knowledge reasoning Large-scale knowledge graphs have complex graph structures and rules are not easy to obtain; noise rules can mislead knowledge reasoning PRA AMIE TensoLog Knowledge reasoning based on representation learning Simple and efficient, suitable for large-scale knowledge graph Does not consider the deeper information in the knowledge graph, which limits its accuracy of reasoning RESCAL TransE Knowledge reasoning based on the neural network Outstanding learning ability and reasoning ability High complexity, huge number of parameters, and poor interpretability NTN Knowledge reasoning based on hybrid methods Combines the advantages of several inference methods, so its performance is excellent Most methods are just shallow fusion, not taking full advantage of their respective methods TKGE 马忠贵等：知识图谱的最新进展、关键技术和挑战 · 1261 ·

·1262 工程科学学报，第42卷，第10期下：(1)为了保证融合后知识图谱的质量，首先要于机器的知识库，是实现机器认知智能的关键技提升知识评估的能力.现存的知识评估方法大都术，也是网络大数据时代中利用大数据的关键技是针对静态知识进行评估，缺少动态知识评估手术.本文从知识图谱构建过程中的关键技术出发，段是目前知识评估面临的一大挑战.(2)要解决由简略研究了知识的抽取与表示，重点分析了知识自然语言的特殊性引发的知识冗余和缺失问题融合和知识推理技术的研究成果.然而众多研究当知识图谱不能准确将具有同义异名的实体对齐成果实用性不强，知识图谱虽然已经出现了诸如或将同名异义的实体消歧就会导致知识图谱中出 Magi1o这样的理论实践者，但距离知识图谱成为现知识冗余或缺失.(3)目前，因自然语言的复杂机器大脑知识库、实现机器认知智能的终极目标性，在单一语言的背景下实体对齐和实体消歧的还有不小的距离.未来的研究中，基于网络数据自准确率仍然有待提高，针对多语言实体对齐或消动构建的知识图谱将成为主流.因而需要进一步歧更是一大挑战提高知识抽取、知识融合和知识推理技术的准确知识推理技术也是知识图谱的关键技术之性，确保获取知识的质量：同时提高这些技术的效一，通过已知的知识推理获得新知识来完善知识率，从而保证面对大规模数据量级时的实用性.同图谱.存在的挑战如下：(1)知识推理的主要对象时，知识图谱虽然已经在公安情报分析、反金融欺多是二元关系，通常处理多元关系的方法是将其诈等实际问题中开始应用，但是其具有的巨大潜拆分为二元关系进行推理，然而将多元关系拆分力仍有待挖掘，如何将知识图谱技术应用在生活会损失结构信息，如何尽可能完整地利用多元关中的各个方面，也将是未来的主要研究方向.除此系中复杂的隐含信息推理是知识推理的一大挑之外，目前存在着的大量知识图谱，大多有着结构战.(2)现有的知识推理往往都是基于大量高质量或者语言上的差异，这种差异增大了知识图谱应的数据集训练推理模型，在相应的测试集中测试用的难度，制定行业规范、整合各个知识图谱、构优化模型来完成推理.除了数据集获取成本高的建通用知识图谱，也是未来知识图谱研究的方向问题，通过数据集训练的模型的泛化能力也极为之一有限，而现实世界中人类通过少量样本学习即可完成推理.如何模仿人脑机制实现小样本或零样参考文献本学习知识推理也是一大挑战.(3)知识图谱中知 [1] Sheth A,Thirunarayan K.Semantics Empowered Web 3.0: 识的有效性往往受到时间空间等动态因素约束， Managing Enterprise,Social,Sensor,and Cloud-Based Data and 如何合理利用知识的动态约束信息完成动态推理 Services for Advanced Applications.Vermont:Morgan 也是知识推理的一大挑战. Claypool,2012 知识的表达、存储与查询将是贯穿知识图谱 [2] Singhal A.Official Google Blog:Introducing the Knowledge 应用始终的问题.存在的挑战如下：(1)目前，应用 Graph:things,not strings[J/OL].Google Inc (2012-05-02)[2020- 在行业领域的知识图谱因为很大程度上依赖人工 02-281.http://googleblog.blogspot.pt/2012/05/introducing-know- ledge-graph-things-not.html 的参与构建，成本高昂.大多数研究工作主要针对 [3] Hoffart J,Suchanek F M,Berberich K,et al.YAGO2:a spatially 知识图谱的半自动构建)，如何自动构建高质量 and temporally enhanced knowledge base from Wikipedia.Artif 知识图谱是知识图谱应用所面临的一大挑战.(2) Intelligence,2013,194:28 知识拥有指导功能，利用知识图谱中的知识引导 [4] Auer S,Bizer C,Kobilarov G,et al.DBpedia:a nucleus for a 机器学习中的数据学习，从而降低数据依赖打破 web of open data /Proceedings of the 6th International The 数据红利损耗殆尽后的僵局，是知识图谱应用面 Semantic Web and 2nd Asian Conference on Asian Semantic Web 临的一大挑战.(3)利用人类易懂的符号化知识图 Conference.Busan,2007:722 谱，解释各类机器学习特别是深度学习的过程，补 ) Bollacker K,Evans C,Paritosh P,et al.Freebase:a 足其在可解释性方面的短板，也是知识图谱应用 collaboratively created graph database for structuring human 面临的一大挑战.(4)未来，能否应用知识图谱中 knowledge Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data.Vancouver, 的知识，作为已知的经验，通过训练构建人工智能 2008:1247 层面上的心智模型，同样是知识图谱应用的一大 [6] Carlson A,Betteridge J,Kisiel B,et al.Toward an architecture 挑战 for never-ending language learning /Twenty-Fourth A44/ 知识图谱意在模仿人类的认知方式，构建属 Conference on Artificial Intelligence.Atlanta,2010:1306

下：（1）为了保证融合后知识图谱的质量，首先要提升知识评估的能力. 现存的知识评估方法大都是针对静态知识进行评估，缺少动态知识评估手段是目前知识评估面临的一大挑战. （2）要解决由自然语言的特殊性引发的知识冗余和缺失问题. 当知识图谱不能准确将具有同义异名的实体对齐或将同名异义的实体消歧就会导致知识图谱中出现知识冗余或缺失. （3）目前，因自然语言的复杂性，在单一语言的背景下实体对齐和实体消歧的准确率仍然有待提高，针对多语言实体对齐或消歧更是一大挑战. 知识推理技术也是知识图谱的关键技术之一，通过已知的知识推理获得新知识来完善知识图谱. 存在的挑战如下：（1）知识推理的主要对象多是二元关系，通常处理多元关系的方法是将其拆分为二元关系进行推理，然而将多元关系拆分会损失结构信息，如何尽可能完整地利用多元关系中复杂的隐含信息推理是知识推理的一大挑战. （2）现有的知识推理往往都是基于大量高质量的数据集训练推理模型，在相应的测试集中测试优化模型来完成推理. 除了数据集获取成本高的问题，通过数据集训练的模型的泛化能力也极为有限，而现实世界中人类通过少量样本学习即可完成推理. 如何模仿人脑机制实现小样本或零样本学习知识推理也是一大挑战. （3）知识图谱中知识的有效性往往受到时间空间等动态因素约束，如何合理利用知识的动态约束信息完成动态推理也是知识推理的一大挑战. 知识的表达、存储与查询将是贯穿知识图谱应用始终的问题. 存在的挑战如下：（1）目前，应用在行业领域的知识图谱因为很大程度上依赖人工的参与构建，成本高昂. 大多数研究工作主要针对知识图谱的半自动构建[103] ，如何自动构建高质量知识图谱是知识图谱应用所面临的一大挑战. （2）知识拥有指导功能，利用知识图谱中的知识引导机器学习中的数据学习，从而降低数据依赖打破数据红利损耗殆尽后的僵局，是知识图谱应用面临的一大挑战. （3）利用人类易懂的符号化知识图谱，解释各类机器学习特别是深度学习的过程，补足其在可解释性方面的短板，也是知识图谱应用面临的一大挑战. （4）未来，能否应用知识图谱中的知识，作为已知的经验，通过训练构建人工智能层面上的心智模型，同样是知识图谱应用的一大挑战. 知识图谱意在模仿人类的认知方式，构建属于机器的知识库，是实现机器认知智能的关键技术，也是网络大数据时代中利用大数据的关键技术. 本文从知识图谱构建过程中的关键技术出发，简略研究了知识的抽取与表示，重点分析了知识融合和知识推理技术的研究成果. 然而众多研究成果实用性不强，知识图谱虽然已经出现了诸如 Magi[104] 这样的理论实践者，但距离知识图谱成为机器大脑知识库、实现机器认知智能的终极目标还有不小的距离. 未来的研究中，基于网络数据自动构建的知识图谱将成为主流. 因而需要进一步提高知识抽取、知识融合和知识推理技术的准确性，确保获取知识的质量；同时提高这些技术的效率，从而保证面对大规模数据量级时的实用性. 同时，知识图谱虽然已经在公安情报分析、反金融欺诈等实际问题中开始应用，但是其具有的巨大潜力仍有待挖掘，如何将知识图谱技术应用在生活中的各个方面，也将是未来的主要研究方向. 除此之外，目前存在着的大量知识图谱，大多有着结构或者语言上的差异，这种差异增大了知识图谱应用的难度，制定行业规范、整合各个知识图谱、构建通用知识图谱，也是未来知识图谱研究的方向之一. 参考文献 Sheth A, Thirunarayan K. Semantics Empowered Web 3.0: Managing Enterprise, Social, Sensor, and Cloud-Based Data and Services for Advanced Applications. Vermont: Morgan & Claypool, 2012 [1] Singhal A. Official Google Blog: Introducing the Knowledge Graph: things, not strings[J/OL]. Google Inc (2012-05-02)[2020- 02-28]. http://googleblog.blogspot.pt/2012/05/introducing-knowledge-graph-things-not.html [2] Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: a spatially and temporally enhanced knowledge base from Wikipedia. Artif Intelligence, 2013, 194: 28 [3] Auer S, Bizer C, Kobilarov G, et al. DBpedia: a nucleus for a web of open data // Proceedings of the 6th International The Semantic Web and 2nd Asian Conference on Asian Semantic Web Conference. Busan, 2007: 722 [4] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge // Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, 2008: 1247 [5] Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning // Twenty-Fourth AAAI Conference on Artificial Intelligence. Atlanta, 2010: 1306 [6] · 1262 · 工程科学学报，第 42 卷，第 10 期

点击下载完整版文档（PDF格式）

共14页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录

知识图谱的最新进展、关键技术和挑战