正在加载图片...
马忠贵等:知识图谱的最新进展、关键技术和挑战 ·1255 evaluation.Following the three steps of knowledge extraction,knowledge fusion,and knowledge reasoning,it can iteratively update the knowledge graph and realize full process automation knowledge acquisition,such as realizing the automatic extraction,automatic association and fusion,automatic processing of fragmented Internet knowledge,and realizing automatic linking of entries and auxiliary functions of entry editing.Finally,the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering;knowledge graph;knowledge fusion;knowledge reasoning:knowledge extraction and representation 随着知识的不断积累和科学的飞速发展,人 维.限于篇幅,针对知识图谱的4个关键技术进行 类社会进行了多次改变社会结构的重大生产力革 了取舍,重点介绍了知识融合与知识推理技术的 命.最近的生产力革命正是由Wb技术发展引发 最新进展.同时,简要介绍了知识图谱目前的挑战 的信息革命.伴随着Web技术不断地演进与发 并展望了未来的发展方向 展,人类即将迈向基于知识互联的崭新“wb3.0” 1知识抽取与表示 时代川.受语义网络(Semantic network)和语义网 (Semantic web)的启发,Google公司提出了知识图 对于知识图谱而言,首要的问题是:如何从海 谱(Knowledge graph)闪,目的是为了提高搜索引擎 量的数据提取有用信息并将得到的信息有效表示 的智能能力,增强用户的搜索质量和体验.随后, 并储存,就是所谓的知识抽取与表示技术.知识抽 这一概念被传播开来,并广泛应用于医疗、教育、 取与表示,也可以称为信息抽取,其目标主要是从 金融、电商等行业中,推动人工智能从感知智能向 样本源中抽取特定种类的信息,例如实体、关系和 认知智能跨越.目前,已经涌现出一大批知识图 属性,并将这些信息通过一定形式表达并储存.对 谱,其中国外具有代表性的有YAGO!)、DBpedia、 于知识图谱,一般而言采用DF描述知识,形式上 Freebase、NELL、Probase等;国内出现了开放知 将有效信息表示为(主语,谓语,宾语)三元组的结 识图谱项目OpenKG,中文知识图谱CN-DBpedia9、 构,某些文献中也表示为(头实体,关系,尾实体) zhishi.meIo等.知识图谱的本质是连接实体间关 的结构.针对信息抽取种类的不同,知识抽取又可 系的图,即揭示实体之间关系的语义网络叫,普遍 分为实体抽取、关系抽取以及属性抽取.图1展示 采用资源描述框架(Resource description framework, 了知识图谱的技术架构. RDF)来描述知识.知识图谱全生命周期主要包括 实体抽取也称为命名实体识别,主要目标是 3种关键技术:(1)从样本源中获取数据,并将其表 从样本源中识别出命名实体.实体是知识图谱最 示为结构化知识的知识抽取与表示技术;(2)融合 基本的元素,实体抽取的完整性、准确率、召回率 异源知识的知识融合技术:(3)根据知识图谱中已 将直接影响知识图谱的质量).文献将实体抽 有的知识进行知识推理和质量评估 取的方法归纳为3种:(1)基于规则与词典的方法 近几年,越来越多的学者将目光聚焦在了认 通常需要为目标实体编写相应的规则,然后在原 知智能上,知识图谱受到越来越广泛的关注.除了 始语料中进行匹配,Quimbaya等2o提出了一个基 知识图谱的技术文章爆发式增长之外,综述文章 于词典的实体抽取方法,并应用于电子健康记录 也越来越多.文献[1]针对知识图谱的相关技术 (2)基于统计机器学习的方法.主要利用数据来对 进行了全面解析,文献12-13]综述了知识图谱核 模型进行训练,然后再利用训练好的模型去识别 心技术的研究进展以及典型应用,文献[14总结 实体,Liu等将K近邻(K-nearest neighbors,.KNN) 了面向知识图谱的推理方法并展望了未来的研究 算法和线性条件随机场(Conditional random fields, 方向,文献[15]定义知识图谱与本体的关系并简述 CRF)模型结合来识别实体,(3)面向开放域的 了已开发的国内外知识图谱.2019年年末和2020 抽取方法,主要是针对海量网络数据,Jain与 年年初,国内有3本知识图谱的专著问世6,我 Pennacchiotti2四提出通过已知实体的语义特征来 们有了写作本论文的动机.与已有的综述文献相 识别命名实体,并提出实体聚类的无监督开放域 比,本文的主要贡献如下:梳理了知识图谱全生命 聚类算法.Zhang与Elhadad2]提出一个无监督的 周期技术,从知识抽取与表示、知识融合、知识推 实体抽取方法,利用术语、语料库统计信息以及浅 理、知识应用4个层面展开综述,建立方法论思 层语法知识从生物医学中抽取实体evaluation. Following the three steps of knowledge extraction, knowledge fusion, and knowledge reasoning, it can iteratively update the knowledge graph and realize full process automation knowledge acquisition, such as realizing the automatic extraction, automatic association and fusion, automatic processing of fragmented Internet knowledge, and realizing automatic linking of entries and auxiliary functions of entry editing. Finally, the future directions and possible challenges of the knowledge graph are discussed. KEY  WORDS    knowledge engineering; knowledge graph; knowledge fusion; knowledge reasoning; knowledge extraction and representation 随着知识的不断积累和科学的飞速发展,人 类社会进行了多次改变社会结构的重大生产力革 命. 最近的生产力革命正是由 Web 技术发展引发 的信息革命. 伴随着 Web 技术不断地演进与发 展,人类即将迈向基于知识互联的崭新“Web3.0” 时代[1] . 受语义网络(Semantic network)和语义网 (Semantic web)的启发,Google 公司提出了知识图 谱(Knowledge graph) [2] ,目的是为了提高搜索引擎 的智能能力,增强用户的搜索质量和体验. 随后, 这一概念被传播开来,并广泛应用于医疗、教育、 金融、电商等行业中,推动人工智能从感知智能向 认知智能跨越. 目前,已经涌现出一大批知识图 谱,其中国外具有代表性的有 YAGO[3]、DBpedia[4]、 Freebase[5]、NELL[6]、Probase[7] 等;国内出现了开放知 识图谱项目 OpenKG[8] ,中文知识图谱 CN-DBpedia[9]、 zhishi.me[10] 等. 知识图谱的本质是连接实体间关 系的图,即揭示实体之间关系的语义网络[11] ,普遍 采用资源描述框架(Resource description framework, RDF)来描述知识. 知识图谱全生命周期主要包括 3 种关键技术:(1)从样本源中获取数据,并将其表 示为结构化知识的知识抽取与表示技术;(2)融合 异源知识的知识融合技术;(3)根据知识图谱中已 有的知识进行知识推理和质量评估. 近几年,越来越多的学者将目光聚焦在了认 知智能上,知识图谱受到越来越广泛的关注. 除了 知识图谱的技术文章爆发式增长之外,综述文章 也越来越多. 文献 [11] 针对知识图谱的相关技术 进行了全面解析,文献 [12−13] 综述了知识图谱核 心技术的研究进展以及典型应用,文献 [14] 总结 了面向知识图谱的推理方法并展望了未来的研究 方向,文献 [15] 定义知识图谱与本体的关系并简述 了已开发的国内外知识图谱. 2019 年年末和 2020 年年初,国内有 3 本知识图谱的专著问世[16−18] ,我 们有了写作本论文的动机. 与已有的综述文献相 比,本文的主要贡献如下:梳理了知识图谱全生命 周期技术,从知识抽取与表示、知识融合、知识推 理、知识应用 4 个层面展开综述,建立方法论思 维. 限于篇幅,针对知识图谱的 4 个关键技术进行 了取舍,重点介绍了知识融合与知识推理技术的 最新进展. 同时,简要介绍了知识图谱目前的挑战 并展望了未来的发展方向. 1    知识抽取与表示 对于知识图谱而言,首要的问题是:如何从海 量的数据提取有用信息并将得到的信息有效表示 并储存,就是所谓的知识抽取与表示技术. 知识抽 取与表示,也可以称为信息抽取,其目标主要是从 样本源中抽取特定种类的信息,例如实体、关系和 属性,并将这些信息通过一定形式表达并储存. 对 于知识图谱,一般而言采用 RDF 描述知识,形式上 将有效信息表示为(主语,谓语,宾语)三元组的结 构,某些文献中也表示为(头实体,关系,尾实体) 的结构. 针对信息抽取种类的不同,知识抽取又可 分为实体抽取、关系抽取以及属性抽取. 图 1 展示 了知识图谱的技术架构. 实体抽取也称为命名实体识别,主要目标是 从样本源中识别出命名实体. 实体是知识图谱最 基本的元素,实体抽取的完整性、准确率、召回率 将直接影响知识图谱的质量[12] . 文献[19] 将实体抽 取的方法归纳为 3 种:(1)基于规则与词典的方法. 通常需要为目标实体编写相应的规则,然后在原 始语料中进行匹配,Quimbaya 等[20] 提出了一个基 于词典的实体抽取方法,并应用于电子健康记录. (2)基于统计机器学习的方法. 主要利用数据来对 模型进行训练,然后再利用训练好的模型去识别 实体,Liu 等[21] 将 K 近邻(K-nearest neighbors,KNN) 算法和线性条件随机场(Conditional random fields, CRF)模型结合来识别实体. ( 3)面向开放域的 抽取方法 . 主要是针对海量网络数据 , Jain 与 Pennacchiotti[22] 提出通过已知实体的语义特征来 识别命名实体,并提出实体聚类的无监督开放域 聚类算法. Zhang 与 Elhadad[23] 提出一个无监督的 实体抽取方法,利用术语、语料库统计信息以及浅 层语法知识从生物医学中抽取实体. 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1255 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有