正在加载图片...
马忠贵等:知识图谱的最新进展、关键技术和挑战 1257 完成,Dong等B比较了传统的数据融合方法,选 同的支持向量机的核函数来学习不同的集成学习 择了几种方法改良,并应用到知识融合中.随着知 算法,例如bagging、boosing、voting等.具体流程 识图谱的飞速发展,目前也出现了专门的知识融 是将命名实体作为输入,根据Wikipedia中的知识 合方法.下面从实体消歧、实体对齐和知识合并 生成候选实体,构造特征向量,最后送入集成学习 3个方面进行综述 模块里完成实体消歧, 2.1实体消歧 值得一提的是,Agarwal等提出了利用时间 对于知识图谱中的每一个实体都应有清晰的 的实体消歧思路,通过计算实体的时序特征来和 指向,即明确对应某个现实世界中存在的事物.初 输入的命名实体上下文的时序比较,即使命名实 步构建的知识图谱中,因数据来源复杂,存在着同 体的上下文提供的信息不充分也可以完成实体消 名异义的实体例如,名称为“乔丹”的实体既可以 歧任务.Dong)将基于相似度特征的随机森林模 指美国著名篮球运动员,也可以指葡萄牙足球运 型和基于XGBoost、基于逻辑回归以及基于神经 动员,还可以指某个运动品牌.为了确保每一个实 网络的方法进行比较,随机森林模型不仅拥有极 体有明确的含义,采用实体消歧技术来使得同名 高的准确率和召回率,且不像XGBoost和神经网 实体得以区分, 络那样容易受到超参数的影响,在实体消歧任务 利用已有的知识库和知识图谱中隐含的信息 中表现突出 来帮助进行语义消歧,Han与ZhaoBs提出使用维 2.2实体对齐 基百科(Wikipedia)作为背景知识,通过利用 在现实生活中,一个事物对应着不止一个称 Wikipedia的语义知识,例如社会关系来更精确地 呼,例如,“中华人民共和国”和“中国”都对应于 衡量实体间的相似性,从而提升实体消歧的效果, 同一个实体.在知识图谱中也同样存在着同义异 Sen提出了主题模型,利用知识库中存在的文本 名的实体,通过实体对齐,将这些实体指向同一客 信息,学习共有实体组来实现实体集体消歧 观事物.苏佳林等提出基于决策树的自适应属 Guo与Barbosa!刃基于语义相似性的自然概念提 性选择的实体对齐方法.通过联合学习将实体嵌 出了两个针对集体消歧的方法.通过在知识库上 入表示在一个向量空间后,由信息增益选出最优 知识子图中随机游走得到的概率分布来表示实体 约束属性,训练实体对齐模型,计算最优约束属性 和文档的语义,之后基于迭代的贪婪逼近算法和 相似度和实体语义相似度完成实体对齐 学习排序的方法来进行实体消歧任务,Zhu与 Cheng等I提出了一个全自动的实体对齐框架, Iglesias提出了基于语义上下文相似度的命名实 包括候选实体生成器、选择器和清理器,利用搜索 体消歧方法,基于上下文和知识图谱中实体的信 引擎使用者的查询信息和查询后的点击记录,计算 息词之间的语义相似度来进行实体消歧.另外还 出实体间的相似度,完成实体对齐任务.Pantel等s 提出了Category2Vec模型,将目录也用嵌入向量 提出了一个大规模相似性模型,在MapReduce框 的形式表示出来.主要思想是候选实体和上下文 架下实施并且部署了超过2000亿从互联网上爬取 单词间应存在语义联系,利用该联系来帮助选出 得到的单词.通过计算5亿terms得到的相似度矩 正确的实体 阵来进行实体对齐任务.Chakrabarti等刃通过一 在线百科全书由专家和网络用户编写,有着 个同义发现框架将实体相似性作为输入生成一个 高覆盖率和结构信息丰富的特点.Shen等B9提出 满足简单自然属性的同义词,提出了两种新的相 LINDEN(A framework for Linking named entities 似性度量法,并通过在bing系统上实际应用,发现 with knowledge base via semantic knowledge)模型, 可以有效识别同义词.Mudgal等s1综述了基于深 同时利用Wikipedia和WordNet,基于文本相似性 度学习的实体对齐方法,通过将这些方法分类,分 和主题一致性进行实体消歧.Ratinov等o提出名 别组合设计空间中属性嵌人、属性相似度表示、 GLOW(Global and local approaches of Wikipedia) 分类的各个方法,得到最具代表性的平滑倒词频 的系统,GLOW组合捕捉实体指称与Wikipedia题 (Smooth inverse frequency,.SIF)、循环神经网络 目间的相关性的本地模型和选择准确歧义语境的 (Recurrent neural network,RNN),Attention Hybrid 方法.统计Wikipedia中实体的频率作为候选实体 共4种解决方案 的排序依据.Alokaili与Menail提出了基于支持 针对基于嵌入表示的实体对齐,Sun等9提出 向量机的集成学习来解决实体消歧问题,使用不 自举的方法解决标记训练数据不足的问题.根据完成,Dong 等[34] 比较了传统的数据融合方法,选 择了几种方法改良,并应用到知识融合中. 随着知 识图谱的飞速发展,目前也出现了专门的知识融 合方法. 下面从实体消歧、实体对齐和知识合并 3 个方面进行综述. 2.1    实体消歧 对于知识图谱中的每一个实体都应有清晰的 指向,即明确对应某个现实世界中存在的事物. 初 步构建的知识图谱中,因数据来源复杂,存在着同 名异义的实体. 例如,名称为“乔丹”的实体既可以 指美国著名篮球运动员,也可以指葡萄牙足球运 动员,还可以指某个运动品牌. 为了确保每一个实 体有明确的含义,采用实体消歧技术来使得同名 实体得以区分. 利用已有的知识库和知识图谱中隐含的信息 来帮助进行语义消歧,Han 与 Zhao[35] 提出使用维 基 百 科 ( Wikipedia) 作 为 背 景 知 识 , 通 过 利 用 Wikipedia 的语义知识,例如社会关系来更精确地 衡量实体间的相似性,从而提升实体消歧的效果. Sen[36] 提出了主题模型,利用知识库中存在的文本 信息 ,学习共有实体组来实现实体集体消歧 . Guo 与 Barbosa[37] 基于语义相似性的自然概念提 出了两个针对集体消歧的方法. 通过在知识库上 知识子图中随机游走得到的概率分布来表示实体 和文档的语义,之后基于迭代的贪婪逼近算法和 学习排序的方法来进行实体消歧任务. Zhu 与 Iglesias[38] 提出了基于语义上下文相似度的命名实 体消歧方法,基于上下文和知识图谱中实体的信 息词之间的语义相似度来进行实体消歧. 另外还 提出了 Category2Vec 模型,将目录也用嵌入向量 的形式表示出来. 主要思想是候选实体和上下文 单词间应存在语义联系,利用该联系来帮助选出 正确的实体. 在线百科全书由专家和网络用户编写,有着 高覆盖率和结构信息丰富的特点. Shen 等[39] 提出 LINDEN( A framework for Linking named entities with knowledge base via semantic knowledge)模型 , 同时利用 Wikipedia 和 WordNet,基于文本相似性 和主题一致性进行实体消歧. Ratinov 等[40] 提出名 为 GLOW(Global and local approaches of Wikipedia) 的系统,GLOW 组合捕捉实体指称与 Wikipedia 题 目间的相关性的本地模型和选择准确歧义语境的 方法. 统计 Wikipedia 中实体的频率作为候选实体 的排序依据. Alokaili 与 Menai[41] 提出了基于支持 向量机的集成学习来解决实体消歧问题,使用不 同的支持向量机的核函数来学习不同的集成学习 算法,例如 bagging、boosing、voting 等. 具体流程 是将命名实体作为输入,根据 Wikipedia 中的知识 生成候选实体,构造特征向量,最后送入集成学习 模块里完成实体消歧. 值得一提的是,Agarwal 等[42] 提出了利用时间 的实体消歧思路,通过计算实体的时序特征来和 输入的命名实体上下文的时序比较,即使命名实 体的上下文提供的信息不充分也可以完成实体消 歧任务. Dong[43] 将基于相似度特征的随机森林模 型和基于 XGBoost、基于逻辑回归以及基于神经 网络的方法进行比较,随机森林模型不仅拥有极 高的准确率和召回率,且不像 XGBoost 和神经网 络那样容易受到超参数的影响,在实体消歧任务 中表现突出. 2.2    实体对齐 在现实生活中,一个事物对应着不止一个称 呼,例如,“中华人民共和国”和“中国”都对应于 同一个实体. 在知识图谱中也同样存在着同义异 名的实体,通过实体对齐,将这些实体指向同一客 观事物. 苏佳林等[44] 提出基于决策树的自适应属 性选择的实体对齐方法. 通过联合学习将实体嵌 入表示在一个向量空间后,由信息增益选出最优 约束属性,训练实体对齐模型,计算最优约束属性 相似度和实体语义相似度完成实体对齐. Cheng 等[45] 提出了一个全自动的实体对齐框架, 包括候选实体生成器、选择器和清理器,利用搜索 引擎使用者的查询信息和查询后的点击记录,计算 出实体间的相似度,完成实体对齐任务. Pantel 等[46] 提出了一个大规模相似性模型,在 MapReduce 框 架下实施并且部署了超过 2000 亿从互联网上爬取 得到的单词. 通过计算 5 亿 terms 得到的相似度矩 阵来进行实体对齐任务. Chakrabarti 等[47] 通过一 个同义发现框架将实体相似性作为输入生成一个 满足简单自然属性的同义词,提出了两种新的相 似性度量法,并通过在 bing 系统上实际应用,发现 可以有效识别同义词. Mudgal 等[48] 综述了基于深 度学习的实体对齐方法,通过将这些方法分类,分 别组合设计空间中属性嵌入、属性相似度表示、 分类的各个方法,得到最具代表性的平滑倒词频 ( Smooth inverse frequency, SIF) 、循环神经网络 (Recurrent neural network,RNN)、Attention 和 Hybrid 共 4 种解决方案. 针对基于嵌入表示的实体对齐,Sun 等[49] 提出 自举的方法解决标记训练数据不足的问题. 根据 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1257 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有