正在加载图片...
第2期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·219· 图谱已在数据挖掘、人工智能等领域具有至关重 究热潮。在随后几年时间里,基于翻译的模型衍 要的作用,促进了人工智能及其应用的发展,如 生出一系列的模型。Wang等提出让一个实体 智能问答、个性化旅游推荐等。 在不同关系下拥有不同的表示,将实体投影到关 虽然现有知识图谱的规模已经相当大,但其 系所在超平面,然后在超平面上进行翻译操作。 仍是不完整的,如Freebase中75%的人不存在国 Lin等例认为实体与关系应当处于不同的语义空 籍信息,71%的人没有准确的出身地信息,因此 间,提出了TransR/CtransR模型。TransR/CtransR 有必要对现有知识图谱进行自动补全。这是当前 通过投影矩阵将实体从实体空间投影到关系空 知识图谱研究中最主要的任务和挑战之一。近年 间,然后在关系空间中建立翻译操作。i等0认 来,将知识图谱中实体与关系嵌入到向量空间进 为实体从实体空间投影到关系空间是实体与关系 行知识图谱补全的方法显示出强大的可行性与鲁 的交互过程,提出了分别为头、尾实体提供不同 棒性。但是知识图谱嵌入的研究仍然面临着一个 的投影矩阵。TranSparse模型考虑了实体与关 共同的问题,即在现有知识图谱嵌入模型训练 系的不平衡性和异质性,提出了一种根据关系的 时,是通过删除正例三元组(h,r,t)中的h(或), 复杂程度来自适应的构造稀疏矩阵对实体进行投 然后从实体集中随机选择一个实体对删除(或 影,这样防止了简单关系过拟合、复杂关系欠拟 )不完整的三元组进行填充来生成负例三元组, 合的发生。Feng等a认为h+r≈t的翻译规则过 致使获得的大量负例三元组都是低质量的。低质 于严格,于是建立了更加灵活的翻译规则h+r≈at, 量的负例三元组将导致知识图谱嵌入模型训练时 提高了模型的表达能力。Chang等)认为FT模 无法对实体向量与关系向量进行有效的更新,从 型的翻译规则仍过于复杂,进一步提出了(h+)+ 而影响知识图谱的有效嵌入。 (r+α)≈(t+位,)的翻译规则,实现了翻译模型性能 针对这一不足提出了一种通用的解决方法, 的提升。Tan等考虑了不同关系空间中实体的 基于实体相似性负采样的负例三元组生成方法来 不同状态和特征倾向,将实体的本征态与拟态进 提高知识图谱嵌人的质量。该方法能够在训练中 行线性组合作为实体的嵌入特征,并为每个关系 生成一个高质量的负例三元组,从而实现知识图 都构造了一个动态关系空间,提高了关系表示的 谱嵌入模型的改进。我们将相似性负采样与 TransE模型相结合得到TransE-SNS模型,并且 能力,减少了来自其他关系的噪声。Wang等u 将生成对抗网络引入表示学习模型中,利用生成 在4个通用数据集(FB15K、FB13、WN11和 器来获得高质量的负例三元组,提高了知识表示 WN18)上进行了实验,在链接预测与三元组分类 学习的能力。 任务中均获得了有效的提升。 1相关研究 2基于相似性负采样的知识图谱嵌入 2.1实体的相似性 知识图谱嵌人(knowledge graph embedding) 2.1.1实体局部结构的相似性 旨在将知识图谱中的实体与关系嵌入到连续的、 在本节中,将从两个角度对实体的相似性进 稠密的、低维的和实值的向量空间,将其表示为 行描述:1)知识图谱中实体局部结构的相似性: 稠密低维实值向量。然后可以通过向量之间的欧 2)知识图谱通过TransE等翻译模型嵌入到向量 氏距离、曼哈顿距离或马氏距离计算实现对知识 空间中实体向量的相似性。 图谱中对象间的相似度计算。 知识图谱中的每个实体间都存在着一定的联 在各类知识图谱嵌入模型中,基于翻译的表 系,包括直接联系与间接联系。直接联系是2个 示学习☑模型实现了先进的性能。其中典型的翻 实体之间存在直接关系。间接联系是2个实体之 译模型是由Bordes等于2013年提出的TransE 间存在的关系路径。例如,给定一个简单的知识 模型。TransE模型将三元组(h,r,t)中的关系视 图谱,如图1所示。其中,实体e1与实体e3之间 为向量空间中头实体到尾实体的翻译操作。如果 存在着直接关系(r)和关系路径(r6,r):实体e2与 三元组(h,r,)成立,则头实体向量h、关系向量r 实体e之间存在着直接关系(r)和关系路径(r6 与尾实体向量t应满足h+r≈t。由于TransE模 r)、(6,广,)等。本文将一个实体与其他实体的 型极为简单,同时在处理大规模数据方面表现出 直接联系形成的结构称为该实体的局部结构,如 优异的性能,从而引起了基于翻译的表示学习研 图2所示。对于任意2个实体,如果它们的局部图谱已在数据挖掘、人工智能等领域具有至关重 要的作用,促进了人工智能及其应用的发展,如 智能问答[4] 、个性化旅游推荐等。 虽然现有知识图谱的规模已经相当大,但其 仍是不完整的,如 Freebase 中 75% 的人不存在国 籍信息,71% 的人没有准确的出身地信息[5] ,因此 有必要对现有知识图谱进行自动补全。这是当前 知识图谱研究中最主要的任务和挑战之一。近年 来,将知识图谱中实体与关系嵌入到向量空间进 行知识图谱补全的方法显示出强大的可行性与鲁 棒性。但是知识图谱嵌入的研究仍然面临着一个 共同的问题,即在现有知识图谱嵌入模型训练 时,是通过删除正例三元组 (h, r, t) 中的 h(或 t), 然后从实体集中随机选择一个实体对删除 h(或 t) 不完整的三元组进行填充来生成负例三元组, 致使获得的大量负例三元组都是低质量的。低质 量的负例三元组将导致知识图谱嵌入模型训练时 无法对实体向量与关系向量进行有效的更新,从 而影响知识图谱的有效嵌入。 针对这一不足提出了一种通用的解决方法, 基于实体相似性负采样的负例三元组生成方法来 提高知识图谱嵌入的质量。该方法能够在训练中 生成一个高质量的负例三元组,从而实现知识图 谱嵌入模型的改进。我们将相似性负采样与 TransE 模型[6] 相结合得到 TransE-SNS 模型,并且 在 4 个通用数据集 (FB15K、 FB13、 WN11 和 WN18) 上进行了实验,在链接预测与三元组分类 任务中均获得了有效的提升。 1 相关研究 知识图谱嵌入 (knowledge graph embedding) 旨在将知识图谱中的实体与关系嵌入到连续的、 稠密的、低维的和实值的向量空间,将其表示为 稠密低维实值向量。然后可以通过向量之间的欧 氏距离、曼哈顿距离或马氏距离计算实现对知识 图谱中对象间的相似度计算。 h r t h+ r ≈ t 在各类知识图谱嵌入模型中,基于翻译的表 示学习[7] 模型实现了先进的性能。其中典型的翻 译模型是由 Bordes 等 [6] 于 2013 年提出的 TransE 模型。TransE 模型将三元组 (h, r, t) 中的关系视 为向量空间中头实体到尾实体的翻译操作。如果 三元组 (h, r, t) 成立,则头实体向量 、关系向量 与尾实体向量 应满足 。由于 TransE 模 型极为简单,同时在处理大规模数据方面表现出 优异的性能,从而引起了基于翻译的表示学习研 h+ r ≈ t h+ r ≈ αt (h+αh)+ (r+αr) ≈ (t +αt) 究热潮。在随后几年时间里,基于翻译的模型衍 生出一系列的模型。Wang 等 [8] 提出让一个实体 在不同关系下拥有不同的表示,将实体投影到关 系所在超平面,然后在超平面上进行翻译操作。 Lin 等 [9] 认为实体与关系应当处于不同的语义空 间,提出了 TransR/CtransR 模型。TransR/CtransR 通过投影矩阵将实体从实体空间投影到关系空 间,然后在关系空间中建立翻译操作。Ji 等 [10] 认 为实体从实体空间投影到关系空间是实体与关系 的交互过程,提出了分别为头、尾实体提供不同 的投影矩阵。TranSparse 模型[11] 考虑了实体与关 系的不平衡性和异质性,提出了一种根据关系的 复杂程度来自适应的构造稀疏矩阵对实体进行投 影,这样防止了简单关系过拟合、复杂关系欠拟 合的发生。Feng 等 [12] 认为 的翻译规则过 于严格,于是建立了更加灵活的翻译规则 , 提高了模型的表达能力。Chang 等 [13] 认为 FT 模 型的翻译规则仍过于复杂,进一步提出了 的翻译规则,实现了翻译模型性能 的提升。Tan 等 [14] 考虑了不同关系空间中实体的 不同状态和特征倾向,将实体的本征态与拟态进 行线性组合作为实体的嵌入特征,并为每个关系 都构造了一个动态关系空间,提高了关系表示的 能力,减少了来自其他关系的噪声。Wang 等 [15] 将生成对抗网络引入表示学习模型中,利用生成 器来获得高质量的负例三元组,提高了知识表示 学习的能力。 2 基于相似性负采样的知识图谱嵌入 2.1 实体的相似性 2.1.1 实体局部结构的相似性 在本节中,将从两个角度对实体的相似性进 行描述:1) 知识图谱中实体局部结构的相似性; 2) 知识图谱通过 TransE 等翻译模型嵌入到向量 空间中实体向量的相似性。 知识图谱中的每个实体间都存在着一定的联 系,包括直接联系与间接联系。直接联系是 2 个 实体之间存在直接关系。间接联系是 2 个实体之 间存在的关系路径。例如,给定一个简单的知识 图谱,如图 1 所示。其中,实体 e1 与实体 e3 之间 存在着直接关系 (r8 ) 和关系路径 (r6 , r4 );实体 e2 与 实体 e3 之间存在着直接关系 (r8 ) 和关系路径 (r6 , r4 )、(r6 , r3 , r7 ) 等。本文将一个实体与其他实体的 直接联系形成的结构称为该实体的局部结构,如 图 2 所示。对于任意 2 个实体,如果它们的局部 第 2 期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·219·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有