图谱已在数据挖掘、人工智能等领域具有至关重要的作用，促进了人工智能及其应

正在加载图片...

第2期饶官军，等：基于相似性负采样的知识图谱嵌入 ·219· 图谱已在数据挖掘、人工智能等领域具有至关重究热潮。在随后几年时间里，基于翻译的模型衍要的作用，促进了人工智能及其应用的发展，如生出一系列的模型。Wang等提出让一个实体智能问答、个性化旅游推荐等。在不同关系下拥有不同的表示，将实体投影到关虽然现有知识图谱的规模已经相当大，但其系所在超平面，然后在超平面上进行翻译操作。仍是不完整的，如Freebase中75%的人不存在国 Lin等例认为实体与关系应当处于不同的语义空籍信息，71%的人没有准确的出身地信息，因此间，提出了TransR/CtransR模型。TransR/CtransR 有必要对现有知识图谱进行自动补全。这是当前通过投影矩阵将实体从实体空间投影到关系空知识图谱研究中最主要的任务和挑战之一。近年间，然后在关系空间中建立翻译操作。i等0认来，将知识图谱中实体与关系嵌入到向量空间进为实体从实体空间投影到关系空间是实体与关系行知识图谱补全的方法显示出强大的可行性与鲁的交互过程，提出了分别为头、尾实体提供不同棒性。但是知识图谱嵌入的研究仍然面临着一个的投影矩阵。TranSparse模型考虑了实体与关共同的问题，即在现有知识图谱嵌入模型训练系的不平衡性和异质性，提出了一种根据关系的时，是通过删除正例三元组(h,r,t)中的h(或)，复杂程度来自适应的构造稀疏矩阵对实体进行投然后从实体集中随机选择一个实体对删除（或影，这样防止了简单关系过拟合、复杂关系欠拟 )不完整的三元组进行填充来生成负例三元组，合的发生。Feng等a认为h+r≈t的翻译规则过致使获得的大量负例三元组都是低质量的。低质于严格，于是建立了更加灵活的翻译规则h+r≈at, 量的负例三元组将导致知识图谱嵌入模型训练时提高了模型的表达能力。Chang等)认为FT模无法对实体向量与关系向量进行有效的更新，从型的翻译规则仍过于复杂，进一步提出了(h+)+ 而影响知识图谱的有效嵌入。 (r+α)≈(t+位，)的翻译规则，实现了翻译模型性能针对这一不足提出了一种通用的解决方法，的提升。Tan等考虑了不同关系空间中实体的基于实体相似性负采样的负例三元组生成方法来不同状态和特征倾向，将实体的本征态与拟态进提高知识图谱嵌人的质量。该方法能够在训练中行线性组合作为实体的嵌入特征，并为每个关系生成一个高质量的负例三元组，从而实现知识图都构造了一个动态关系空间，提高了关系表示的谱嵌入模型的改进。我们将相似性负采样与 TransE模型相结合得到TransE-SNS模型，并且能力，减少了来自其他关系的噪声。Wang等u 将生成对抗网络引入表示学习模型中，利用生成在4个通用数据集(FB15K、FB13、WN11和器来获得高质量的负例三元组，提高了知识表示 WN18)上进行了实验，在链接预测与三元组分类学习的能力。任务中均获得了有效的提升。 1相关研究 2基于相似性负采样的知识图谱嵌入 2.1实体的相似性知识图谱嵌人(knowledge graph embedding) 2.1.1实体局部结构的相似性旨在将知识图谱中的实体与关系嵌入到连续的、在本节中，将从两个角度对实体的相似性进稠密的、低维的和实值的向量空间，将其表示为行描述：1)知识图谱中实体局部结构的相似性：稠密低维实值向量。然后可以通过向量之间的欧 2)知识图谱通过TransE等翻译模型嵌入到向量氏距离、曼哈顿距离或马氏距离计算实现对知识空间中实体向量的相似性。图谱中对象间的相似度计算。知识图谱中的每个实体间都存在着一定的联在各类知识图谱嵌入模型中，基于翻译的表系，包括直接联系与间接联系。直接联系是2个示学习☑模型实现了先进的性能。其中典型的翻实体之间存在直接关系。间接联系是2个实体之译模型是由Bordes等于2013年提出的TransE 间存在的关系路径。例如，给定一个简单的知识模型。TransE模型将三元组(h,r,t)中的关系视图谱，如图1所示。其中，实体e1与实体e3之间为向量空间中头实体到尾实体的翻译操作。如果存在着直接关系(r)和关系路径(r6,r):实体e2与三元组(h,r,)成立，则头实体向量h、关系向量r 实体e之间存在着直接关系(r)和关系路径(r6 与尾实体向量t应满足h+r≈t。由于TransE模 r)、(6,广，)等。本文将一个实体与其他实体的型极为简单，同时在处理大规模数据方面表现出直接联系形成的结构称为该实体的局部结构，如优异的性能，从而引起了基于翻译的表示学习研图2所示。对于任意2个实体，如果它们的局部图谱已在数据挖掘、人工智能等领域具有至关重要的作用，促进了人工智能及其应用的发展，如智能问答[4] 、个性化旅游推荐等。虽然现有知识图谱的规模已经相当大，但其仍是不完整的，如 Freebase 中 75% 的人不存在国籍信息，71% 的人没有准确的出身地信息[5] ，因此有必要对现有知识图谱进行自动补全。这是当前知识图谱研究中最主要的任务和挑战之一。近年来，将知识图谱中实体与关系嵌入到向量空间进行知识图谱补全的方法显示出强大的可行性与鲁棒性。但是知识图谱嵌入的研究仍然面临着一个共同的问题，即在现有知识图谱嵌入模型训练时，是通过删除正例三元组 (h, r, t) 中的 h(或 t)，然后从实体集中随机选择一个实体对删除 h(或 t) 不完整的三元组进行填充来生成负例三元组，致使获得的大量负例三元组都是低质量的。低质量的负例三元组将导致知识图谱嵌入模型训练时无法对实体向量与关系向量进行有效的更新，从而影响知识图谱的有效嵌入。针对这一不足提出了一种通用的解决方法，基于实体相似性负采样的负例三元组生成方法来提高知识图谱嵌入的质量。该方法能够在训练中生成一个高质量的负例三元组，从而实现知识图谱嵌入模型的改进。我们将相似性负采样与 TransE 模型[6] 相结合得到 TransE-SNS 模型，并且在 4 个通用数据集 (FB15K、 FB13、 WN11 和 WN18) 上进行了实验，在链接预测与三元组分类任务中均获得了有效的提升。 1 相关研究知识图谱嵌入 (knowledge graph embedding) 旨在将知识图谱中的实体与关系嵌入到连续的、稠密的、低维的和实值的向量空间，将其表示为稠密低维实值向量。然后可以通过向量之间的欧氏距离、曼哈顿距离或马氏距离计算实现对知识图谱中对象间的相似度计算。 h r t h+ r ≈ t 在各类知识图谱嵌入模型中，基于翻译的表示学习[7] 模型实现了先进的性能。其中典型的翻译模型是由 Bordes 等 [6] 于 2013 年提出的 TransE 模型。TransE 模型将三元组 (h, r, t) 中的关系视为向量空间中头实体到尾实体的翻译操作。如果三元组 (h, r, t) 成立，则头实体向量、关系向量与尾实体向量应满足。由于 TransE 模型极为简单，同时在处理大规模数据方面表现出优异的性能，从而引起了基于翻译的表示学习研 h+ r ≈ t h+ r ≈ αt (h+αh)+ (r+αr) ≈ (t +αt) 究热潮。在随后几年时间里，基于翻译的模型衍生出一系列的模型。Wang 等 [8] 提出让一个实体在不同关系下拥有不同的表示，将实体投影到关系所在超平面，然后在超平面上进行翻译操作。 Lin 等 [9] 认为实体与关系应当处于不同的语义空间，提出了 TransR/CtransR 模型。TransR/CtransR 通过投影矩阵将实体从实体空间投影到关系空间，然后在关系空间中建立翻译操作。Ji 等 [10] 认为实体从实体空间投影到关系空间是实体与关系的交互过程，提出了分别为头、尾实体提供不同的投影矩阵。TranSparse 模型[11] 考虑了实体与关系的不平衡性和异质性，提出了一种根据关系的复杂程度来自适应的构造稀疏矩阵对实体进行投影，这样防止了简单关系过拟合、复杂关系欠拟合的发生。Feng 等 [12] 认为的翻译规则过于严格，于是建立了更加灵活的翻译规则，提高了模型的表达能力。Chang 等 [13] 认为 FT 模型的翻译规则仍过于复杂，进一步提出了的翻译规则，实现了翻译模型性能的提升。Tan 等 [14] 考虑了不同关系空间中实体的不同状态和特征倾向，将实体的本征态与拟态进行线性组合作为实体的嵌入特征，并为每个关系都构造了一个动态关系空间，提高了关系表示的能力，减少了来自其他关系的噪声。Wang 等 [15] 将生成对抗网络引入表示学习模型中，利用生成器来获得高质量的负例三元组，提高了知识表示学习的能力。 2 基于相似性负采样的知识图谱嵌入 2.1 实体的相似性 2.1.1 实体局部结构的相似性在本节中，将从两个角度对实体的相似性进行描述：1) 知识图谱中实体局部结构的相似性； 2) 知识图谱通过 TransE 等翻译模型嵌入到向量空间中实体向量的相似性。知识图谱中的每个实体间都存在着一定的联系，包括直接联系与间接联系。直接联系是 2 个实体之间存在直接关系。间接联系是 2 个实体之间存在的关系路径。例如，给定一个简单的知识图谱，如图 1 所示。其中，实体 e1 与实体 e3 之间存在着直接关系 (r8 ) 和关系路径 (r6 , r4 )；实体 e2 与实体 e3 之间存在着直接关系 (r8 ) 和关系路径 (r6 , r4 )、(r6 , r3 , r7 ) 等。本文将一个实体与其他实体的直接联系形成的结构称为该实体的局部结构，如图 2 所示。对于任意 2 个实体，如果它们的局部第 2 期饶官军，等：基于相似性负采样的知识图谱嵌入 ·219·

<<向上翻页向下翻页>>

点击下载：【知识工程】基于相似性负采样的知识图谱嵌入