【知识工程】基于相似性负采样的知识图谱嵌入

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：4.1MB

第15卷第2期智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201811022 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190520.1347.006html 基于相似性负采样的知识图谱嵌入饶官军，古天龙，常亮，宾辰忠，秦赛歌，宣闻 (桂林电子科技大学广西可信软件重点实验室，广西桂林541004) 摘要：针对现有知识图谱嵌入模型通过从实体集中随机抽取一个实体来生成负例三元组，导致负例三元组质量较低，影响了实体与关系的特征学习能力。研究了影响负例三元组质量的相关因素，提出了基于实体相似性负采样的方法来生成高质量的负例三元组。在相似性负采样方法中，首先使用K-Meas聚类算法将所有实体划分为多个组，然后从正例三元组中头实体所在的簇中选择一个实体替换头实体，并以类似的方法替换尾实体。通过将相似性负采样方法与TransE相结合得到TransE-SNS。研究结果表明：TransE-SNS在链路预测和三元组分类任务上取得了显著的进步。关键词：知识图谱：表示学习；随机抽样；相似性负采样；K-Means聚类；随机梯度下降；链接预测：三元组分类中图分类号：TP391 文献标志码：A文章编号：1673-4785(2020)02-0218-09 中文引用格式：饶官军，古天龙，常亮，等.基于相似性负采样的知识图谱嵌入小.智能系统学报，2020,15(2)：218-226. 英文引用格式：RAO Guanjun,.GU Tianlong,.CHANG Liang,.ctal.Knowledge graph embedding based on similarity negative sampling[J.CAAI transactions on intelligent systems,2020,15(2):218-226. Knowledge graph embedding based on similarity negative sampling RAO Guanjun,GU Tianlong,CHANG Liang,BIN Chenzhong,QIN Saige,XUAN Wen (Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,China) Abstract:For the existing knowledge graph embedding model,the random extraction of an entity from the entity set results in the generation of lower-quality negative triples,and this affects the feature learning ability of the entity and the relationship.In this paper,we study the related factors affecting the quality of negative triples,and propose an entity similarity negative sampling method to generate high-quality negative triples.In the similarity negative sampling meth- od,all entities are first divided into a number of groups using the K-means clustering algorithm.Then,corresponding to each positive triple,an entity is selected to replace the head entity from the cluster,whereby the head entity is located in the positive triple,and the tail entity is replaced in a similar approach.TransE-SNS is obtained by combining the similar- ity negative sampling method with TransE.Experimental results show that TransE-SNS has made significant progress in link prediction and triplet classification tasks. Keywords:knowledge graph;representation learning;random sampling;similarity sampling;K-means clustering; stochastic gradient descent:link prediction:triple classification 知识图谱(knowledge graph)的概念是谷歌在收稿日期：2018-12-04.网络出版日期：2019-05-21 基金项目：国家自然科学基金资助项目(U1501252,61572146): 2012年正式提出的，主要用于提升搜索引擎性广西创新驱动重大专项项目(AA17202024):广西自然科学基金项目(2016 GXNSFDA380006):广西高校能。随着大数据时代的到来，知识图谱规模得到中青年教师基础能力提升项日(2018KYD203):广西了快速的增长，各种大规模知识图谱相继出现研究生教育创新计划项目(YCSW2018139). 通信作者：宾辰忠.E-mail:cz_bin@guet.edu..cn. (如Freebase、WordNet、NULL等)。当前知识

DOI: 10.11992/tis.201811022 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190520.1347.006.html 基于相似性负采样的知识图谱嵌入饶官军，古天龙，常亮，宾辰忠，秦赛歌，宣闻（桂林电子科技大学广西可信软件重点实验室，广西桂林 541004）摘要：针对现有知识图谱嵌入模型通过从实体集中随机抽取一个实体来生成负例三元组，导致负例三元组质量较低，影响了实体与关系的特征学习能力。研究了影响负例三元组质量的相关因素，提出了基于实体相似性负采样的方法来生成高质量的负例三元组。在相似性负采样方法中，首先使用 K-Means 聚类算法将所有实体划分为多个组，然后从正例三元组中头实体所在的簇中选择一个实体替换头实体，并以类似的方法替换尾实体。通过将相似性负采样方法与 TransE 相结合得到 TransE-SNS。研究结果表明：TransE-SNS 在链路预测和三元组分类任务上取得了显著的进步。关键词：知识图谱；表示学习；随机抽样；相似性负采样；K-Means 聚类；随机梯度下降；链接预测；三元组分类中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2020)02−0218−09 中文引用格式：饶官军, 古天龙, 常亮, 等. 基于相似性负采样的知识图谱嵌入 [J]. 智能系统学报, 2020, 15(2): 218–226. 英文引用格式：RAO Guanjun, GU Tianlong, CHANG Liang, et al. Knowledge graph embedding based on similarity negative sampling[J]. CAAI transactions on intelligent systems, 2020, 15(2): 218–226. Knowledge graph embedding based on similarity negative sampling RAO Guanjun，GU Tianlong，CHANG Liang，BIN Chenzhong，QIN Saige，XUAN Wen (Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin 541004, China) Abstract: For the existing knowledge graph embedding model, the random extraction of an entity from the entity set results in the generation of lower-quality negative triples, and this affects the feature learning ability of the entity and the relationship. In this paper, we study the related factors affecting the quality of negative triples, and propose an entity similarity negative sampling method to generate high-quality negative triples. In the similarity negative sampling method, all entities are first divided into a number of groups using the K-means clustering algorithm. Then, corresponding to each positive triple, an entity is selected to replace the head entity from the cluster, whereby the head entity is located in the positive triple, and the tail entity is replaced in a similar approach. TransE-SNS is obtained by combining the similarity negative sampling method with TransE. Experimental results show that TransE-SNS has made significant progress in link prediction and triplet classification tasks. Keywords: knowledge graph; representation learning; random sampling; similarity sampling; K-means clustering; stochastic gradient descent; link prediction; triple classification 知识图谱 (knowledge graph) 的概念是谷歌在 2012 年正式提出的，主要用于提升搜索引擎性能。随着大数据时代的到来，知识图谱规模得到了快速的增长，各种大规模知识图谱相继出现 (如 Freebase[1] 、WordNet[2] 、NULL[3] 等)。当前知识收稿日期：2018−12−04. 网络出版日期：2019−05−21. 基金项目：国家自然科学基金资助项目 (U1501252，61572146)；广西创新驱动重大专项项目 (AA17202024)；广西自然科学基金项目 (2016GXNSFDA380006)；广西高校中青年教师基础能力提升项目 (2018KYD203)；广西研究生教育创新计划项目 (YCSW2018139). 通信作者：宾辰忠. E-mail：cz_bin@guet.edu.cn. 第 15 卷第 2 期智能系统学报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020

第2期饶官军，等：基于相似性负采样的知识图谱嵌入 ·219· 图谱已在数据挖掘、人工智能等领域具有至关重究热潮。在随后几年时间里，基于翻译的模型衍要的作用，促进了人工智能及其应用的发展，如生出一系列的模型。Wang等提出让一个实体智能问答、个性化旅游推荐等。在不同关系下拥有不同的表示，将实体投影到关虽然现有知识图谱的规模已经相当大，但其系所在超平面，然后在超平面上进行翻译操作。仍是不完整的，如Freebase中75%的人不存在国 Lin等例认为实体与关系应当处于不同的语义空籍信息，71%的人没有准确的出身地信息，因此间，提出了TransR/CtransR模型。TransR/CtransR 有必要对现有知识图谱进行自动补全。这是当前通过投影矩阵将实体从实体空间投影到关系空知识图谱研究中最主要的任务和挑战之一。近年间，然后在关系空间中建立翻译操作。i等0认来，将知识图谱中实体与关系嵌入到向量空间进为实体从实体空间投影到关系空间是实体与关系行知识图谱补全的方法显示出强大的可行性与鲁的交互过程，提出了分别为头、尾实体提供不同棒性。但是知识图谱嵌入的研究仍然面临着一个的投影矩阵。TranSparse模型考虑了实体与关共同的问题，即在现有知识图谱嵌入模型训练系的不平衡性和异质性，提出了一种根据关系的时，是通过删除正例三元组(h,r,t)中的h(或)，复杂程度来自适应的构造稀疏矩阵对实体进行投然后从实体集中随机选择一个实体对删除（或影，这样防止了简单关系过拟合、复杂关系欠拟 )不完整的三元组进行填充来生成负例三元组，合的发生。Feng等a认为h+r≈t的翻译规则过致使获得的大量负例三元组都是低质量的。低质于严格，于是建立了更加灵活的翻译规则h+r≈at, 量的负例三元组将导致知识图谱嵌入模型训练时提高了模型的表达能力。Chang等)认为FT模无法对实体向量与关系向量进行有效的更新，从型的翻译规则仍过于复杂，进一步提出了(h+)+ 而影响知识图谱的有效嵌入。 (r+α)≈(t+位，)的翻译规则，实现了翻译模型性能针对这一不足提出了一种通用的解决方法，的提升。Tan等考虑了不同关系空间中实体的基于实体相似性负采样的负例三元组生成方法来不同状态和特征倾向，将实体的本征态与拟态进提高知识图谱嵌人的质量。该方法能够在训练中行线性组合作为实体的嵌入特征，并为每个关系生成一个高质量的负例三元组，从而实现知识图都构造了一个动态关系空间，提高了关系表示的谱嵌入模型的改进。我们将相似性负采样与 TransE模型相结合得到TransE-SNS模型，并且能力，减少了来自其他关系的噪声。Wang等u 将生成对抗网络引入表示学习模型中，利用生成在4个通用数据集(FB15K、FB13、WN11和器来获得高质量的负例三元组，提高了知识表示 WN18)上进行了实验，在链接预测与三元组分类学习的能力。任务中均获得了有效的提升。 1相关研究 2基于相似性负采样的知识图谱嵌入 2.1实体的相似性知识图谱嵌人(knowledge graph embedding) 2.1.1实体局部结构的相似性旨在将知识图谱中的实体与关系嵌入到连续的、在本节中，将从两个角度对实体的相似性进稠密的、低维的和实值的向量空间，将其表示为行描述：1)知识图谱中实体局部结构的相似性：稠密低维实值向量。然后可以通过向量之间的欧 2)知识图谱通过TransE等翻译模型嵌入到向量氏距离、曼哈顿距离或马氏距离计算实现对知识空间中实体向量的相似性。图谱中对象间的相似度计算。知识图谱中的每个实体间都存在着一定的联在各类知识图谱嵌入模型中，基于翻译的表系，包括直接联系与间接联系。直接联系是2个示学习☑模型实现了先进的性能。其中典型的翻实体之间存在直接关系。间接联系是2个实体之译模型是由Bordes等于2013年提出的TransE 间存在的关系路径。例如，给定一个简单的知识模型。TransE模型将三元组(h,r,t)中的关系视图谱，如图1所示。其中，实体e1与实体e3之间为向量空间中头实体到尾实体的翻译操作。如果存在着直接关系(r)和关系路径(r6,r):实体e2与三元组(h,r,)成立，则头实体向量h、关系向量r 实体e之间存在着直接关系(r)和关系路径(r6 与尾实体向量t应满足h+r≈t。由于TransE模 r)、(6,广，)等。本文将一个实体与其他实体的型极为简单，同时在处理大规模数据方面表现出直接联系形成的结构称为该实体的局部结构，如优异的性能，从而引起了基于翻译的表示学习研图2所示。对于任意2个实体，如果它们的局部

图谱已在数据挖掘、人工智能等领域具有至关重要的作用，促进了人工智能及其应用的发展，如智能问答[4] 、个性化旅游推荐等。虽然现有知识图谱的规模已经相当大，但其仍是不完整的，如 Freebase 中 75% 的人不存在国籍信息，71% 的人没有准确的出身地信息[5] ，因此有必要对现有知识图谱进行自动补全。这是当前知识图谱研究中最主要的任务和挑战之一。近年来，将知识图谱中实体与关系嵌入到向量空间进行知识图谱补全的方法显示出强大的可行性与鲁棒性。但是知识图谱嵌入的研究仍然面临着一个共同的问题，即在现有知识图谱嵌入模型训练时，是通过删除正例三元组 (h, r, t) 中的 h(或 t)，然后从实体集中随机选择一个实体对删除 h(或 t) 不完整的三元组进行填充来生成负例三元组，致使获得的大量负例三元组都是低质量的。低质量的负例三元组将导致知识图谱嵌入模型训练时无法对实体向量与关系向量进行有效的更新，从而影响知识图谱的有效嵌入。针对这一不足提出了一种通用的解决方法，基于实体相似性负采样的负例三元组生成方法来提高知识图谱嵌入的质量。该方法能够在训练中生成一个高质量的负例三元组，从而实现知识图谱嵌入模型的改进。我们将相似性负采样与 TransE 模型[6] 相结合得到 TransE-SNS 模型，并且在 4 个通用数据集 (FB15K、 FB13、 WN11 和 WN18) 上进行了实验，在链接预测与三元组分类任务中均获得了有效的提升。 1 相关研究知识图谱嵌入 (knowledge graph embedding) 旨在将知识图谱中的实体与关系嵌入到连续的、稠密的、低维的和实值的向量空间，将其表示为稠密低维实值向量。然后可以通过向量之间的欧氏距离、曼哈顿距离或马氏距离计算实现对知识图谱中对象间的相似度计算。 h r t h+ r ≈ t 在各类知识图谱嵌入模型中，基于翻译的表示学习[7] 模型实现了先进的性能。其中典型的翻译模型是由 Bordes 等 [6] 于 2013 年提出的 TransE 模型。TransE 模型将三元组 (h, r, t) 中的关系视为向量空间中头实体到尾实体的翻译操作。如果三元组 (h, r, t) 成立，则头实体向量、关系向量与尾实体向量应满足。由于 TransE 模型极为简单，同时在处理大规模数据方面表现出优异的性能，从而引起了基于翻译的表示学习研 h+ r ≈ t h+ r ≈ αt (h+αh)+ (r+αr) ≈ (t +αt) 究热潮。在随后几年时间里，基于翻译的模型衍生出一系列的模型。Wang 等 [8] 提出让一个实体在不同关系下拥有不同的表示，将实体投影到关系所在超平面，然后在超平面上进行翻译操作。 Lin 等 [9] 认为实体与关系应当处于不同的语义空间，提出了 TransR/CtransR 模型。TransR/CtransR 通过投影矩阵将实体从实体空间投影到关系空间，然后在关系空间中建立翻译操作。Ji 等 [10] 认为实体从实体空间投影到关系空间是实体与关系的交互过程，提出了分别为头、尾实体提供不同的投影矩阵。TranSparse 模型[11] 考虑了实体与关系的不平衡性和异质性，提出了一种根据关系的复杂程度来自适应的构造稀疏矩阵对实体进行投影，这样防止了简单关系过拟合、复杂关系欠拟合的发生。Feng 等 [12] 认为的翻译规则过于严格，于是建立了更加灵活的翻译规则，提高了模型的表达能力。Chang 等 [13] 认为 FT 模型的翻译规则仍过于复杂，进一步提出了的翻译规则，实现了翻译模型性能的提升。Tan 等 [14] 考虑了不同关系空间中实体的不同状态和特征倾向，将实体的本征态与拟态进行线性组合作为实体的嵌入特征，并为每个关系都构造了一个动态关系空间，提高了关系表示的能力，减少了来自其他关系的噪声。Wang 等 [15] 将生成对抗网络引入表示学习模型中，利用生成器来获得高质量的负例三元组，提高了知识表示学习的能力。 2 基于相似性负采样的知识图谱嵌入 2.1 实体的相似性 2.1.1 实体局部结构的相似性在本节中，将从两个角度对实体的相似性进行描述：1) 知识图谱中实体局部结构的相似性； 2) 知识图谱通过 TransE 等翻译模型嵌入到向量空间中实体向量的相似性。知识图谱中的每个实体间都存在着一定的联系，包括直接联系与间接联系。直接联系是 2 个实体之间存在直接关系。间接联系是 2 个实体之间存在的关系路径。例如，给定一个简单的知识图谱，如图 1 所示。其中，实体 e1 与实体 e3 之间存在着直接关系 (r8 ) 和关系路径 (r6 , r4 )；实体 e2 与实体 e3 之间存在着直接关系 (r8 ) 和关系路径 (r6 , r4 )、(r6 , r3 , r7 ) 等。本文将一个实体与其他实体的直接联系形成的结构称为该实体的局部结构，如图 2 所示。对于任意 2 个实体，如果它们的局部第 2 期饶官军，等：基于相似性负采样的知识图谱嵌入 ·219·

·220· 智能系统学报第15卷结构越相似，那么这2个实体也越相似。例如， e,与e2的局部结构中分别含有6个关系，并且这些关系均相同，其中存在4个关系构成了相似的三元组(*，r,e、(*,r,e)(e,5,*)和(*，s,e,其中*可以用e或e代替，1个关系连接e1与e2的三元组(e2,ro,e),1个关系连接着不同的尾实体构成2个三元组(e,ro,e)和(e2,rs,e)。通过对比 e1与e2的局部结构可以判定e1与e2的相似性较高。与此相同，通过对比e,与e的局部结构，我图1知识图谱们可以判定e,与e的相似性较低。 Fig.1 Knowledge graph 111 es (a)e,的局部结构 (b)e,的局部结构 (c)e,的局部结构图2实体的局部结构 Fig.2 Local structure of the entity 2.1.2实体向量的相似性中相距较远。综上所述，在向量空间中，对于任当利用TransE模型将知识图谱嵌入到向量意两个实体，如果他们受到的相同约束越多，那空间中时，对于知识图谱中的每一个三元组(h,, 么这两个实体向量之间的距离越小，即实体越相 )应当满足h+r≈t。对于头实体h而言，它在向似，反之亦然。量空间中的向量h≈t-r,即h可以由t-r得到， 2.2随机抽样的局限性将t-r称之为h的空间约束。与此相同，h+r是现有知识图谱嵌入模型都是采用随机抽样来 t的空间约束，t-h是r的空间约束。因此，给定生成一个负例三元组，即采用相同概率从实体集一个知识图谱，通过h+r≈t将知识图谱中的实中抽取一个实体替换正例三元组中的头实体（或体与关系嵌入到向量空间时，可以将知识图谱中尾实体)。然而，通过该方式生成负例三元组会存实体的特征与关系的特征在向量空间中的特征表在一个问题：可能会在训练中生成大量的低质量示分别称之为实体向量与关系向量。例如图2中负例三元组。导致上述问题的关键在于随机抽样的实体e,与e2,当他们嵌入到向量空间中时，需忽略了实体之间的相似性。抽取的替换实体与被要满足4个相同的空间约束，即*≈e4-r、替换实体之间相似性可能是很低的，如图1中的 *≈e6-r2、*≈e1-r5和*≈e3-rg,其中*可以用e1 实体e,与e。一个低质量的负例三元组相对于正或e2替换，在这4个相同的空间约束下促使e,与例三元组来说是极易区分的，这样的负例三元组 e2趋近于相等。但与此同时，e还需满足空间约对于学习知识图谱的有效嵌人是没有作用的。为束e1≈e2-r,和e1≈es-r6,e2还需满足空间约束了深入理解高质量的负例三元组与低质量负例三 e2≈e1-ro和e2≈e,-r6,在这2个不同的空间约束元组的区别，通过一个具体的例子进行阐述。下促使e,与e2又存在着一定的区别。因此，向量假设在知识图谱中有一个正例三元组（广西，空间中的e1与e2,在相同的空间约束下驱使他们省会，南宁)，根据随机抽样原则，选择替换尾实体接近于相等，同时又在不同的约束下迫使他们产南宁来生成负例三元组。首先，通过移除南宁会生一定的区别，这使得e1与e2在靠近的同时又存得到一个不完整的三元组（广西，省会，？）。然在一些距离。然而，对于图2中的实体e1与e3,e1 后，以相同的概率从实体集中抽取一个实体进行在向量空间中受到的所有空间约束均与e受到尾实体填充，假设抽取到一个Person类型实体马空间约束完全不同，这将使得e1与e在向量空间云，我们就会得到一个奇怪的负例三元组（广西

∗ ∗ ∗ ∗ ∗ 结构越相似，那么这 2 个实体也越相似。例如， e1 与 e2 的局部结构中分别含有 6 个关系，并且这些关系均相同，其中存在 4 个关系构成了相似的三元组 ( , r1 , e4 )、( , r2 , e6 )、(e11, r5 , ) 和 ( , r8 , e3 )，其中可以用 e1 或 e2 代替，1 个关系连接 e1 与 e2 的三元组 (e2 , r0 , e1 )，1 个关系连接着不同的尾实体构成 2 个三元组 (e1 , r6 , e5 ) 和 (e2 , r6 , e7 )。通过对比 e1 与 e2 的局部结构可以判定 e1 与 e2 的相似性较高。与此相同，通过对比 e1 与 e3 的局部结构，我们可以判定 e1 与 e3 的相似性较低。 e6 e2 e11 e3 e5 e4 e1 r1 r6 r8 r5 r0 r2 e2 e7 e8 e9 e3 e e10 5 e1 e11 r8 r8 r5 r4 r3 r2 r7 r4 e6 e2 e7 e3 e11 e1 e4 r2 r6 r8 r5 r0 r1 (a) e1的局部结构 (b) e2的局部结构 (c) e3的局部结构图 2 实体的局部结构 Fig. 2 Local structure of the entity 2.1.2 实体向量的相似性 h+ r ≈ t h ≈ t − r h t − r t − r h h+ r t t − h r h+ r ≈ t ∗ ≈ e4 − r1 ∗ ≈ e6 − r2 ∗ ≈ e11 − r5 ∗ ≈ e3 − r8 ∗ e1 e2 e1 e2 e1 e1 ≈ e2 − r0 e1 ≈ e5 − r6 e2 e2 ≈ e1 − r0 e2 ≈ e7 − r6 e1 e2 e1 e2 e1 e2 e1 e1 e3 当利用 TransE 模型将知识图谱嵌入到向量空间中时，对于知识图谱中的每一个三元组 (h, r, t) 应当满足。对于头实体 h 而言，它在向量空间中的向量，即可以由得到，将称之为的空间约束。与此相同，是的空间约束，是的空间约束。因此，给定一个知识图谱，通过将知识图谱中的实体与关系嵌入到向量空间时，可以将知识图谱中实体的特征与关系的特征在向量空间中的特征表示分别称之为实体向量与关系向量。例如图 2 中的实体 e1 与 e2，当他们嵌入到向量空间中时，需要满足 4 个相同的空间约束，即、、和，其中可以用或替换，在这 4 个相同的空间约束下促使与趋近于相等。但与此同时，还需满足空间约束和，还需满足空间约束和，在这 2 个不同的空间约束下促使与又存在着一定的区别。因此，向量空间中的与，在相同的空间约束下驱使他们接近于相等，同时又在不同的约束下迫使他们产生一定的区别，这使得与在靠近的同时又存在一些距离。然而，对于图 2 中的实体 e1 与 e3，在向量空间中受到的所有空间约束均与 e3 受到空间约束完全不同，这将使得与在向量空间中相距较远。综上所述，在向量空间中，对于任意两个实体，如果他们受到的相同约束越多，那么这两个实体向量之间的距离越小，即实体越相似，反之亦然。 2.2 随机抽样的局限性现有知识图谱嵌入模型都是采用随机抽样来生成一个负例三元组，即采用相同概率从实体集中抽取一个实体替换正例三元组中的头实体 (或尾实体)。然而，通过该方式生成负例三元组会存在一个问题：可能会在训练中生成大量的低质量负例三元组。导致上述问题的关键在于随机抽样忽略了实体之间的相似性。抽取的替换实体与被替换实体之间相似性可能是很低的，如图 1 中的实体 e1 与 e3。一个低质量的负例三元组相对于正例三元组来说是极易区分的，这样的负例三元组对于学习知识图谱的有效嵌入是没有作用的。为了深入理解高质量的负例三元组与低质量负例三元组的区别，通过一个具体的例子进行阐述。假设在知识图谱中有一个正例三元组 (广西，省会，南宁)，根据随机抽样原则，选择替换尾实体南宁来生成负例三元组。首先，通过移除南宁会得到一个不完整的三元组 (广西，省会，？)。然后，以相同的概率从实体集中抽取一个实体进行尾实体填充，假设抽取到一个 Person 类型实体马云，我们就会得到一个奇怪的负例三元组 (广西， e6 r2 r6 r3 r7 r2 r3 r4 r6 r8 r5 r8 r4 r5 r1 r2 r1 r0 r5 e2 e7 e8 e9 e10 e3 e5 e1 e11 e4 图 1 知识图谱 Fig. 1 Knowledge graph ·220· 智能系统学报第 15 卷

第2期饶官军，等：基于相似性负采样的知识图谱嵌入 ·221· 省会，马云)，这样的负例三元组就是一个低质量 arg min 的负例三元组。与此相反，如果抽取到一个 22-c (1) Cty类型实体桂林，将会得到一个高质量的负例三元组（广西，省会，桂林）。由于南宁与桂林的相式中：K表示聚类中心的数量；e是一个实体向似度远高于南宁与马云的相似度。南宁与桂林拥量；c:表示第i个聚类中心向量；C,表示第i个聚有许多相同或者相似的属性或者关系类型，比类中实体e的集合；L2是第二范数欧氏距离。如，它们均属于广西，都拥有城市属性，地理位置知识图谱中实体的相似性负采样详细过程：相近，气候类型相同，地形地貌相似，历史文化也首先通过TransE模型训练50个epoch获取实体相似。与此相反，南宁与马云，一个是城市，一个集E与关系集R的向量表示，然后利用K-Means 是人，他们几乎没有相同的属性或者关系类型，聚类将实体集划分为K个簇{E,E2,…,Ex},每个因此他们的相似度是极低的。簇中的实体之间具有较高的相似性。当给定一个在知识图谱嵌入模型中，如TransE模型使用被替换实体e∈E(k∈{1,2，…，K)时，从簇E中基于边界的损失函数作为训练目标。训练过程选择替换实体e'。那么，获得的替换实体e'与被中，当在使用相似性低的实体进行替换来生成负替换实体e将具有较高的相似性。例三元组时，得到的是一个低质量的负例三元 2.4 TransE-SNS模型组，这将导致生成的负例三元组与正例三元组的在本节中，详述了将实体相似性负采样与得分之差大于边界值，使得损失值为0。在损失 TransE模型结合得到TransE-SNS,同时给出了值为0时，模型将不会对实体向量与关系向量进 TransE-SNS模型完整代码的训练过程，即算法l。行更新，也就是说本次训练对于实体向量与关系 TransE-SNS采用h+r≈t的翻译原则将实体向量的学习无益，无法获得更多的样本特征。为和关系嵌入同一个向量空间。因此为TransE 了得到高质量的负例三元组，促进实体向量与关 SNS定义了得分函数：系向量的有效更新，实现知识图谱中实体与关系 f (h,t)=lh +r-tll (2) 的有效嵌入，应该使用与被替换实体具有一定程式中：h、r、t∈R";L2是第二范数欧氏距离。度相似性的替换实体。因此，针对此问题我们提在TransE-SNS中，采用了基于边界的损失函出了解决方案-相似性负采样。数作为训练目标，基于边界的损失函数为 2.3相似性负采样一个高质量的负例三元组可以帮助知识图谱 L=∑es∑eV(h..0+y-fh,r1, (3) (h.r.t) 嵌入，而得到一个高质量的负例三元组的关键是式中：S是正例三元组集合；S={(h',r,)|h'∈E: 获取一个与被替换实体相似的实体。将知识图谱 (h,,)生SU{(h,r,t)|t∈E:(h,r,t)ES(其中，嵌入到向量空间中时，实体的局部结构相似性转 E。表示实体e所在的簇)是负例三元组集合；化为2个实体向量的相似性。2个实体向量之间 Neg,,)是S中(hr,t)对应的一个负例三元组；的距离越小，它们就越相似，反之亦然。这促使 f (h,t)+f (h,t=max (0f(h,(+f(h,); 我们萌发出对实体进行聚类后获得相似实体。于 y是边界值。本文利用随机梯度下降算法(SGD) 是使用简单有效的K-Means算法is-8I对实体进行最小化基于边界的损失函数。聚类，然后使得替换实体与被替换实体属于同一算法1给出了TransE-SNS模型的完整训练个簇。上述实体抽样过程，称为相似性负采样过程。在训练过程中，前50个epoch采用的是随机 (similarity nagetive sampling,SNS). 抽样来生成负例三元组进行训练，然后对实体向对于一个给定的知识图谱G=(E,R,S),其中量进行第一次聚类。之后每完成训练50个epoch, E={e,e2,…,ew}表示知识图谱中包含N个实体就对训练得到的实体向量重新进行一次聚类。的实体集合，R={r,r2,…,rM}表示知识图谱中包算法1 Learning TransE-SNS 含M个关系的关系集合，SSE×R×E表示知识图输入训练集S={(h,r,)}和负例三元组集S= 谱中的三元组集合。本文目标是将N个实体划 {(h,r,)|h'∈E(h,r,t)tS}U{(h,r,t)|t'∈E.(h 分到K个聚类中，使得每个实体到所属聚类中心 r,)生S,实体集E,关系集R,边界值y,嵌入维度最近，即，每个实体到所属聚类中心的欧氏距离 n,学习率a,K-Means聚类中心数k,实体聚类子之和最小，即满足式(1)：集E(i=1,2,…,k)

省会，马云)，这样的负例三元组就是一个低质量的负例三元组。与此相反，如果抽取到一个 City 类型实体桂林，将会得到一个高质量的负例三元组 (广西，省会，桂林)。由于南宁与桂林的相似度远高于南宁与马云的相似度。南宁与桂林拥有许多相同或者相似的属性或者关系类型，比如，它们均属于广西，都拥有城市属性，地理位置相近，气候类型相同，地形地貌相似，历史文化也相似。与此相反，南宁与马云，一个是城市，一个是人，他们几乎没有相同的属性或者关系类型，因此他们的相似度是极低的。在知识图谱嵌入模型中，如 TransE 模型使用基于边界的损失函数作为训练目标。训练过程中，当在使用相似性低的实体进行替换来生成负例三元组时，得到的是一个低质量的负例三元组，这将导致生成的负例三元组与正例三元组的得分之差大于边界值，使得损失值为 0。在损失值为 0 时，模型将不会对实体向量与关系向量进行更新，也就是说本次训练对于实体向量与关系向量的学习无益，无法获得更多的样本特征。为了得到高质量的负例三元组，促进实体向量与关系向量的有效更新，实现知识图谱中实体与关系的有效嵌入，应该使用与被替换实体具有一定程度相似性的替换实体。因此，针对此问题我们提出了解决方案−相似性负采样。 2.3 相似性负采样一个高质量的负例三元组可以帮助知识图谱嵌入，而得到一个高质量的负例三元组的关键是获取一个与被替换实体相似的实体。将知识图谱嵌入到向量空间中时，实体的局部结构相似性转化为 2 个实体向量的相似性。2 个实体向量之间的距离越小，它们就越相似，反之亦然。这促使我们萌发出对实体进行聚类后获得相似实体。于是使用简单有效的 K-Means 算法[16-18] 对实体进行聚类，然后使得替换实体与被替换实体属于同一个簇。上述实体抽样过程，称为相似性负采样 (similarity nagetive sampling, SNS)。 ··· , eN ··· , rM ⊆ 对于一个给定的知识图谱 G = (E, R, S)，其中 E = {e1 , e2 , }表示知识图谱中包含 N 个实体的实体集合，R ={r1 , r2 , }表示知识图谱中包含 M 个关系的关系集合，S E ×R ×E 表示知识图谱中的三元组集合。本文目标是将 N 个实体划分到 K 个聚类中，使得每个实体到所属聚类中心最近，即，每个实体到所属聚类中心的欧氏距离之和最小，即满足式 (1)： argmin∑K i=1 ∑ e∈Ci ∥e− ci∥L2 (1) e ci 式中：K 表示聚类中心的数量；是一个实体向量；表示第 i 个聚类中心向量；Ci 表示第 i 个聚类中实体 e 的集合；L2 是第二范数欧氏距离。 ··· , EK ··· , K 知识图谱中实体的相似性负采样详细过程：首先通过 TransE 模型训练 50 个 epoch 获取实体集 E 与关系集 R 的向量表示，然后利用 K-Means 聚类将实体集划分为 K 个簇{E1 , E2 , }，每个簇中的实体之间具有较高的相似性。当给定一个被替换实体 e∈Ek (k∈{1, 2, }) 时，从簇 Ek 中选择替换实体 e'。那么，获得的替换实体 e'与被替换实体 e 将具有较高的相似性。 2.4 TransE-SNS 模型在本节中，详述了将实体相似性负采样与 TransE 模型结合得到 TransE-SNS，同时给出了 TransE-SNS 模型完整代码的训练过程，即算法 1。 TransE-SNS 采用 h+ r ≈ t 的翻译原则将实体和关系嵌入同一个向量空间。因此为 TransESNS 定义了得分函数： fr(h, t) = ∥h+ r− t∥L2 (2) h、r、t ∈ R 式中： n；L2 是第二范数欧氏距离。在 TransE-SNS 中，采用了基于边界的损失函数作为训练目标，基于边界的损失函数为 L = ∑ (h,r,t) ∈ S ∑ Neg(h,r,t) ∈ S ′∇[fr(h, t)+γ− fr(h ′ , t ′ )]+ (3) < < 式中：S 是正例三元组集合；S' = {(h', r, t) | h' ∈Eh； (h', r, t) S}∪{(h, r, t') | t' ∈Et；(h, r, t') S}(其中， Ee 表示实体 e 所在的簇) 是负例三元组集合； Neg(h, r, t) 是 S'中 (h, r, t) 对应的一个负例三元组； [fr (h, t) +γ−fr (h', t')]+ = max (0, fr (h, t) +γ−fr (h', t'))； γ 是边界值。本文利用随机梯度下降算法 (SGD)[19] 最小化基于边界的损失函数。算法 1 给出了 TransE-SNS 模型的完整训练过程。在训练过程中，前 50 个 epoch 采用的是随机抽样来生成负例三元组进行训练，然后对实体向量进行第一次聚类。之后每完成训练 50 个 epoch，就对训练得到的实体向量重新进行一次聚类。算法 1 Learning TransE-SNS < < ··· , k 输入训练集 S ={(h, r, t)}和负例三元组集 S' = {(h', r, t) | h'∈Eh , (h', r, t) S}∪{(h, r, t') | t'∈Et ,(h', r, t) S}，实体集 E，关系集 R，边界值 γ，嵌入维度 n，学习率 α, K-Means 聚类中心数 k，实体聚类子集 Ei (i = 1, 2, )。第 2 期饶官军，等：基于相似性负采样的知识图谱嵌入 ·221·

·222· 智能系统学报第15卷输出实体向量与关系向量 3.2链接预测 1)初始化：链接预测旨在预测一个三元组(h,r,)中缺 2)r←-uniform(-6/vm,6/n)对于每一个失的（或）。在这项任务中，将测试三元组(，r, reR t)缺失的（或）称为正确实体，除正确实体以外 3)r←-r/ll对于每一个reR 的其他实体均被视为候选实体。首先，利用候选 4)e-uniform(-6/vn,6/vn)对于每一个eeE 实体替换测试三元组(h,r,t)中的h(或)以获得 4)e-e/lell对于每一个e∈E 候选三元组。然后，计算候选三元组与测试三元 5)loop 组的得分。最后，根据实体对应的三元组得分从 6)Seeh←sample(S,b)∥从S中抽取一个大小低到高对候选实体与正确实体进行升序排列。为b的mini-batch 在2个数据集WN18和FB15K上进行链接预测 7)Tach←-O1∥初始化正负例三元组对的集合任务，使用2项常用的评价标准作为实验中的评 8)for(h,r,t)∈Spatchdo 价指标6：正确实体排名前10的比例(Hits@10) 9)Negh,n←-sample(S4,)/抽取一个负例和正确实体的平均排名(Mean Rank)。显然，对于三元组(h,r,)或(h,r,t) 一个好的预测应该有一个高的Hits@10和低的 10)Thatch -Tbatch U(h,r,()Negt.r. Mean Rank。 11)end for 值得注意的是，在候选三元组集合中有一部 12)更新实体向量与关系向量分候选三元组可能存在于训练集、验证集和测试 ∑∑UGa0+y-f.1. 集中。虽然这些候选三元组不是当前测试的正确 13)if epoch %50=0 then 三元组，但它们应该被认为是正确的，并且它们 14)更新E,J∥K-Means聚类的得分很可能比当前正确三元组的得分更低，从 15)end if 而影响正确实体的排名。我们将已经在训练集、 16)end loop 验证集和测试集中出现过的候选三元组滤除。因此，在测试过程中设置了一个过滤器，并将2项评 3实验与分析价指标中经过滤器滤除的称之为“Fit”,反之，将为了评估方法的性能，在4个公开数据集上其称之为“Raw”。进行实验，通过链接预测和三元组分类任务进行评价。在这项任务中，为了得到模型的最佳参数设 3.1数据设置置，尽可能多地尝试了参数的各种设置，参数主我们使用的数据集是来自于2个被广泛使用要从以下设置中选择：模型训练周期epoch∈{1000，的知识图谱WordNet和Freebase。WordNet是一 2000,3000},学习率a∈{0.01,0.001,0.0001}，边个大型的英语词汇知识图谱。在WordNet中，将界值y∈{1,2,2.5,3,3.5,4,4.5,5,5.5,6}，嵌入维代表某一基本词汇概念的同义词集合作为实体，度n∈{25,50,100,200}，批处理大小Be{100, 并在这些同义词集合之间建立各种语义关系。在 200,500,1000},聚类中心数K∈{16,32,64}，聚本文中，使用WordNet中的2个子集：WN182o町类迭代次数ie{10,20,50;,三元组得分与聚类相和WNI1。Freebase是一个大型的人类知识的似度均采用L2第二范数进行计算。在2个数据知识图谱，存储了真实世界中的一般事实。本文集上，都获得了关于平均排名和排名前10的比例也使用了Freebase中的2个子集：FB15K2o1和的最佳参数设置，如表2所示。 FB13P。在表1中给出了这4种数据统计数据。表2链接预测中的最佳参数设置表1实验数据集 Table 2 Optimal parameter setting in link prediction Table 1 Experimental datasets Dataset Metric epoch a y n B K i D.S Dataset #Ent #Rel #Train #Valid #Test Mean Rank20000.0015.5501001420L2 WNII 38696 11 112581 2609 10544 WN18 Hits@1020000.0013501001420L2 WN18 40943 18 141442 5000 5000 FB13 75043 13 316232 5908 23733 Mean Rank20000.00142002006420L2 FB15K FB15K149511345 483142 50000 59071 Hits@1020000.00122002006420L2

输出实体向量与关系向量 1) 初始化： r −6/ √ n 6/ √ 2) ← uniform ( , n ) 对于每一个 r∈R 3) r← r/||r|| 对于每一个 r∈R e −6/ √ n 6/ √ 4) ← uniform ( , n) 对于每一个 e∈E 4) e←e/||e|| 对于每一个 e∈E 5) loop 6) Sbatch ← sample (S, b) //从 S 中抽取一个大小为 b 的 mini-batch 7)Tbatch← Ø // 初始化正负例三元组对的集合 8) for (h, r, t)∈Sbatch do 9) Neg(h, r, t) ← sample(S'(h, r, t) ) //抽取一个负例三元组 (h', r, t) 或 (h, r, t') 10) Tbatch ←Tbatch∪{(h, r, t), Neg(h, r, t)} 11) end for 12) 更新实体向量与关系向量 ∑ (h,r,t)∈S ∑ Neg(h,r,t)∈S ′ ∇[fr(h, t)+γ− fr(h ′ , t ′ )] + 13) if epoch % 50 == 0 then 14) 更新 Ei ,// K-Means 聚类 15) end if 16) end loop 3 实验与分析为了评估方法的性能，在 4 个公开数据集上进行实验，通过链接预测和三元组分类任务进行评价。 3.1 数据设置我们使用的数据集是来自于 2 个被广泛使用的知识图谱 WordNet 和 Freebase。WordNet 是一个大型的英语词汇知识图谱。在 WordNet 中，将代表某一基本词汇概念的同义词集合作为实体，并在这些同义词集合之间建立各种语义关系。在本文中，使用 WordNet 中的 2 个子集：WN18[20] 和 WN11[21]。Freebase 是一个大型的人类知识的知识图谱，存储了真实世界中的一般事实。本文也使用了 Freebase 中的 2 个子集：FB15K[20] 和 FB13[21]。在表 1 中给出了这 4 种数据统计数据。表 1 实验数据集 Table 1 Experimental datasets Dataset #Ent #Rel #Train #Valid #Test WN11 38 696 11 112 581 2 609 10 544 WN18 40 943 18 141 442 5 000 5 000 FB13 75 043 13 316 232 5 908 23 733 FB15K 14 951 1 345 483 142 50 000 59 071 3.2 链接预测链接预测旨在预测一个三元组 (h, r, t) 中缺失的 h(或 t)。在这项任务中，将测试三元组 (h, r, t) 缺失的 h(或 t) 称为正确实体，除正确实体以外的其他实体均被视为候选实体。首先，利用候选实体替换测试三元组 (h, r, t) 中的 h(或 t) 以获得候选三元组。然后，计算候选三元组与测试三元组的得分。最后，根据实体对应的三元组得分从低到高对候选实体与正确实体进行升序排列。在 2 个数据集 WN18 和 FB15K 上进行链接预测任务，使用 2 项常用的评价标准作为实验中的评价指标[6] ：正确实体排名前 10 的比例 (Hits@10) 和正确实体的平均排名 (Mean Rank)。显然，对于一个好的预测应该有一个高的 Hits@10 和低的 Mean Rank。值得注意的是，在候选三元组集合中有一部分候选三元组可能存在于训练集、验证集和测试集中。虽然这些候选三元组不是当前测试的正确三元组，但它们应该被认为是正确的，并且它们的得分很可能比当前正确三元组的得分更低，从而影响正确实体的排名。我们将已经在训练集、验证集和测试集中出现过的候选三元组滤除。因此，在测试过程中设置了一个过滤器，并将 2 项评价指标中经过滤器滤除的称之为“Filt”，反之，将其称之为“Raw”。在这项任务中，为了得到模型的最佳参数设置，尽可能多地尝试了参数的各种设置，参数主要从以下设置中选择：模型训练周期 epoch∈{1 000， 2 000，3 000}，学习率 α∈{0.01，0.001，0.000 1}，边界值 γ∈{1，2，2.5，3，3.5，4，4.5，5，5.5，6}，嵌入维度 n∈{25，50，100，200}，批处理大小 B∈{100， 200，500，1 000}，聚类中心数 K∈{16，32，64}，聚类迭代次数 i∈{10，20，50}，三元组得分与聚类相似度均采用 L2 第二范数进行计算。在 2 个数据集上，都获得了关于平均排名和排名前 10 的比例的最佳参数设置，如表 2 所示。表 2 链接预测中的最佳参数设置 Table 2 Optimal parameter setting in link prediction Dataset Metric epoch α γ n B K i D.S WN18 Mean Rank 2 000 0.001 5.5 50 100 14 20 L2 Hits@10 2 000 0.001 3 50 100 14 20 L2 FB15K Mean Rank 2 000 0.001 4 200 200 64 20 L2 Hits@10 2 000 0.001 2 200 200 64 20 L2 ·222· 智能系统学报第 15 卷

第2期饶官军，等：基于相似性负采样的知识图谱嵌入 ·223· 在WNI8和FB15K上的链路预测任务实验性能。我们认为TransE-SNS未能在所有的情况结果，如表3所示。表中对比模型的实验结果来下达到最佳性能有以下2个原因：1)FB15K数据自于原文献，加粗的结果为表中最优结果。从表比较稀疏，连接的多个相同关系的实体较少，即中可以看出，本文方法在大多数情况下都达到了每个实体本身对应的相似实体较少，这导致聚类最先进的效果。在WN18中，本文方法在Hits@10 后每个簇中依旧包含一定数量的相似性较低的实 (raw,bern)中性能略低于TranSparse-DT。在体。2)聚类中心K值选择比较困难，并且K值选 FBl5K中，本文方法在Mean Rank(bern)和择被限制在几个固定值中。因此，K-Means聚类 Hits@l0(raw,bern)未能获得所有模型中的最佳不能很好地对实体进行聚类。表3链接预测结果 Table 3 Link prediction results Dataset WN18 FB15K Mean Rank Hits@10/% Mean Rank Hits@10/% Metric Raw Filt Raw Filt Raw Filt Raw Filt SE 1,011 985 68.5 80.5 273 162 28.8 39.8 SME(linear/bilinear） 542/526 533/509 65.1/54.7 74.1/61.3 274/284 154/158 30.7/31.3 40.8/41.3 LFM 469 456 71.4 81.6 283 164 26.0 33.1 TransE 263 251 75.4 89.2 243 125 34.9 47.1 TransH(unif/bern) 318/401 303/388 75.4/73.0 86.7/82.3 211/212 84/87 42.5/45.7 58.5/64.4 TransR(unif/bern) 232/238219/225 78.3/79.8 91.7/92.0 226/198 78/77 43.8/48.2 65.5/68.7 CTransR(unif/bern) 243/231 230/218 78.9/79.4 92.3/92.3 233/199 82/75 44.0/48.4 66.3/70.2 TransD(unif/bern) 242/224 229/212 79.279.6 92.5/92.2 211/194 67/91 49.4/53.4 74.277.3 TranSparse(unif/bern) 233/223221/211 79.6/80.1 93.4/93.2 216/190 66/82 50.3/53.7 78.4/79.9 TranSparse-DT(unif/bern) 248/234 232/221 80.0/81.4 93.6/94.3 208/188 58/79 51.2/53.9 78.4/80.2 GTrans-SW(unif/bern) 247/215234/202 79.1/80.2 92.9/93.5 207/189 66/85 50.6/52.9 75.1/75.3 TransE+GAN-scratch 244 92.7 90 73.1 TransE+GAN-pretrain 240 91.3 81 74 TransE-SNS(unif/bern) 220/207208/195 80.2/80.6 94.0/94.6198/210 56/95 48.9/52.580.1/83.0 图3是在数据集FB15K中1345个关系，按表4显示了4种不同关系类别下Hits@10的照4种不同的关系类别分布情况，其中1-to-1的链接预测结果。值得注意的是，TransE-SNS模型简单关系占比为24%，1-to-N、N-to-1和N-to-N的在大多数情况下都优于其他模型。特别是，头部复杂关系分别占比23%、29%和24%。和尾部的预测在N-to-N关系中实现了最先进的性能。本文方法在N-o-1关系中略显不足。总体来 35 说，本文方法在处理复杂关系方面具有显著的优势。 29% 30 24% 24% 3.3三元组分类 5 23% 30 三元组分类任务旨在判断一个给定的三元 15 组(h,r,)是否正确。在本文中，使用3个数据集 (即WN11、FB13和FB15k)来验证方法在不同数据集上的有效性。Socher等2o提供了2个数据 1-to-1 1-to-N N-to-1 N-to-N 集（即WN11和FB13)。在WN11和FB13中，已 4个不同的关系类型经包含正例三元组和负例三元组。其中，每一个图3FB15K中1345个关系的类型分布负例三元组都是通过破坏正例三元组来获得的。 Fig.3 In the FB15K,the category distribution of 1345 re- 在FB15K中只存在正例三元组，于是使用与 lations Socher等相同的原理构造负例三元组

在 WN18 和 FB15K 上的链路预测任务实验结果，如表 3 所示。表中对比模型的实验结果来自于原文献，加粗的结果为表中最优结果。从表中可以看出，本文方法在大多数情况下都达到了最先进的效果。在 WN18 中，本文方法在 Hits@10 (raw, bern) 中性能略低于 TranSparse-DT。在 FB15K 中，本文方法在 Mean Rank (bern)和 Hits@10 (raw, bern) 未能获得所有模型中的最佳性能。我们认为 TransE-SNS 未能在所有的情况下达到最佳性能有以下 2 个原因：1)FB15K 数据比较稀疏，连接的多个相同关系的实体较少，即每个实体本身对应的相似实体较少，这导致聚类后每个簇中依旧包含一定数量的相似性较低的实体。2) 聚类中心 K 值选择比较困难，并且 K 值选择被限制在几个固定值中。因此，K-Means 聚类不能很好地对实体进行聚类。表 3 链接预测结果 Table 3 Link prediction results Dataset WN18 FB15K Metric Mean Rank Hits@10/% Mean Rank Hits@10/% Raw Filt Raw Filt Raw Filt Raw Filt SE 1,011 985 68.5 80.5 273 162 28.8 39.8 SME(linear/bilinear) 542/526 533/509 65.1/54.7 74.1/61.3 274/284 154/158 30.7/31.3 40.8/41.3 LFM 469 456 71.4 81.6 283 164 26.0 33.1 TransE 263 251 75.4 89.2 243 125 34.9 47.1 TransH(unif/bern) 318/401 303/388 75.4/73.0 86.7/82.3 211/212 84/87 42.5/45.7 58.5/64.4 TransR(unif/bern) 232/238 219/225 78.3/79.8 91.7/92.0 226/198 78/77 43.8/48.2 65.5/68.7 CTransR(unif/bern) 243/231 230/218 78.9/79.4 92.3/92.3 233/199 82/75 44.0/48.4 66.3/70.2 TransD(unif/bern) 242/224 229/212 79.2/79.6 92.5/92.2 211/194 67/91 49.4/53.4 74.2/77.3 TranSparse(unif/bern) 233/223 221/211 79.6/80.1 93.4/93.2 216/190 66/82 50.3/53.7 78.4/79.9 TranSparse-DT(unif/bern) 248/234 232/221 80.0/81.4 93.6/94.3 208/188 58/79 51.2/53.9 78.4/80.2 GTrans-SW(unif/bern) 247/215 234/202 79.1/80.2 92.9/93.5 207/189 66/85 50.6/52.9 75.1/75.3 TransE+GAN-scratch — 244 — 92.7 — 90 — 73.1 TransE+GAN-pretrain — 240 — 91.3 — 81 — 74 TransE-SNS(unif/bern) 220/207 208/195 80.2/80.6 94.0/94.6 198/210 56/95 48.9/52.5 80.1/83.0 图 3 是在数据集 FB15K 中 1 345 个关系，按照 4 种不同的关系类别分布情况，其中 1-to-1 的简单关系占比为 24%, 1-to-N、N-to-1 和 N-to-N 的复杂关系分别占比 23%、29% 和 24%。表 4 显示了 4 种不同关系类别下 Hits@10 的链接预测结果。值得注意的是，TransE-SNS 模型在大多数情况下都优于其他模型。特别是，头部和尾部的预测在 N-to-N 关系中实现了最先进的性能。本文方法在 N-to-1 关系中略显不足。总体来说，本文方法在处理复杂关系方面具有显著的优势。 3.3 三元组分类三元组分类任务旨在判断一个给定的三元组 (h, r, t) 是否正确。在本文中，使用 3 个数据集 (即 WN11、FB13 和 FB15k) 来验证方法在不同数据集上的有效性。Socher 等 [20] 提供了 2 个数据集 (即 WN11 和 FB13)。在 WN11 和 FB13 中，已经包含正例三元组和负例三元组。其中，每一个负例三元组都是通过破坏正例三元组来获得的。在 FB15K 中只存在正例三元组，于是使用与 Socher 等 [20] 相同的原理构造负例三元组。 24% 23% 29% 24% 0 5 10 15 20 25 30 35 1-to-1 1-to-N N-to-1 N-to-N 4个不同的关系类型 4种关系类型数据所占比例/% 图 3 FB15K 中 1345 个关系的类型分布 Fig. 3 In the FB15K, the category distribution of 1345 relations 第 2 期饶官军，等：基于相似性负采样的知识图谱嵌入 ·223·

·224· 智能系统学报第15卷表4FB15K按照关系分类的链路预测结果 Table 4 Link prediction results on FB15K by relation category % Tasks Predicting Head (Hits@10) Predicting Tail (Hits@10) Relation Category 1-to-1 1-to-N N-to-1 N-to-N 1-to-1 1-to-N N-to-1 N-to-N SE 35.6 62.6 17.2 37.5 34.9 14.6 68.3 41.3 SME(linear/bilinear) 35.1/30.953.7169.619.0/19.940.3/38.632.7/28.214.9/13.161.676.043.3/41.8 TransE 43.7 65.7 18.2 47.2 43.7 19.7 66.7 50.0 TransH(unif/bern) 66.7/166.881.7/87.630.2/28.757.4/64.5 63.7/65.530.1/39.883.2/83.360.8/67.2 TransR(unif/bern) 76.9/78.877.9/89.238.1/34.166.9/69.276.2/79.238.4/37.476.2/90.469.1/72.1 CTransR(unif/bern) 78.6/81.577.8/89.036.4/34.768.0/71.277.4/80.837.8/38.678.0/90.170.3/73.8 TransD(unif/bern) 80.7/86.185.8/95.547.1/39.875.6/78.580.0/85.454.5/50.680.7/94.477.9/81.2 TranSparse(unif/bern) 83.2/87.185.2/95.851.8/44.480.3/81.282.6/87.560.0/57.085.5/94.582.5/83.7 TranSparse-DT(unif/bern) 83.0/87.485.7/95.851.9/47.780.5/81.682.8/86.759.9/56.385.5/94.882.9/84.0 GTrans-SW(unif/bern) 80.1/84.993.0/95.048.4/39.975.4/75.979.4/84.451.8/47.791.2/94.577.8/78.8 TransE-SNS(unif/bern) 83.4/84.188.8/95.845.6/48.483.2/85.3 87.4/88.560.8/60.583.3/94.583.3/85.7 在实验中，为每个关系r都设置了一个阈值表6三元组分类结果 6。在验证集上，通过最大化分类准确度来获取每 Table6 Triple classification results 一个关系所对应的6。对于给定三元组(h,r,),如 Dataset WNII FB13 FBI5K 果其得分函数的得分低于6，则将其归类为正例， SE 50.3 75.2 否则为负例。使用与链接预测相同的方式来获得 SME(bilinear) 70.0 63.7 此任务的最佳参数设置，并得到了3个数据集上的最佳参数设置，如表5所示。 SLM 69.9 85.3 LFM 73.8 84.3 表5三元组分类中的最佳参数设置 Table 5 Optimal parameter setting in triple classification NTN 70.4 87.1 68.2 Dataset epoch a y n B K i D.S TransE 75.9 81.5 79.8 TransH 78.8 83.3 79.9 WN18 2000 0.0015.5501001620L2 TransR 85.9 82.5 82.1 FB13 2000 0.00121002003220L2 CTransR 85.7 84.3 FB15K 20000.0012.52002006420L2 TranSparse-DT 86.7 85.3 88.9 表6所示是WN11、FB13和FB15K三元组分 GTrans-SW 86.3 81.7 91.8 类任务的实验结果。从表6中可知，TransE- TransE+GAN-scratch 85.1 83.1 SNS在所有数据集上的分类性能都优于TransE和 TransE+GAN-pretrain 85.4 85.2 TransH。在FBl3上，TransE-SNS更是取得了所有 TransE-SNS 83.2 87.1 86.6 模型中的最佳性能。相对于TranSparse-DT和 GTans-.SW,TransE-SNS在WNI1与FB15K上的性 4 能略显不足。总体来说，尽管TransE-SNS并未在结束语所有数据集上实现最佳性能，但TransE-SNS与大本文针对知识图谱嵌入模型中采用随机抽样多数模型相比，仍具有较大优势。无法很好地获取高质量的负例三元组，提出了一

在实验中，为每个关系 r 都设置了一个阈值 δr。在验证集上，通过最大化分类准确度来获取每一个关系所对应的 δr。对于给定三元组 (h, r, t)，如果其得分函数的得分低于 δr，则将其归类为正例，否则为负例。使用与链接预测相同的方式来获得此任务的最佳参数设置，并得到了 3 个数据集上的最佳参数设置，如表 5 所示。表 5 三元组分类中的最佳参数设置 Table 5 Optimal parameter setting in triple classification Dataset epoch α γ n B K i D.S WN18 2 000 0.001 5.5 50 100 16 20 L2 FB13 2 000 0.001 2 100 200 32 20 L2 FB15K 2 000 0.001 2.5 200 200 64 20 L2 表 6 所示是 WN11、FB13 和 FB15K 三元组分类任务的实验结果。从表 6 中可知，TransESNS 在所有数据集上的分类性能都优于 TransE 和 TransH。在 FB13 上，TransE-SNS 更是取得了所有模型中的最佳性能。相对于 TranSparse-DT 和 GTans-SW，TransE-SNS 在 WN11 与 FB15K 上的性能略显不足。总体来说，尽管 TransE-SNS 并未在所有数据集上实现最佳性能，但 TransE-SNS 与大多数模型相比，仍具有较大优势。 4 结束语本文针对知识图谱嵌入模型中采用随机抽样无法很好地获取高质量的负例三元组，提出了一表 4 FB15K 按照关系分类的链路预测结果 Table 4 Link prediction results on FB15K by relation category % Tasks Predicting Head (Hits@10) Predicting Tail (Hits@10) Relation Category 1-to-1 1-to-N N-to-1 N-to-N 1-to-1 1-to-N N-to-1 N-to-N SE 35.6 62.6 17.2 37.5 34.9 14.6 68.3 41.3 SME(linear/bilinear) 35.1/30.9 53.7/69.6 19.0/19.9 40.3/38.6 32.7/28.2 14.9/13.1 61.6/76.0 43.3/41.8 TransE 43.7 65.7 18.2 47.2 43.7 19.7 66.7 50.0 TransH(unif/bern) 66.7/66.8 81.7/87.6 30.2/28.7 57.4/64.5 63.7/65.5 30.1/39.8 83.2/83.3 60.8/67.2 TransR(unif/bern) 76.9/78.8 77.9/89.2 38.1/34.1 66.9/69.2 76.2/79.2 38.4/37.4 76.2/90.4 69.1/72.1 CTransR(unif/bern) 78.6/81.5 77.8/89.0 36.4/34.7 68.0/71.2 77.4/80.8 37.8/38.6 78.0/90.1 70.3/73.8 TransD(unif/bern) 80.7/86.1 85.8/95.5 47.1/39.8 75.6/78.5 80.0/85.4 54.5/50.6 80.7/94.4 77.9/81.2 TranSparse(unif/bern) 83.2/87.1 85.2/95.8 51.8/44.4 80.3/81.2 82.6/87.5 60.0/57.0 85.5/94.5 82.5/83.7 TranSparse-DT(unif/bern) 83.0/87.4 85.7/95.8 51.9/47.7 80.5/81.6 82.8/86.7 59.9/56.3 85.5/94.8 82.9/84.0 GTrans-SW(unif/bern) 80.1/84.9 93.0/95.0 48.4/39.9 75.4/75.9 79.4/84.4 51.8/47.7 91.2/94.5 77.8/78.8 TransE-SNS(unif/bern) 83.4/84.1 88.8/95.8 45.6/48.4 83.2/85.3 87.4/88.5 60.8/60.5 83.3/94.5 83.3/85.7 表 6 三元组分类结果 Table 6 Triple classification results % Dataset WN11 FB13 FB15K SE 50.3 75.2 — SME(bilinear) 70.0 63.7 — SLM 69.9 85.3 — LFM 73.8 84.3 — NTN 70.4 87.1 68.2 TransE 75.9 81.5 79.8 TransH 78.8 83.3 79.9 TransR 85.9 82.5 82.1 CTransR 85.7 — 84.3 TranSparse-DT 86.7 85.3 88.9 GTrans-SW 86.3 81.7 91.8 TransE+GAN-scratch 85.1 83.1 — TransE+GAN-pretrain 85.4 85.2 — TransE-SNS 83.2 87.1 86.6 ·224· 智能系统学报第 15 卷

第2期饶官军，等：基于相似性负采样的知识图谱嵌入 ·225· 种相似性负采样方法用于提高负例三元组的质 Processing Systems.South Lake Tahoe,USA,2013: 量。与随机抽样相比，相似性负采样在很大程度 2787-2795 上提高了替换实体与被替换实体间的相似性，从 [7]刘知远，孙茂松，林衍凯，等.知识表示学习研究进而提高了负例三元组的质量。在训练时，相似性展.计算机研究与发展，2016.53(2)：247-261 负采样生成的高质量负例三元组促进了模型对实 LIU Zhiyuan,SUN Maosong,LIN Yankai,et al.Know- 体与关系特征的学习。通过将相似性负采样与 ledge representation learning:a review[J].Journal of com- TransE模型结合得到TransE-SNS模型。我们的 puter research and development,2016,53(2):247-261. 方法能够通过高质量的负例三元组充分获取实体 [8]WANG Zhen,ZHANG Jianwen,FENG Jianlin,et al. 有效特征，同时忽略了低质量的负例三元组。实 Knowledge graph embedding by translating on hyper- 验结果表明，TransE-SNS模型在链路预测与三元 planes[C]//Proceedings of the 28th AAAI Conference on 组分类任务中均取得了较优的性能。特别是，相 Artificial Intelligence.Quebec City,Canada,2014: 较于基础模型TransE.引入相似性负采样后对模 1112-1119 型性能具有较大提升。并且，TransE-SNS模型与 [9]LIN Yankai,LIU Zhiyuan,SUN Maosong,et al.Learning TransE一样简单且有效，具有较强的可行性与鲁 entity and relation embeddings for knowledge graph com 棒性。但是由于K-Means聚类算法本身在K值选 pletion[C]//Proceedings of the 29th AAAI Conference on 择以及对数据具有一定要求，造成相似性负采样 Artificial Intelligence.Austin,USA,2015:2181-2187. 对于较为稀疏的大规模知识图谱较难实现相似实体的聚类与采样，从而影响模型的整体效果。在 [10]JI Guoliang,HE Shizhu,XU Liheng,et al.Knowledge 以后将进一步探索不同聚类算法和知识图嵌入模 graph embedding via dynamic mapping matrix[C]//Pro- 型的组合，得到一个更加有效的知识图谱嵌入 ceedings of the 53rd Annual Meeting of the Association 模型。 for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 参考文献 Beijing,China,2015:687-696. [1]BOLLACKER K,EVANS C.PARITOSH P,et al.Free- [11]JI Guoliang,LIU Kang,HE Shizhu,et al.Knowledge base:a collaboratively created graph database for structur- graph completion with adaptive sparse transfer ing human knowledge[Cl//Proceedings of 2008 ACM SIG- matrix[C]//Proceedings of the 30th AAAI Conference on MOD International Conference on Management of Data. Artificial Intelligence.Phoenix,USA,2016:985-991. Vancouver,Canada,2008:1247-1250. [12]FENG Jun,HUANG Minlie,WANG Mingdong,et al. [2]MILLER G A.WordNet:a lexical database for English[J]. Knowledge graph embedding by flexible Communications of the ACM,1995,38(11):39-41. translation[C]/Proceedings of the 15th International Con- [3]CARLSON A,BETTERIDGE J,KISIEL B,et al.Toward ference on Principles of Knowledge Representation and an architecture for never-ending language learning[C]//Pro- Reasoning.Cape Town,South Africa,2016:557-560. ceedings of the 24th AAAl Conference on Artificial Intelli- [13]CHANG Liang,ZHU Manli,GU Tianlong,et al.Know- gence.Atlanta,USA,2010:1306-1313 ledge graph embedding by dynamic translation[J].IEEE [4]BORDES A,WESTON J,USUNIER N.Open question an- access.2017,5:20898-20907 swering with weakly supervised embedding models[C]// [14]TAN Zhen,ZHAO Xiang,FANG Yang,et al.GTrans: Joint European Conference on Machine Learning and generic knowledge graph embedding via multi-state entit- Knowledge Discovery in Databases.Nancy,France,2014: ies and dynamic relation spaces[J].IEEE access,2018: 165-180. 8232-8244. [5]DONG Xin,GABRILOVICH E.HEITZ G,et al.Know- [15]WANG Peifeng,LI Shuangyin,PAN Rong.Incorporat- ledge vault:a web-scale approach to probabilistic know- ing GAN for negative sampling in knowledge representa- ledge fusion[Cl//Proceedings of the 20th ACM SIGKDD tion learning[C]//Proceedings of the 32nd AAAI Confer- International Conference on Knowledge Discovery and ence on Artificial Intelligence.New Orleans,USA,2018: Data Mining.New York,USA,2014:601-610. 2005-2012 [6]BORDES A,USUNIER N,GARCIA-DURAN A,et al. [16]HARTIGAN J A,WONG M A.Algorithm AS 136:a K- Translating embeddings for modeling multi-relational Means clustering algorithm[J.Journal of the royal statist- data[C]//International Conference on Neural Information ical society,.1979,28(1):100-108

种相似性负采样方法用于提高负例三元组的质量。与随机抽样相比，相似性负采样在很大程度上提高了替换实体与被替换实体间的相似性，从而提高了负例三元组的质量。在训练时，相似性负采样生成的高质量负例三元组促进了模型对实体与关系特征的学习。通过将相似性负采样与 TransE 模型结合得到 TransE-SNS 模型。我们的方法能够通过高质量的负例三元组充分获取实体有效特征，同时忽略了低质量的负例三元组。实验结果表明，TransE-SNS 模型在链路预测与三元组分类任务中均取得了较优的性能。特别是，相较于基础模型 TransE，引入相似性负采样后对模型性能具有较大提升。并且，TransE-SNS 模型与 TransE 一样简单且有效，具有较强的可行性与鲁棒性。但是由于 K-Means 聚类算法本身在 K 值选择以及对数据具有一定要求，造成相似性负采样对于较为稀疏的大规模知识图谱较难实现相似实体的聚类与采样，从而影响模型的整体效果。在以后将进一步探索不同聚类算法和知识图嵌入模型的组合，得到一个更加有效的知识图谱嵌入模型。参考文献： BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, Canada, 2008: 1247–1250. [1] MILLER G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39–41. [2] CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an architecture for never-ending language learning[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence. Atlanta, USA, 2010: 1306–1313. [3] BORDES A, WESTON J, USUNIER N. Open question answering with weakly supervised embedding models[C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Nancy, France, 2014: 165–180. [4] DONG Xin, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014: 601–610. [5] BORDES A, USUNIER N, GARCIA-DURÁN A, et al. Translating embeddings for modeling multi-relational data[C]//International Conference on Neural Information [6] Processing Systems. South Lake Tahoe, USA, 2013: 2787–2795. 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展 [J]. 计算机研究与发展, 2016, 53(2): 247–261. LIU Zhiyuan, SUN Maosong, LIN Yankai, et al. Knowledge representation learning: a review[J]. Journal of computer research and development, 2016, 53(2): 247–261. [7] WANG Zhen, ZHANG Jianwen, FENG Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada, 2014: 1112–1119. [8] LIN Yankai, LIU Zhiyuan, SUN Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, USA, 2015: 2181–2187. [9] JI Guoliang, HE Shizhu, XU Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China, 2015: 687–696. [10] JI Guoliang, LIU Kang, HE Shizhu, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, USA, 2016: 985–991. [11] FENG Jun, HUANG Minlie, WANG Mingdong, et al. Knowledge graph embedding by flexible translation[C]//Proceedings of the 15th International Conference on Principles of Knowledge Representation and Reasoning. Cape Town, South Africa, 2016: 557–560. [12] CHANG Liang, ZHU Manli, GU Tianlong, et al. Knowledge graph embedding by dynamic translation[J]. IEEE access, 2017, 5: 20898–20907. [13] TAN Zhen, ZHAO Xiang, FANG Yang, et al. GTrans: generic knowledge graph embedding via multi-state entities and dynamic relation spaces[J]. IEEE access, 2018: 8232–8244. [14] WANG Peifeng, LI Shuangyin, PAN Rong. Incorporating GAN for negative sampling in knowledge representation learning[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 2005–2012. [15] HARTIGAN J A, WONG M A. Algorithm AS 136: a KMeans clustering algorithm[J]. Journal of the royal statistical society, 1979, 28(1): 100–108. [16] 第 2 期饶官军，等：基于相似性负采样的知识图谱嵌入 ·225·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录