第15卷第2期 智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201811022 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190520.1347.006html 基于相似性负采样的知识图谱嵌入 饶官军,古天龙,常亮,宾辰忠,秦赛歌,宣闻 (桂林电子科技大学广西可信软件重点实验室,广西桂林541004) 摘要:针对现有知识图谱嵌入模型通过从实体集中随机抽取一个实体来生成负例三元组,导致负例三元组质 量较低,影响了实体与关系的特征学习能力。研究了影响负例三元组质量的相关因素,提出了基于实体相似性 负采样的方法来生成高质量的负例三元组。在相似性负采样方法中,首先使用K-Meas聚类算法将所有实体 划分为多个组,然后从正例三元组中头实体所在的簇中选择一个实体替换头实体,并以类似的方法替换尾实 体。通过将相似性负采样方法与TransE相结合得到TransE-SNS。研究结果表明:TransE-SNS在链路预测和三 元组分类任务上取得了显著的进步。 关键词:知识图谱:表示学习;随机抽样;相似性负采样;K-Means聚类;随机梯度下降;链接预测:三元组分类 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2020)02-0218-09 中文引用格式:饶官军,古天龙,常亮,等.基于相似性负采样的知识图谱嵌入小.智能系统学报,2020,15(2):218-226. 英文引用格式:RAO Guanjun,.GU Tianlong,.CHANG Liang,.ctal.Knowledge graph embedding based on similarity negative sampling[J.CAAI transactions on intelligent systems,2020,15(2):218-226. Knowledge graph embedding based on similarity negative sampling RAO Guanjun,GU Tianlong,CHANG Liang,BIN Chenzhong,QIN Saige,XUAN Wen (Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,China) Abstract:For the existing knowledge graph embedding model,the random extraction of an entity from the entity set results in the generation of lower-quality negative triples,and this affects the feature learning ability of the entity and the relationship.In this paper,we study the related factors affecting the quality of negative triples,and propose an entity similarity negative sampling method to generate high-quality negative triples.In the similarity negative sampling meth- od,all entities are first divided into a number of groups using the K-means clustering algorithm.Then,corresponding to each positive triple,an entity is selected to replace the head entity from the cluster,whereby the head entity is located in the positive triple,and the tail entity is replaced in a similar approach.TransE-SNS is obtained by combining the similar- ity negative sampling method with TransE.Experimental results show that TransE-SNS has made significant progress in link prediction and triplet classification tasks. Keywords:knowledge graph;representation learning;random sampling;similarity sampling;K-means clustering; stochastic gradient descent:link prediction:triple classification 知识图谱(knowledge graph)的概念是谷歌在 收稿日期:2018-12-04.网络出版日期:2019-05-21 基金项目:国家自然科学基金资助项目(U1501252,61572146): 2012年正式提出的,主要用于提升搜索引擎性 广西创新驱动重大专项项目(AA17202024):广西自 然科学基金项目(2016 GXNSFDA380006):广西高校 能。随着大数据时代的到来,知识图谱规模得到 中青年教师基础能力提升项日(2018KYD203):广西 了快速的增长,各种大规模知识图谱相继出现 研究生教育创新计划项目(YCSW2018139). 通信作者:宾辰忠.E-mail:cz_bin@guet.edu..cn. (如Freebase、WordNet、NULL等)。当前知识
DOI: 10.11992/tis.201811022 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190520.1347.006.html 基于相似性负采样的知识图谱嵌入 饶官军,古天龙,常亮,宾辰忠,秦赛歌,宣闻 (桂林电子科技大学 广西可信软件重点实验室,广西 桂林 541004) 摘 要:针对现有知识图谱嵌入模型通过从实体集中随机抽取一个实体来生成负例三元组,导致负例三元组质 量较低,影响了实体与关系的特征学习能力。研究了影响负例三元组质量的相关因素,提出了基于实体相似性 负采样的方法来生成高质量的负例三元组。在相似性负采样方法中,首先使用 K-Means 聚类算法将所有实体 划分为多个组,然后从正例三元组中头实体所在的簇中选择一个实体替换头实体,并以类似的方法替换尾实 体。通过将相似性负采样方法与 TransE 相结合得到 TransE-SNS。研究结果表明:TransE-SNS 在链路预测和三 元组分类任务上取得了显著的进步。 关键词:知识图谱;表示学习;随机抽样;相似性负采样;K-Means 聚类;随机梯度下降;链接预测;三元组分类 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)02−0218−09 中文引用格式:饶官军, 古天龙, 常亮, 等. 基于相似性负采样的知识图谱嵌入 [J]. 智能系统学报, 2020, 15(2): 218–226. 英文引用格式:RAO Guanjun, GU Tianlong, CHANG Liang, et al. Knowledge graph embedding based on similarity negative sampling[J]. CAAI transactions on intelligent systems, 2020, 15(2): 218–226. Knowledge graph embedding based on similarity negative sampling RAO Guanjun,GU Tianlong,CHANG Liang,BIN Chenzhong,QIN Saige,XUAN Wen (Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin 541004, China) Abstract: For the existing knowledge graph embedding model, the random extraction of an entity from the entity set results in the generation of lower-quality negative triples, and this affects the feature learning ability of the entity and the relationship. In this paper, we study the related factors affecting the quality of negative triples, and propose an entity similarity negative sampling method to generate high-quality negative triples. In the similarity negative sampling method, all entities are first divided into a number of groups using the K-means clustering algorithm. Then, corresponding to each positive triple, an entity is selected to replace the head entity from the cluster, whereby the head entity is located in the positive triple, and the tail entity is replaced in a similar approach. TransE-SNS is obtained by combining the similarity negative sampling method with TransE. Experimental results show that TransE-SNS has made significant progress in link prediction and triplet classification tasks. Keywords: knowledge graph; representation learning; random sampling; similarity sampling; K-means clustering; stochastic gradient descent; link prediction; triple classification 知识图谱 (knowledge graph) 的概念是谷歌在 2012 年正式提出的,主要用于提升搜索引擎性 能。随着大数据时代的到来,知识图谱规模得到 了快速的增长,各种大规模知识图谱相继出现 (如 Freebase[1] 、WordNet[2] 、NULL[3] 等)。当前知识 收稿日期:2018−12−04. 网络出版日期:2019−05−21. 基金项目:国家自然科学基金资助项目 (U1501252,61572146); 广西创新驱动重大专项项目 (AA17202024);广西自 然科学基金项目 (2016GXNSFDA380006);广西高校 中青年教师基础能力提升项目 (2018KYD203);广西 研究生教育创新计划项目 (YCSW2018139). 通信作者:宾辰忠. E-mail:cz_bin@guet.edu.cn. 第 15 卷第 2 期 智 能 系 统 学 报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020
第2期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·219· 图谱已在数据挖掘、人工智能等领域具有至关重 究热潮。在随后几年时间里,基于翻译的模型衍 要的作用,促进了人工智能及其应用的发展,如 生出一系列的模型。Wang等提出让一个实体 智能问答、个性化旅游推荐等。 在不同关系下拥有不同的表示,将实体投影到关 虽然现有知识图谱的规模已经相当大,但其 系所在超平面,然后在超平面上进行翻译操作。 仍是不完整的,如Freebase中75%的人不存在国 Lin等例认为实体与关系应当处于不同的语义空 籍信息,71%的人没有准确的出身地信息,因此 间,提出了TransR/CtransR模型。TransR/CtransR 有必要对现有知识图谱进行自动补全。这是当前 通过投影矩阵将实体从实体空间投影到关系空 知识图谱研究中最主要的任务和挑战之一。近年 间,然后在关系空间中建立翻译操作。i等0认 来,将知识图谱中实体与关系嵌入到向量空间进 为实体从实体空间投影到关系空间是实体与关系 行知识图谱补全的方法显示出强大的可行性与鲁 的交互过程,提出了分别为头、尾实体提供不同 棒性。但是知识图谱嵌入的研究仍然面临着一个 的投影矩阵。TranSparse模型考虑了实体与关 共同的问题,即在现有知识图谱嵌入模型训练 系的不平衡性和异质性,提出了一种根据关系的 时,是通过删除正例三元组(h,r,t)中的h(或), 复杂程度来自适应的构造稀疏矩阵对实体进行投 然后从实体集中随机选择一个实体对删除(或 影,这样防止了简单关系过拟合、复杂关系欠拟 )不完整的三元组进行填充来生成负例三元组, 合的发生。Feng等a认为h+r≈t的翻译规则过 致使获得的大量负例三元组都是低质量的。低质 于严格,于是建立了更加灵活的翻译规则h+r≈at, 量的负例三元组将导致知识图谱嵌入模型训练时 提高了模型的表达能力。Chang等)认为FT模 无法对实体向量与关系向量进行有效的更新,从 型的翻译规则仍过于复杂,进一步提出了(h+)+ 而影响知识图谱的有效嵌入。 (r+α)≈(t+位,)的翻译规则,实现了翻译模型性能 针对这一不足提出了一种通用的解决方法, 的提升。Tan等考虑了不同关系空间中实体的 基于实体相似性负采样的负例三元组生成方法来 不同状态和特征倾向,将实体的本征态与拟态进 提高知识图谱嵌人的质量。该方法能够在训练中 行线性组合作为实体的嵌入特征,并为每个关系 生成一个高质量的负例三元组,从而实现知识图 都构造了一个动态关系空间,提高了关系表示的 谱嵌入模型的改进。我们将相似性负采样与 TransE模型相结合得到TransE-SNS模型,并且 能力,减少了来自其他关系的噪声。Wang等u 将生成对抗网络引入表示学习模型中,利用生成 在4个通用数据集(FB15K、FB13、WN11和 器来获得高质量的负例三元组,提高了知识表示 WN18)上进行了实验,在链接预测与三元组分类 学习的能力。 任务中均获得了有效的提升。 1相关研究 2基于相似性负采样的知识图谱嵌入 2.1实体的相似性 知识图谱嵌人(knowledge graph embedding) 2.1.1实体局部结构的相似性 旨在将知识图谱中的实体与关系嵌入到连续的、 在本节中,将从两个角度对实体的相似性进 稠密的、低维的和实值的向量空间,将其表示为 行描述:1)知识图谱中实体局部结构的相似性: 稠密低维实值向量。然后可以通过向量之间的欧 2)知识图谱通过TransE等翻译模型嵌入到向量 氏距离、曼哈顿距离或马氏距离计算实现对知识 空间中实体向量的相似性。 图谱中对象间的相似度计算。 知识图谱中的每个实体间都存在着一定的联 在各类知识图谱嵌入模型中,基于翻译的表 系,包括直接联系与间接联系。直接联系是2个 示学习☑模型实现了先进的性能。其中典型的翻 实体之间存在直接关系。间接联系是2个实体之 译模型是由Bordes等于2013年提出的TransE 间存在的关系路径。例如,给定一个简单的知识 模型。TransE模型将三元组(h,r,t)中的关系视 图谱,如图1所示。其中,实体e1与实体e3之间 为向量空间中头实体到尾实体的翻译操作。如果 存在着直接关系(r)和关系路径(r6,r):实体e2与 三元组(h,r,)成立,则头实体向量h、关系向量r 实体e之间存在着直接关系(r)和关系路径(r6 与尾实体向量t应满足h+r≈t。由于TransE模 r)、(6,广,)等。本文将一个实体与其他实体的 型极为简单,同时在处理大规模数据方面表现出 直接联系形成的结构称为该实体的局部结构,如 优异的性能,从而引起了基于翻译的表示学习研 图2所示。对于任意2个实体,如果它们的局部
图谱已在数据挖掘、人工智能等领域具有至关重 要的作用,促进了人工智能及其应用的发展,如 智能问答[4] 、个性化旅游推荐等。 虽然现有知识图谱的规模已经相当大,但其 仍是不完整的,如 Freebase 中 75% 的人不存在国 籍信息,71% 的人没有准确的出身地信息[5] ,因此 有必要对现有知识图谱进行自动补全。这是当前 知识图谱研究中最主要的任务和挑战之一。近年 来,将知识图谱中实体与关系嵌入到向量空间进 行知识图谱补全的方法显示出强大的可行性与鲁 棒性。但是知识图谱嵌入的研究仍然面临着一个 共同的问题,即在现有知识图谱嵌入模型训练 时,是通过删除正例三元组 (h, r, t) 中的 h(或 t), 然后从实体集中随机选择一个实体对删除 h(或 t) 不完整的三元组进行填充来生成负例三元组, 致使获得的大量负例三元组都是低质量的。低质 量的负例三元组将导致知识图谱嵌入模型训练时 无法对实体向量与关系向量进行有效的更新,从 而影响知识图谱的有效嵌入。 针对这一不足提出了一种通用的解决方法, 基于实体相似性负采样的负例三元组生成方法来 提高知识图谱嵌入的质量。该方法能够在训练中 生成一个高质量的负例三元组,从而实现知识图 谱嵌入模型的改进。我们将相似性负采样与 TransE 模型[6] 相结合得到 TransE-SNS 模型,并且 在 4 个通用数据集 (FB15K、 FB13、 WN11 和 WN18) 上进行了实验,在链接预测与三元组分类 任务中均获得了有效的提升。 1 相关研究 知识图谱嵌入 (knowledge graph embedding) 旨在将知识图谱中的实体与关系嵌入到连续的、 稠密的、低维的和实值的向量空间,将其表示为 稠密低维实值向量。然后可以通过向量之间的欧 氏距离、曼哈顿距离或马氏距离计算实现对知识 图谱中对象间的相似度计算。 h r t h+ r ≈ t 在各类知识图谱嵌入模型中,基于翻译的表 示学习[7] 模型实现了先进的性能。其中典型的翻 译模型是由 Bordes 等 [6] 于 2013 年提出的 TransE 模型。TransE 模型将三元组 (h, r, t) 中的关系视 为向量空间中头实体到尾实体的翻译操作。如果 三元组 (h, r, t) 成立,则头实体向量 、关系向量 与尾实体向量 应满足 。由于 TransE 模 型极为简单,同时在处理大规模数据方面表现出 优异的性能,从而引起了基于翻译的表示学习研 h+ r ≈ t h+ r ≈ αt (h+αh)+ (r+αr) ≈ (t +αt) 究热潮。在随后几年时间里,基于翻译的模型衍 生出一系列的模型。Wang 等 [8] 提出让一个实体 在不同关系下拥有不同的表示,将实体投影到关 系所在超平面,然后在超平面上进行翻译操作。 Lin 等 [9] 认为实体与关系应当处于不同的语义空 间,提出了 TransR/CtransR 模型。TransR/CtransR 通过投影矩阵将实体从实体空间投影到关系空 间,然后在关系空间中建立翻译操作。Ji 等 [10] 认 为实体从实体空间投影到关系空间是实体与关系 的交互过程,提出了分别为头、尾实体提供不同 的投影矩阵。TranSparse 模型[11] 考虑了实体与关 系的不平衡性和异质性,提出了一种根据关系的 复杂程度来自适应的构造稀疏矩阵对实体进行投 影,这样防止了简单关系过拟合、复杂关系欠拟 合的发生。Feng 等 [12] 认为 的翻译规则过 于严格,于是建立了更加灵活的翻译规则 , 提高了模型的表达能力。Chang 等 [13] 认为 FT 模 型的翻译规则仍过于复杂,进一步提出了 的翻译规则,实现了翻译模型性能 的提升。Tan 等 [14] 考虑了不同关系空间中实体的 不同状态和特征倾向,将实体的本征态与拟态进 行线性组合作为实体的嵌入特征,并为每个关系 都构造了一个动态关系空间,提高了关系表示的 能力,减少了来自其他关系的噪声。Wang 等 [15] 将生成对抗网络引入表示学习模型中,利用生成 器来获得高质量的负例三元组,提高了知识表示 学习的能力。 2 基于相似性负采样的知识图谱嵌入 2.1 实体的相似性 2.1.1 实体局部结构的相似性 在本节中,将从两个角度对实体的相似性进 行描述:1) 知识图谱中实体局部结构的相似性; 2) 知识图谱通过 TransE 等翻译模型嵌入到向量 空间中实体向量的相似性。 知识图谱中的每个实体间都存在着一定的联 系,包括直接联系与间接联系。直接联系是 2 个 实体之间存在直接关系。间接联系是 2 个实体之 间存在的关系路径。例如,给定一个简单的知识 图谱,如图 1 所示。其中,实体 e1 与实体 e3 之间 存在着直接关系 (r8 ) 和关系路径 (r6 , r4 );实体 e2 与 实体 e3 之间存在着直接关系 (r8 ) 和关系路径 (r6 , r4 )、(r6 , r3 , r7 ) 等。本文将一个实体与其他实体的 直接联系形成的结构称为该实体的局部结构,如 图 2 所示。对于任意 2 个实体,如果它们的局部 第 2 期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·219·
·220· 智能系统学报 第15卷 结构越相似,那么这2个实体也越相似。例如, e,与e2的局部结构中分别含有6个关系,并且这 些关系均相同,其中存在4个关系构成了相似的 三元组(*,r,e、(*,r,e)(e,5,*)和(*,s,e,其 中*可以用e或e代替,1个关系连接e1与e2的 三元组(e2,ro,e),1个关系连接着不同的尾实体 构成2个三元组(e,ro,e)和(e2,rs,e)。通过对比 e1与e2的局部结构可以判定e1与e2的相似性较 高。与此相同,通过对比e,与e的局部结构,我 图1知识图谱 们可以判定e,与e的相似性较低。 Fig.1 Knowledge graph 111 es (a)e,的局部结构 (b)e,的局部结构 (c)e,的局部结构 图2实体的局部结构 Fig.2 Local structure of the entity 2.1.2实体向量的相似性 中相距较远。综上所述,在向量空间中,对于任 当利用TransE模型将知识图谱嵌入到向量 意两个实体,如果他们受到的相同约束越多,那 空间中时,对于知识图谱中的每一个三元组(h,, 么这两个实体向量之间的距离越小,即实体越相 )应当满足h+r≈t。对于头实体h而言,它在向 似,反之亦然。 量空间中的向量h≈t-r,即h可以由t-r得到, 2.2随机抽样的局限性 将t-r称之为h的空间约束。与此相同,h+r是 现有知识图谱嵌入模型都是采用随机抽样来 t的空间约束,t-h是r的空间约束。因此,给定 生成一个负例三元组,即采用相同概率从实体集 一个知识图谱,通过h+r≈t将知识图谱中的实 中抽取一个实体替换正例三元组中的头实体(或 体与关系嵌入到向量空间时,可以将知识图谱中 尾实体)。然而,通过该方式生成负例三元组会存 实体的特征与关系的特征在向量空间中的特征表 在一个问题:可能会在训练中生成大量的低质量 示分别称之为实体向量与关系向量。例如图2中 负例三元组。导致上述问题的关键在于随机抽样 的实体e,与e2,当他们嵌入到向量空间中时,需 忽略了实体之间的相似性。抽取的替换实体与被 要满足4个相同的空间约束,即*≈e4-r、 替换实体之间相似性可能是很低的,如图1中的 *≈e6-r2、*≈e1-r5和*≈e3-rg,其中*可以用e1 实体e,与e。一个低质量的负例三元组相对于正 或e2替换,在这4个相同的空间约束下促使e,与 例三元组来说是极易区分的,这样的负例三元组 e2趋近于相等。但与此同时,e还需满足空间约 对于学习知识图谱的有效嵌人是没有作用的。为 束e1≈e2-r,和e1≈es-r6,e2还需满足空间约束 了深入理解高质量的负例三元组与低质量负例三 e2≈e1-ro和e2≈e,-r6,在这2个不同的空间约束 元组的区别,通过一个具体的例子进行阐述。 下促使e,与e2又存在着一定的区别。因此,向量 假设在知识图谱中有一个正例三元组(广西, 空间中的e1与e2,在相同的空间约束下驱使他们 省会,南宁),根据随机抽样原则,选择替换尾实体 接近于相等,同时又在不同的约束下迫使他们产 南宁来生成负例三元组。首先,通过移除南宁会 生一定的区别,这使得e1与e2在靠近的同时又存 得到一个不完整的三元组(广西,省会,?)。然 在一些距离。然而,对于图2中的实体e1与e3,e1 后,以相同的概率从实体集中抽取一个实体进行 在向量空间中受到的所有空间约束均与e受到 尾实体填充,假设抽取到一个Person类型实体马 空间约束完全不同,这将使得e1与e在向量空间 云,我们就会得到一个奇怪的负例三元组(广西
∗ ∗ ∗ ∗ ∗ 结构越相似,那么这 2 个实体也越相似。例如, e1 与 e2 的局部结构中分别含有 6 个关系,并且这 些关系均相同,其中存在 4 个关系构成了相似的 三元组 ( , r1 , e4 )、( , r2 , e6 )、(e11, r5 , ) 和 ( , r8 , e3 ),其 中 可以用 e1 或 e2 代替,1 个关系连接 e1 与 e2 的 三元组 (e2 , r0 , e1 ),1 个关系连接着不同的尾实体 构成 2 个三元组 (e1 , r6 , e5 ) 和 (e2 , r6 , e7 )。通过对比 e1 与 e2 的局部结构可以判定 e1 与 e2 的相似性较 高。与此相同,通过对比 e1 与 e3 的局部结构,我 们可以判定 e1 与 e3 的相似性较低。 e6 e2 e11 e3 e5 e4 e1 r1 r6 r8 r5 r0 r2 e2 e7 e8 e9 e3 e e10 5 e1 e11 r8 r8 r5 r4 r3 r2 r7 r4 e6 e2 e7 e3 e11 e1 e4 r2 r6 r8 r5 r0 r1 (a) e1的局部结构 (b) e2的局部结构 (c) e3的局部结构 图 2 实体的局部结构 Fig. 2 Local structure of the entity 2.1.2 实体向量的相似性 h+ r ≈ t h ≈ t − r h t − r t − r h h+ r t t − h r h+ r ≈ t ∗ ≈ e4 − r1 ∗ ≈ e6 − r2 ∗ ≈ e11 − r5 ∗ ≈ e3 − r8 ∗ e1 e2 e1 e2 e1 e1 ≈ e2 − r0 e1 ≈ e5 − r6 e2 e2 ≈ e1 − r0 e2 ≈ e7 − r6 e1 e2 e1 e2 e1 e2 e1 e1 e3 当利用 TransE 模型将知识图谱嵌入到向量 空间中时,对于知识图谱中的每一个三元组 (h, r, t) 应当满足 。对于头实体 h 而言,它在向 量空间中的向量 ,即 可以由 得到, 将 称之为 的空间约束。与此相同, 是 的空间约束, 是 的空间约束。因此,给定 一个知识图谱,通过 将知识图谱中的实 体与关系嵌入到向量空间时,可以将知识图谱中 实体的特征与关系的特征在向量空间中的特征表 示分别称之为实体向量与关系向量。例如图 2 中 的实体 e1 与 e2,当他们嵌入到向量空间中时,需 要 满 足 4 个相同的空间约束,即 、 、 和 ,其中 可以用 或 替换,在这 4 个相同的空间约束下促使 与 趋近于相等。但与此同时, 还需满足空间约 束 和 , 还需满足空间约束 和 ,在这 2 个不同的空间约束 下促使 与 又存在着一定的区别。因此,向量 空间中的 与 ,在相同的空间约束下驱使他们 接近于相等,同时又在不同的约束下迫使他们产 生一定的区别,这使得 与 在靠近的同时又存 在一些距离。然而,对于图 2 中的实体 e1 与 e3, 在向量空间中受到的所有空间约束均与 e3 受到 空间约束完全不同,这将使得 与 在向量空间 中相距较远。综上所述,在向量空间中,对于任 意两个实体,如果他们受到的相同约束越多,那 么这两个实体向量之间的距离越小,即实体越相 似,反之亦然。 2.2 随机抽样的局限性 现有知识图谱嵌入模型都是采用随机抽样来 生成一个负例三元组,即采用相同概率从实体集 中抽取一个实体替换正例三元组中的头实体 (或 尾实体)。然而,通过该方式生成负例三元组会存 在一个问题:可能会在训练中生成大量的低质量 负例三元组。导致上述问题的关键在于随机抽样 忽略了实体之间的相似性。抽取的替换实体与被 替换实体之间相似性可能是很低的,如图 1 中的 实体 e1 与 e3。一个低质量的负例三元组相对于正 例三元组来说是极易区分的,这样的负例三元组 对于学习知识图谱的有效嵌入是没有作用的。为 了深入理解高质量的负例三元组与低质量负例三 元组的区别,通过一个具体的例子进行阐述。 假设在知识图谱中有一个正例三元组 (广西, 省会,南宁),根据随机抽样原则,选择替换尾实体 南宁来生成负例三元组。首先,通过移除南宁会 得到一个不完整的三元组 (广西,省会,?)。然 后,以相同的概率从实体集中抽取一个实体进行 尾实体填充,假设抽取到一个 Person 类型实体马 云,我们就会得到一个奇怪的负例三元组 (广西, e6 r2 r6 r3 r7 r2 r3 r4 r6 r8 r5 r8 r4 r5 r1 r2 r1 r0 r5 e2 e7 e8 e9 e10 e3 e5 e1 e11 e4 图 1 知识图谱 Fig. 1 Knowledge graph ·220· 智 能 系 统 学 报 第 15 卷
第2期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·221· 省会,马云),这样的负例三元组就是一个低质量 arg min 的负例三元组。与此相反,如果抽取到一个 22-c (1) Cty类型实体桂林,将会得到一个高质量的负例 三元组(广西,省会,桂林)。由于南宁与桂林的相 式中:K表示聚类中心的数量;e是一个实体向 似度远高于南宁与马云的相似度。南宁与桂林拥 量;c:表示第i个聚类中心向量;C,表示第i个聚 有许多相同或者相似的属性或者关系类型,比 类中实体e的集合;L2是第二范数欧氏距离。 如,它们均属于广西,都拥有城市属性,地理位置 知识图谱中实体的相似性负采样详细过程: 相近,气候类型相同,地形地貌相似,历史文化也 首先通过TransE模型训练50个epoch获取实体 相似。与此相反,南宁与马云,一个是城市,一个 集E与关系集R的向量表示,然后利用K-Means 是人,他们几乎没有相同的属性或者关系类型, 聚类将实体集划分为K个簇{E,E2,…,Ex},每个 因此他们的相似度是极低的。 簇中的实体之间具有较高的相似性。当给定一个 在知识图谱嵌入模型中,如TransE模型使用 被替换实体e∈E(k∈{1,2,…,K)时,从簇E中 基于边界的损失函数作为训练目标。训练过程 选择替换实体e'。那么,获得的替换实体e'与被 中,当在使用相似性低的实体进行替换来生成负 替换实体e将具有较高的相似性。 例三元组时,得到的是一个低质量的负例三元 2.4 TransE-SNS模型 组,这将导致生成的负例三元组与正例三元组的 在本节中,详述了将实体相似性负采样与 得分之差大于边界值,使得损失值为0。在损失 TransE模型结合得到TransE-SNS,同时给出了 值为0时,模型将不会对实体向量与关系向量进 TransE-SNS模型完整代码的训练过程,即算法l。 行更新,也就是说本次训练对于实体向量与关系 TransE-SNS采用h+r≈t的翻译原则将实体 向量的学习无益,无法获得更多的样本特征。为 和关系嵌入同一个向量空间。因此为TransE 了得到高质量的负例三元组,促进实体向量与关 SNS定义了得分函数: 系向量的有效更新,实现知识图谱中实体与关系 f (h,t)=lh +r-tll (2) 的有效嵌入,应该使用与被替换实体具有一定程 式中:h、r、t∈R";L2是第二范数欧氏距离。 度相似性的替换实体。因此,针对此问题我们提 在TransE-SNS中,采用了基于边界的损失函 出了解决方案-相似性负采样。 数作为训练目标,基于边界的损失函数为 2.3相似性负采样 一个高质量的负例三元组可以帮助知识图谱 L=∑es∑eV(h..0+y-fh,r1, (3) (h.r.t) 嵌入,而得到一个高质量的负例三元组的关键是 式中:S是正例三元组集合;S={(h',r,)|h'∈E: 获取一个与被替换实体相似的实体。将知识图谱 (h,,)生SU{(h,r,t)|t∈E:(h,r,t)ES(其中, 嵌入到向量空间中时,实体的局部结构相似性转 E。表示实体e所在的簇)是负例三元组集合; 化为2个实体向量的相似性。2个实体向量之间 Neg,,)是S中(hr,t)对应的一个负例三元组; 的距离越小,它们就越相似,反之亦然。这促使 f (h,t)+f (h,t=max (0f(h,(+f(h,); 我们萌发出对实体进行聚类后获得相似实体。于 y是边界值。本文利用随机梯度下降算法(SGD) 是使用简单有效的K-Means算法is-8I对实体进行 最小化基于边界的损失函数。 聚类,然后使得替换实体与被替换实体属于同一 算法1给出了TransE-SNS模型的完整训练 个簇。上述实体抽样过程,称为相似性负采样 过程。在训练过程中,前50个epoch采用的是随机 (similarity nagetive sampling,SNS). 抽样来生成负例三元组进行训练,然后对实体向 对于一个给定的知识图谱G=(E,R,S),其中 量进行第一次聚类。之后每完成训练50个epoch, E={e,e2,…,ew}表示知识图谱中包含N个实体 就对训练得到的实体向量重新进行一次聚类。 的实体集合,R={r,r2,…,rM}表示知识图谱中包 算法1 Learning TransE-SNS 含M个关系的关系集合,SSE×R×E表示知识图 输入训练集S={(h,r,)}和负例三元组集S= 谱中的三元组集合。本文目标是将N个实体划 {(h,r,)|h'∈E(h,r,t)tS}U{(h,r,t)|t'∈E.(h 分到K个聚类中,使得每个实体到所属聚类中心 r,)生S,实体集E,关系集R,边界值y,嵌入维度 最近,即,每个实体到所属聚类中心的欧氏距离 n,学习率a,K-Means聚类中心数k,实体聚类子 之和最小,即满足式(1): 集E(i=1,2,…,k)
省会,马云),这样的负例三元组就是一个低质量 的负例三元组。与此相反,如果抽取到一 个 City 类型实体桂林,将会得到一个高质量的负例 三元组 (广西,省会,桂林)。由于南宁与桂林的相 似度远高于南宁与马云的相似度。南宁与桂林拥 有许多相同或者相似的属性或者关系类型,比 如,它们均属于广西,都拥有城市属性,地理位置 相近,气候类型相同,地形地貌相似,历史文化也 相似。与此相反,南宁与马云,一个是城市,一个 是人,他们几乎没有相同的属性或者关系类型, 因此他们的相似度是极低的。 在知识图谱嵌入模型中,如 TransE 模型使用 基于边界的损失函数作为训练目标。训练过程 中,当在使用相似性低的实体进行替换来生成负 例三元组时,得到的是一个低质量的负例三元 组,这将导致生成的负例三元组与正例三元组的 得分之差大于边界值,使得损失值为 0。在损失 值为 0 时,模型将不会对实体向量与关系向量进 行更新,也就是说本次训练对于实体向量与关系 向量的学习无益,无法获得更多的样本特征。为 了得到高质量的负例三元组,促进实体向量与关 系向量的有效更新,实现知识图谱中实体与关系 的有效嵌入,应该使用与被替换实体具有一定程 度相似性的替换实体。因此,针对此问题我们提 出了解决方案−相似性负采样。 2.3 相似性负采样 一个高质量的负例三元组可以帮助知识图谱 嵌入,而得到一个高质量的负例三元组的关键是 获取一个与被替换实体相似的实体。将知识图谱 嵌入到向量空间中时,实体的局部结构相似性转 化为 2 个实体向量的相似性。2 个实体向量之间 的距离越小,它们就越相似,反之亦然。这促使 我们萌发出对实体进行聚类后获得相似实体。于 是使用简单有效的 K-Means 算法[16-18] 对实体进行 聚类,然后使得替换实体与被替换实体属于同一 个簇。上述实体抽样过程,称为相似性负采样 (similarity nagetive sampling, SNS)。 ··· , eN ··· , rM ⊆ 对于一个给定的知识图谱 G = (E, R, S),其中 E = {e1 , e2 , }表示知识图谱中包含 N 个实体 的实体集合,R ={r1 , r2 , }表示知识图谱中包 含 M 个关系的关系集合,S E ×R ×E 表示知识图 谱中的三元组集合。本文目标是将 N 个实体划 分到 K 个聚类中,使得每个实体到所属聚类中心 最近,即,每个实体到所属聚类中心的欧氏距离 之和最小,即满足式 (1): argmin∑K i=1 ∑ e∈Ci ∥e− ci∥L2 (1) e ci 式中:K 表示聚类中心的数量; 是一个实体向 量; 表示第 i 个聚类中心向量;Ci 表示第 i 个聚 类中实体 e 的集合;L2 是第二范数欧氏距离。 ··· , EK ··· , K 知识图谱中实体的相似性负采样详细过程: 首先通过 TransE 模型训练 50 个 epoch 获取实体 集 E 与关系集 R 的向量表示,然后利用 K-Means 聚类将实体集划分为 K 个簇{E1 , E2 , },每个 簇中的实体之间具有较高的相似性。当给定一个 被替换实体 e∈Ek (k∈{1, 2, }) 时,从簇 Ek 中 选择替换实体 e'。那么,获得的替换实体 e'与被 替换实体 e 将具有较高的相似性。 2.4 TransE-SNS 模型 在本节中,详述了将实体相似性负采样与 TransE 模型结合得到 TransE-SNS,同时给出了 TransE-SNS 模型完整代码的训练过程,即算法 1。 TransE-SNS 采用 h+ r ≈ t 的翻译原则将实体 和关系嵌入同一个向量空间。因此为 TransESNS 定义了得分函数: fr(h, t) = ∥h+ r− t∥L2 (2) h、r、t ∈ R 式中: n;L2 是第二范数欧氏距离。 在 TransE-SNS 中,采用了基于边界的损失函 数作为训练目标,基于边界的损失函数为 L = ∑ (h,r,t) ∈ S ∑ Neg(h,r,t) ∈ S ′∇[fr(h, t)+γ− fr(h ′ , t ′ )]+ (3) < < 式中:S 是正例三元组集合;S' = {(h', r, t) | h' ∈Eh; (h', r, t) S}∪{(h, r, t') | t' ∈Et;(h, r, t') S}(其中, Ee 表示实体 e 所在的簇) 是负例三元组集合; Neg(h, r, t) 是 S'中 (h, r, t) 对应的一个负例三元组; [fr (h, t) +γ−fr (h', t')]+ = max (0, fr (h, t) +γ−fr (h', t')); γ 是边界值。本文利用随机梯度下降算法 (SGD)[19] 最小化基于边界的损失函数。 算法 1 给出了 TransE-SNS 模型的完整训练 过程。在训练过程中,前 50 个 epoch 采用的是随机 抽样来生成负例三元组进行训练,然后对实体向 量进行第一次聚类。之后每完成训练 50 个 epoch, 就对训练得到的实体向量重新进行一次聚类。 算法 1 Learning TransE-SNS < < ··· , k 输入 训练集 S ={(h, r, t)}和负例三元组集 S' = {(h', r, t) | h'∈Eh , (h', r, t) S}∪{(h, r, t') | t'∈Et ,(h', r, t) S},实体集 E,关系集 R,边界值 γ,嵌入维度 n,学习率 α, K-Means 聚类中心数 k,实体聚类子 集 Ei (i = 1, 2, )。 第 2 期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·221·
·222· 智能系统学报 第15卷 输出实体向量与关系向量 3.2链接预测 1)初始化: 链接预测旨在预测一个三元组(h,r,)中缺 2)r←-uniform(-6/vm,6/n)对于每一个 失的(或)。在这项任务中,将测试三元组(,r, reR t)缺失的(或)称为正确实体,除正确实体以外 3)r←-r/ll对于每一个reR 的其他实体均被视为候选实体。首先,利用候选 4)e-uniform(-6/vn,6/vn)对于每一个eeE 实体替换测试三元组(h,r,t)中的h(或)以获得 4)e-e/lell对于每一个e∈E 候选三元组。然后,计算候选三元组与测试三元 5)loop 组的得分。最后,根据实体对应的三元组得分从 6)Seeh←sample(S,b)∥从S中抽取一个大小 低到高对候选实体与正确实体进行升序排列。 为b的mini-batch 在2个数据集WN18和FB15K上进行链接预测 7)Tach←-O1∥初始化正负例三元组对的集合 任务,使用2项常用的评价标准作为实验中的评 8)for(h,r,t)∈Spatchdo 价指标6:正确实体排名前10的比例(Hits@10) 9)Negh,n←-sample(S4,)/抽取一个负例 和正确实体的平均排名(Mean Rank)。显然,对于 三元组(h,r,)或(h,r,t) 一个好的预测应该有一个高的Hits@10和低的 10)Thatch -Tbatch U(h,r,()Negt.r. Mean Rank。 11)end for 值得注意的是,在候选三元组集合中有一部 12)更新实体向量与关系向量 分候选三元组可能存在于训练集、验证集和测试 ∑∑UGa0+y-f.1. 集中。虽然这些候选三元组不是当前测试的正确 13)if epoch %50=0 then 三元组,但它们应该被认为是正确的,并且它们 14)更新E,J∥K-Means聚类 的得分很可能比当前正确三元组的得分更低,从 15)end if 而影响正确实体的排名。我们将已经在训练集、 16)end loop 验证集和测试集中出现过的候选三元组滤除。因 此,在测试过程中设置了一个过滤器,并将2项评 3实验与分析 价指标中经过滤器滤除的称之为“Fit”,反之,将 为了评估方法的性能,在4个公开数据集上 其称之为“Raw”。 进行实验,通过链接预测和三元组分类任务进行评价。 在这项任务中,为了得到模型的最佳参数设 3.1数据设置 置,尽可能多地尝试了参数的各种设置,参数主 我们使用的数据集是来自于2个被广泛使用 要从以下设置中选择:模型训练周期epoch∈{1000, 的知识图谱WordNet和Freebase。WordNet是一 2000,3000},学习率a∈{0.01,0.001,0.0001},边 个大型的英语词汇知识图谱。在WordNet中,将 界值y∈{1,2,2.5,3,3.5,4,4.5,5,5.5,6},嵌入维 代表某一基本词汇概念的同义词集合作为实体, 度n∈{25,50,100,200},批处理大小Be{100, 并在这些同义词集合之间建立各种语义关系。在 200,500,1000},聚类中心数K∈{16,32,64},聚 本文中,使用WordNet中的2个子集:WN182o町 类迭代次数ie{10,20,50;,三元组得分与聚类相 和WNI1。Freebase是一个大型的人类知识的 似度均采用L2第二范数进行计算。在2个数据 知识图谱,存储了真实世界中的一般事实。本文 集上,都获得了关于平均排名和排名前10的比例 也使用了Freebase中的2个子集:FB15K2o1和 的最佳参数设置,如表2所示。 FB13P。在表1中给出了这4种数据统计数据。 表2链接预测中的最佳参数设置 表1实验数据集 Table 2 Optimal parameter setting in link prediction Table 1 Experimental datasets Dataset Metric epoch a y n B K i D.S Dataset #Ent #Rel #Train #Valid #Test Mean Rank20000.0015.5501001420L2 WNII 38696 11 112581 2609 10544 WN18 Hits@1020000.0013501001420L2 WN18 40943 18 141442 5000 5000 FB13 75043 13 316232 5908 23733 Mean Rank20000.00142002006420L2 FB15K FB15K149511345 483142 50000 59071 Hits@1020000.00122002006420L2
输出 实体向量与关系向量 1) 初始化: r −6/ √ n 6/ √ 2) ← uniform ( , n ) 对于每一个 r∈R 3) r← r/||r|| 对于每一个 r∈R e −6/ √ n 6/ √ 4) ← uniform ( , n) 对于每一个 e∈E 4) e←e/||e|| 对于每一个 e∈E 5) loop 6) Sbatch ← sample (S, b) //从 S 中抽取一个大小 为 b 的 mini-batch 7)Tbatch← Ø // 初始化正负例三元组对的集合 8) for (h, r, t)∈Sbatch do 9) Neg(h, r, t) ← sample(S'(h, r, t) ) //抽取一个负例 三元组 (h', r, t) 或 (h, r, t') 10) Tbatch ←Tbatch∪{(h, r, t), Neg(h, r, t)} 11) end for 12) 更新实体向量与关系向量 ∑ (h,r,t)∈S ∑ Neg(h,r,t)∈S ′ ∇[fr(h, t)+γ− fr(h ′ , t ′ )] + 13) if epoch % 50 == 0 then 14) 更新 Ei ,// K-Means 聚类 15) end if 16) end loop 3 实验与分析 为了评估方法的性能,在 4 个公开数据集上 进行实验,通过链接预测和三元组分类任务进行评价。 3.1 数据设置 我们使用的数据集是来自于 2 个被广泛使用 的知识图谱 WordNet 和 Freebase。WordNet 是一 个大型的英语词汇知识图谱。在 WordNet 中,将 代表某一基本词汇概念的同义词集合作为实体, 并在这些同义词集合之间建立各种语义关系。在 本文中,使用 WordNet 中的 2 个子集:WN18[20] 和 WN11[21]。Freebase 是一个大型的人类知识的 知识图谱,存储了真实世界中的一般事实。本文 也使用了 Freebase 中的 2 个子集:FB15K[20] 和 FB13[21]。在表 1 中给出了这 4 种数据统计数据。 表 1 实验数据集 Table 1 Experimental datasets Dataset #Ent #Rel #Train #Valid #Test WN11 38 696 11 112 581 2 609 10 544 WN18 40 943 18 141 442 5 000 5 000 FB13 75 043 13 316 232 5 908 23 733 FB15K 14 951 1 345 483 142 50 000 59 071 3.2 链接预测 链接预测旨在预测一个三元组 (h, r, t) 中缺 失的 h(或 t)。在这项任务中,将测试三元组 (h, r, t) 缺失的 h(或 t) 称为正确实体,除正确实体以外 的其他实体均被视为候选实体。首先,利用候选 实体替换测试三元组 (h, r, t) 中的 h(或 t) 以获得 候选三元组。然后,计算候选三元组与测试三元 组的得分。最后,根据实体对应的三元组得分从 低到高对候选实体与正确实体进行升序排列。 在 2 个数据集 WN18 和 FB15K 上进行链接预测 任务,使用 2 项常用的评价标准作为实验中的评 价指标[6] :正确实体排名前 10 的比例 (Hits@10) 和正确实体的平均排名 (Mean Rank)。显然,对于 一个好的预测应该有一个高的 Hits@10 和低的 Mean Rank。 值得注意的是,在候选三元组集合中有一部 分候选三元组可能存在于训练集、验证集和测试 集中。虽然这些候选三元组不是当前测试的正确 三元组,但它们应该被认为是正确的,并且它们 的得分很可能比当前正确三元组的得分更低,从 而影响正确实体的排名。我们将已经在训练集、 验证集和测试集中出现过的候选三元组滤除。因 此,在测试过程中设置了一个过滤器,并将 2 项评 价指标中经过滤器滤除的称之为“Filt”,反之,将 其称之为“Raw”。 在这项任务中,为了得到模型的最佳参数设 置,尽可能多地尝试了参数的各种设置,参数主 要从以下设置中选择:模型训练周期 epoch∈{1 000, 2 000,3 000},学习率 α∈{0.01,0.001,0.000 1},边 界值 γ∈{1,2,2.5,3,3.5,4,4.5,5,5.5,6},嵌入维 度 n∈{25,50,100,200},批处理大小 B∈{100, 200,500,1 000},聚类中心数 K∈{16,32,64},聚 类迭代次数 i∈{10,20,50},三元组得分与聚类相 似度均采用 L2 第二范数进行计算。在 2 个数据 集上,都获得了关于平均排名和排名前 10 的比例 的最佳参数设置,如表 2 所示。 表 2 链接预测中的最佳参数设置 Table 2 Optimal parameter setting in link prediction Dataset Metric epoch α γ n B K i D.S WN18 Mean Rank 2 000 0.001 5.5 50 100 14 20 L2 Hits@10 2 000 0.001 3 50 100 14 20 L2 FB15K Mean Rank 2 000 0.001 4 200 200 64 20 L2 Hits@10 2 000 0.001 2 200 200 64 20 L2 ·222· 智 能 系 统 学 报 第 15 卷
第2期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·223· 在WNI8和FB15K上的链路预测任务实验 性能。我们认为TransE-SNS未能在所有的情况 结果,如表3所示。表中对比模型的实验结果来 下达到最佳性能有以下2个原因:1)FB15K数据 自于原文献,加粗的结果为表中最优结果。从表 比较稀疏,连接的多个相同关系的实体较少,即 中可以看出,本文方法在大多数情况下都达到了 每个实体本身对应的相似实体较少,这导致聚类 最先进的效果。在WN18中,本文方法在Hits@10 后每个簇中依旧包含一定数量的相似性较低的实 (raw,bern)中性能略低于TranSparse-DT。在 体。2)聚类中心K值选择比较困难,并且K值选 FBl5K中,本文方法在Mean Rank(bern)和 择被限制在几个固定值中。因此,K-Means聚类 Hits@l0(raw,bern)未能获得所有模型中的最佳 不能很好地对实体进行聚类。 表3链接预测结果 Table 3 Link prediction results Dataset WN18 FB15K Mean Rank Hits@10/% Mean Rank Hits@10/% Metric Raw Filt Raw Filt Raw Filt Raw Filt SE 1,011 985 68.5 80.5 273 162 28.8 39.8 SME(linear/bilinear) 542/526 533/509 65.1/54.7 74.1/61.3 274/284 154/158 30.7/31.3 40.8/41.3 LFM 469 456 71.4 81.6 283 164 26.0 33.1 TransE 263 251 75.4 89.2 243 125 34.9 47.1 TransH(unif/bern) 318/401 303/388 75.4/73.0 86.7/82.3 211/212 84/87 42.5/45.7 58.5/64.4 TransR(unif/bern) 232/238219/225 78.3/79.8 91.7/92.0 226/198 78/77 43.8/48.2 65.5/68.7 CTransR(unif/bern) 243/231 230/218 78.9/79.4 92.3/92.3 233/199 82/75 44.0/48.4 66.3/70.2 TransD(unif/bern) 242/224 229/212 79.279.6 92.5/92.2 211/194 67/91 49.4/53.4 74.277.3 TranSparse(unif/bern) 233/223221/211 79.6/80.1 93.4/93.2 216/190 66/82 50.3/53.7 78.4/79.9 TranSparse-DT(unif/bern) 248/234 232/221 80.0/81.4 93.6/94.3 208/188 58/79 51.2/53.9 78.4/80.2 GTrans-SW(unif/bern) 247/215234/202 79.1/80.2 92.9/93.5 207/189 66/85 50.6/52.9 75.1/75.3 TransE+GAN-scratch 244 92.7 90 73.1 TransE+GAN-pretrain 240 91.3 81 74 TransE-SNS(unif/bern) 220/207208/195 80.2/80.6 94.0/94.6198/210 56/95 48.9/52.580.1/83.0 图3是在数据集FB15K中1345个关系,按 表4显示了4种不同关系类别下Hits@10的 照4种不同的关系类别分布情况,其中1-to-1的 链接预测结果。值得注意的是,TransE-SNS模型 简单关系占比为24%,1-to-N、N-to-1和N-to-N的 在大多数情况下都优于其他模型。特别是,头部 复杂关系分别占比23%、29%和24%。 和尾部的预测在N-to-N关系中实现了最先进的性 能。本文方法在N-o-1关系中略显不足。总体来 35 说,本文方法在处理复杂关系方面具有显著的优势。 29% 30 24% 24% 3.3三元组分类 5 23% 30 三元组分类任务旨在判断一个给定的三元 15 组(h,r,)是否正确。在本文中,使用3个数据集 (即WN11、FB13和FB15k)来验证方法在不同数 据集上的有效性。Socher等2o提供了2个数据 1-to-1 1-to-N N-to-1 N-to-N 集(即WN11和FB13)。在WN11和FB13中,已 4个不同的关系类型 经包含正例三元组和负例三元组。其中,每一个 图3FB15K中1345个关系的类型分布 负例三元组都是通过破坏正例三元组来获得的。 Fig.3 In the FB15K,the category distribution of 1345 re- 在FB15K中只存在正例三元组,于是使用与 lations Socher等相同的原理构造负例三元组
在 WN18 和 FB15K 上的链路预测任务实验 结果,如表 3 所示。表中对比模型的实验结果来 自于原文献,加粗的结果为表中最优结果。从表 中可以看出,本文方法在大多数情况下都达到了 最先进的效果。在 WN18 中,本文方法在 Hits@10 (raw, bern) 中性能略低于 TranSparse-DT。在 FB15K 中,本文方法在 Mean Rank (bern)和 Hits@10 (raw, bern) 未能获得所有模型中的最佳 性能。我们认为 TransE-SNS 未能在所有的情况 下达到最佳性能有以下 2 个原因:1)FB15K 数据 比较稀疏,连接的多个相同关系的实体较少,即 每个实体本身对应的相似实体较少,这导致聚类 后每个簇中依旧包含一定数量的相似性较低的实 体。2) 聚类中心 K 值选择比较困难,并且 K 值选 择被限制在几个固定值中。因此,K-Means 聚类 不能很好地对实体进行聚类。 表 3 链接预测结果 Table 3 Link prediction results Dataset WN18 FB15K Metric Mean Rank Hits@10/% Mean Rank Hits@10/% Raw Filt Raw Filt Raw Filt Raw Filt SE 1,011 985 68.5 80.5 273 162 28.8 39.8 SME(linear/bilinear) 542/526 533/509 65.1/54.7 74.1/61.3 274/284 154/158 30.7/31.3 40.8/41.3 LFM 469 456 71.4 81.6 283 164 26.0 33.1 TransE 263 251 75.4 89.2 243 125 34.9 47.1 TransH(unif/bern) 318/401 303/388 75.4/73.0 86.7/82.3 211/212 84/87 42.5/45.7 58.5/64.4 TransR(unif/bern) 232/238 219/225 78.3/79.8 91.7/92.0 226/198 78/77 43.8/48.2 65.5/68.7 CTransR(unif/bern) 243/231 230/218 78.9/79.4 92.3/92.3 233/199 82/75 44.0/48.4 66.3/70.2 TransD(unif/bern) 242/224 229/212 79.2/79.6 92.5/92.2 211/194 67/91 49.4/53.4 74.2/77.3 TranSparse(unif/bern) 233/223 221/211 79.6/80.1 93.4/93.2 216/190 66/82 50.3/53.7 78.4/79.9 TranSparse-DT(unif/bern) 248/234 232/221 80.0/81.4 93.6/94.3 208/188 58/79 51.2/53.9 78.4/80.2 GTrans-SW(unif/bern) 247/215 234/202 79.1/80.2 92.9/93.5 207/189 66/85 50.6/52.9 75.1/75.3 TransE+GAN-scratch — 244 — 92.7 — 90 — 73.1 TransE+GAN-pretrain — 240 — 91.3 — 81 — 74 TransE-SNS(unif/bern) 220/207 208/195 80.2/80.6 94.0/94.6 198/210 56/95 48.9/52.5 80.1/83.0 图 3 是在数据集 FB15K 中 1 345 个关系,按 照 4 种不同的关系类别分布情况,其中 1-to-1 的 简单关系占比为 24%, 1-to-N、N-to-1 和 N-to-N 的 复杂关系分别占比 23%、29% 和 24%。 表 4 显示了 4 种不同关系类别下 Hits@10 的 链接预测结果。值得注意的是,TransE-SNS 模型 在大多数情况下都优于其他模型。特别是,头部 和尾部的预测在 N-to-N 关系中实现了最先进的性 能。本文方法在 N-to-1 关系中略显不足。总体来 说,本文方法在处理复杂关系方面具有显著的优势。 3.3 三元组分类 三元组分类任务旨在判断一个给定的三元 组 (h, r, t) 是否正确。在本文中,使用 3 个数据集 (即 WN11、FB13 和 FB15k) 来验证方法在不同数 据集上的有效性。Socher 等 [20] 提供了 2 个数据 集 (即 WN11 和 FB13)。在 WN11 和 FB13 中,已 经包含正例三元组和负例三元组。其中,每一个 负例三元组都是通过破坏正例三元组来获得的。 在 FB15K 中只存在正例三元组,于是使用与 Socher 等 [20] 相同的原理构造负例三元组。 24% 23% 29% 24% 0 5 10 15 20 25 30 35 1-to-1 1-to-N N-to-1 N-to-N 4个不同的关系类型 4种关系类型数据所占比例/% 图 3 FB15K 中 1345 个关系的类型分布 Fig. 3 In the FB15K, the category distribution of 1345 relations 第 2 期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·223·
·224· 智能系统学报 第15卷 表4FB15K按照关系分类的链路预测结果 Table 4 Link prediction results on FB15K by relation category % Tasks Predicting Head (Hits@10) Predicting Tail (Hits@10) Relation Category 1-to-1 1-to-N N-to-1 N-to-N 1-to-1 1-to-N N-to-1 N-to-N SE 35.6 62.6 17.2 37.5 34.9 14.6 68.3 41.3 SME(linear/bilinear) 35.1/30.953.7169.619.0/19.940.3/38.632.7/28.214.9/13.161.676.043.3/41.8 TransE 43.7 65.7 18.2 47.2 43.7 19.7 66.7 50.0 TransH(unif/bern) 66.7/166.881.7/87.630.2/28.757.4/64.5 63.7/65.530.1/39.883.2/83.360.8/67.2 TransR(unif/bern) 76.9/78.877.9/89.238.1/34.166.9/69.276.2/79.238.4/37.476.2/90.469.1/72.1 CTransR(unif/bern) 78.6/81.577.8/89.036.4/34.768.0/71.277.4/80.837.8/38.678.0/90.170.3/73.8 TransD(unif/bern) 80.7/86.185.8/95.547.1/39.875.6/78.580.0/85.454.5/50.680.7/94.477.9/81.2 TranSparse(unif/bern) 83.2/87.185.2/95.851.8/44.480.3/81.282.6/87.560.0/57.085.5/94.582.5/83.7 TranSparse-DT(unif/bern) 83.0/87.485.7/95.851.9/47.780.5/81.682.8/86.759.9/56.385.5/94.882.9/84.0 GTrans-SW(unif/bern) 80.1/84.993.0/95.048.4/39.975.4/75.979.4/84.451.8/47.791.2/94.577.8/78.8 TransE-SNS(unif/bern) 83.4/84.188.8/95.845.6/48.483.2/85.3 87.4/88.560.8/60.583.3/94.583.3/85.7 在实验中,为每个关系r都设置了一个阈值 表6三元组分类结果 6。在验证集上,通过最大化分类准确度来获取每 Table6 Triple classification results 一个关系所对应的6。对于给定三元组(h,r,),如 Dataset WNII FB13 FBI5K 果其得分函数的得分低于6,则将其归类为正例, SE 50.3 75.2 否则为负例。使用与链接预测相同的方式来获得 SME(bilinear) 70.0 63.7 此任务的最佳参数设置,并得到了3个数据集上的 最佳参数设置,如表5所示。 SLM 69.9 85.3 LFM 73.8 84.3 表5三元组分类中的最佳参数设置 Table 5 Optimal parameter setting in triple classification NTN 70.4 87.1 68.2 Dataset epoch a y n B K i D.S TransE 75.9 81.5 79.8 TransH 78.8 83.3 79.9 WN18 2000 0.0015.5501001620L2 TransR 85.9 82.5 82.1 FB13 2000 0.00121002003220L2 CTransR 85.7 84.3 FB15K 20000.0012.52002006420L2 TranSparse-DT 86.7 85.3 88.9 表6所示是WN11、FB13和FB15K三元组分 GTrans-SW 86.3 81.7 91.8 类任务的实验结果。从表6中可知,TransE- TransE+GAN-scratch 85.1 83.1 SNS在所有数据集上的分类性能都优于TransE和 TransE+GAN-pretrain 85.4 85.2 TransH。在FBl3上,TransE-SNS更是取得了所有 TransE-SNS 83.2 87.1 86.6 模型中的最佳性能。相对于TranSparse-DT和 GTans-.SW,TransE-SNS在WNI1与FB15K上的性 4 能略显不足。总体来说,尽管TransE-SNS并未在 结束语 所有数据集上实现最佳性能,但TransE-SNS与大 本文针对知识图谱嵌入模型中采用随机抽样 多数模型相比,仍具有较大优势。 无法很好地获取高质量的负例三元组,提出了一
在实验中,为每个关系 r 都设置了一个阈值 δr。在验证集上,通过最大化分类准确度来获取每 一个关系所对应的 δr。对于给定三元组 (h, r, t),如 果其得分函数的得分低于 δr,则将其归类为正例, 否则为负例。使用与链接预测相同的方式来获得 此任务的最佳参数设置,并得到了 3 个数据集上的 最佳参数设置,如表 5 所示。 表 5 三元组分类中的最佳参数设置 Table 5 Optimal parameter setting in triple classification Dataset epoch α γ n B K i D.S WN18 2 000 0.001 5.5 50 100 16 20 L2 FB13 2 000 0.001 2 100 200 32 20 L2 FB15K 2 000 0.001 2.5 200 200 64 20 L2 表 6 所示是 WN11、FB13 和 FB15K 三元组分 类任务的实验结果。从表 6 中可知,TransESNS 在所有数据集上的分类性能都优于 TransE 和 TransH。在 FB13 上,TransE-SNS 更是取得了所有 模型中的最佳性能。相对于 TranSparse-DT 和 GTans-SW,TransE-SNS 在 WN11 与 FB15K 上的性 能略显不足。总体来说,尽管 TransE-SNS 并未在 所有数据集上实现最佳性能,但 TransE-SNS 与大 多数模型相比,仍具有较大优势。 4 结束语 本文针对知识图谱嵌入模型中采用随机抽样 无法很好地获取高质量的负例三元组,提出了一 表 4 FB15K 按照关系分类的链路预测结果 Table 4 Link prediction results on FB15K by relation category % Tasks Predicting Head (Hits@10) Predicting Tail (Hits@10) Relation Category 1-to-1 1-to-N N-to-1 N-to-N 1-to-1 1-to-N N-to-1 N-to-N SE 35.6 62.6 17.2 37.5 34.9 14.6 68.3 41.3 SME(linear/bilinear) 35.1/30.9 53.7/69.6 19.0/19.9 40.3/38.6 32.7/28.2 14.9/13.1 61.6/76.0 43.3/41.8 TransE 43.7 65.7 18.2 47.2 43.7 19.7 66.7 50.0 TransH(unif/bern) 66.7/66.8 81.7/87.6 30.2/28.7 57.4/64.5 63.7/65.5 30.1/39.8 83.2/83.3 60.8/67.2 TransR(unif/bern) 76.9/78.8 77.9/89.2 38.1/34.1 66.9/69.2 76.2/79.2 38.4/37.4 76.2/90.4 69.1/72.1 CTransR(unif/bern) 78.6/81.5 77.8/89.0 36.4/34.7 68.0/71.2 77.4/80.8 37.8/38.6 78.0/90.1 70.3/73.8 TransD(unif/bern) 80.7/86.1 85.8/95.5 47.1/39.8 75.6/78.5 80.0/85.4 54.5/50.6 80.7/94.4 77.9/81.2 TranSparse(unif/bern) 83.2/87.1 85.2/95.8 51.8/44.4 80.3/81.2 82.6/87.5 60.0/57.0 85.5/94.5 82.5/83.7 TranSparse-DT(unif/bern) 83.0/87.4 85.7/95.8 51.9/47.7 80.5/81.6 82.8/86.7 59.9/56.3 85.5/94.8 82.9/84.0 GTrans-SW(unif/bern) 80.1/84.9 93.0/95.0 48.4/39.9 75.4/75.9 79.4/84.4 51.8/47.7 91.2/94.5 77.8/78.8 TransE-SNS(unif/bern) 83.4/84.1 88.8/95.8 45.6/48.4 83.2/85.3 87.4/88.5 60.8/60.5 83.3/94.5 83.3/85.7 表 6 三元组分类结果 Table 6 Triple classification results % Dataset WN11 FB13 FB15K SE 50.3 75.2 — SME(bilinear) 70.0 63.7 — SLM 69.9 85.3 — LFM 73.8 84.3 — NTN 70.4 87.1 68.2 TransE 75.9 81.5 79.8 TransH 78.8 83.3 79.9 TransR 85.9 82.5 82.1 CTransR 85.7 — 84.3 TranSparse-DT 86.7 85.3 88.9 GTrans-SW 86.3 81.7 91.8 TransE+GAN-scratch 85.1 83.1 — TransE+GAN-pretrain 85.4 85.2 — TransE-SNS 83.2 87.1 86.6 ·224· 智 能 系 统 学 报 第 15 卷
第2期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·225· 种相似性负采样方法用于提高负例三元组的质 Processing Systems.South Lake Tahoe,USA,2013: 量。与随机抽样相比,相似性负采样在很大程度 2787-2795 上提高了替换实体与被替换实体间的相似性,从 [7]刘知远,孙茂松,林衍凯,等.知识表示学习研究进 而提高了负例三元组的质量。在训练时,相似性 展.计算机研究与发展,2016.53(2):247-261 负采样生成的高质量负例三元组促进了模型对实 LIU Zhiyuan,SUN Maosong,LIN Yankai,et al.Know- 体与关系特征的学习。通过将相似性负采样与 ledge representation learning:a review[J].Journal of com- TransE模型结合得到TransE-SNS模型。我们的 puter research and development,2016,53(2):247-261. 方法能够通过高质量的负例三元组充分获取实体 [8]WANG Zhen,ZHANG Jianwen,FENG Jianlin,et al. 有效特征,同时忽略了低质量的负例三元组。实 Knowledge graph embedding by translating on hyper- 验结果表明,TransE-SNS模型在链路预测与三元 planes[C]//Proceedings of the 28th AAAI Conference on 组分类任务中均取得了较优的性能。特别是,相 Artificial Intelligence.Quebec City,Canada,2014: 较于基础模型TransE.引入相似性负采样后对模 1112-1119 型性能具有较大提升。并且,TransE-SNS模型与 [9]LIN Yankai,LIU Zhiyuan,SUN Maosong,et al.Learning TransE一样简单且有效,具有较强的可行性与鲁 entity and relation embeddings for knowledge graph com 棒性。但是由于K-Means聚类算法本身在K值选 pletion[C]//Proceedings of the 29th AAAI Conference on 择以及对数据具有一定要求,造成相似性负采样 Artificial Intelligence.Austin,USA,2015:2181-2187. 对于较为稀疏的大规模知识图谱较难实现相似实 体的聚类与采样,从而影响模型的整体效果。在 [10]JI Guoliang,HE Shizhu,XU Liheng,et al.Knowledge 以后将进一步探索不同聚类算法和知识图嵌入模 graph embedding via dynamic mapping matrix[C]//Pro- 型的组合,得到一个更加有效的知识图谱嵌入 ceedings of the 53rd Annual Meeting of the Association 模型。 for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 参考文献 Beijing,China,2015:687-696. [1]BOLLACKER K,EVANS C.PARITOSH P,et al.Free- [11]JI Guoliang,LIU Kang,HE Shizhu,et al.Knowledge base:a collaboratively created graph database for structur- graph completion with adaptive sparse transfer ing human knowledge[Cl//Proceedings of 2008 ACM SIG- matrix[C]//Proceedings of the 30th AAAI Conference on MOD International Conference on Management of Data. Artificial Intelligence.Phoenix,USA,2016:985-991. Vancouver,Canada,2008:1247-1250. [12]FENG Jun,HUANG Minlie,WANG Mingdong,et al. [2]MILLER G A.WordNet:a lexical database for English[J]. Knowledge graph embedding by flexible Communications of the ACM,1995,38(11):39-41. translation[C]/Proceedings of the 15th International Con- [3]CARLSON A,BETTERIDGE J,KISIEL B,et al.Toward ference on Principles of Knowledge Representation and an architecture for never-ending language learning[C]//Pro- Reasoning.Cape Town,South Africa,2016:557-560. ceedings of the 24th AAAl Conference on Artificial Intelli- [13]CHANG Liang,ZHU Manli,GU Tianlong,et al.Know- gence.Atlanta,USA,2010:1306-1313 ledge graph embedding by dynamic translation[J].IEEE [4]BORDES A,WESTON J,USUNIER N.Open question an- access.2017,5:20898-20907 swering with weakly supervised embedding models[C]// [14]TAN Zhen,ZHAO Xiang,FANG Yang,et al.GTrans: Joint European Conference on Machine Learning and generic knowledge graph embedding via multi-state entit- Knowledge Discovery in Databases.Nancy,France,2014: ies and dynamic relation spaces[J].IEEE access,2018: 165-180. 8232-8244. [5]DONG Xin,GABRILOVICH E.HEITZ G,et al.Know- [15]WANG Peifeng,LI Shuangyin,PAN Rong.Incorporat- ledge vault:a web-scale approach to probabilistic know- ing GAN for negative sampling in knowledge representa- ledge fusion[Cl//Proceedings of the 20th ACM SIGKDD tion learning[C]//Proceedings of the 32nd AAAI Confer- International Conference on Knowledge Discovery and ence on Artificial Intelligence.New Orleans,USA,2018: Data Mining.New York,USA,2014:601-610. 2005-2012 [6]BORDES A,USUNIER N,GARCIA-DURAN A,et al. [16]HARTIGAN J A,WONG M A.Algorithm AS 136:a K- Translating embeddings for modeling multi-relational Means clustering algorithm[J.Journal of the royal statist- data[C]//International Conference on Neural Information ical society,.1979,28(1):100-108
种相似性负采样方法用于提高负例三元组的质 量。与随机抽样相比,相似性负采样在很大程度 上提高了替换实体与被替换实体间的相似性,从 而提高了负例三元组的质量。在训练时,相似性 负采样生成的高质量负例三元组促进了模型对实 体与关系特征的学习。通过将相似性负采样与 TransE 模型结合得到 TransE-SNS 模型。我们的 方法能够通过高质量的负例三元组充分获取实体 有效特征,同时忽略了低质量的负例三元组。实 验结果表明,TransE-SNS 模型在链路预测与三元 组分类任务中均取得了较优的性能。特别是,相 较于基础模型 TransE,引入相似性负采样后对模 型性能具有较大提升。并且,TransE-SNS 模型与 TransE 一样简单且有效,具有较强的可行性与鲁 棒性。但是由于 K-Means 聚类算法本身在 K 值选 择以及对数据具有一定要求,造成相似性负采样 对于较为稀疏的大规模知识图谱较难实现相似实 体的聚类与采样,从而影响模型的整体效果。在 以后将进一步探索不同聚类算法和知识图嵌入模 型的组合,得到一个更加有效的知识图谱嵌入 模型。 参考文献: BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, Canada, 2008: 1247–1250. [1] MILLER G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39–41. [2] CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an architecture for never-ending language learning[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence. Atlanta, USA, 2010: 1306–1313. [3] BORDES A, WESTON J, USUNIER N. Open question answering with weakly supervised embedding models[C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Nancy, France, 2014: 165–180. [4] DONG Xin, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014: 601–610. [5] BORDES A, USUNIER N, GARCIA-DURÁN A, et al. Translating embeddings for modeling multi-relational data[C]//International Conference on Neural Information [6] Processing Systems. South Lake Tahoe, USA, 2013: 2787–2795. 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进 展 [J]. 计算机研究与发展, 2016, 53(2): 247–261. LIU Zhiyuan, SUN Maosong, LIN Yankai, et al. Knowledge representation learning: a review[J]. Journal of computer research and development, 2016, 53(2): 247–261. [7] WANG Zhen, ZHANG Jianwen, FENG Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada, 2014: 1112–1119. [8] LIN Yankai, LIU Zhiyuan, SUN Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, USA, 2015: 2181–2187. [9] JI Guoliang, HE Shizhu, XU Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China, 2015: 687–696. [10] JI Guoliang, LIU Kang, HE Shizhu, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, USA, 2016: 985–991. [11] FENG Jun, HUANG Minlie, WANG Mingdong, et al. Knowledge graph embedding by flexible translation[C]//Proceedings of the 15th International Conference on Principles of Knowledge Representation and Reasoning. Cape Town, South Africa, 2016: 557–560. [12] CHANG Liang, ZHU Manli, GU Tianlong, et al. Knowledge graph embedding by dynamic translation[J]. IEEE access, 2017, 5: 20898–20907. [13] TAN Zhen, ZHAO Xiang, FANG Yang, et al. GTrans: generic knowledge graph embedding via multi-state entities and dynamic relation spaces[J]. IEEE access, 2018: 8232–8244. [14] WANG Peifeng, LI Shuangyin, PAN Rong. Incorporating GAN for negative sampling in knowledge representation learning[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018: 2005–2012. [15] HARTIGAN J A, WONG M A. Algorithm AS 136: a KMeans clustering algorithm[J]. Journal of the royal statistical society, 1979, 28(1): 100–108. [16] 第 2 期 饶官军,等:基于相似性负采样的知识图谱嵌入 ·225·
·226· 智能系统学报 第15卷 [17]HAMERLY G,ELKAN C.Alternatives to the K-Means 作者简介: algorithm that find better clusterings[C]//Proceedings of 饶官军,硕士研究生,主要研究方 the 11th International Conference on Information and 向为知识图谱、表示学习。 Knowledge Management.McLean,USA,2002:600-607. [18]CELEBI M E,KINGRAVI H A,VELA P A.A comparat- ive study of efficient initialization methods for the k- means clustering algorithm[J].Expert systems with ap- plications,2013,40(1y:200-210. 古天龙,教授.博士生导师,主要 [19]DUCHI J,HAZAN E,SINGER Y.Dearly adaptive sub- 研究方向为形式化方法、知识工程与 gradient methods for online learning and stochastic optim- 符号推理、协议工程与移动计算、可信 ization[J].Journal of machine learning research,2011, 泛在网络、嵌入式系统。主持国家 12(7):257-269. 863计划项目、国家自然科学基金项 [20]BORDES A.GLOROT X.WESTON J,et al.A semantic 目、国防预研重点项目、国防预研基金 项目等30余项,出版学术著作3部. matching energy function for learning with multi-relation- 发表学术论文130余篇。 al data:application to word-sense disambiguation[J].Ma- chine learning,2014,94(2):233-259. 常亮,教授,博士,中国计算机学 [21]SOCHER R,CHEN Dangi,MANNING C D,et al.Reas- 会高级会员,主要研究方向为数据与 知识工程、形式化方法、智能系统。主 oning with neural tensor networks for knowledge base 持并完成国家自然科学基金项目 completion[C]//Proceedings of the 26th International 1项、广西省自然科学基金项目 Conference on Neural Information Processing Systems. 1项。发表学术论文70余篇。 Lake Tahoe.USA.2013:926-934
HAMERLY G, ELKAN C. Alternatives to the K-Means algorithm that find better clusterings[C]//Proceedings of the 11th International Conference on Information and Knowledge Management. McLean, USA, 2002: 600–607. [17] CELEBI M E, KINGRAVI H A, VELA P A. A comparative study of efficient initialization methods for the kmeans clustering algorithm[J]. Expert systems with applications, 2013, 40(1): 200–210. [18] DUCHI J, HAZAN E, SINGER Y. Dearly adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of machine learning research, 2011, 12(7): 257–269. [19] BORDES A, GLOROT X, WESTON J, et al. A semantic matching energy function for learning with multi-relational data: application to word-sense disambiguation[J]. Machine learning, 2014, 94(2): 233–259. [20] SOCHER R, CHEN Danqi, MANNING C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2013: 926–934. [21] 作者简介: 饶官军,硕士研究生,主要研究方 向为知识图谱、表示学习。 古天龙,教授,博士生导师,主要 研究方向为形式化方法、知识工程与 符号推理、协议工程与移动计算、可信 泛在网络、嵌入式系统。主持国家 863 计划项目、国家自然科学基金项 目、国防预研重点项目、国防预研基金 项目等 30 余项,出版学 术著作 3 部, 发表学术论文 130 余篇。 常亮,教授,博士,中国计算机学 会高级会员,主要研究方向为数据与 知识工程、形式化方法、智能系统。主 持并完成国家自然科学基金项目 1 项、广西省自然科学基金项 目 1 项。发表学术论文 70 余篇。 ·226· 智 能 系 统 学 报 第 15 卷