∗ ∗ ∗ ∗ ∗ 结构越相似，那么这 2 个实体也越相似。例如， e1

正在加载图片...

·220· 智能系统学报第15卷结构越相似，那么这2个实体也越相似。例如， e,与e2的局部结构中分别含有6个关系，并且这些关系均相同，其中存在4个关系构成了相似的三元组(*，r,e、(*,r,e)(e,5,*)和(*，s,e,其中*可以用e或e代替，1个关系连接e1与e2的三元组(e2,ro,e),1个关系连接着不同的尾实体构成2个三元组(e,ro,e)和(e2,rs,e)。通过对比 e1与e2的局部结构可以判定e1与e2的相似性较高。与此相同，通过对比e,与e的局部结构，我图1知识图谱们可以判定e,与e的相似性较低。 Fig.1 Knowledge graph 111 es (a)e,的局部结构 (b)e,的局部结构 (c)e,的局部结构图2实体的局部结构 Fig.2 Local structure of the entity 2.1.2实体向量的相似性中相距较远。综上所述，在向量空间中，对于任当利用TransE模型将知识图谱嵌入到向量意两个实体，如果他们受到的相同约束越多，那空间中时，对于知识图谱中的每一个三元组(h,, 么这两个实体向量之间的距离越小，即实体越相 )应当满足h+r≈t。对于头实体h而言，它在向似，反之亦然。量空间中的向量h≈t-r,即h可以由t-r得到， 2.2随机抽样的局限性将t-r称之为h的空间约束。与此相同，h+r是现有知识图谱嵌入模型都是采用随机抽样来 t的空间约束，t-h是r的空间约束。因此，给定生成一个负例三元组，即采用相同概率从实体集一个知识图谱，通过h+r≈t将知识图谱中的实中抽取一个实体替换正例三元组中的头实体（或体与关系嵌入到向量空间时，可以将知识图谱中尾实体)。然而，通过该方式生成负例三元组会存实体的特征与关系的特征在向量空间中的特征表在一个问题：可能会在训练中生成大量的低质量示分别称之为实体向量与关系向量。例如图2中负例三元组。导致上述问题的关键在于随机抽样的实体e,与e2,当他们嵌入到向量空间中时，需忽略了实体之间的相似性。抽取的替换实体与被要满足4个相同的空间约束，即*≈e4-r、替换实体之间相似性可能是很低的，如图1中的 *≈e6-r2、*≈e1-r5和*≈e3-rg,其中*可以用e1 实体e,与e。一个低质量的负例三元组相对于正或e2替换，在这4个相同的空间约束下促使e,与例三元组来说是极易区分的，这样的负例三元组 e2趋近于相等。但与此同时，e还需满足空间约对于学习知识图谱的有效嵌人是没有作用的。为束e1≈e2-r,和e1≈es-r6,e2还需满足空间约束了深入理解高质量的负例三元组与低质量负例三 e2≈e1-ro和e2≈e,-r6,在这2个不同的空间约束元组的区别，通过一个具体的例子进行阐述。下促使e,与e2又存在着一定的区别。因此，向量假设在知识图谱中有一个正例三元组（广西，空间中的e1与e2,在相同的空间约束下驱使他们省会，南宁)，根据随机抽样原则，选择替换尾实体接近于相等，同时又在不同的约束下迫使他们产南宁来生成负例三元组。首先，通过移除南宁会生一定的区别，这使得e1与e2在靠近的同时又存得到一个不完整的三元组（广西，省会，？）。然在一些距离。然而，对于图2中的实体e1与e3,e1 后，以相同的概率从实体集中抽取一个实体进行在向量空间中受到的所有空间约束均与e受到尾实体填充，假设抽取到一个Person类型实体马空间约束完全不同，这将使得e1与e在向量空间云，我们就会得到一个奇怪的负例三元组（广西，∗ ∗ ∗ ∗ ∗ 结构越相似，那么这 2 个实体也越相似。例如， e1 与 e2 的局部结构中分别含有 6 个关系，并且这些关系均相同，其中存在 4 个关系构成了相似的三元组 ( , r1 , e4 )、( , r2 , e6 )、(e11, r5 , ) 和 ( , r8 , e3 )，其中可以用 e1 或 e2 代替，1 个关系连接 e1 与 e2 的三元组 (e2 , r0 , e1 )，1 个关系连接着不同的尾实体构成 2 个三元组 (e1 , r6 , e5 ) 和 (e2 , r6 , e7 )。通过对比 e1 与 e2 的局部结构可以判定 e1 与 e2 的相似性较高。与此相同，通过对比 e1 与 e3 的局部结构，我们可以判定 e1 与 e3 的相似性较低。 e6 e2 e11 e3 e5 e4 e1 r1 r6 r8 r5 r0 r2 e2 e7 e8 e9 e3 e e10 5 e1 e11 r8 r8 r5 r4 r3 r2 r7 r4 e6 e2 e7 e3 e11 e1 e4 r2 r6 r8 r5 r0 r1 (a) e1的局部结构 (b) e2的局部结构 (c) e3的局部结构图 2 实体的局部结构 Fig. 2 Local structure of the entity 2.1.2 实体向量的相似性 h+ r ≈ t h ≈ t − r h t − r t − r h h+ r t t − h r h+ r ≈ t ∗ ≈ e4 − r1 ∗ ≈ e6 − r2 ∗ ≈ e11 − r5 ∗ ≈ e3 − r8 ∗ e1 e2 e1 e2 e1 e1 ≈ e2 − r0 e1 ≈ e5 − r6 e2 e2 ≈ e1 − r0 e2 ≈ e7 − r6 e1 e2 e1 e2 e1 e2 e1 e1 e3 当利用 TransE 模型将知识图谱嵌入到向量空间中时，对于知识图谱中的每一个三元组 (h, r, t) 应当满足。对于头实体 h 而言，它在向量空间中的向量，即可以由得到，将称之为的空间约束。与此相同，是的空间约束，是的空间约束。因此，给定一个知识图谱，通过将知识图谱中的实体与关系嵌入到向量空间时，可以将知识图谱中实体的特征与关系的特征在向量空间中的特征表示分别称之为实体向量与关系向量。例如图 2 中的实体 e1 与 e2，当他们嵌入到向量空间中时，需要满足 4 个相同的空间约束，即、、和，其中可以用或替换，在这 4 个相同的空间约束下促使与趋近于相等。但与此同时，还需满足空间约束和，还需满足空间约束和，在这 2 个不同的空间约束下促使与又存在着一定的区别。因此，向量空间中的与，在相同的空间约束下驱使他们接近于相等，同时又在不同的约束下迫使他们产生一定的区别，这使得与在靠近的同时又存在一些距离。然而，对于图 2 中的实体 e1 与 e3，在向量空间中受到的所有空间约束均与 e3 受到空间约束完全不同，这将使得与在向量空间中相距较远。综上所述，在向量空间中，对于任意两个实体，如果他们受到的相同约束越多，那么这两个实体向量之间的距离越小，即实体越相似，反之亦然。 2.2 随机抽样的局限性现有知识图谱嵌入模型都是采用随机抽样来生成一个负例三元组，即采用相同概率从实体集中抽取一个实体替换正例三元组中的头实体 (或尾实体)。然而，通过该方式生成负例三元组会存在一个问题：可能会在训练中生成大量的低质量负例三元组。导致上述问题的关键在于随机抽样忽略了实体之间的相似性。抽取的替换实体与被替换实体之间相似性可能是很低的，如图 1 中的实体 e1 与 e3。一个低质量的负例三元组相对于正例三元组来说是极易区分的，这样的负例三元组对于学习知识图谱的有效嵌入是没有作用的。为了深入理解高质量的负例三元组与低质量负例三元组的区别，通过一个具体的例子进行阐述。假设在知识图谱中有一个正例三元组 (广西，省会，南宁)，根据随机抽样原则，选择替换尾实体南宁来生成负例三元组。首先，通过移除南宁会得到一个不完整的三元组 (广西，省会，？)。然后，以相同的概率从实体集中抽取一个实体进行尾实体填充，假设抽取到一个 Person 类型实体马云，我们就会得到一个奇怪的负例三元组 (广西， e6 r2 r6 r3 r7 r2 r3 r4 r6 r8 r5 r8 r4 r5 r1 r2 r1 r0 r5 e2 e7 e8 e9 e10 e3 e5 e1 e11 e4 图 1 知识图谱 Fig. 1 Knowledge graph ·220· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【知识工程】基于相似性负采样的知识图谱嵌入