正在加载图片...
·220· 智能系统学报 第15卷 结构越相似,那么这2个实体也越相似。例如, e,与e2的局部结构中分别含有6个关系,并且这 些关系均相同,其中存在4个关系构成了相似的 三元组(*,r,e、(*,r,e)(e,5,*)和(*,s,e,其 中*可以用e或e代替,1个关系连接e1与e2的 三元组(e2,ro,e),1个关系连接着不同的尾实体 构成2个三元组(e,ro,e)和(e2,rs,e)。通过对比 e1与e2的局部结构可以判定e1与e2的相似性较 高。与此相同,通过对比e,与e的局部结构,我 图1知识图谱 们可以判定e,与e的相似性较低。 Fig.1 Knowledge graph 111 es (a)e,的局部结构 (b)e,的局部结构 (c)e,的局部结构 图2实体的局部结构 Fig.2 Local structure of the entity 2.1.2实体向量的相似性 中相距较远。综上所述,在向量空间中,对于任 当利用TransE模型将知识图谱嵌入到向量 意两个实体,如果他们受到的相同约束越多,那 空间中时,对于知识图谱中的每一个三元组(h,, 么这两个实体向量之间的距离越小,即实体越相 )应当满足h+r≈t。对于头实体h而言,它在向 似,反之亦然。 量空间中的向量h≈t-r,即h可以由t-r得到, 2.2随机抽样的局限性 将t-r称之为h的空间约束。与此相同,h+r是 现有知识图谱嵌入模型都是采用随机抽样来 t的空间约束,t-h是r的空间约束。因此,给定 生成一个负例三元组,即采用相同概率从实体集 一个知识图谱,通过h+r≈t将知识图谱中的实 中抽取一个实体替换正例三元组中的头实体(或 体与关系嵌入到向量空间时,可以将知识图谱中 尾实体)。然而,通过该方式生成负例三元组会存 实体的特征与关系的特征在向量空间中的特征表 在一个问题:可能会在训练中生成大量的低质量 示分别称之为实体向量与关系向量。例如图2中 负例三元组。导致上述问题的关键在于随机抽样 的实体e,与e2,当他们嵌入到向量空间中时,需 忽略了实体之间的相似性。抽取的替换实体与被 要满足4个相同的空间约束,即*≈e4-r、 替换实体之间相似性可能是很低的,如图1中的 *≈e6-r2、*≈e1-r5和*≈e3-rg,其中*可以用e1 实体e,与e。一个低质量的负例三元组相对于正 或e2替换,在这4个相同的空间约束下促使e,与 例三元组来说是极易区分的,这样的负例三元组 e2趋近于相等。但与此同时,e还需满足空间约 对于学习知识图谱的有效嵌人是没有作用的。为 束e1≈e2-r,和e1≈es-r6,e2还需满足空间约束 了深入理解高质量的负例三元组与低质量负例三 e2≈e1-ro和e2≈e,-r6,在这2个不同的空间约束 元组的区别,通过一个具体的例子进行阐述。 下促使e,与e2又存在着一定的区别。因此,向量 假设在知识图谱中有一个正例三元组(广西, 空间中的e1与e2,在相同的空间约束下驱使他们 省会,南宁),根据随机抽样原则,选择替换尾实体 接近于相等,同时又在不同的约束下迫使他们产 南宁来生成负例三元组。首先,通过移除南宁会 生一定的区别,这使得e1与e2在靠近的同时又存 得到一个不完整的三元组(广西,省会,?)。然 在一些距离。然而,对于图2中的实体e1与e3,e1 后,以相同的概率从实体集中抽取一个实体进行 在向量空间中受到的所有空间约束均与e受到 尾实体填充,假设抽取到一个Person类型实体马 空间约束完全不同,这将使得e1与e在向量空间 云,我们就会得到一个奇怪的负例三元组(广西,∗ ∗ ∗ ∗ ∗ 结构越相似,那么这 2 个实体也越相似。例如, e1 与 e2 的局部结构中分别含有 6 个关系,并且这 些关系均相同,其中存在 4 个关系构成了相似的 三元组 ( , r1 , e4 )、( , r2 , e6 )、(e11, r5 , ) 和 ( , r8 , e3 ),其 中 可以用 e1 或 e2 代替,1 个关系连接 e1 与 e2 的 三元组 (e2 , r0 , e1 ),1 个关系连接着不同的尾实体 构成 2 个三元组 (e1 , r6 , e5 ) 和 (e2 , r6 , e7 )。通过对比 e1 与 e2 的局部结构可以判定 e1 与 e2 的相似性较 高。与此相同,通过对比 e1 与 e3 的局部结构,我 们可以判定 e1 与 e3 的相似性较低。 e6 e2 e11 e3 e5 e4 e1 r1 r6 r8 r5 r0 r2 e2 e7 e8 e9 e3 e e10 5 e1 e11 r8 r8 r5 r4 r3 r2 r7 r4 e6 e2 e7 e3 e11 e1 e4 r2 r6 r8 r5 r0 r1 (a) e1的局部结构 (b) e2的局部结构 (c) e3的局部结构 图 2 实体的局部结构 Fig. 2 Local structure of the entity 2.1.2 实体向量的相似性 h+ r ≈ t h ≈ t − r h t − r t − r h h+ r t t − h r h+ r ≈ t ∗ ≈ e4 − r1 ∗ ≈ e6 − r2 ∗ ≈ e11 − r5 ∗ ≈ e3 − r8 ∗ e1 e2 e1 e2 e1 e1 ≈ e2 − r0 e1 ≈ e5 − r6 e2 e2 ≈ e1 − r0 e2 ≈ e7 − r6 e1 e2 e1 e2 e1 e2 e1 e1 e3 当利用 TransE 模型将知识图谱嵌入到向量 空间中时,对于知识图谱中的每一个三元组 (h, r, t) 应当满足 。对于头实体 h 而言,它在向 量空间中的向量 ,即 可以由 得到, 将 称之为 的空间约束。与此相同, 是 的空间约束, 是 的空间约束。因此,给定 一个知识图谱,通过 将知识图谱中的实 体与关系嵌入到向量空间时,可以将知识图谱中 实体的特征与关系的特征在向量空间中的特征表 示分别称之为实体向量与关系向量。例如图 2 中 的实体 e1 与 e2,当他们嵌入到向量空间中时,需 要 满 足 4 个相同的空间约束,即 、 、 和 ,其中 可以用 或 替换,在这 4 个相同的空间约束下促使 与 趋近于相等。但与此同时, 还需满足空间约 束 和 , 还需满足空间约束 和 ,在这 2 个不同的空间约束 下促使 与 又存在着一定的区别。因此,向量 空间中的 与 ,在相同的空间约束下驱使他们 接近于相等,同时又在不同的约束下迫使他们产 生一定的区别,这使得 与 在靠近的同时又存 在一些距离。然而,对于图 2 中的实体 e1 与 e3, 在向量空间中受到的所有空间约束均与 e3 受到 空间约束完全不同,这将使得 与 在向量空间 中相距较远。综上所述,在向量空间中,对于任 意两个实体,如果他们受到的相同约束越多,那 么这两个实体向量之间的距离越小,即实体越相 似,反之亦然。 2.2 随机抽样的局限性 现有知识图谱嵌入模型都是采用随机抽样来 生成一个负例三元组,即采用相同概率从实体集 中抽取一个实体替换正例三元组中的头实体 (或 尾实体)。然而,通过该方式生成负例三元组会存 在一个问题:可能会在训练中生成大量的低质量 负例三元组。导致上述问题的关键在于随机抽样 忽略了实体之间的相似性。抽取的替换实体与被 替换实体之间相似性可能是很低的,如图 1 中的 实体 e1 与 e3。一个低质量的负例三元组相对于正 例三元组来说是极易区分的,这样的负例三元组 对于学习知识图谱的有效嵌入是没有作用的。为 了深入理解高质量的负例三元组与低质量负例三 元组的区别,通过一个具体的例子进行阐述。 假设在知识图谱中有一个正例三元组 (广西, 省会,南宁),根据随机抽样原则,选择替换尾实体 南宁来生成负例三元组。首先,通过移除南宁会 得到一个不完整的三元组 (广西,省会,?)。然 后,以相同的概率从实体集中抽取一个实体进行 尾实体填充,假设抽取到一个 Person 类型实体马 云,我们就会得到一个奇怪的负例三元组 (广西, e6 r2 r6 r3 r7 r2 r3 r4 r6 r8 r5 r8 r4 r5 r1 r2 r1 r0 r5 e2 e7 e8 e9 e10 e3 e5 e1 e11 e4 图 1 知识图谱 Fig. 1 Knowledge graph ·220· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有