第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202008007 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210629.1130.002.html 结合卷积特征提取和路径语义的知识推理 陈新元2,谢晟祎3,陈庆强,刘羽 (1.闽江学院计算机与控制工程学院,福建福州350121:2.福州墨尔本理工职业学院信息工程系,福建福州 350121;3.福建农业职业技术学院教学科研处,福建福州350181,4.福建工程学院信息科学与工程学院,福建 福州350118:5.福州墨尔本理工职业学院现代教育技术中心,福建福州350121) 摘要:传统特征提取方法大多基于嵌入表达,常忽略了路径语义:基于关系路径的推理方法多考虑单一路径,性 能仍有提升空间。为进一步提升知识推理能力,使用自定义的卷积神经网络框架编码随机游走生成的多条路 径,利用双向长短期记忆网络的隐藏状态合并向量序列,结合注意力机制实现差异化的多路径语义信息集成,计 算候选关系与实体对的概率得分,用于判断三元组是否成立。NELL995和FB15k-237数据集上的链路预测结 果证明方案可行,F等指标相比主流模型也有一定优势;进一步在大型数据集和稀疏数据集上验证方案可行。 关键词:知识图谱;知识推理;嵌入表示;路径信息:卷积神经网络;长短期记忆网络;注意力机制;链路预测 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)04-0729-10 中文引用格式:陈新元,谢晟祎,陈庆强,等.结合卷积特征提取和路径语义的知识推理J引.智能系统学报,2021,16(4): 729-738 英文引用格式:CHEN Xinyuan,XIE Shengyi,.CHEN Qingqiang,.etal.Knowledge-based inference on convolutional feature extrac-. tion and path semantics Jl.CAAI transactions on intelligent systems,2021,16(4):729-738. Knowledge-based inference on convolutional feature extraction and path semantics CHEN Xinyuan,XIE Shengyi,CHEN Qingqiang LIU Yu' (1.College of Computer and Control Engineering,Minjiang University,Fuzhou 350121,China;2.Department of Information Engin- eering,Fuzhou Melbourne Polytechnic,Fuzhou 350121,China;3.Teaching and Research Division,,Fujian Vocational College of Agriculture,Fuzhou 350181,China;4.Information Science and Engineering College,Fujian University of Technology,Fuzhou 350118.China:5.Modern Education Technical Center,Fuzhou Melbourne Polytechnic,Fuzhou 350121.China) Abstract:Embedding-based feature extraction methods usually ignore path semantics,there is still scope of improve- ment of relational path-based algorithms,which generally consider single paths.To further boost the performance of knowledge-based inferences,a self-defined convolutional neural network framework was employed to encode multiple paths generated by random walks into low-dimensional representations that are merged to form a single vector of hid- den states with long-short term memory (LSTM);this is accomplished by combining the attention mechanism-based processes.Semantic information of multiple paths is integrated with various weight distributions used for measuring probability scores of triples comprising candidate relations and entity pairs to determine whether the triples hold or not. Link prediction experiments performed on NELL995 and FB15k-237 demonstrated the capability of the proposed mod- el.Scores of F and other indicators also confirmed the advantages of our framework compared with mainstream mod- els.The model was further tested on FC17 and NELL-One. Keywords:knowledge graph;knowledge inference;embedding representation;path information;convolutional neural network(CNN);long-short term memory (LSTM);attention mechanism;link prediction 收稿日期:2020-08-06.网络出版日期:2021-06-29. 知识库(knowledge base,KB)以三元组的形 基金项目:中国高等教育学会2020年度中外合作办学研究课 题(ZWHZBX202003). 式编码事实,三元组由实体和关系组成。主流知 通信作者:陈庆强.E-mail:3204193260@qq.com 识库(如NELL、YAGO、Freebase!等)在语义
DOI: 10.11992/tis.202008007 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210629.1130.002.html 结合卷积特征提取和路径语义的知识推理 陈新元1,2,谢晟祎3 ,陈庆强4 ,刘羽5 (1. 闽江学院 计算机与控制工程学院,福建 福州 350121; 2. 福州墨尔本理工职业学院 信息工程系,福建 福州 350121; 3. 福建农业职业技术学院 教学科研处,福建 福州 350181; 4. 福建工程学院 信息科学与工程学院,福建 福州 350118; 5. 福州墨尔本理工职业学院 现代教育技术中心,福建 福州 350121) 摘 要:传统特征提取方法大多基于嵌入表达,常忽略了路径语义;基于关系路径的推理方法多考虑单一路径,性 能仍有提升空间。为进一步提升知识推理能力,使用自定义的卷积神经网络框架编码随机游走生成的多条路 径,利用双向长短期记忆网络的隐藏状态合并向量序列,结合注意力机制实现差异化的多路径语义信息集成,计 算候选关系与实体对的概率得分,用于判断三元组是否成立。NELL995 和 FB15k-237 数据集上的链路预测结 果证明方案可行,F1 等指标相比主流模型也有一定优势;进一步在大型数据集和稀疏数据集上验证方案可行。 关键词:知识图谱;知识推理;嵌入表示;路径信息;卷积神经网络;长短期记忆网络;注意力机制;链路预测 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)04−0729−10 中文引用格式:陈新元, 谢晟祎, 陈庆强, 等. 结合卷积特征提取和路径语义的知识推理 [J]. 智能系统学报, 2021, 16(4): 729–738. 英文引用格式:CHEN Xinyuan, XIE Shengyi, CHEN Qingqiang, et al. Knowledge-based inference on convolutional feature extraction and path semantics[J]. CAAI transactions on intelligent systems, 2021, 16(4): 729–738. Knowledge-based inference on convolutional feature extraction and path semantics CHEN Xinyuan1,2 ,XIE Shengyi3 ,CHEN Qingqiang4 ,LIU Yu5 (1. College of Computer and Control Engineering, Minjiang University, Fuzhou 350121, China; 2. Department of Information Engineering, Fuzhou Melbourne Polytechnic, Fuzhou 350121, China; 3. Teaching and Research Division,, Fujian Vocational College of Agriculture, Fuzhou 350181, China; 4. Information Science and Engineering College, Fujian University of Technology, Fuzhou 350118, China; 5. Modern Education Technical Center, Fuzhou Melbourne Polytechnic, Fuzhou 350121, China) Abstract: Embedding-based feature extraction methods usually ignore path semantics; there is still scope of improvement of relational path-based algorithms, which generally consider single paths. To further boost the performance of knowledge-based inferences, a self-defined convolutional neural network framework was employed to encode multiple paths generated by random walks into low-dimensional representations that are merged to form a single vector of hidden states with long-short term memory (LSTM); this is accomplished by combining the attention mechanism-based processes. Semantic information of multiple paths is integrated with various weight distributions used for measuring probability scores of triples comprising candidate relations and entity pairs to determine whether the triples hold or not. Link prediction experiments performed on NELL995 and FB15k-237 demonstrated the capability of the proposed model. Scores of F1 and other indicators also confirmed the advantages of our framework compared with mainstream models. The model was further tested on FC17 and NELL-One. Keywords: knowledge graph; knowledge inference; embedding representation; path information; convolutional neural network (CNN); long-short term memory (LSTM); attention mechanism; link prediction 知识库 (knowledge base, KB)[1] 以三元组的形 式编码事实,三元组由实体和关系组成。主流知 识库 (如 NELL[2] 、YAGO[3] 、Freebase[4] 等) 在语义 收稿日期:2020−08−06. 网络出版日期:2021−06−29. 基金项目:中国高等教育学会 2020 年度中外合作办学研究课 题 (ZWHZBX202003). 通信作者:陈庆强. E-mail:3204193260@qq.com. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·730· 智能系统学报 第16卷 搜索和问题解答等领域应用广泛。 w,以提高表达能力。 然而,现有知识库缺失大量事实,即三元组不 1.2神经网络模型 完整,缺少实体或关系例。知识图谱补全(know 近年来,在自然语言处理(natural language ledge graph completion,.KGC)旨在解决该问题, processing,NLP)领域,最初用于计算机视觉的 通过提取局部模式或语义特征,用已知信息生成 CNN大放光彩,其参数规模和计算开销远少于 新的有效事实0,许多学者对KGC的核心概 全连接神经网络。ConvE在ComplEx!的基础上 念、关键问题、主流技术和未来方向进行了分析、 引入CNN,将'w、",转化并拼接后作为卷积层输 总结和展望21切。模式提取借助贝叶斯扩展或张 入,过滤器提取特征映射张量后,将其向量化并 量矩阵分解增强表达能力,但往往忽略了路径 与",计算点积,得到三元组评分。ConvE的二维 携带的语义信息,经典模型如RESCAL TransE、 卷积被证实能加强实体/关系间的交互,更好地提 DistMult7和ConvE!。上述模型大多忽略路径 取关系属性用于学习嵌入表示。 携带的语义信息。 13附加语义模型 在知识推理中,实体对间的多条关系路径所 上述模型大多只考虑直接关联,忽略了关系 携带的语义信息有助于判定三元组的有效性0。 路径蕴含的语义信息4.。Zhang等B认为,在复 Neelakantan等2u和Das等2al使用循环神经网络 杂现实场景中进行推理,集成关系路径的丰富语 (recurrent neural networks,RNN)进行关系路径嵌 义信息很有必要;Xiog等m则认为知识库的持 入以减小计算开销。由于常规RNN无法学习到 续动态增长和稀疏性决定了few-shot、one-shot甚 长序列的语义依赖,Hochreiter等2)提出了LSTM 至是zero-shot的推理需求,而语义信息等辅助知 (long short-.term memory),引入门控结构计算遗忘 识有助于实现这类推理。Lao等9.20验证了关系 和更新的信息。Xu等21将注意力机制引入图像 路径对知识补全的辅助作用:使用深度优先的随 物体识别;目前该机制已应用到机器翻译和知识 机游走算法生成路径,使用逻辑回归或决策树等 补全。Xiong等2结合嵌入模型和路径模型的优 二分类方法训练并预测链路。关系路径后续也有 点,使用强化学习框架,在TransE的基础上将智 许多改进研究B-3,如Das等Iao提出MINERVA 能体编码至连续空间中,通过最优关系采样和路 方案,在知识图遍历中使用历史路径信息,Lin等 径扩展进行推理,同时设计了自定义的奖励函数, 在其基础上改进了奖励函数。此外,Lin等2和 兼顾局部模式提取和语义关联识别262。 Luo等1将关系路径与TransE结合,进一步提升 本文设计了PKICLA方案(path-based know- 知识表达能力。然而,多数相关研究将路径视为 ledge inference with CNN,LSTM and attention mech- 原子性特征,导致特征矩阵的规模庞大,计算开 anism),结合卷积神经网络(convolutional neural 销高44。 networks,CNN)和双向LSTM实现基于关系路径 1.4 融合模型 嵌入的局部特征提取和向量序列合并,同时借助 RNN原本用于处理序列数据,在语音识别、 注意力机制实现多路径权重分配,集成关系语义 NLP和连续图像处理等领域取得成功,因此 评分,在NELL995和FB15k-237数据集上进行链 Neelakantan等提出Path-RNN,将路径分解为关 路预测,比较PKICLA与其他主流模型的性能。 系序列,用作RNN的输入,通过层内的参数共享 1相关研究 降低计算开销,选择得分最高的路径(Max运 算)以补全缺失三元组。然而,单一路径可能无 1.1嵌入模型 法提供足够的语义参照,因此Das等2四使用Mean KGC中,嵌人模型的基本思路是学习节点和 和LogSumExp等指标集成多路径信息,但忽略了 关系的低维矢量表示,保留原有结构信息和知识 不同路径与候选关系的语义关联程度存在差异。 约束,如TransE将关系映射为平移向量,认为若 由于常规RNN存在梯度消失问题,难以学习 三元组成立,则平移后的头部向量应靠近尾部向 到长距离的语义依赖关系,因此LSTM模型P)引 量,即yh+y,≈,其中yh、”,、,是实体和关系的 入门控结构计算遗忘和更新的信息,后续产生了 嵌入向量表示。三元组局部特征在各向量同一维 许多变种6。 度的映射中得以保留。许多模型对TransE进行 近来用于调整资源分配的注意力机制也在 了优化,TransH9为关系分配超平面w,以体现实 NLP领域得到应用47,Bahdanau等)和Vaswani 体的角色差异,TransR3o使用投影矩阵W,替换 等9将之用于机器翻译的解码器设计;Jiang等网
搜索[5] 和问题解答[6] 等领域[7] 应用广泛。 然而,现有知识库缺失大量事实,即三元组不 完整,缺少实体或关系[8]。知识图谱补全 (knowledge graph completion, KGC)[9] 旨在解决该问题, 通过提取局部模式或语义特征,用已知信息生成 新的有效事实[10-11] ,许多学者对 KGC 的核心概 念、关键问题、主流技术和未来方向进行了分析、 总结和展望[12-13]。模式提取借助贝叶斯扩展或张 量/矩阵分解[14] 增强表达能力,但往往忽略了路径 携带的语义信息,经典模型如 RESCAL[15] 、TransE[16] 、 DistMult[17] 和 ConvE[18]。上述模型大多忽略路径 携带的语义信息。 在知识推理中,实体对间的多条关系路径所 携带的语义信息有助于判定三元组的有效性[19-20]。 Neelakantan 等 [21] 和 Das 等 [22] 使用循环神经网络 (recurrent neural networks, RNN) 进行关系路径嵌 入以减小计算开销。由于常规 RNN 无法学习到 长序列的语义依赖,Hochreiter 等 [23] 提出了 LSTM (long short-term memory),引入门控结构计算遗忘 和更新的信息。Xu 等 [24] 将注意力机制引入图像 物体识别;目前该机制已应用到机器翻译和知识 补全。Xiong 等 [25] 结合嵌入模型和路径模型的优 点,使用强化学习框架,在 TransE 的基础上将智 能体编码至连续空间中,通过最优关系采样和路 径扩展进行推理,同时设计了自定义的奖励函数, 兼顾局部模式提取和语义关联识别[26-28]。 本文设计了 PKICLA 方案 (path-based knowledge inference with CNN, LSTM and attention mechanism),结合卷积神经网络 (convolutional neural networks, CNN) 和双向 LSTM 实现基于关系路径 嵌入的局部特征提取和向量序列合并,同时借助 注意力机制实现多路径权重分配,集成关系语义 评分,在 NELL995 和 FB15k-237 数据集上进行链 路预测,比较 PKICLA 与其他主流模型的性能。 1 相关研究 1.1 嵌入模型 vh +vr ≈ vt vh vr vt wr Wr KGC 中,嵌入模型的基本思路是学习节点和 关系的低维矢量表示,保留原有结构信息和知识 约束,如 TransE 将关系映射为平移向量,认为若 三元组成立,则平移后的头部向量应靠近尾部向 量,即 ,其中 、 、 是实体和关系的 嵌入向量表示。三元组局部特征在各向量同一维 度的映射中得以保留。许多模型对 TransE 进行 了优化,TransH[29] 为关系分配超平面 以体现实 体的角色差异,TransR[30] 使用投影矩阵 替换 wr 以提高表达能力。 1.2 神经网络模型 vh vr vt 近年来,在自然语言处理 (natural language processing, NLP) 领域,最初用于计算机视觉的 CNN 大放光彩[31] ,其参数规模和计算开销远少于 全连接神经网络。ConvE 在 ComplEx[32] 的基础上 引入 CNN,将 、 转化并拼接后作为卷积层输 入,过滤器提取特征映射张量后,将其向量化并 与 计算点积,得到三元组评分。ConvE 的二维 卷积被证实能加强实体/关系间的交互,更好地提 取关系属性用于学习嵌入表示[33]。 1.3 附加语义模型 上述模型大多只考虑直接关联,忽略了关系 路径蕴含的语义信息[34-35]。Zhang 等 [36] 认为,在复 杂现实场景中进行推理,集成关系路径的丰富语 义信息很有必要;Xiong 等 [37] 则认为知识库的持 续动态增长和稀疏性决定了 few-shot、one-shot 甚 至是 zero-shot 的推理需求,而语义信息等辅助知 识有助于实现这类推理。Lao 等 [19-20] 验证了关系 路径对知识补全的辅助作用:使用深度优先的随 机游走算法生成路径,使用逻辑回归或决策树等 二分类方法训练并预测链路。关系路径后续也有 许多改进研究[38-39] ,如 Das 等 [40] 提出 MINERVA 方案,在知识图遍历中使用历史路径信息,Lin 等 [41] 在其基础上改进了奖励函数。此外,Lin 等 [42] 和 Luo 等 [43] 将关系路径与 TransE 结合,进一步提升 知识表达能力。然而,多数相关研究将路径视为 原子性特征,导致特征矩阵的规模庞大,计算开 销高[44-45]。 1.4 融合模型 RNN 原本用于处理序列数据,在语音识别、 N LP 和连续图像处理等领域取得成功,因 此 Neelakantan 等 [21] 提出 Path-RNN,将路径分解为关 系序列,用作 RNN 的输入,通过层内的参数共享 降低计算开销,选择得分最高的路径 (Max 运 算) 以补全缺失三元组。然而,单一路径可能无 法提供足够的语义参照,因此 Das 等 [22] 使用 Mean 和 LogSumExp 等指标集成多路径信息,但忽略了 不同路径与候选关系的语义关联程度存在差异。 由于常规 RNN 存在梯度消失问题,难以学习 到长距离的语义依赖关系,因此 LSTM 模型[23] 引 入门控结构计算遗忘和更新的信息,后续产生了 许多变种[46]。 近来用于调整资源分配的注意力机制也在 NLP 领域得到应用[47] ,Bahdanau 等 [48] 和 Vaswani 等 [49] 将之用于机器翻译的解码器设计;Jiang 等 [27] ·730· 智 能 系 统 学 报 第 16 卷
第4期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·731· 提出了基于注意力机制的知识推理方案,根据路 径;其次将前、后向LSTM的隐藏状态拼接,合并 径的语义匹配程度为其分配不同的权重。Nath- 关系序列特征,实体对的多条路径相当于在多个 ani等B使用注意力机制提取知识图中的近邻信 整句级别上并行映射:最后使用基于注意力机制 息,用于发现近似关系簇,以及同一实体的角色 的方法集成不同路径与候选关系的语义关联信 差异。 息,计算关系与实体对的概率得分,用于判定三 Wang等Iso和Zhang等B6认为,长距离的多 元组是否成立。 跳推理有助于发掘实体关联,从而提高知识推理 模型在现实场景中的性能,但注意力机制在长序 2 PKICLA 列上的分配机制有待优化,有研究尝试集成上述 PKICLA模型框架如图1所示。在给定实体 框架以取长补短,Zhou等26提出Att-BLSTM用 对和候选关系的前提下,利用CNN将通过随机游 于关系分类,词级嵌入后使用双向LSTM)合并 走得到的实体间多条路径分别依据其关系序列编 句级信息并结合注意力机制评分:Chiu等s使用 码为低维表示,将变长路径映射到定长的向量序 LSTM和CNN的混合模型识别命名实体,降低特 列,保留其局部结构;使用双向LSTM将路径的 征工程的计算量。 特征序列合并为单一向量,减少计算开销;由于 由于基于嵌入特征提取的模型和基于关系路 不同路径与候选关系的语义关联程度不同,结合 径语义的模型各有优点,因此本文在前人工作基 注意力机制计算各路径的相关性并分配权重,加 础上将嵌入表示与语义提取结合,提出PKICLA 权计算关系的状态向量,通过该关系与相应实体 模型,首先使用自定义的CNN框架编码完整路 对的概率得分判定三元组是否有效。 实体对_1.随机游走。路径集合刀 (ese) 2.过滤器 {12,} 卷积操作 嵌入表示 e F P=P1,Pz 1.卷积 2.全连接 步长为2 t内核 候选关系 注意力机制 r n条编码路径 score(p r) 双向LSTM P() 图1 PKICLA模型框架 Fig.1 Model framework of PKICLA 2.1路径关系序列的向量嵌入 ing algorithm)算法得到与候选三元组(e,r,e)的 给定KG包括实体集E和关系集R。三元组 头/尾实体e、e,对应且概率较高的路径。PRA通 (h,r,t)中,h∈E表示头实体或源实体,t∈E表示 过Random Walk,在全图范围内从源实体开始寻 尾实体或目标实体,r∈R表示关系。三元组的向 找并一一列举到达目标实体的长度符合要求的n 量表示为(e,r,e),体现实体和关系的有序链接。 条路径,记录每条路径上的关系和中间实体,完 实体对间可能存在多条路径,因此将路径视作原 整路径π可表示为{e,r1,e1,r2,e2,…,e-1,I,e,…, 子性特征会导致特征矩阵随数据规模上升迅速膨 r,e}eⅡ,其关系序列可表示为{r,2,…,r山其中 张。ConvE使用CNN提取三元组的局部特征,大 (e-l,r,e)表示路径中的第i个三元组。记录不同 大降低了参数规模;本文采用自定义的CNN框架 路径到达目标实体的概率,根据预设阈值进行筛 将路径嵌入低维表示。首先使用PRA(path rank-. 选。Ⅱ表示筛选后的路径集合。不同路径的关系
提出了基于注意力机制的知识推理方案,根据路 径的语义匹配程度为其分配不同的权重。Nathani 等 [34] 使用注意力机制提取知识图中的近邻信 息,用于发现近似关系簇,以及同一实体的角色 差异。 Wang 等 [50] 和 Zhang 等 [36] 认为,长距离的多 跳推理有助于发掘实体关联,从而提高知识推理 模型在现实场景中的性能,但注意力机制在长序 列上的分配机制有待优化,有研究尝试集成上述 框架以取长补短,Zhou 等 [26] 提出 Att-BLSTM 用 于关系分类,词级嵌入后使用双向 LSTM[51] 合并 句级信息并结合注意力机制评分;Chiu 等 [52] 使用 LSTM 和 CNN 的混合模型识别命名实体,降低特 征工程的计算量。 由于基于嵌入特征提取的模型和基于关系路 径语义的模型各有优点,因此本文在前人工作基 础上将嵌入表示与语义提取结合,提出 PKICLA 模型,首先使用自定义的 CNN 框架编码完整路 径;其次将前、后向 LSTM 的隐藏状态拼接,合并 关系序列特征,实体对的多条路径相当于在多个 整句级别上并行映射;最后使用基于注意力机制 的方法集成不同路径与候选关系的语义关联信 息,计算关系与实体对的概率得分,用于判定三 元组是否成立。 2 PKICLA PKICLA 模型框架如图 1 所示。在给定实体 对和候选关系的前提下,利用 CNN 将通过随机游 走得到的实体间多条路径分别依据其关系序列编 码为低维表示,将变长路径映射到定长的向量序 列,保留其局部结构;使用双向 LSTM 将路径的 特征序列合并为单一向量,减少计算开销;由于 不同路径与候选关系的语义关联程度不同,结合 注意力机制计算各路径的相关性并分配权重,加 权计算关系的状态向量,通过该关系与相应实体 对的概率得分判定三元组是否有效。 双向 LSTM 注意力机制 卷积操作 实体对 (es , et ) 嵌入表示 候选关系 r 1. 随机游走 2. 过滤器 r es r1 e1 rt et 1. 卷积 2. 全连接 步长为 2 τ 内核 {c1 , c2 , …, ct} ci=[ci1 , ci2 , …, ciτ] k … hi … … … h1 h1 h1 hi score(pi , r) P(r|es , et ) k 2 k 2 n 条编码路径 r P={p1 , p2 , …, pn} 路径集合 {π1 , π2 , …, πn} pi pi ht ht ht ci c1 ct α1 αi αn k k ∏ … … 图 1 PKICLA 模型框架 Fig. 1 Model framework of PKICLA 2.1 路径关系序列的向量嵌入 (h, r, t) h ∈ E t ∈ E r ∈ R (es ,r, et) 给定 KG 包括实体集 E 和关系集 R。三元组 中, 表示头实体或源实体, 表示 尾实体或目标实体, 表示关系。三元组的向 量表示为 ,体现实体和关系的有序链接。 实体对间可能存在多条路径,因此将路径视作原 子性特征会导致特征矩阵随数据规模上升迅速膨 胀。ConvE 使用 CNN 提取三元组的局部特征,大 大降低了参数规模;本文采用自定义的 CNN 框架 将路径嵌入低维表示。首先使用 PRA(path rank- (es ,r, et) es et n π {es ,r1, e1,r2, e2, ··· , ei−1,ri , ei , ··· , rt , et} ∈ Π {r1,r2, ··· ,rt} (ei−1,ri , ei) i Π ing algorithm) 算法得到与候选三元组 的 头/尾实体 、 对应且概率较高的路径。PRA 通 过 Random Walk,在全图范围内从源实体开始寻 找并一一列举到达目标实体的长度符合要求的 条路径,记录每条路径上的关系和中间实体,完 整路径 可表示为 ,其关系序列可表示为 ,其中 表示路径中的第 个三元组。记录不同 路径到达目标实体的概率,根据预设阈值进行筛 选。 表示筛选后的路径集合。不同路径的关系 第 4 期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·731·
·732· 智能系统学报 第16卷 数不同,取最长的路径,其关系数或关系序列的 集合P={p1,P2,…,pn,P∈R。双向LSTM的输 长度用t表示;将所有路径设为相同长度t,长度 出作为注意力层的输入。 不足的使用零填充。 2.3 基于注意力机制的路径集成 本文使用实体类型对应的向量表示22,进一 主流PRA常使用Max或Mean运算,忽略了 步减小参数规模,同时解决测试集中部分实体在 不同路径提供的推理证据存在差异,因此本文使 训练集中未出现的问题。将头/尾实体对和候选 用Bahdanau等4提出的基于累加性注意力机制 关系通过嵌入矩阵转化为k维向量,即e,e,r∈R, (additive attention)的路径信息集成,该方法对于 作为路径卷积编码的输入。过滤器ω的尺寸 不同区间数值的适应能力优于简单的点积计算语 (size)和步长(stride)对特征提取和计算开销影响 义相关度得分2,。将候选关系的向量表示r与 较大,本文使用统一的w∈R3提取特征,步长为 头/尾实体对的多条路径编码分别匹配,计算每条 2,避免抽取无意义的局部特征。使用多个卷积核 路径的语义相关度得分score(p,r(式(1),进而为 遍历路径,令Ω和τ分别表示卷积核和核数,即 其分配独立权重α(式(2)),加权计算得到候选关 π=2。以路径上所有三元组为单位/窗口,逐个 系的状态向量c(式(3),并以之计算候选关系与 提取其局部模式。拼接所有卷积核提取的特征, 对应头/尾实体对的概率得分P(re,e(式(4),用 路径第i个特征向量可表示为c1=[c1,c2,…,crJ, c∈R,car=f(ω,[e-1,r,e]+b),其中f表示ReLU 于判定三元组是否有效。 非线性激活函数(优于线性函数21-2斗,b为偏置系 score(pi,r)=tanh(piw,)r (1) exp(score(pi,r)) 数。卷积处理路径后,得到其向量序列表示 a:= (2) {c1,c2,…,cl,作为双向LSTM的输人。 exp(score(pi,r)) 2.2双向LSTM提取路径特征 常规RNN存在梯度消失问题,难以学习长 c->op (3) 序列的语义信息;Zhou等21使用双向LSTM 1 P(rle,,e,)=f(W(c+r)) (4) (BLSTM)并通过peephole connections查看当前神 式中:W,∈R,W。∈Rk为权重参数;f表示非线 经节点/细胞的状态,增加CEC(constant error ca- rousel)到各门的双向关联;Lu等s]使用的双向 性激活函数,本文使用sigmoid。通过权重分配, 与候选关系语义关联程度不同的路径得以区分。 GRU(bidirectional gated recurrent unit)则通过类似 耦合门控的设计简化了细胞结构和参数规模,保 本文使用Adam优化器s训练PKICLA以优 留了近似性能:其中重置门,对维度信息进行 化结果,损失函数定义如式(⑤)所示: 1 调整,更新门z,以及(1-z)可视作对应原始忘记门 L⑧)=N 和输入门(后者也可遗忘部分信息)。本文使用双向 LSTM将路径的向量序列表示合并为单一向量。 logP(rle;.e,)+ ∑log1-PGe.e,》 (eret)eT+ 他e 将卷积层输出序列的每个向量视作LSTM中 Θ 的一个时间步,每个时间步将一个T维的向量c (5) 馈送到LSTM细胞。双向LSTM分别由前向和后 目标函数中N为训练样本总数;T+、T分别 向的相反方向读取数据,其输出分别表示为和 表示有效三元组和无效三元组的集合;Θ表示所 ,即前向从左向右,后向从右向左。双向处理路 有需要学习的参数,随机初始化;使用L2正则化 防止过拟合。 径后,得到两组不同的隐藏状态,即对于向量序 列{c1,c2,,cl,前向LSTM网络得到状态序列 3实验与分析 ,…,元n…,,后向网络则是抗…,…, ,}。为降低参数规模,本文将前向网络序列的最 31任务与评价指标 后隐藏状态和后向网络序列的最前隐藏状态拼 链路预测从已知信息中推理新的事实,用于 接,生成完整路径π的向量表示p=,p∈R, 知识补全,方法是计算给定头尾实体与特定关系 连接的概率得分,判定三元组是否有效。度量指 从而保留关系序列的秩序信息。为便于拼接,以 标通常为原始正确实体在所有候选项中的排序, 及与候选关系匹配,将细胞的隐藏状态数设为 如:查询(Joe Biden,isPresidentOf,?),期望实验结 2o本文在Keras的Time Distributed层使用相同 果中,“theU.S.”或“America”应得分较高,或排 编码器并行处理所有”条路径,得到其向量表示 序较前
t t 数不同,取最长的路径,其关系数或关系序列的 长度用 表示;将所有路径设为相同长度 ,长度 不足的使用零填充。 k es , et ,r ∈ R k ω ω ∈ R k×3 Ω τ τ = |Ω| i ci = [ci1, ci2, ··· , ciτ], ci ∈ R τ , ciτ = f (ωτ [ei−1,ri , ei]+b) f b {c1, c2, ··· , ct} 本文使用实体类型对应的向量表示[22] ,进一 步减小参数规模,同时解决测试集中部分实体在 训练集中未出现的问题。将头/尾实体对和候选 关系通过嵌入矩阵转化为 维向量,即 , 作为路径卷积编码的输入。过滤器 的尺寸 (size) 和步长 (stride) 对特征提取和计算开销影响 较大,本文使用统一的 提取特征,步长为 2,避免抽取无意义的局部特征。使用多个卷积核 遍历路径,令 和 分别表示卷积核和核数,即 。以路径上所有三元组为单位/窗口,逐个 提取其局部模式。拼接所有卷积核提取的特征, 路径第 个特征向量可表示为 ,其中 表示 ReLU 非线性激活函数 (优于线性函数[21-22] ), 为偏置系 数。卷积处理路径后,得到其向量序列表示 ,作为双向 LSTM 的输入。 2.2 双向 LSTM 提取路径特征 rt zt (1−zt) 常规 RNN 存在梯度消失问题,难以学习长 序列的语义信息;Zhou 等 [ 2 6 ] 使用双向 LSTM (BLSTM) 并通过 peephole connections 查看当前神 经节点/细胞的状态,增加 CEC(constant error carousel) 到各门的双向关联;Lu 等 [53] 使用的双向 GRU(bidirectional gated recurrent unit) 则通过类似 耦合门控的设计简化了细胞结构和参数规模,保 留了近似性能[54] ;其中重置门 对维度信息进行 调整,更新门 以及 可视作对应原始忘记门 和输入门 (后者也可遗忘部分信息)。本文使用双向 LSTM 将路径的向量序列表示合并为单一向量。 τ ci −→hj ←−hj {c1, c2, ··· , ct} −→h1, −→h2,··· , −→hj ,··· , −→ht ←−h1, ←−h2,··· , ←−hj ,··· , ←−ht π p = [ −→ht , ←−h1 ] , p ∈ R k k 2 n 将卷积层输出序列的每个向量视作 LSTM 中 的一个时间步,每个时间步将一个 维的向量 馈送到 LSTM 细胞。双向 LSTM 分别由前向和后 向的相反方向读取数据,其输出分别表示为 和 ,即前向从左向右,后向从右向左。双向处理路 径后,得到两组不同的隐藏状态,即对于向量序 列 ,前向 LSTM 网络得到状态序列 { },后向网络则是{ }。为降低参数规模,本文将前向网络序列的最 后隐藏状态和后向网络序列的最前隐藏状态拼 接,生成完整路径 的向量表示 , 从而保留关系序列的秩序信息。为便于拼接,以 及与候选关系匹配,将细胞的隐藏状态数设为 。本文在 Keras 的 Time Distributed 层使用相同 编码器并行处理所有 条路径,得到其向量表示 P = {p1, p2, ··· , pn}, P ∈ R 集合 k×n。双向 LSTM 的输 出作为注意力层的输入。 2.3 基于注意力机制的路径集成 r score (pi ,r) αi c P(r|es , et) 主流 PRA 常使用 Max 或 Mean 运算,忽略了 不同路径提供的推理证据存在差异,因此本文使 用 Bahdanau 等 [48] 提出的基于累加性注意力机制 (additive attention) 的路径信息集成,该方法对于 不同区间数值的适应能力优于简单的点积计算语 义相关度得分[22, 49]。将候选关系的向量表示 与 头/尾实体对的多条路径编码分别匹配,计算每条 路径的语义相关度得分 (式 (1)),进而为 其分配独立权重 (式 (2)),加权计算得到候选关 系的状态向量 (式 (3)),并以之计算候选关系与 对应头/尾实体对的概率得分 (式 (4)),用 于判定三元组是否有效。 score (pi ,r) = tanh(piWs)r (1) αi = exp(score (pi ,r)) ∑n i=1 exp(score (pi ,r)) (2) c = ∑n i=1 αi pi (3) P(r|es , et) = f ( Wp ( c+ r)) (4) Ws ∈ R k×k Wp ∈ R k 式中: , 为权重参数; f 表示非线 性激活函数,本文使用 sigmoid。通过权重分配, 与候选关系语义关联程度不同的路径得以区分。 本文使用 Adam 优化器[55] 训练 PKICLA 以优 化结果,损失函数定义如式 (5) 所示: L(Θ) = − 1 N ∑ (es,r,et)∈T + logP(r|es , et)+ ∑ (eˆs,rˆ,eˆt)∈T − log(1− P(rˆ|eˆs , eˆt)) + λ||Θ||2 2 (5) N T + T − Θ 目标函数中 为训练样本总数; 、 分别 表示有效三元组和无效三元组的集合; 表示所 有需要学习的参数,随机初始化;使用 L2 正则化 防止过拟合。 3 实验与分析 3.1 任务与评价指标 链路预测从已知信息中推理新的事实,用于 知识补全,方法是计算给定头/尾实体与特定关系 连接的概率得分,判定三元组是否有效。度量指 标通常为原始正确实体在所有候选项中的排序, 如:查询 (Joe Biden, isPresidentOf,?),期望实验结 果中,“the U.S.”或“America”应得分较高,或排 序较前。 ·732· 智 能 系 统 学 报 第 16 卷
第4期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·733· 实验使用平均精度均值(mean average preci- 统计信息如表1所示。从NELL995中删除无推 sion,MAP)、正确三元组的平均倒数排名(mean re- 理价值的generalizations和haswikipediaurl关系, ciprocal rank,MRR)、Hits@l(排名在第I位的有效 保留频率最高的Top200关系的三元组。Toutan- 实体的比例)、Hits@3(取前3位)、Hits@5(取前 ova等3列在FB15k基础上删除可逆三元组,生成 5位)和F等指标进行评估。MAP取头/尾实体 FB15k-237,防止算法高分漏洞。FC17的主要数 预测排序的均值;Hits@1和Hits@3将头/尾预测 据来自Freebase,同时集成了ClueWeb中对应实 视为同一任务,合并计算hit rate. 体链接;选择其中频率最高的46个关系用于实 3.2数据集 验。NELL-One是NELL数据集中三元组实例数 本文在FB15k-237和NELL995这两个常规数 ∈[50,50o]的关系集合。表1NELL-One中Train 据集,FC17大型数据集(模拟现实复杂场景), Set、Dev.Set和Test Set使用关系数而非实例三元 和NELL-One稀疏数据集Bm上进行链路预测,其 组数 表1数据集统计信息 Table 1 Dataset Statistics 数据集 #entities #relations #Train Set #Dev.Set #Test Set #Tasks NELL995 75492 200 154213 5000 5000 12 FB15k-237 14541 237 272115 17535 20466 20 FC17 18M 25994 305k 12k 12k 名 NELL-One 68545 358 51 11 67 对于上述数据集中的每一个关系,确保Train 特征,该模型侧重复杂数据集上的关系预测: Set和Dev.Set/Test Set中无重复三元组(含反 7)M-walk2(2018),同样使用RL和RNN框 向)。将无对应关系路径的实体对删除。将路径 架,结合随机抽样搜索路径空间: 长度限制设定为4,相应的元素个数最多为9(含 8)GMHB6(2020),多跳知识推理框架,结合局 中间实体,含填充)。将Random Walk的概率阈值 部特征和图结构整体特征,针对复杂现实场景设 设置为0.1。 计;该模型在FC17数据集上进行预测; 参考Bordes等的实验,使用Bernoulli方法网 9)Gmatchingl37(2018),针对few-shot的近似度 随机替换实体创建无效三元组,具体如下:给定 量推理框架。 有效三元组(h,八,),h和分别是每个尾部对应 GMH使用ConvE作为预训练模型,距离上限 头实体和每个头部对应尾实体的平均数量,使用 设置为6时性能最优;其他基准模型均使用原方 和分别表示生成新三元组化,5)和 案的最优性能建议参数。 nh+7:7h+刀: 实验在Dev.Set上验证,若最后l0轮(epoch) (h,rr)的概率。 对应准确率提升<102则停止训练并确定最优参 3.3模型与参数设置 数。超参数池设置如下:minibatch size-=64,学习 实验中用于比较的基准模型包括: 率y∈[105,10-,5×10](Adam优化器其他参数默 1)DistMult刀(2015),使用对角矩阵表示目标 认),k∈[50,100,200],LSTM中隐藏节点数∈[64, 关系; 128],t∈[50,1001,L2正则化系数∈[0,0.001,0.01 2)DeepPath2(2017),基于TransE6的强化学 0.1.0.51. 习(reinforcement learning,RL)框架; 3.4结果与分析 3)Single--Model2a(2017),使用RNN处理关系 常规数据集上实验结果如表2所示,最优表 序列,本文采用原方案推荐的LogSumExp; 现设置为粗体,次优设置为斜体+下划线。PKICLA 4)At-Model+Type2(2017),可视作基于注意 相比Single-Model和Att-Model+-Type这两个相似 力机制的Single-Model,.本文重新实现: 模型有一定的提升,在较大数据集,特别是关系 5)ConvE!181(2018),使用2维卷积处理实体/ 类型分布相比NELL995复杂得多的FB15k-237 关系嵌入; 数据集上,优势明显;在NELL995上,由于部分实 6)G-GAT(2019),使用注意力机制提取近邻 体对的路径较少,基于关系路径语义的模型的
实验使用平均精度均值 (mean average precision, MAP)、正确三元组的平均倒数排名 (mean reciprocal rank, MRR)、Hits@1(排名在第 1 位的有效 实体的比例)、Hits@3(取前 3 位)、Hits@5(取前 5 位) 和 F1 等指标进行评估。MAP 取头/尾实体 预测排序的均值;Hits@1 和 Hits@3 将头/尾预测 视为同一任务,合并计算 hit rate。 3.2 数据集 本文在 FB15k-237 和 NELL995 这两个常规数 据集,FC17 大型数据集 (模拟现实复杂场景) [27, 36] 和 NELL-One 稀疏数据集[37] 上进行链路预测,其 ∈ [50,500] 统计信息如表 1 所示。从 NELL995 中删除无推 理价值的 generalizations 和 haswikipediaurl 关系, 保留频率最高的 Top 200 关系的三元组。Toutanova 等 [39] 在 FB15k 基础上删除可逆三元组,生成 FB15k-237,防止算法高分漏洞。FC17 的主要数 据来自 Freebase,同时集成了 ClueWeb 中对应实 体链接;选择其中频率最高的 46 个关系用于实 验。NELL-One 是 NELL 数据集中三元组实例数 的关系集合。表 1NELL-One 中 Train Set、Dev. Set 和 Test Set 使用关系数而非实例三元 组数。 表 1 数据集统计信息 Table 1 Dataset Statistics 数据集 #entities #relations #Train Set #Dev. Set #Test Set #Tasks NELL995 75492 200 154213 5 000 5 000 12 FB15k-237 14541 237 272115 17 535 20 466 20 FC17 18M 25 994 305k 12k 12k 46 NELL-One 68545 358 51 5 11 67 对于上述数据集中的每一个关系,确保 Train Set 和 Dev. Set/Test Set 中无重复三元组 (含反 向)。将无对应关系路径的实体对删除。将路径 长度限制设定为 4,相应的元素个数最多为 9(含 中间实体,含填充)。将 Random Walk 的概率阈值 设置为 0.1。 (h, r, t) ηh ηt ηt ηh +ηt ηh ηh +ηt (h ′ , r, t) (h, r,t ′ ) 参考 Bordes 等 [16] 的实验,使用 Bernoulli 方法[29] 随机替换实体创建无效三元组,具体如下:给定 有效三元组 , 和 分别是每个尾部对应 头实体和每个头部对应尾实体的平均数量,使用 和 分别表示生成新三元组 和 的概率。 3.3 模型与参数设置 实验中用于比较的基准模型包括: 1)DistMult[17] (2015),使用对角矩阵表示目标 关系; 2)DeepPath[25] (2017),基于 TransE[16] 的强化学 习 (reinforcement learning, RL) 框架; 3)Single-Model[22] (2017),使用 RNN 处理关系 序列,本文采用原方案推荐的 LogSumExp; 4)Att-Model+Type[27] (2017),可视作基于注意 力机制的 Single-Model,本文重新实现; 5)ConvE[18] (2018),使用 2 维卷积处理实体/ 关系嵌入; 6)G-GAT[34] (2019),使用注意力机制提取近邻 特征,该模型侧重复杂数据集上的关系预测; 7)M-walk[28] (2018),同样使用 RL 和 RNN 框 架,结合随机抽样搜索路径空间; 8)GMH[36] (2020),多跳知识推理框架,结合局 部特征和图结构整体特征,针对复杂现实场景设 计;该模型在 FC17 数据集上进行预测; 9)Gmatching[37] (2018),针对 few-shot 的近似度 量推理框架。 GMH 使用 ConvE 作为预训练模型,距离上限 设置为 6 时性能最优;其他基准模型均使用原方 案的最优性能建议参数。 γ ∈ [10−5 ,10−4 ,5×10−4 ] k τ 实验在 Dev. Set 上验证,若最后 10 轮 (epoch) 对应准确率提升<10−2 则停止训练并确定最优参 数。超参数池设置如下:minibatch size=64,学习 率 (Adam 优化器其他参数默 认), ∈[50, 100, 200],LSTM 中隐藏节点数∈[64, 128], ∈[50, 100],L2 正则化系数∈[0, 0.001, 0.01, 0.1, 0.5]。 3.4 结果与分析 常规数据集上实验结果如表 2 所示,最优表 现设置为粗体,次优设置为斜体+下划线。PKICLA 相比 Single-Model 和 Att-Model+Type 这两个相似 模型有一定的提升,在较大数据集,特别是关系 类型分布相比 NELL995 复杂得多的 FB15k-237 数据集上,优势明显;在 NELL995 上,由于部分实 体对的路径较少,基于关系路径语义的模型的 第 4 期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·733·
·734· 智能系统学报 第16卷 Hits@l和Hits@3得分受到影响,但PKICLA的表 G-GAT针对复杂数据集进行设计,性能表现整体 现仍较稳定。基于双线性乘法运算的DistMult模 优于DeepPath.,略逊于同样结合注意力机制的 型擅长提取实体相似性特征,尽管没有考虑路径 Att-Model+-Type,可见多跳路径能提供比单跳近 语义,在两个数据集上的MRR得分都较高。在 邻更多的语义信息。M-Walk在NELL995数据集 稠密数据集NELL995上,DeepPath结合强化学习 上取得了最高的hits@1得分:但模型受到无效路 的路径扩展有效弥补了平移模型表达能力不足的 径的干扰,在FB15k-237数据集上性能不算突 缺陷,各项指标表现较稳定。ConvE在NELL995 出。G-GAT原文没有给出具体超参设置,本文实 上的表现出色,但在FB15k-237上性能下滑,可能 现与原文结果差异较大,因此引用原文在FB15k 是因为忽略平移特性导致部分全局特征丢失。 237上的实验数据。 表2NELL995和FB15k-237上的性能比较 Table 2 Performance comparison on NELL995 and FB15k-237 NELL995 FB15k-237 数据集模型 MAP MRR Hits@l Hits@3 MAP MRR Hits 1 Hits(@3 DistMult 0649 0.860 0.752 0.865 0.532 0.558 0.446 0.573 DeepPath 0.811 0.852 0.808 0.884 0.553 0.495 0.449 0.524 Single-Model 0.827 0.833 0.765 0.903 0.525 0.512 0.496 0.557 Att-Model+Type 0.838 0.847 0.783 0.905 0.558 0.556 0.513 0.626 ConvE 0.812 0.862 0.826 0.919 0.536 0.509 0.430 0.527 G-GAT 0.518 0.460 0.540 M-walk 0.829 0.848 0.834 0.910 0.532 0.488 0.475 0.543 PKICLA 0.846 0.859 0.829 0.941 0.564 0.589 0.528 0.671 进一步选取部分整体表现较好的模型,比较 FC17数据集上的实验结果如表3所示,相 其在NELL995数据集不同任务/关系上的MAP 比Att-Model+-Type,GMH结合了图结构的整体 得分,如图2所示。DeepPath仅考虑了局部特征, 特征,一定程度上缓解了长距离推理带来的无效 Single-Model则缺少对不同语义关联的关系路径 关系偏离效应;但对循环次数依赖较重。在3个 的权重分配,PKICLA弥补了这两种模型的不足, 指标上,PKICLA都取得了最高分,但PKICLA的 在10种主要关系上的表现都有所提升。相比Att- 路径长度是手动设置的,而GMH框架可自适应 Model+-Type,PKICLA在7种关系上也具有优势, 的调整,在路径长度可变的推理任务中可能表现 特别在athletePlaysForTeam和bornLocation复杂 较好。 关系上,PKICLA有较明显提升(约2.7%),说明卷 积特征提取+双向LSTM的路径合并有助于提取 表3FC17上的性能比较 Table 3 Performance comparison on FC17 局部模式。 模型 MRR Hits@1 Hits@3 DeepPath Single-Model2 Att-Model+Type PKICLA 1.00 Att-Model+Type 0.243 0.114 0.154 0.90 GMH 0.254 0.139 0.183 PKICLA 0.282 0.146 0.188 0.70 0.60 NELL-One数据集上的实验结果如表4所示, athleteHomeStadium bornLocation personLeadsOrg orgHiredPerson orgHeadquaterCity teamPlaysSport worksFor 在没有应用Gmatching框架时,PKICLA的few- shot预测能力明显强于TransE和DistMult。.应用 框架后,3个模型的性能都有所上升,PKICLA的 性能仍然是最优,但相对TransE(94.0%)和Dist- 图2NELL995不同关系上的MAP得分 Fig.2 Comparison of MAP scores on various relations of Mult(65.7%),PKICLA的提升较小(6.2%) NELL995 此外,本文比较了不同实体类型覆盖率、不
Hits@1 和 Hits@3 得分受到影响,但 PKICLA 的表 现仍较稳定。基于双线性乘法运算的 DistMult 模 型擅长提取实体相似性特征,尽管没有考虑路径 语义,在两个数据集上的 MRR 得分都较高。在 稠密数据集 NELL995 上,DeepPath 结合强化学习 的路径扩展有效弥补了平移模型表达能力不足的 缺陷,各项指标表现较稳定。ConvE 在 NELL995 上的表现出色,但在 FB15k-237 上性能下滑,可能 是因为忽略平移特性导致部分全局特征丢失。 G-GAT 针对复杂数据集进行设计,性能表现整体 优于 DeepPath,略逊于同样结合注意力机制的 Att-Model+Type,可见多跳路径能提供比单跳近 邻更多的语义信息。M-Walk在 NELL995 数据集 上取得了最高的 hits@1 得分;但模型受到无效路 径的干扰,在 FB15k-237 数据集上性能不算突 出。G-GAT 原文没有给出具体超参设置,本文实 现与原文结果差异较大,因此引用原文在 FB15k- 237 上的实验数据。 表 2 NELL995 和 FB15k-237 上的性能比较 Table 2 Performance comparison on NELL995 and FB15k-237 数据集模型 NELL995 FB15k-237 MAP MRR Hits@1 Hits@3 MAP MRR Hits@1 Hits@3 DistMult 0649 0.860 0.752 0.865 0.532 0.558 0.446 0.573 DeepPath 0.811 0.852 0.808 0.884 0.553 0.495 0.449 0.524 Single-Model 0.827 0.833 0.765 0.903 0.525 0.512 0.496 0.557 Att-Model+Type 0.838 0.847 0.783 0.905 0.558 0.556 0.513 0.626 ConvE 0.812 0.862 0.826 0.919 0.536 0.509 0.430 0.527 G-GAT — — — — — 0.518 0.460 0.540 M-walk 0.829 0.848 0.834 0.910 0.532 0.488 0.475 0.543 PKICLA 0.846 0.859 0.829 0.941 0.564 0.589 0.528 0.671 进一步选取部分整体表现较好的模型,比较 其在 NELL995 数据集不同任务/关系上的 MAP 得分,如图 2 所示。DeepPath 仅考虑了局部特征, Single-Model 则缺少对不同语义关联的关系路径 的权重分配,PKICLA 弥补了这两种模型的不足, 在 10 种主要关系上的表现都有所提升。相比 AttModel+Type,PKICLA 在 7 种关系上也具有优势, 特别在 athletePlaysForTeam 和 bornLocation 复杂 关系上,PKICLA 有较明显提升 (约 2.7%),说明卷 积特征提取+双向 LSTM 的路径合并有助于提取 局部模式。 1.00 0.90 0.80 0.70 0.60 athleteHomeStadium athletePlaysForTeam athletePlaysInLeague athletePlaysSport bornLocation orgHeadquaterCity orgHiredPerson personLeadsOrg teamPlaysSport worksFor MAP DeepPath Single-Model Att-Model+Type PKICLA 图 2 NELL995 不同关系上的 MAP 得分 Fig. 2 Comparison of MAP scores on various relations of NELL995 FC17 数据集上的实验结果如表 3 所示,相 比 Att-Model+Type,GMH 结合了图结构的整体 特征,一定程度上缓解了长距离推理带来的无效 关系偏离效应;但对循环次数依赖较重。在 3 个 指标上,PKICLA 都取得了最高分,但 PKICLA 的 路径长度是手动设置的,而 GMH 框架可自适应 的调整,在路径长度可变的推理任务中可能表现 较好。 表 3 FC17 上的性能比较 Table 3 Performance comparison on FC17 模型 MRR Hits@1 Hits@3 Att-Model+Type 0.243 0.114 0.154 GMH 0.254 0.139 0.183 PKICLA 0.282 0.146 0.188 NELL-One 数据集上的实验结果如表 4 所示, 在没有应用 Gmatching 框架时,PKICLA 的 fewshot 预测能力明显强于 TransE 和 DistMult。应用 框架后,3 个模型的性能都有所上升,PKICLA 的 性能仍然是最优,但相对 TransE(94.0%) 和 DistMult(65.7%),PKICLA 的提升较小 (6.2%)。 此外,本文比较了不同实体类型覆盖率、不 ·734· 智 能 系 统 学 报 第 16 卷
第4期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·735· 同路径长度和不同LSTM模型对PKICLA在 Precision Recall F1 1.0 NELL995上性能表现的影响,如表5所示。数据 0.8 集中绝大多数实体携带类型信息,反之实验中使 用实体自身的嵌入表达,因此比较不同实体类型 0.4 覆盖率对模型性能的影响,发现差异极小;当覆 0.2 盖率较低时,性能有轻微下降,因为测试集中含 有训练集中未出现的实体。当路径长度设置为 Single-Model Att-Model+Type PKICLA 4时,性能表现有一定上升,可能是因为阈值较小 图3NELL995上的Precision/Recall/F1比较 时,测试数据中部分实体对无法生成足够的路 Fig.3 Comparison of Precision/Recall/F1 on NELL995 径:但差异不大,说明短路径提供了大部分的推 1.00 理信息。与实体类型覆盖率类似,不同LSTM模 0.90 型对性能造成的影响微弱。 能0.80 表4NELL-One上的性能比较 三0.70 Single-Model Table 4 Performance comparison on NELL-One 0.60 Att-Model+Type -PKICLA 模型 MRR Hits@1 Hits@5 0.50 0 0.1020.30.40.50.60.7 TransE 0.083 0.039 0.147 召回率 DistMult 0.105 0.066 0.136 图4NELL995上的Precision-Recall曲线比较 Fig.4 Comparison of Precision-Recall Curve on NELL995 PKICLA 0.178 0.108 0.197 Gmatching(TransE) 0.161 0.129 0.210 4结束语 Gmatching(DistMult) 0.174 0.114 0.202 本文通过自定义的CNN框架和双向LSTM Gmatching(PKICLA) 0.189 0.143 0.226 提取三元组局部特征,合并关系序列为单一向 量,并使用基于注意力机制的方法集成多条路径 表5NELL995数据集上不同实体类型覆盖率、路径长 度和LSTM模型的比较 的语义信息,用于计算候选三元组的概率得分。 Table 5 Comparison between different coverages,path 链路预测结果证明本文模型可在常规和大型数据 lengths,and LSTM models on NELL995 集上进行知识推理,复杂关系的学习能力较强, 模型设置 MAP MRR Hits@1 Hits@3 Precision、Recall和Fl指标的整体表现也高于主 Coverage=30% 0.842 0.855 0.824 0.936 流模型。PKICLA亦可用于few-shot的推理任务, 但在无法生成足够路径的数据集上仍有提升空 Coverage=70% 0.845 0.861 0.825 0.939 间,因此未来工作考虑引入强化学习框架、带置 Coverage=100% 0.846 0.859 0.829 0.941 信度的规则体系、知识层次结构或多源信息融合 Path Length=3 0.833 0.842 0.817 0.926 模型以扩大方案的适用范围。此外,本文使用单 Path Length=4 0.846 0.859 0.829 0.941 一实体类型进行嵌入表达,但实体往往具有多类 BLSTME61 型四,因此计划优化嵌入方案。最后,为适应现实 0.841 0.857 0.827 0.937 场景任务,针对知识的不确定性建模5,以及重塑 Bi-GRUISA] 0.845 0.852 0.828 0.941 特征维度以优化信息提取也是工作方向。 本文LSTM Model 0.846 0.859 0.829 0.941 参考文献: 最后,选取表现较好的Single-Model和Att- [1]LEHMANN J,ISELE R,JAKOB M,et al.DBpedia-a Model+-Type模型为基准,比较其与PKICLA在 large-scale,multilingual knowledge base extracted from NELL995上的Precision、Recall和F,得分,结果如 Wikipedia[J].Semantic web,2015,6(2):167-195. 图3、图4所示,PKICLA较为平衡,F,得分高于 [2]MITCHELL T.COHEN W.HRUSCHKA E.et al.Never- 另外两个模型;随着Recall率增长,Precision下滑 ending learning[J].Communications of the ACM,2018. 也较平缓,说明基于注意力机制的语义集成能更 61(5):103-115. 好地匹配候选关系,以及卷积操作在提取局部特 [3]REBELE T.SUCHANEK F.HOFFART J,et al.YAGO:a 征上的优势。 multilingual knowledge base from Wikipedia,Wordnet
同路径长度和不同 LSTM 模型对 PKICLA 在 NELL995 上性能表现的影响,如表 5 所示。数据 集中绝大多数实体携带类型信息,反之实验中使 用实体自身的嵌入表达,因此比较不同实体类型 覆盖率对模型性能的影响,发现差异极小;当覆 盖率较低时,性能有轻微下降,因为测试集中含 有训练集中未出现的实体。当路径长度设置为 4 时,性能表现有一定上升,可能是因为阈值较小 时,测试数据中部分实体对无法生成足够的路 径;但差异不大,说明短路径提供了大部分的推 理信息。与实体类型覆盖率类似,不同 LSTM 模 型对性能造成的影响微弱。 表 4 NELL-One 上的性能比较 Table 4 Performance comparison on NELL-One 模型 MRR Hits@1 Hits@5 TransE 0.083 0.039 0.147 DistMult 0.105 0.066 0.136 PKICLA 0.178 0.108 0.197 Gmatching(TransE) 0.161 0.129 0.210 Gmatching(DistMult) 0.174 0.114 0.202 Gmatching(PKICLA) 0.189 0.143 0.226 表 5 NELL995 数据集上不同实体类型覆盖率、路径长 度和 LSTM 模型的比较 Table 5 Comparison between different coverages, path lengths, and LSTM models on NELL995 模型设置 MAP MRR Hits@1 Hits@3 Coverage=30% 0.842 0.855 0.824 0.936 Coverage=70% 0.845 0.861 0.825 0.939 Coverage=100% 0.846 0.859 0.829 0.941 Path Length=3 0.833 0.842 0.817 0.926 Path Length=4 0.846 0.859 0.829 0.941 BLSTM[26] 0.841 0.857 0.827 0.937 Bi-GRU[54] 0.845 0.852 0.828 0.941 本文LSTM Model 0.846 0.859 0.829 0.941 最后,选取表现较好的 Single-Model 和 AttModel+Type 模型为基准,比较其与 PKICLA 在 NELL995 上的 Precision、Recall 和 F1 得分,结果如 图 3、图 4 所示,PKICLA 较为平衡,F1 得分高于 另外两个模型;随着 Recall 率增长,Precision 下滑 也较平缓,说明基于注意力机制的语义集成能更 好地匹配候选关系,以及卷积操作在提取局部特 征上的优势。 1.0 0.8 0.6 0.4 0.2 0 Single-Model Att-Model+ Type PKICLA Precision Recall F1 得分 图 3 NELL995 上的 Precision/Recall/F1 比较 Fig. 3 Comparison of Precision/Recall/F1 on NELL995 0.50 0 0.2 0.3 0.4 0.5 0.6 0.7 0.1 0.60 0.70 0.80 0.90 1.00 精确率 召回率 Single-Model Att-Model+Type PKICLA 图 4 NELL995 上的 Precision-Recall 曲线比较 Fig. 4 Comparison of Precision-Recall Curve on NELL995 4 结束语 本文通过自定义的 CNN 框架和双向 LSTM 提取三元组局部特征,合并关系序列为单一向 量,并使用基于注意力机制的方法集成多条路径 的语义信息,用于计算候选三元组的概率得分。 链路预测结果证明本文模型可在常规和大型数据 集上进行知识推理,复杂关系的学习能力较强, Precision、Recall 和 F1 指标的整体表现也高于主 流模型。PKICLA 亦可用于 few-shot 的推理任务, 但在无法生成足够路径的数据集上仍有提升空 间,因此未来工作考虑引入强化学习框架、带置 信度的规则体系、知识层次结构或多源信息融合 模型以扩大方案的适用范围。此外,本文使用单 一实体类型进行嵌入表达,但实体往往具有多类 型 [22] ,因此计划优化嵌入方案。最后,为适应现实 场景任务,针对知识的不确定性建模[56] ,以及重塑 特征维度以优化信息提取也是工作方向。 参考文献: LEHMANN J, ISELE R, JAKOB M, et al. DBpedia–a large-scale, multilingual knowledge base extracted from Wikipedia[J]. Semantic web, 2015, 6(2): 167–195. [1] MITCHELL T, COHEN W, HRUSCHKA E, et al. Neverending learning[J]. Communications of the ACM, 2018, 61(5): 103–115. [2] REBELE T, SUCHANEK F, HOFFART J, et al. YAGO: a multilingual knowledge base from Wikipedia, Wordnet, [3] 第 4 期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·735·
·736· 智能系统学报 第16卷 and Geonames[C]//Proceedings of the 15th International niques,and applications[J].IEEE transactions on know- Semantic Web Conference on the Semantic Web.Kobe, ledge and data engineering,2018,30(9):1616-1637. Japan,2016:177-185 [14]WANG Quan,MAO Zhendong,WANG Bin,et al. [4]BOLLACKER K.EVANS C.PARITOSH P.et al.Free- Knowledge graph embedding:a survey of approaches and base:a collaboratively created graph database for structur- applications[J].IEEE transactions on knowledge and data ing human knowledge[C]//Proceedings of 2008 ACM SIG- engineering..2017,29(12y:2724-2743. MOD International Conference on Management of Data. [15]NICKEL M,MURPHY K,TRESP V,et al.A review of Vancouver,Canada,2008:1247-1250. relational machine learning for knowledge graphs[J].Pro- [5]XIONG Chenyan,POWER R,CALLAN J.Explicit se- ceedings of the IEEE,2016,104(1):11-33. mantic ranking for academic search via knowledge graph [16]Bordes A,Usunier N,Garcia-Duran A,et al.Translating embedding[C]//Proceedings of the 26th International Con- embeddings for modeling multi-relational data[C]//Pro- ference on World Wide Web.Perth,Australia,2017: ceedings of the 26th International Conference on Neural 1271-1279 Information Processing Systems.Lake Tahoe,United [6]HAO Yanchao,ZHANG Yuanzhe,LIU Kang,et al.An States,2013:2787-2795. end-to-end model for question answering over knowledge [17]YANG Bishan,YIH W T,HE Xiaodong,et al.Embed- base with cross-attention combining global knowledge[Cl// ding entities and relations for learning and inference in Proceedings of the 55th Annual Meeting of the Associ- knowledge bases[J/OL].(2020-01-01)[2020-05-01] ation for Computational Linguistics.Vancouver,Canada. https://arxiv.org/abs/1412.6575. 2017:221-231 [18]DETTMERS T.MINERVINI P.STENETORP P,et al. [7]刘知远,孙茂松,林衍凯,等.知识表示学习研究进展. Convolutional 2D knowledge graph embeddings[C]//Pro- 计算机研究与发展,2016,53(2):247-261 ceedings of the 32nd AAAI Conference on Artificial In- LIU Zhiyuan,SUN Maosong,LIN Yankai,et al.Know- telligence,(AAAI-18),the 30th innovative Applications ledge representation learning:a review[J].Computer re- of Artificial Intelligence (IAAI-18),and the 8th AAAl search and development,2016,53(2):247-261 Symposium on Educational Advances in Artificial Intelli- [8]WEST R.GABRILOVICH E.MURPHY K.et al.Know- gence (EAAI-18).New Orleans,USA,2017:1811-1818. ledge base completion via search-based question answer- [19]LAO Ni,COHEN WW.Relational retrieval using a com- ing[C]//Proceedings of the 23rd International Conference bination of path-constrained random walks[J].Machine on World Wide Web.Seoul,Korea.2014:515-526 learning,2010,81(1):53-67. [9]刘峤,李杨,段宏,等.知识图谱构建技术综述).计算机 [20]LAO Ni,MITCHELL T,COHEN WW.Random walk 研究与发展,2016,53(3):582-600. inference and learning in a large scale knowledge LIU Qiao,LI Yang,DUAN Hong,et al.Knowledge graph base[Cl//Proceedings of 2011 Conference on Empirical construction techniques[J].Journal of computer research Methods in Natural Language Processing.Edinburgh and development,2016,53(3):582-600. United Kingdom,2011:529-539. [10]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述.电 [21]NEELAKANTAN A,ROTH B,MCCALLUM A.Com- 子科技大学学报,2016,45(4):589-606. positional vector space models for knowledge base com- XU Zenglin,SHENG Yongpan,HE Lirong,et al.Review pletion[C]//Proceedings of the 53rd Annual Meeting of on knowledge graph techniques[J].Journal of University the Association for Computational Linguistics and the 7th of Electronic Science and Technology of China,2016, International Joint Conference on Natural Language Pro- 45(4):589-606 cessing.Beijing,China,2015:156-166. [11]CHEN Xiaojun,JIA Shengbin,XIANG Yang.A review: [22]DAS R,NEELAKANTAN A,BELANGER D,et al. knowledge reasoning over knowledge graph[J].Expert Chains of reasoning over entities,relations,and text us- systems with applications,2020,141:112948 ing recurrent neural networks[C]//Proceedings of the 15th [12]官赛萍,靳小龙,贾岩涛,等.面向知识图谱的知识推理 Conference of the European Chapter of the Association 研究进展[).软件学报,2018,29(10):2966-2994 for Computational Linguistics.Valencia,Spain,2017: GUAN Saiping,JIN Xiaolong,JIA Yantao,et al.Know- 132-141 ledge reasoning over knowledge graph:a survey[J]. [23]HOCHREITER S,SCHMIDHUBER J.Long short-term Journal of software,2018,29(10):2966-2994. memory[J].Neural computation,1997,9(8):1735-1780. [13]CAI Hongyun,ZHENG V W,CHANG K C C.A compre- [24]XU K,BA JL,KIROS R,et al.Show,attend and tell:neural hensive survey of graph embedding:problems,tech- image caption generation with visual attention[C]//Pro-
and Geonames[C]//Proceedings of the 15th International Semantic Web Conference on the Semantic Web. Kobe, Japan, 2016: 177−185. BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of 2008 ACM SIGMOD International Conference on Management of Data. Vancouver, Canada, 2008: 1247−1250. [4] XIONG Chenyan, POWER R, CALLAN J. Explicit semantic ranking for academic search via knowledge graph embedding[C]//Proceedings of the 26th International Conference on World Wide Web. Perth, Australia, 2017: 1271−1279. [5] HAO Yanchao, ZHANG Yuanzhe, LIU Kang, et al. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017: 221−231. [6] 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展 [J]. 计算机研究与发展, 2016, 53(2): 247–261. LIU Zhiyuan, SUN Maosong, LIN Yankai, et al. Knowledge representation learning: a review[J]. Computer research and development, 2016, 53(2): 247–261. [7] WEST R, GABRILOVICH E, MURPHY K, et al. Knowledge base completion via search-based question answering[C]//Proceedings of the 23rd International Conference on World Wide Web. Seoul, Korea, 2014: 515−526. [8] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述 [J]. 计算机 研究与发展, 2016, 53(3): 582–600. LIU Qiao, LI Yang, DUAN Hong, et al. Knowledge graph construction techniques[J]. Journal of computer research and development, 2016, 53(3): 582–600. [9] 徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述 [J]. 电 子科技大学学报, 2016, 45(4): 589–606. XU Zenglin, SHENG Yongpan, HE Lirong, et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589–606. [10] CHEN Xiaojun, JIA Shengbin, XIANG Yang. A review: knowledge reasoning over knowledge graph[J]. Expert systems with applications, 2020, 141: 112948. [11] 官赛萍, 靳小龙, 贾岩涛, 等. 面向知识图谱的知识推理 研究进展 [J]. 软件学报, 2018, 29(10): 2966–2994. GUAN Saiping, JIN Xiaolong, JIA Yantao, et al. Knowledge reasoning over knowledge graph: a survey[J]. Journal of software, 2018, 29(10): 2966–2994. [12] CAI Hongyun, ZHENG V W, CHANG K C C. A comprehensive survey of graph embedding: problems, tech- [13] niques, and applications[J]. IEEE transactions on knowledge and data engineering, 2018, 30(9): 1616–1637. WANG Quan, MAO Zhendong, WANG Bin, et al. Knowledge graph embedding: a survey of approaches and applications[J]. IEEE transactions on knowledge and data engineering, 2017, 29(12): 2724–2743. [14] NICKEL M, MURPHY K, TRESP V, et al. A review of relational machine learning for knowledge graphs[J]. Proceedings of the IEEE, 2016, 104(1): 11–33. [15] Bordes A, Usunier N, Garcia-Durán A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, United States, 2013: 2787−2795. [16] YANG Bishan, YIH W T, HE Xiaodong, et al. Embedding entities and relations for learning and inference in knowledge bases[J/OL].(2020-01-01)[2020-05-01] https://arxiv.org/abs/1412.6575. [17] DETTMERS T, MINERVINI P, STENETORP P, et al. Convolutional 2D knowledge graph embeddings[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18). New Orleans, USA, 2017: 1811−1818. [18] LAO Ni, COHEN W W. Relational retrieval using a combination of path-constrained random walks[J]. Machine learning, 2010, 81(1): 53–67. [19] LAO Ni, MITCHELL T, COHEN W W. Random walk inference and learning in a large scale knowledge base[C]//Proceedings of 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, United Kingdom, 2011: 529−539. [20] NEELAKANTAN A, ROTH B, MCCALLUM A. Compositional vector space models for knowledge base completion[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China, 2015: 156−166. [21] DAS R, NEELAKANTAN A, BELANGER D, et al. Chains of reasoning over entities, relations, and text using recurrent neural networks[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain, 2017: 132−141. [22] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [23] XU K, BA J L, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[C]//Pro- [24] ·736· 智 能 系 统 学 报 第 16 卷
第4期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·737· ceedings of the 32nd International Conference on Ma- [35]TAKAHASHI R,TIAN R,INUI K.Interpretable and chine Learning.Lille,France,2015:2048-2057. compositional relation learning by joint training with an [25]XIONG Wenhan,HOANG T,WANG W Y.Deeppath:a autoencoder[C]//Proceedings of the 56th Annual Meeting reinforcement learning method for knowledge graph reas- of the Association for Computational Linguistics.Mel- oning[Cl//Proceedings of 2017 Conference on Empirical bourne.Australia.2018:2148-2159. Methods in Natural Language Processing.Copenhagen, [36]ZHANG Yao,ZHANG Xu,WANG Jun,et al.GMH:a Denmark,2017:564-573. general multi-hop reasoning model for KG completion[J]. [26]ZHOU Peng,SHI Wei,TIAN Jun,et al.Attention-based (2020-01-01)[2020-05-01]https:/arxiv.org/abs/2010 bidirectional long short-term memory networks for rela- 07620. tion classification[C]//Proceedings of the 54th Annual [37]XIONG Wenhan.YU Mo,CHANG Shiyu,et al.One-shot Meeting of the Association for Computational Linguistics. relational learning for knowledge graphs[C]//Proceedings Berlin,Germany,2016:207-212. of 2018 Conference on Empirical Methods in Natural [27]JIANG Xiaotian,WANG Quan,QI Baoyuan,et al.At- Language Processing.Brussels,Belgium,2018: tentive path combination for knowledge graph comple- 1980-1990. tion[C]//Proceedings of the 9th Asian Conference on Ma- [38]NGUYEN D Q,SIRTS K.QU Lizhen,et al.Neighbor- chine Learning.Seoul,Korea,2017:590-605. hood mixture model for knowledge base comple- [28]SHEN Yelong,CHEN Jianshu,HUANG Posen,et al.M- tion[Cl//Proceedings of the 20th SIGNLL Conference on walk:learning to walk over graphs using monte Carlo tree Computational Natural Language Learning.Berlin,Ger- search[C]//Proceedings of the 32nd International Confer- many,2016:40-50 ence on Neural Information Processing Systems. [39]TOUTANOVA K,LIN X V,YIH W T,et al.Composi- Montreal,Canada,2018:6787-6798. tional learning of embeddings for relation paths in know- [29]WANG Zhen,ZHANG Jianwen,FENG Jianlin,et al. ledge base and text[C]//Proceedings of the 54th Annual Knowledge graph embedding by translating on hyper- Meeting of the Association for Computational Linguistics planes[C]//Proceedings of the 28th AAAI Conference on Berlin,Germany,2016:1434-1444. Artificial Intelligence.Montreal,Canada,2014: [40]DAS R,DHULIAWALA S,ZAHEER M,et al.Go for a 1112-1119 walk and arrive at the answer:reasoning over paths in [30]LIN Yankai,LIU Zhiyuan,SUN Maosong,et al.Learn- knowledge bases using reinforcement learning[C]//Pro- ing entity and relation embeddings for knowledge graph ceedings of the 6th International Conference on Learning completion[C]//Proceedings of the 29th AAAI Confer- Representations.Vancouver,Canada,2017. ence on Artificial Intelligence.Austin,USA,2015: [41]LIN X V,SOCHER R,XIONG Caiming.Multi-hop 2181-2187. knowledge graph reasoning with reward shaping[C]//Pro- [31]KIM Y.Convolutional neural networks for sentence clas- ceedings of 2018 Conference on Empirical Methods in sification[C]//Proceedings of 2014 Conference on Empir- Natural Language Processing.Brussels,Belgium,2018: ical Methods in Natural Language Processing.Doha, 3243-3253 Qatar,2014:1746-1751. [42]LIN Yankai,LIU Zhiyuan,LUAN Huabo,et al.Model- [32]TROUILLON T.WELBL J.RIEDEL S,et al.Complex ing relation paths for representation learning of know- embeddings for simple link prediction[Cl//Proceedings of ledge bases[C]//Proceedings of 2015 Conference on Em- the 33rd International Conference on Machine Learning. pirical Methods in Natural Language Processing.Lisbon. New York.USA.2016:2071-2080. Portugal,.2015:705-714. [33]BALAZEVIC I,ALLEN C,HOSPEDALES T M.Hyper- [43]LUO Yuanfei,WANG Quan,WANG Bin,et al.Context- network knowledge graph embeddings[Cl//Proceedings of dependent knowledge graph embedding[C]//Proceedings the 28th International Conference on Artificial Neural of 2015 Conference on Empirical Methods in Natural Networks and Machine Learning.Munich,Germany, Language Processing.Lisbon,Portugal,2015: 2019:553-565 1656-1661. [34]NATHANI D,CHAUHAN J,SHARMA C,et al.Learn- [44]SHANG Chao,TANG Yun,HUANG Jing,et al.End-to- ing attention-based embeddings for relation prediction in end structure-aware convolutional networks for know- knowledge graphs[C]//Proceedings of the 57th Confer- ledge base completion[Cl//Proceedings of the 33rd AAAl ence of the Association for Computational Linguistics. Conference on Artificial Intelligence,AAAI 2019,the Florence,Italy,2019:4710-4723. 31st Innovative Applications of Artificial Intelligence
ceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 2048−2057. XIONG Wenhan, HOANG T, WANG W Y. Deeppath: a reinforcement learning method for knowledge graph reasoning[C]//Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark, 2017: 564−573. [25] ZHOU Peng, SHI Wei, TIAN Jun, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 207−212. [26] JIANG Xiaotian, WANG Quan, QI Baoyuan, et al. Attentive path combination for knowledge graph completion[C]//Proceedings of the 9th Asian Conference on Machine Learning. Seoul, Korea, 2017: 590−605. [27] SHEN Yelong, CHEN Jianshu, HUANG Posen, et al. Mwalk: learning to walk over graphs using monte Carlo tree search[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada, 2018: 6787−6798. [28] WANG Zhen, ZHANG Jianwen, FENG Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Montréal, Canada, 2014: 1112−1119. [29] LIN Yankai, LIU Zhiyuan, SUN Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, USA, 2015: 2181−2187. [30] KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1746−1751. [31] TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction[C]//Proceedings of the 33rd International Conference on Machine Learning. New York, USA, 2016: 2071−2080. [32] BALAŽEVIĆ I, ALLEN C, HOSPEDALES T M. Hypernetwork knowledge graph embeddings[C]//Proceedings of the 28th International Conference on Artificial Neural Networks and Machine Learning. Munich, Germany, 2019: 553−565. [33] NATHANI D, CHAUHAN J, SHARMA C, et al. Learning attention-based embeddings for relation prediction in knowledge graphs[C]//Proceedings of the 57th Conference of the Association for Computational Linguistics. Florence, Italy, 2019: 4710−4723. [34] TAKAHASHI R, TIAN R, INUI K. Interpretable and compositional relation learning by joint training with an autoencoder[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia, 2018: 2148−2159. [35] ZHANG Yao, ZHANG Xu, WANG Jun, et al. GMH: a general multi-hop reasoning model for KG completion[J]. (2020-01-01)[2020-05-01] https://arxiv.org/abs/2010. 07620. [36] XIONG Wenhan, YU Mo, CHANG Shiyu, et al. One-shot relational learning for knowledge graphs[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium, 2018: 1980−1990. [37] NGUYEN D Q, SIRTS K, QU Lizhen, et al. Neighborhood mixture model for knowledge base completion[C]//Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin, Germany, 2016: 40−50. [38] TOUTANOVA K, LIN X V, YIH W T, et al. Compositional learning of embeddings for relation paths in knowledge base and text[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 1434−1444. [39] DAS R, DHULIAWALA S, ZAHEER M, et al. Go for a walk and arrive at the answer: reasoning over paths in knowledge bases using reinforcement learning[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada, 2017. [40] LIN X V, SOCHER R, XIONG Caiming. Multi-hop knowledge graph reasoning with reward shaping[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium, 2018: 3243−3253. [41] LIN Yankai, LIU Zhiyuan, LUAN Huabo, et al. Modeling relation paths for representation learning of knowledge bases[C]//Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 705−714. [42] LUO Yuanfei, WANG Quan, WANG Bin, et al. Contextdependent knowledge graph embedding[C]//Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1656−1661. [43] SHANG Chao, TANG Yun, HUANG Jing, et al. End-toend structure-aware convolutional networks for knowledge base completion[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, the 31st Innovative Applications of Artificial Intelligence [44] 第 4 期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·737·
·738· 智能系统学报 第16卷 Conference,IAAI 2019,the 9th AAAI Symposium on bidirectional LSTM-CNNs[J].Transactions of the associ- Educational Advances in Artificial Intelligence.Honolulu, ation for computational linguistics,2016,4:357-370. United States,2019:3060-3067. [53]LU R.DUAN Z.Bidirectional GRU for sound event de- [45]TUAN Yilin,CHEN Y N,LEE H Y.DyKgChat:Bench- tection[C]//Detection and Classification of Acoustic marking dialogue generation grounding on dynamic Scenes and Events.[S.1.].2017:17-20. knowledge graphs[C]//Proceedings of 2019 Conference [54]CHUNG J,GULCEHRE C,CHO K H,et al.Empirical on Empirical Methods in Natural Language Processing evaluation of gated recurrent neural networks on se- and the 9th International Joint Conference on Natural quence modeling[J].(2020-01-01)[2020-05-01]https:/ Language Processing.Hong Kong,China,2019: arxiv.org/abs/1412.3555. 1855-1865. [55]KINGMA D P,BA J.Adam:a method for stochastic op- [46]GREFF K,SRIVASTAVA R K.KOUTNIK J,et al. timization[C]//Proceedings of the 3rd International Con- LSTM:A search space odyssey[J].IEEE transactions on ference on Learning Representations.San Diego,USA. neural networks and learning systems,2017,28(10): 2014:604-612 2222-2232. [47]XIE Qizhe,MA Xuezhe,DAI Zihang,et al.An inter- [56]JIANG Tianwen,ZHAO Tong,QIN Bing,et al.The role pretable knowledge transfer model for knowledge base of "Condition":a novel scientific knowledge graph rep- completion[C]//Proceedings of the 55th Annual Meeting resentation and construction model[C]//Proceedings of the of the Association for Computational Linguistics.Van- 25th ACM SIGKDD International Conference on Know- couver,Canada,2017:950-962. ledge Discovery Data Mining.Anchorage,United [48]BAHDANAU D,CHO K,BENGIO Y.Neural machine States,2019:1634-1642 translation by jointly learning to align and translate[Cl// 作者简介: Proceedings of the 3rd International Conference on Learn- 陈新元,讲师,主要研究方向为 ing Representations.San Diego,USA,2014. NLP、知识表达与推理。主持并参与 [49]VASWANI A,SHAZEER N,PARMAR N,et al.Atten- 省市级科研课题10余项,主持横向课 tion is all you need[C]//Advances in Neural Information 题多项。发表学术论文10余篇。 Processing Systems 30.Long Beach,USA,2017:5998- 6008. [50]WANG Xiang,WANG Dingxian,XU Canran,et al.Ex- plainable reasoning over knowledge graphs for recom- 谢晟袆,高级工程师,主要研究方 mendation[C]//Proceedings of the 33rd AAAI Confer- 向为人工智能、机器视觉。参与省级 ence on Artificial Intelligence,AAAI 2019,the 31st In- 科研课题1项,主持市厅级课题 2项。发表学术论文7篇。 novative Applications of Artificial Intelligence Confer- ence,IAAI 2019,the 9th AAAI Symposium on Educa- tional Advances in Artificial Intelligence.New York, United States,2019:5329-5336. [51]GRAVES A,MOHAMED A R,HINTON G.Speech re- 陈庆强,教授,主要研究方向为图 像处理、知识推理。发表学术论文 cognition with deep recurrent neural networks[C]//Pro- 10余篇。 ceedings of 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver, Canada.2013:6645-6649. [52]CHIU J PC,NICHOLS E.Named entity recognition with
Conference, IAAI 2019, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, United States, 2019: 3060−3067. TUAN Yilin, CHEN Y N, LEE H Y. DyKgChat: Benchmarking dialogue generation grounding on dynamic knowledge graphs[C]//Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China, 2019: 1855−1865. [45] GREFF K, SRIVASTAVA R K, KOUTNÍK J, et al. LSTM: A search space odyssey[J]. IEEE transactions on neural networks and learning systems, 2017, 28(10): 2222–2232. [46] XIE Qizhe, MA Xuezhe, DAI Zihang, et al. An interpretable knowledge transfer model for knowledge base completion[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017: 950−962. [47] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]// Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA, 2014. [48] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems 30. Long Beach, USA, 2017: 5998− 6008. [49] WANG Xiang, WANG Dingxian, XU Canran, et al. Explainable reasoning over knowledge graphs for recommendation[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, the 31st Innovative Applications of Artificial Intelligence Conference, IAAI 2019, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. New York, United States, 2019: 5329−5336. [50] GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013: 6645−6649. [51] [52] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the association for computational linguistics, 2016, 4: 357–370. LU R, DUAN Z. Bidirectional GRU for sound event detection[C]//Detection and Classification of Acoustic Scenes and Events. [S. l.]. 2017: 17−20. [53] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[J]. (2020-01-01)[2020-05-01] https:// arxiv.org/abs/1412.3555. [54] KINGMA D P, BA J. Adam: a method for stochastic optimization[C]//Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA, 2014: 604−612 [55] JIANG Tianwen, ZHAO Tong, QIN Bing, et al. The role of "Condition": a novel scientific knowledge graph representation and construction model[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, United States, 2019: 1634−1642. [56] 作者简介: 陈新元,讲师,主要研究方向为 NLP、知识表达与推理。主持并参与 省市级科研课题 10 余项,主持横向课 题多项。发表学术论文 10 余篇。 谢晟祎,高级工程师,主要研究方 向为人工智能、机器视觉。参与省级 科研课 题 1 项,主持市厅级课 题 2 项。发表学术论文 7 篇。 陈庆强,教授,主要研究方向为图 像处理、知识推理。发表学术论文 10 余篇。 ·738· 智 能 系 统 学 报 第 16 卷