第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.202008036 用于关系抽取的注意力图长短时记忆神经网络 张勇,高大林,巩敦卫,陶一凡 (中国矿业大学信息与控制工程学院,江苏徐州221116) 摘要:关系抽取是信息获取中一项关键技术。句子结构树能够捕获单词之间的长距离依赖关系,已被广泛用 于关系抽取任务中。但是,现有方法存在过度依赖句子结构树本身信息而忽略外部信息的不足。本文提出一 种新型的图神经网络模型,即注意力图长短时记忆神经网络(attention graph long short term memory neural net- wok,AGLSTM)。该模型采用一种软修剪策略自动学习对关系抽取有用的句子结构信息;通过引入注意力机 制,结合句法图信息学习句子的结构特征;并设计一种新型的图长短时记忆神经网络,使得模型能够更好地融 合句法图信息和句子的时序信息。与10种典型的关系抽取方法进行对比,实验验证了该模型的优异性能。 关键词:关系抽取:句子结构树;句法图;图神经网络;注意力图长短时记忆神经网络:软修剪策略;注意力机 制;长短时记忆神经网络 中图分类号:TP311文献标志码:A文章编号:1673-4785(2021)03-0518-10 中文引用格式:张勇,高大林,巩敦卫,等.用于关系抽取的注意力图长短时记忆神经网络.智能系统学报,2021,16(3): 518-527. 英文引用格式:ZHANG Yong,GAO Dalin,.GONG Dunwei,.etal.Attention graph long short-term memory neural network for re- lation extractionJ.CAAI transactions on intelligent systems,2021,16(3):518-527. Attention graph long short-term memory neural network for relation extraction ZHANG Yong,GAO Dalin,GONG Dunwei,TAO Yifan (School of Information and Control Engineering,China University of Mining and Technology,Xuzhou 221116,China) Abstract:Relation extraction is a key technology in information acquisition.The sentence structure tree that can cap- ture long-distance dependencies between words has been widely used in relational extraction tasks.However,existing methods still have the disadvantage of relying too much on the information of sentence structure tree and ignoring ex- ternal information.This paper proposes a new graph neural network structure,namely the attention graph long short term memory neural network(AGLSTM).The model adopts a soft pruning strategy to automatically learn sentence structure information useful for relation extraction tasks;then the attention mechanism is introduced and combined with the syntactic graph information to learn the structural features of the sentence;And designed a new type of graph long short term memory neural network to better fuse syntactic graph information and sentence timing information.Com- pared with 10 typical relational extraction methods,experiments verify the excellent performance of the proposed method. Keywords:relation extraction;sentence structure tree;syntactic diagram;graph neural network;AGLSTM;soft prun- ing strategy;attention mechanism:LSTM 关系抽取是信息抽取的一个重要组成部分, 序列模型和依赖关系模型。序列模型主要针对单 已被成功用于医学知识发现山、知识图谱构建 词序列进行建模),而依赖关系模型则是以句法 和问答推理间等诸多自然语言处理问题。关系抽 依存关系树为基础,构建依赖关系模型”。已有 取是指从非结构化的文本中抽取出实体对之间的 研究表明,相对序列模型而言,依赖关系模型可 三元组信息。 以利用句法依存树提取出句子中隐藏的非局部语 现有关系抽取模型或方法可大体分为2类: 法关系8叨,进而建立句内长距离的依赖关系。然 收稿日期:2020-08-30. 而,在生成句法依存树时,它常依赖句法结构规 基金项目:国家重点研发计划项目(2020YFB1708200):科技部 科技创新2030重大项目(2020AAA0107300). 则对句子结构进行修剪。这种基于规则的修剪策 通信作者:高大林.E-mail:1367963012@qq.com 略可能会删除句子结构所包含的重要隐式信息
DOI: 10.11992/tis.202008036 用于关系抽取的注意力图长短时记忆神经网络 张勇,高大林,巩敦卫,陶一凡 (中国矿业大学 信息与控制工程学院,江苏 徐州 221116) 摘 要:关系抽取是信息获取中一项关键技术。句子结构树能够捕获单词之间的长距离依赖关系,已被广泛用 于关系抽取任务中。但是,现有方法存在过度依赖句子结构树本身信息而忽略外部信息的不足。本文提出一 种新型的图神经网络模型,即注意力图长短时记忆神经网络 (attention graph long short term memory neural network, AGLSTM)。该模型采用一种软修剪策略自动学习对关系抽取有用的句子结构信息;通过引入注意力机 制,结合句法图信息学习句子的结构特征;并设计一种新型的图长短时记忆神经网络,使得模型能够更好地融 合句法图信息和句子的时序信息。与 10 种典型的关系抽取方法进行对比,实验验证了该模型的优异性能。 关键词:关系抽取;句子结构树;句法图;图神经网络;注意力图长短时记忆神经网络;软修剪策略;注意力机 制;长短时记忆神经网络 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2021)03−0518−10 中文引用格式:张勇, 高大林, 巩敦卫, 等. 用于关系抽取的注意力图长短时记忆神经网络 [J]. 智能系统学报, 2021, 16(3): 518–527. 英文引用格式:ZHANG Yong, GAO Dalin, GONG Dunwei, et al. Attention graph long short-term memory neural network for relation extraction[J]. CAAI transactions on intelligent systems, 2021, 16(3): 518–527. Attention graph long short-term memory neural network for relation extraction ZHANG Yong,GAO Dalin,GONG Dunwei,TAO Yifan (School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221116, China) Abstract: Relation extraction is a key technology in information acquisition. The sentence structure tree that can capture long-distance dependencies between words has been widely used in relational extraction tasks. However, existing methods still have the disadvantage of relying too much on the information of sentence structure tree and ignoring external information. This paper proposes a new graph neural network structure, namely the attention graph long short term memory neural network (AGLSTM). The model adopts a soft pruning strategy to automatically learn sentence structure information useful for relation extraction tasks; then the attention mechanism is introduced and combined with the syntactic graph information to learn the structural features of the sentence; And designed a new type of graph long short term memory neural network to better fuse syntactic graph information and sentence timing information. Compared with 10 typical relational extraction methods, experiments verify the excellent performance of the proposed method. Keywords: relation extraction; sentence structure tree; syntactic diagram; graph neural network; AGLSTM; soft pruning strategy; attention mechanism; LSTM 关系抽取是信息抽取的一个重要组成部分, 已被成功用于医学知识发现[1] 、知识图谱构建[2] 和问答推理[3] 等诸多自然语言处理问题。关系抽 取是指从非结构化的文本中抽取出实体对之间的 三元组信息。 现有关系抽取模型或方法可大体分为 2 类: 序列模型和依赖关系模型。序列模型主要针对单 词序列进行建模[4-5] ,而依赖关系模型则是以句法 依存关系树为基础,构建依赖关系模型[6-7]。已有 研究表明,相对序列模型而言,依赖关系模型可 以利用句法依存树提取出句子中隐藏的非局部语 法关系[8-9] ,进而建立句内长距离的依赖关系。然 而,在生成句法依存树时,它常依赖句法结构规 则对句子结构进行修剪。这种基于规则的修剪策 略可能会删除句子结构所包含的重要隐式信息。 收稿日期:2020−08−30. 基金项目:国家重点研发计划项目 (2020YFB1708200);科技部 科技创新 2030 重大项目 (2020AAA0107300). 通信作者:高大林. E-mail:1367963012@qq.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·519· 为此,Guo等o提出了一种基于软修剪的关系提 CNN)提取词汇级和句子级特征,进而完成关系 取模型,用以实现模型自主学习句法结构,而无 抽取;Zhang等l6利用长短时记忆神经网络学习 需对句法结构进行硬性修剪。虽然所提模型可以 实体对之间的长期依赖性;Zhang等u例在词嵌入 很好地学习句法结构,但是,由于图卷积模型本 的基础上考虑单词的位置和词性、句子结构依赖 身的无向性,其对上下文中时序特征的学习能力 等信息,设计了一种新型的长短时记忆神经网络 较弱。 进行关系抽取。马语丹等2通过引入注意力机 目前,已有学者以句法依存树为基础,提出了 制提取实体的网络环境信息,生成全局的上下文 多种图神经网络模型,但是所提模型大多是基于 特征。鉴于LSTM对文本信息建模的优越性,以 图卷积神经网络。图卷积神经网络可以很好地 及句子结构信息对文本关系抽取任务的重要性, 学习图结构数据的信息,却难以有效处理时序数 学者们还提出了结合句子结构信息建模的SDP 据。这就意味着,面向具备时序特性的文本数 LSTM和Tree-LSTM等改进模型。 据,只依赖图卷积神经网络并不能很好地抽取文 远程监督关系提取方法借助知识库,利用知 本中时序信息。相对图卷积神经网络,长短时记 识库中包含的知识来对非结构化文本进行标注。 忆神经网络(long short term memory neural network. 这种方法可以自动构建大量训练数据,不仅解决 LSTM)可以有效提取上下文的时序信息。目前, 了现有方法数据量不足的缺点,而且增强了模型 部分学者开始尝试将其用于跨句关系的抽取问 的跨领域适应能力。Mintz等2u最早提出了远程 题,并提出了多种图长短时记忆神经网络21)。 监督的基本假设,定义了远程监督任务。然而, 但是,这些方法都是基于修剪后句子结构树的信 远程监督在解决数据量不足的同时,容易带来较 息来构建图神经网络,依然存在误删有用信息的 大的噪声。为此,越来越多的学者开始关注对远 不足。另外,传统方法对句子结构信息的使用完 程监督方法的改进研究。Zeng等22融合分段卷 全依赖于句子结构树。如果句子结构树中蕴含错 积神经网络和多实例学习(multiple instance learn- 误信息,很容易累加错误信息。 ing,ML),提出了一种混合关系提取模型。该模 鉴于此,本文提出一种注意力图长短时记忆 型通过PCNN提取句子特征,利用ML消除错误 神经网络(attention graph long short term memory 样本噪声,进而实现远程监督关系抽取。 neural network,.AGLSTM)。采用注意力机制与句 子结构树相结合的方式建立句子的全局结构信 2所提关系抽取模型 息,生成全局注意力权重矩阵,并将其用于构造 2.1模型框架 AGLSTM模型。所提方法不仅可以充分利用 为同时学习句法图中句子的结构特征和句 LSTM学习句子的时序结构特征,而且可以根据 子之间的时序结构特征,提出一种新的图神经 句法图信息自行学习句子的结构特征。相对于完 网络结构,即注意力图长短时记忆神经网络 全依赖句子结构树的传统方法,本文方法是在原 (AGLSTM)。图I给出了融合AGLSTM模型的关 始句子结构树的基础上,利用注意力机制使得模 系抽取框架。 型自行学习句子结构中的信息,不仅可以得到更 2.2 Embedding层 加有效的关系抽取模型,而且鲁棒性更好。 关系抽取方法需要考虑语料中的实体语义特 1相关工作 征和实体位置特征。在自然语言处理领域中,词 向量表示常用于表示词的语义信息。本文通过词 关系抽取是自然语言处理中的一项重要分支 嵌入方法对整个语料库进行训练,得到语料库的 任务,在从非结构化文本中抽取结构性信息时起 词向量矩阵,其中每个词表示为一个dd维的向 着重要作用。现有主流关系抽取技术可分为 量wd。另外,为了更好地表示实体的语义特 2种:远程监督关系抽取4均和有监督关系抽取。 征,利用stanfordparser工具对语料库进行命名实 有监督关系抽取法把关系抽取看作一种多分 体识别NER)分析,将生成的NER标签映射成一 类任务进行处理。早期的研究成果主要是使用核 个daer维的向量waer。将wuod和waer连接即为词 函数等机器学习方法设计分类器叨,并进行关系 的实体表示向量。 提取任务。随着深度学习的兴起,深度神经网络 本文采用Zeng等1提出的实体位置嵌入方 已在关系抽取中得到了广泛应用。Zeng等u1采 法引入实体位置信息。将句中每一个单词与实体 用深度卷积神经网络(convolutional neural network, 对(e1,e2)的相对位置(p1,P2)映射成d维的距离
为此,Guo 等 [10] 提出了一种基于软修剪的关系提 取模型,用以实现模型自主学习句法结构,而无 需对句法结构进行硬性修剪。虽然所提模型可以 很好地学习句法结构,但是,由于图卷积模型本 身的无向性,其对上下文中时序特征的学习能力 较弱。 目前,已有学者以句法依存树为基础,提出了 多种图神经网络模型,但是所提模型大多是基于 图卷积神经网络[11]。图卷积神经网络可以很好地 学习图结构数据的信息,却难以有效处理时序数 据。这就意味着,面向具备时序特性的文本数 据,只依赖图卷积神经网络并不能很好地抽取文 本中时序信息。相对图卷积神经网络,长短时记 忆神经网络 (long short term memory neural network, LSTM) 可以有效提取上下文的时序信息。目前, 部分学者开始尝试将其用于跨句关系的抽取问 题,并提出了多种图长短时记忆神经网络[12-13]。 但是,这些方法都是基于修剪后句子结构树的信 息来构建图神经网络,依然存在误删有用信息的 不足。另外,传统方法对句子结构信息的使用完 全依赖于句子结构树。如果句子结构树中蕴含错 误信息,很容易累加错误信息。 鉴于此,本文提出一种注意力图长短时记忆 神经网络 (attention graph long short term memory neural network, AGLSTM)。采用注意力机制与句 子结构树相结合的方式建立句子的全局结构信 息,生成全局注意力权重矩阵,并将其用于构造 AGLSTM 模型。所提方法不仅可以充分利用 LSTM 学习句子的时序结构特征,而且可以根据 句法图信息自行学习句子的结构特征。相对于完 全依赖句子结构树的传统方法,本文方法是在原 始句子结构树的基础上,利用注意力机制使得模 型自行学习句子结构中的信息,不仅可以得到更 加有效的关系抽取模型,而且鲁棒性更好。 1 相关工作 关系抽取是自然语言处理中的一项重要分支 任务,在从非结构化文本中抽取结构性信息时起 着重要作用。现有主流关系抽取技术可分为 2 种:远程监督关系抽取[14-15] 和有监督关系抽取[5, 16]。 有监督关系抽取法把关系抽取看作一种多分 类任务进行处理。早期的研究成果主要是使用核 函数等机器学习方法设计分类器[17] ,并进行关系 提取任务。随着深度学习的兴起,深度神经网络 已在关系抽取中得到了广泛应用。Zeng 等 [18] 采 用深度卷积神经网络 (convolutional neural network, CNN) 提取词汇级和句子级特征,进而完成关系 抽取;Zhang 等 [16] 利用长短时记忆神经网络学习 实体对之间的长期依赖性;Zhang 等 [19] 在词嵌入 的基础上考虑单词的位置和词性、句子结构依赖 等信息,设计了一种新型的长短时记忆神经网络 进行关系抽取。马语丹等[20] 通过引入注意力机 制提取实体的网络环境信息,生成全局的上下文 特征。鉴于 LSTM 对文本信息建模的优越性,以 及句子结构信息对文本关系抽取任务的重要性, 学者们还提出了结合句子结构信息建模的 SDPLSTM[6] 和 Tree-LSTM[7] 等改进模型。 远程监督关系提取方法借助知识库,利用知 识库中包含的知识来对非结构化文本进行标注。 这种方法可以自动构建大量训练数据,不仅解决 了现有方法数据量不足的缺点,而且增强了模型 的跨领域适应能力。Mintz 等 [21] 最早提出了远程 监督的基本假设,定义了远程监督任务。然而, 远程监督在解决数据量不足的同时,容易带来较 大的噪声。为此,越来越多的学者开始关注对远 程监督方法的改进研究。Zeng 等 [22] 融合分段卷 积神经网络和多实例学习 (multiple instance learning,MIL),提出了一种混合关系提取模型。该模 型通过 PCNN 提取句子特征,利用 MIL 消除错误 样本噪声,进而实现远程监督关系抽取。 2 所提关系抽取模型 2.1 模型框架 为同时学习句法图中句子的结构特征和句 子之间的时序结构特征,提出一种新的图神经 网络结构,即注意力图长短时记忆神经网 络 (AGLSTM)。图 1 给出了融合 AGLSTM 模型的关 系抽取框架。 2.2 Embedding 层 dword wword dner wner wword wner 关系抽取方法需要考虑语料中的实体语义特 征和实体位置特征。在自然语言处理领域中,词 向量表示常用于表示词的语义信息。本文通过词 嵌入方法对整个语料库进行训练,得到语料库的 词向量矩阵,其中每个词表示为一个 维的向 量 。另外,为了更好地表示实体的语义特 征,利用 stanfordparser 工具对语料库进行命名实 体识别 (NER) 分析,将生成的 NER 标签映射成一 个 维的向量 。将 和 连接即为词 的实体表示向量。 (e1, e2) (p1, p2) dpos 本文采用 Zeng 等 [18] 提出的实体位置嵌入方 法引入实体位置信息。将句中每一个单词与实体 对 的相对位置 映射成 维的距离 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·519·
·520· 智能系统学报 第16卷 向量(w,w),其中w表示单词对实体e1的距 将实体语义特征嵌人与实体位置特征嵌入融 离信息,w表示单词对实体e的距离信息。最 合,作为模型嵌入层的输出,即wu=[wwod:Wner Wpos], 终实体的位置特征表示为wos=[wo,w]。 向量长度为dn=dod+daer+2 dps Softmax Layer 0.20.30.80.3 0. MaxPooling 0.20.50.10.1 0.40.40.10.3 0.80.20.20.1 注意力层 AGLSTM层 04020603 0.30.40.10.4 020.40.10.1 0.270. 0.70.3030.2 0.6+●0.3 Bi-LSTM层 哥 岛岛 句子结构关系树 全连接关系图 初始权重矩阵A said 2 He said indiary 模型输入: said 2 句子结构 said1 1 0 1 信息输入 He 1 (diary 5 diary 5) 0011 P,表示位置 嵌入向量 n表示单词 实体嵌人向量 囡 句子嵌入输人 句法结构信息输入 He said in the diary that he had assets of $250000 and that he had recently been promoted. 图1 AGLSTM模型的关系抽取框架 Fig.1 Relation extraction framework based on the AGLSTM model 2.3Bi-LSTM层 a11 a12 嵌入层输出的特征矩阵w包含每一个单词 A= .: 本身的信息,句子中每个词所包含的信息均独 anl an2 立。因为句子结构信息包含单词与单词间的相互 如图1右侧句子结构信息输入部分中初始权 关系,所以,为更好地将数据本身与句子结构信 重矩阵所示。将得到的邻接矩阵A与经过Bi- 息相结合,需要先通过一层双向LSTM层来获取 LSTM得到的文本特征相结合,输入到所提模型 词与词之间的语义连接,方法如下: 的AGLSTM层。 h,=LSTM(wh1) 2.5注意力图长短时记忆神经网络(AGLSTM) 克,=STM(w,hr-i) 现有方法大都依据句法结构信息将句子处理 成邻接子树,如图2所示。因为在子树中只有相 最终,将Bi-LSTM的正向和反向隐藏层输出 连叶子结点的单词可以构成联系,这些方法有可 相连接,可以得到输出特征h,=h,⊕h,。 能丢失远程单词之间的关联信息。鉴于此,本文 2.4句法结构矩阵的生成 采用软修剪策略,将句子的邻接子树转换为全连 对文本数据进行语义信息抽取时,不仅要考 接的边加权图;并通过注意力的形式,使模型可 虑句子所包含单词的特征信息,而且需要挖掘句 以根据初始邻接矩阵信息自行训练注意力权重, 子本身所蕴含的结构信息。已有大量研究成果将 进而更全面地学习句子的结构信息。 句法结构用于关系抽取,取得了很好的效果。 AGLSTM是由图长短时记忆神经网络(graph 为建立句法结构矩阵,首先利用句法依存分 析提取出每个句子序列S={S,S2,…,Sn}的句法结 long short term memory neural network,GLSTM) 构。例如,对句子He said in the diary that he had 注意力机制结合而成,如图1左侧所示。GLSTM assets of $250000 and that he had recently been 中每一个单词节点,的表达包括:单词节点的输 promoted.”进行句法分析,图2给出了它的句法 入特征向量表示x,句法图内所有与该单词相连 树。接着,将提取出的句法树信息转换成全连接 的边的表达和h。每一个边的表达是通过相 图的矩阵形式。图1右侧句子结构信息输入部分 连神经元节点的特征与边权重乘积得到,网络结 展示了构建初始邻接权重矩阵A的过程,其中, 构如图3所示。GLSTM中边权重只有1或0两 全连接关系图展示了扩展后的依存树。进一步, 种状态,当为0时代表该边不存在,而AGLSTM 将依存关系图写成矩阵形式,得到初始的句法结 是采用全连接的结构,边权重为0~1中的归一化 构邻接矩阵 值,因此学习到的信息更加丰富
(w 1 pos,w 2 pos) w 1 pos e1 w 2 pos e2 wpos = [w 1 pos,w 2 pos] 向量 ,其中 表示单词对实体 的距 离信息, 表示单词对实体 的距离信息。最 终实体的位置特征表示为 。 wu = [wword;wner;wpos] dw = dword +dner +2dpos 将实体语义特征嵌入与实体位置特征嵌入融 合,作为模型嵌入层的输出,即 , 向量长度为 。 h1 m1 m2 . . . . . . . . . MaxPooling Bi-LSTM 层 AGLSTM 层 模型输入: w 表示单词 嵌入向量 p 表示位置 嵌入向量 n 表示单词 实体嵌入向量 . . . . . . . . . . . . . . . said_2 He_1 diary_5 in_3 句子结构关系树 said_2 He_1 diary_5 in_3 in in He He diary diary said said 全连接关系图 初始权重矩阵 A A1 An G1 Gn 注意力层 句子结构 信息输入 . . . 0.3 0.8 0.2 0.1 0.4 0.3 0.2 0.2 ... ... ... ... ... ... ... ... 0.2 0.6 0.3 0.4 0.2 0.1 0.3 0.3 . . . He said in the diary that he had assets of $250000 and that he had recently been promoted. Softmax Layer 句子嵌入输入 句法结构信息输入 m3 mn−1 mn hn−1 hn−1 wn−1 pn−1 nn−1 wn pn nn hn h1 hn w1 p1 n1 n2 n3 p2 w2 w3 p3 h2 h3 h2 h3 0.8 0.2 0.2 0.1 0.4 0.4 0.1 0.3 0.2 0.5 0.1 0.1 0.2 0.3 0.8 0.3 0.7 0.3 0.3 0.2 0.2 0.4 0.1 0.1 0.3 0.4 0.1 0.4 0.4 0.2 0.6 0.3 1 1 0 0 1 1 0 1 0 0 1 1 0 1 1 1 图 1 AGLSTM 模型的关系抽取框架 Fig. 1 Relation extraction framework based on the AGLSTM model 2.3 Bi-LSTM 层 嵌入层输出的特征矩阵 wu 包含每一个单词 本身的信息,句子中每个词所包含的信息均独 立。因为句子结构信息包含单词与单词间的相互 关系,所以,为更好地将数据本身与句子结构信 息相结合,需要先通过一层双向 LSTM 层来获取 词与词之间的语义连接,方法如下: −→ht = −−−−−→ LSTM(wu, −−→ht−1) ←−ht = ←−−−−− LSTM(wu, ←−− ht−1) ht = −→ht ⊕ ←−ht 最终,将 Bi-LSTM 的正向和反向隐藏层输出 相连接,可以得到输出特征 。 2.4 句法结构矩阵的生成 对文本数据进行语义信息抽取时,不仅要考 虑句子所包含单词的特征信息,而且需要挖掘句 子本身所蕴含的结构信息。已有大量研究成果将 句法结构用于关系抽取,取得了很好的效果。 为建立句法结构矩阵,首先利用句法依存分 析提取出每个句子序列 S={S1 ,S2 , …, Sn}的句法结 构。例如,对句子“He said in the diary that he had assets of $250 000 and that he had recently been promoted.”进行句法分析,图 2 给出了它的句法 树。接着,将提取出的句法树信息转换成全连接 图的矩阵形式。图 1 右侧句子结构信息输入部分 展示了构建初始邻接权重矩阵 A 的过程,其中, 全连接关系图展示了扩展后的依存树。进一步, 将依存关系图写成矩阵形式,得到初始的句法结 构邻接矩阵 A = a11 a12 ··· a1n . . . . . . . . . an1 an2 ··· ann A 如图 1 右侧句子结构信息输入部分中初始权 重矩阵所示。将得到的邻接矩阵 与经过 BiLSTM 得到的文本特征相结合,输入到所提模型 的 AGLSTM 层。 2.5 注意力图长短时记忆神经网络 (AGLSTM) 现有方法大都依据句法结构信息将句子处理 成邻接子树,如图 2 所示。因为在子树中只有相 连叶子结点的单词可以构成联系,这些方法有可 能丢失远程单词之间的关联信息。鉴于此,本文 采用软修剪策略,将句子的邻接子树转换为全连 接的边加权图;并通过注意力的形式,使模型可 以根据初始邻接矩阵信息自行训练注意力权重, 进而更全面地学习句子的结构信息。 wj xj h in j h out j AGLSTM 是由图长短时记忆神经网络 (graph long short term memory neural network, GLSTM) 和 注意力机制结合而成,如图 1 左侧所示。GLSTM 中每一个单词节点 的表达包括:单词节点的输 入特征向量表示 ,句法图内所有与该单词相连 的边的表达 和 。每一个边的表达是通过相 连神经元节点的特征与边权重乘积得到,网络结 构如图 3 所示。GLSTM 中边权重只有 1 或 0 两 种状态,当为 0 时代表该边不存在,而 AGLSTM 是采用全连接的结构,边权重为 0~1 中的归一化 值,因此学习到的信息更加丰富。 ·520· 智 能 系 统 学 报 第 16 卷
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·521 root 0 said 2 He 1 diary_5 had 8 the_4 he_7 assets 9 and 13 promoted 19) 25000012 the 14 he 15 had 16 recently 17 been 18 of_10 S11 图2句法分析树示例 Fig.2 Schematic diagram of the syntactic analysis 重矩阵A。A中每一项代表节点a到b的边权 重。采用多头注意力机制(multi-head-attention), 使模型从不同表征子空间中获得多层面的信息, 最终可得到k个注意力权重矩阵: A k=1,2,…,n 图3 GLSTM网络结构 Fig.3 Structure of the GLSTM network aa点…am 在AGLSTM中每2个单词节点之间的边权 式中:每个矩阵A代表句子结构的一个权重图 重为注意力层所得多头注意力矩阵中相应元素的 G。图1中右侧注意力层给出了注意力层输出的 权重值。h和h的计算公式分别为 k个矩阵A*(k=1,2,…,m),每一个注意力权重矩 h=∑ah, 阵A分别与权重图G一一对应。最后,将k个注 (1) (位ieall 意力权重矩阵进行线性变换,整合成最终的权重 h=∑ah (2) 矩阵A,即为AGLSTM层的重要参数。 (kkea Self-attention机制可以交互计算序列中任意 式中:为从节点i到节点j的句子结构权重;h 位置,从而捕获整个序列内的依赖关系。具体 表示节点j的所有边的输入;h"表示节点j所有 地,Self-attention计算公式为 边的输出;h;和h:为节点i和k的隐藏状态特 u:tanh(W.HLsTM +b.) 征。GLSTM网络定义为 A=softmax(Wu,) ij=(Wixj+Uah+U2hgu+b) (3) 式中:HsTM是Bi-LSTM层提取的文本特征向量; oj=(Woxj+Uoihin+Uh +bo) u,是以tanh为激活函数的感知机层得到的隐藏特 (4) 征向量。通过softmax函数获得标准化的权重矩 fj=(Wixj+Unhi+Uphou+br) (5) 阵A。经过k次self-attention计算,可以得到多 uj=(Wuxj+Umhi+Uho+ba) (6) 头注意力机制输出的k个注意力权重矩阵A*。 cj=fjoc-1+i⊙uj (7 将得到的注意力权重矩阵A代入式(1)、(2), h;=o,⊙tanh(cji) (8) 计算单词节点w,的隐藏状态;再将得到的和 式中:、0和∫分别是输入门、输出门和遗忘 h用于式(3(8)中,通过注意力机制与GLSTM 门:W.、Ux和b(x∈(i,o,f,w)为模型参数:h;为节 的网络结构相结合,进而构造AGLSTM层。 点j的隐藏状态特征。 2.6线性连接层 结合注意力机制和GLSTM,构造注意力图长 根据多头注意力层,可以得到k个不同的注 短时记忆神经网络(AGLSTM)。利用注意力机制 意力权重矩阵A。AGLSTM层输出便得到k个不 对句子结构特征进行注意力运算,得到注意力权 同的结果。本文利用线性连接层将这k个不同的
root_0 said_2 He_1 diary_5 in_3 the_4 the_6 the_14 had_8 had_16 he_7 he_15 assets_9 and_13 250 000_12 of_10 $_11 promoted_19 recently_17 been_18 图 2 句法分析树示例 Fig. 2 Schematic diagram of the syntactic analysis m1 m . . . 2 m3 mn−1 mn 图 3 GLSTM 网络结构 Fig. 3 Structure of the GLSTM network h in j h out j 在 AGLSTM 中每 2 个单词节点之间的边权 重为注意力层所得多头注意力矩阵中相应元素的 权重值。 和 的计算公式分别为 h in j = ∑ (i, j)i∈all αi jhi (1) h out j = ∑ (j,k)k∈all αjkhk (2) αi j h in j h out j hi hk 式中: 为从节点 i 到节点 j 的句子结构权重; 表示节点 j 的所有边的输入; 表示节点 j 所有 边的输出; 和 为节点 i 和 k 的隐藏状态特 征。GLSTM 网络定义为 ij = σ(Wixj +Ui1h in j +Ui2h out j + bi) (3) oj = σ(Wo xj +Uo1h in j +Uo2h out j + bo) (4) fj = σ(Wf xj +Uf 1h in j +Uf 2h out j + bf) (5) uj = σ(Wu xj +Uu1h in j +Uu2h out j + bu) (6) cj = fj ⊙ cj−1 + ij ⊙uj (7) hj = oj ⊙tanh(cj) (8) ij oj fj Wx Ux bx(x ∈ (i,o, f,u)) hj 式中: 、 和 分别是输入门、输出门和遗忘 门; 、 和 为模型参数; 为节 点 j 的隐藏状态特征。 结合注意力机制和 GLSTM,构造注意力图长 短时记忆神经网络 (AGLSTM)。利用注意力机制 对句子结构特征进行注意力运算,得到注意力权 A k A 重矩阵 。 k 中每一项代表节点 a 到 b 的边权 重。采用多头注意力机制 (multi-head-attention), 使模型从不同表征子空间中获得多层面的信息, 最终可得到 k 个注意力权重矩阵: A k = α k 11 α k 12 ··· α k 1n . . . . . . . . . α k n1 α k n2 ··· α k nn , k = 1,2,··· ,n A k A k (k = 1,2,··· ,n) A k A 式中:每个矩阵 代表句子结构的一个权重图 G。图 1 中右侧注意力层给出了注意力层输出的 k 个矩阵 ,每一个注意力权重矩 阵 分别与权重图 G 一一对应。最后,将 k 个注 意力权重矩阵进行线性变换,整合成最终的权重 矩阵 ,即为 AGLSTM 层的重要参数。 Self-attention 机制可以交互计算序列中任意 位置,从而捕获整个序列内的依赖关系。具体 地,Self-attention 计算公式为 ut = tanh(WwHLSTM + bw) A k = softmax(Wuut) HLSTM ut A k A k 式中: 是 Bi-LSTM 层提取的文本特征向量; 是以 tanh 为激活函数的感知机层得到的隐藏特 征向量。通过 softmax 函数获得标准化的权重矩 阵 。经过 k 次 self-attention 计算,可以得到多 头注意力机制输出的 k 个注意力权重矩阵 。 A k wj h in j h out j 将得到的注意力权重矩阵 代入式 (1)、(2), 计算单词节点 的隐藏状态;再将得到的 和 用于式 (3)~(8) 中,通过注意力机制与 GLSTM 的网络结构相结合,进而构造 AGLSTM 层。 2.6 线性连接层 A 根据多头注意力层,可以得到 k 个不同的注 意力权重矩阵 。AGLSTM 层输出便得到 k 个不 同的结果。本文利用线性连接层将这 k 个不同的 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·521·
·522· 智能系统学报 第16卷 结果整合成最终的输出特征。线性连接层定义的 例,依次设置k=2,3,4,5,6],下面讨论k值对所提 数学形式为 模型性能的影响。表1展示了不同k值下所提模 hicomb=Wcomb hout +bcomb 型的F指标值。可以看出,当仁4时,模型得到 式中:Wob是线性连接层的权重矩阵;bomb是线性 了最佳的F指标值。鉴于此,后续实验中设置一4。 连接层的偏置矩阵;ncomb为最终输出的特征。 表1不同k值下所提模型的实验结果 2.7输出层 Table 1 Experimental results obtained using the pro- 针对最终输出的特征homb,先通过最大池化 posed model with different k values 号 层,保留句子中最重要的特征,再通过softmax函 k头数 F 数计算每一个类别的条件概率,进而输出模型预 =2 84.6 测特征的标签类别。每一个特征对应标签类别的 =3 85.1 预测概率为 =4 85.3 i,i=1,2…,N =5 84.7 p(h)= 了hob k=6 84.6 3.3评价指标 3 实验分析 本文采用关系抽取任务中常用的3类评价指 标:精确率P、召回率R和F值。二分类中常用 3.1数据集 的计算公式为 本节在2个常用的关系抽取数据集中验证所 TP P= 提模型的有效性。它们分别是TACRED数据集 TP+FP TP 和SemEval2010task8数据集2。 TACRED数据集:该数据集共106264条实 R=P+F时 2PR 例,分为训练集68124条,验证集22631条,测试集 F1= P+R 15509条。数据集引入了41种关系类型和一种 式中:TP((true positives)表示将正样本预测为正的 特殊的“no relation”类型,来描述实例中相关实 样本数;FP(false positives)表示将负样本预测为正 体对之间的关系。 的样本数;FN(false nagatives)表示将正样本预测 SemEval2010task8数据集:该数据集主要用 为负的样本数。 于对名词性实体之间的语义关系进行分类。它采 3.4对比算法 用9种关系类型和一种特殊的关系类型“Other'” 将AGLSTM模型与10种典型关系抽取方法 来描述实体对之间的关系。数据集一共包含10717 进行对比,它们分别为 条实例,其中,8000条实例为训练数据,其余为测 I)逻辑回归模型(logistics regression,LR)o 试数据。 2)支持向量机模型(support vector machine, 3.2模型参数与性能指标 SVM) 采用Adam算法优化本文所提模型,网络隐 3)双向LSTM模型+注意力机制(BiLSTM什At) 藏层节点数设置为300。为防止过拟合,在输入 该模型将双向LSTM模型与注意力机制结合进行 层和AGLSTM层同时引入损失率(dropout),并且 关系抽取。 在目标函数中引入L2正则化项,正则化因子取值 4)位置感知注意力LSTM模型(PA-LSTM)9: 为O.001。对于TACRED数据集,模型参数设置 该模型通过对引入实体位置的注意力机制建立 学习率为0.7,在输入层和AGLSTM层的损失率 模型。 都设为0.5。对于SemEval2010task8数据集,模 5)最短依存路径LSTM模型(SDP-LSTM)6: 型设置学习率为0.5,在输入层和AGLSTM层的 该模型使用2个实体之间的最短依存路径,并结 损失率分别设为0.5和0.3。采用预训练好的Glove 合LSTM模型进行建模。 向量对数据集进行词向量训练,生成词嵌入向 6)树结构LSTM模型(tree-LSTM)m:不同于 量;结合实体位置嵌入和NER标签嵌人,生成最 以往的顺序LSTM模型,该模型结合句子依存关 终嵌人层向量。 系树将LSTM推广到树形结构。 在注意力层,多头注意力机制的参数k会对 7)分段注意力LSTM模型(SA-LSTM)2:考 模型性能产生较大的影响。以SemEval数据集为 虑到部分实体关系信息包含在句子中的某些片段
结果整合成最终的输出特征。线性连接层定义的 数学形式为 hcomb=Wcombhout+bcomb Wcomb bcomb hcomb 式中: 是线性连接层的权重矩阵; 是线性 连接层的偏置矩阵; 为最终输出的特征。 2.7 输出层 针对最终输出的特征 hcomb,先通过最大池化 层,保留句子中最重要的特征,再通过 softmax 函 数计算每一个类别的条件概率,进而输出模型预 测特征的标签类别。每一个特征对应标签类别的 预测概率为 p(hi) = h i comb ∑N n=1 h n comb , i = 1,2,··· ,N 3 实验分析 3.1 数据集 本节在 2 个常用的关系抽取数据集中验证所 提模型的有效性。它们分别是 TACRED 数据集[19] 和 SemEval 2010 task 8 数据集[23]。 TACRED 数据集:该数据集共 106 264 条实 例,分为训练集 68124 条,验证集 22 631 条,测试集 15 509 条。数据集引入了 41 种关系类型和一种 特殊的“no relation”类型,来描述实例中相关实 体对之间的关系。 SemEval 2010 task 8 数据集:该数据集主要用 于对名词性实体之间的语义关系进行分类。它采 用 9 种关系类型和一种特殊的关系类型“Other” 来描述实体对之间的关系。数据集一共包含 10 717 条实例,其中,8 000 条实例为训练数据,其余为测 试数据。 3.2 模型参数与性能指标 采用 Adam 算法优化本文所提模型,网络隐 藏层节点数设置为 300。为防止过拟合,在输入 层和 AGLSTM 层同时引入损失率 (dropout),并且 在目标函数中引入 L2 正则化项,正则化因子取值 为 0.001。对于 TACRED 数据集,模型参数设置 学习率为 0.7,在输入层和 AGLSTM 层的损失率 都设为 0.5。对于 SemEval 2010 task8 数据集,模 型设置学习率为 0.5,在输入层和 AGLSTM 层的 损失率分别设为 0.5 和 0.3。采用预训练好的 Glove 向量[24] 对数据集进行词向量训练,生成词嵌入向 量;结合实体位置嵌入和 NER 标签嵌入,生成最 终嵌入层向量。 在注意力层,多头注意力机制的参数 k 会对 模型性能产生较大的影响。以 SemEval 数据集为 例,依次设置 k=[2,3,4,5,6],下面讨论 k 值对所提 模型性能的影响。表 1 展示了不同 k 值下所提模 型的 F1 指标值。可以看出,当 k=4 时,模型得到 了最佳的 F1 指标值。鉴于此,后续实验中设置 k=4。 表 1 不同 k 值下所提模型的实验结果 Table 1 Experimental results obtained using the proposed model with different k values % k头数 F1 k=2 84.6 k=3 85.1 k=4 85.3 k=5 84.7 k=6 84.6 3.3 评价指标 本文采用关系抽取任务中常用的 3 类评价指 标:精确率 P、召回率 R 和 F1 值。二分类中常用 的计算公式为 P = TP TP+FP R = TP TP+FN F1 = 2PR P+R 式中:TP(true positives) 表示将正样本预测为正的 样本数;FP(false positives) 表示将负样本预测为正 的样本数;FN(false nagatives) 表示将正样本预测 为负的样本数。 3.4 对比算法 将 AGLSTM 模型与 10 种典型关系抽取方法 进行对比,它们分别为 1) 逻辑回归模型 (logistics regression, LR)。 2) 支持向量机模型 (support vector machine, SVM)。 3) 双向 LSTM 模型+注意力机制 (BiLSTM+Att)[4] : 该模型将双向 LSTM 模型与注意力机制结合进行 关系抽取。 4) 位置感知注意力 LSTM 模型 (PA-LSTM)[19] : 该模型通过对引入实体位置的注意力机制建立 模型。 5) 最短依存路径 LSTM 模型 (SDP-LSTM)[6] : 该模型使用 2 个实体之间的最短依存路径,并结 合 LSTM 模型进行建模。 6) 树结构 LSTM 模型 (tree-LSTM)[7] :不同于 以往的顺序 LSTM 模型,该模型结合句子依存关 系树将 LSTM 推广到树形结构。 7) 分段注意力 LSTM 模型 (SA-LSTM)[25] :考 虑到部分实体关系信息包含在句子中的某些片段 ·522· 智 能 系 统 学 报 第 16 卷
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·523· 的情况,该模型设置了分段注意力层来进行这种 0.6。这主要因为,相比基于顺序结构的神经网络 信息的提取,给出了分段注意力LSTM模型。 模型,AGLSTM可以同时捕捉文本中顺序结构和 8)实体感知注意力LSTM模型(EA-LSTM)2: 依赖结构信息。 结合了实体感知注意力和潜在实体类型,该模型 与基于依赖结构的神经网络模型Tree-LSTM 给出了一种新的端到端的神经网络模型。 和GCN相比,AGLSTM模型的F,值分别提高了 9)图卷积神经网络模型(GCN):该模型提出 5.1和3.5。这表明,在捕获复杂语法特性模式、建 了一种以路径为中心的剪枝策略。结合图卷积网 立句子长期依赖关系模型方面,AGLSTM的能力 络,在最大限度保留有关内容的同时,GCN能从 要优于两种对比算法。与AGGCN模型相比, 树中删除无关信息,进一步提高关系抽取的性能。 AGLSTM模型的F,值提高了2.4。这说明, 10)注意力导向图卷积神经网络模型(AG- AGLSTM在满足捕获句子结构信息的同时,也能 GCN):该模型给出了一种基于注意力机制的软 很好地捕获上下文的时序信息。另外,在精确率 修剪策略,并采用图卷积进行建模。 P上,本文所提AGLSTM模型的结果也要明显高 在上述10种对比方法中,LR与SVM是基于 于其他模型。综上可见,相比于其他对比算法, 机器学习的模型:BiLSTM+Att、PA-LSTM、SDP AGLSTM模型是一种极具竞争力的关系抽取方法。 LSTM、SA-LSTM和EA-LSTM隶属于基于顺序 3.5.2数据集SemEval2010task8 结构的神经网络模型:Tree-LSTM、GCN与AG- 将AGLSTM模型与多种典型对比算法用于 GCN为基于依赖结构的神经网络模型。本文通过 该数据集,表3给出了它们所得的F指标值。一 与这3大类模型进行对比,验证所提模型的有效性。 方面,F,指标是对精确率P和召回率R的统一融 3.5结果分析 合,可以更为全面地反映算法的性能:另一方面, 3.5.1数据集TACRED 相关对比文献仅仅给出了该数据集的F,值。鉴 表2展示了AGLSTM和对比算法处理该数 于此,本文也只使用F值作为评价指标。 据时得到的3个性能指标值。可以看出:与基于 表3 SemEval数据集实验结果 机器学习的模型LR相比,在3个指标(P、R和 Table 3 Experimental results on SemEval F,)上,所提AGLSTM模型都获得了最优的指标 模型 F 值。特别地,AGLSTM所得R和F,值明显高于LR SVM 82.2 所得值。 CNN+Att 84.1 表2 TACRED数据集实验结果 BILSTM+Att 84.0 Table 2 Experimental results on TACRED % SDP-LSTM 83.7 模型 PA-LSTM R 82.7 F LR 73.5 49.9 59.4 SPTree 84.4 PA-LSTM 65.7 64.5 65.1 C-GCN 84.8 SDP-LSTM 66.3 52.7 58.7 AGLSTM(ours) 85.3 SA-LSTM 68.1 65.7 66.9 相比TACRED数据集,SemEval数据集的样 Tree-LSTM 66.0 59.2 62.4 本规模较小,共有10717条数据。通过表3可知, GCN 69.8 59.0 64.0 所提AGLSTM模型在小规模数据集SemEval上 AGGCN 69.9 60.9 65.1 也能取得较好的效果。与基于机器学习的模型 AGLSTM(ours) 74.0 62.2 67.5 SVM相比,7种基于神经网络模型的抽取算法都 与3种基于顺序结构的神经网络模型(PA- 获得了较好的F,值。这说明,复杂语义信息的提 LSTM、SDP-LSTM和SA-LSTM)相比,AGLSTM 取对语言模型的建立有很大帮助,也对关系抽取 获得了明显优于3种算法的P指标值。以PA- 的结果产生了很大影响,而神经网络模型更适合 LSTM为例.AGLSTM的P指标值提升了8.3:在 进行语义信息的建模。与基于顺序结构的神经网 召回率R指标上,SA-LSTM和PA-LSTM的结果 络模型(CNN+Att、Bilstm+At、SDP-LSTM和PA- 要好于本文所提模型AGLSTM。然而,从综合指 LSTM)相比,AGLSTM所得F,值分别提高了 标F,值来看,AGLSTM的结果要明显优于3种算 1.2、1.3、1.6和2.6;与基于依赖结构的神经网络模 法。相对PA-LSTM、SDP-LSTM和SA-LSTM, 型SPTree和GCN相比,AGLSTM模型的F,值分 AGLSTM的F,指标值分别提升了2.4、8.8和 别提高了0.9和0.5。这主要因为,相比这些对比
的情况,该模型设置了分段注意力层来进行这种 信息的提取,给出了分段注意力 LSTM 模型。 8) 实体感知注意力 LSTM 模型 (EA-LSTM)[26] : 结合了实体感知注意力和潜在实体类型,该模型 给出了一种新的端到端的神经网络模型。 9) 图卷积神经网络模型 (GCN)[8] :该模型提出 了一种以路径为中心的剪枝策略。结合图卷积网 络,在最大限度保留有关内容的同时,GCN 能从 树中删除无关信息,进一步提高关系抽取的性能。 10) 注意力导向图卷积神经网络模型 (AGGCN)[10] :该模型给出了一种基于注意力机制的软 修剪策略,并采用图卷积进行建模。 在上述 10 种对比方法中,LR 与 SVM 是基于 机器学习的模型;BiLSTM+Att、PA-LSTM、SDPLSTM、SA-LSTM 和 EA-LSTM 隶属于基于顺序 结构的神经网络模型;Tree-LSTM、GCN 与 AGGCN 为基于依赖结构的神经网络模型。本文通过 与这 3 大类模型进行对比,验证所提模型的有效性。 3.5 结果分析 3.5.1 数据集 TACRED 表 2 展示了 AGLSTM 和对比算法处理该数 据时得到的 3 个性能指标值。可以看出:与基于 机器学习的模型 LR 相比,在 3 个指标 (P、R 和 F1 ) 上,所提 AGLSTM 模型都获得了最优的指标 值。特别地,AGLSTM 所得 R 和 F1 值明显高于 LR 所得值。 表 2 TACRED 数据集实验结果 Table 2 Experimental results on TACRED % 模型 P R F1 LR 73.5 49.9 59.4 PA-LSTM 65.7 64.5 65.1 SDP-LSTM 66.3 52.7 58.7 SA-LSTM 68.1 65.7 66.9 Tree-LSTM 66.0 59.2 62.4 GCN 69.8 59.0 64.0 AGGCN 69.9 60.9 65.1 AGLSTM(ours) 74.0 62.2 67.5 与 3 种基于顺序结构的神经网络模型 (PALSTM、SDP-LSTM 和 SA-LSTM) 相比,AGLSTM 获得了明显优于 3 种算法的 P 指标值。以 PALSTM 为例,AGLSTM 的 P 指标值提升了 8.3;在 召回率 R 指标上,SA-LSTM 和 PA-LSTM 的结果 要好于本文所提模型 AGLSTM。然而,从综合指 标 F1 值来看,AGLSTM 的结果要明显优于 3 种算 法。相对 PA-LSTM、SDP-LSTM 和 SA-LSTM, AGLSTM 的 F1 指标值分别提升了 2.4、8.8 和 0.6。这主要因为,相比基于顺序结构的神经网络 模型,AGLSTM 可以同时捕捉文本中顺序结构和 依赖结构信息。 与基于依赖结构的神经网络模型 Tree-LSTM 和 GCN 相比,AGLSTM 模型的 F1 值分别提高了 5.1 和 3.5。这表明,在捕获复杂语法特性模式、建 立句子长期依赖关系模型方面,AGLSTM 的能力 要优于两种对比算法。与 AGGCN 模型相比, AGLSTM 模 型 的 F1 值提高 了 2.4。这说明, AGLSTM 在满足捕获句子结构信息的同时,也能 很好地捕获上下文的时序信息。另外,在精确率 P 上,本文所提 AGLSTM 模型的结果也要明显高 于其他模型。综上可见,相比于其他对比算法, AGLSTM 模型是一种极具竞争力的关系抽取方法。 3.5.2 数据集 SemEval 2010 task 8 将 AGLSTM 模型与多种典型对比算法用于 该数据集,表 3 给出了它们所得的 F1 指标值。一 方面,F1 指标是对精确率 P 和召回率 R 的统一融 合,可以更为全面地反映算法的性能;另一方面, 相关对比文献仅仅给出了该数据集的 F1 值。鉴 于此,本文也只使用 F1 值作为评价指标。 表 3 SemEval 数据集实验结果 Table 3 Experimental results on SemEval % 模型 F1 SVM 82.2 CNN+Att 84.1 BILSTM+Att 84.0 SDP-LSTM 83.7 PA-LSTM 82.7 SPTree 84.4 C-GCN 84.8 AGLSTM(ours) 85.3 相比 TACRED 数据集,SemEval 数据集的样 本规模较小,共有 10 717 条数据。通过表 3 可知, 所提 AGLSTM 模型在小规模数据集 SemEval 上 也能取得较好的效果。与基于机器学习的模型 SVM 相比,7 种基于神经网络模型的抽取算法都 获得了较好的 F1 值。这说明,复杂语义信息的提 取对语言模型的建立有很大帮助,也对关系抽取 的结果产生了很大影响,而神经网络模型更适合 进行语义信息的建模。与基于顺序结构的神经网 络模型 (CNN+Att、Bilstm+Att、SDP-LSTM 和 PALSTM) 相比,AGLSTM 所得 F1 值分别提高了 1.2、1.3、1.6 和 2.6;与基于依赖结构的神经网络模 型 SPTree 和 GCN 相比,AGLSTM 模型的 F1 值分 别提高了 0.9 和 0.5。这主要因为,相比这些对比 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·523·
·524· 智能系统学报 第16卷 算法,AGLSTM可以同时捕捉文本中顺序结构和 头注意力机制中的K值也会影响模型的复杂 依赖结构等2方面信息。 度。当K从2变化到5时,模型训练的时间呈现 3.6消融分析 递增趋势。 表4和表5分别展示了AGLSTM模型在2个 660 65 数据集上消融分析的结果。针对TACRED数据 620 集,由表3可知:1)删除LSTM层时,AGLSTM 580 553 的F值下降了1.8。这说明,利用LSTM对特征 540 进行初次提取对后续GLSTM层的处理有很大的 500 帮助。2)当删除注意力层时,AGLSTM模型的 原始模型 去掉注意力机制 去掉句子结构 去掉LSTM F结果下降了1.7。这意味着,注意力层在模型机 注意力头数=2 注意力头数=4 注意力头数=3 注意力头数=S 构中起到很重要的作用。3)当移除句法依存信息 模型种类 时,F:结果下降了0.5。本文所提模型是以句子结 图4 TACRED数据集下模型训练时间分析 构为基础实现的注意力机制,所以当除去句子结 Fig.4 Model training time analysis under the TACRED 构信息时,模型使用的注意力机制退化为依据句 dataset 子顺序序列实现的传统注意力机制。可见,句子 100 结构信息在模型中也起到了较为重要的作用。 80 16 表4 TACRED数据集上的消融研究结果 60 Table 4 Ablation analyses on TACRED 40 模型 20 FL 0 删除句法依存信息 67.0 删除LSTM层 65.7 原始模型 删除注意力层 去掉注意力机制 去掉句子结构 去掉LSTM 注意力头数=3 注意力头数=2 注意力头数=4 注意力头数=5 65.8 AGLSTM 模型种类 67.5 图5 Semeval数据集下模型训练时间分析 表5 SemEval数据集上的消融研究结果 Fig.5 Model training time analysis under the Semeval Table 5 Ablation analyses on SemEval oo dataset 模型 F 3.7模型的泛化性分析 删除句法依存信息 从表2和表3的实验结果可知,相对其他对 85.0 比模型,在采用相同训练集和测试集的情况下, 删除LSTM层 84.5 所提模型在数据集TACRED和SemEval都取得 删除注意力层 84.2 了较高的F,值。这在一定程度上说明所提模型 AGLSTM 85.3 的泛化性好于其他对比模型。针对不同句子长度 类似地,在对SemEval数据集进行分析时发 进行模型泛化性分析,将数据集TACRED划分成 现,当分别去掉句法依存信息、LSTM层、注意力 不同句子长度的数据集,图6展示了不同句子长 层时,AGLSTM的F指标值也均有所下降。这些都 度下所提模型的F,值。可以看出:1)当句子长度 说明,上述3个结构在模型训练中起了重要的作用。 位于20~60时,所提模型的F,值变化不大,而其 采用配置为2080Ti的单个GPU进行模型训 他对比模型的F:值变化幅度都要大于本文所提 练,图4、5展示了所提模型在处理数据集 模型。这说明本文所提模型更加稳定,具有更好 TACRED和Semeval时消融分析的训练时长。可 的泛化性和鲁棒性;2)与SDP-LSTM、PA-LSTM 以看出,针对2个数据集,AGLSTM模型的运行 和LSTM等基于顺序神经网络的模型相比,在处 花费分别为653min和76min;当分别除去 理较短句子时,基于图结构神经网络的模型 LSTM层、句子结构信息和注意力机制时,模型的 (AGLSTM和GCN)的性能表现略差;但是,对于 训练时间均有所降低:特别地,当除去注意力机 复杂长句子,AGLSTM和GCN的性能远高于3种 制时,AGLSTM运行时间的减少幅度最为明显。 基于顺序神经网络的模型。这表明,相对基于顺 这说明,注意力机制确实对模型复杂度有较大影 序神经网络的模型,基于图神经网络的模型可以 响,同时它也显著提高了模型的性能。此外,多 更好地处理复杂句子
算法,AGLSTM 可以同时捕捉文本中顺序结构和 依赖结构等 2 方面信息。 3.6 消融分析 表 4 和表 5 分别展示了 AGLSTM 模型在 2 个 数据集上消融分析的结果。针对 TACRED 数据 集,由表 3 可知:1) 删除 LSTM 层时,AGLSTM 的 F1 值下降了 1.8。这说明,利用 LSTM 对特征 进行初次提取对后续 GLSTM 层的处理有很大的 帮助。2) 当删除注意力层时,AGLSTM 模型的 F1 结果下降了 1.7。这意味着,注意力层在模型机 构中起到很重要的作用。3) 当移除句法依存信息 时,F1 结果下降了 0.5。本文所提模型是以句子结 构为基础实现的注意力机制,所以当除去句子结 构信息时,模型使用的注意力机制退化为依据句 子顺序序列实现的传统注意力机制。可见,句子 结构信息在模型中也起到了较为重要的作用。 表 4 TACRED 数据集上的消融研究结果 Table 4 Ablation analyses on TACRED % 模型 F1 删除句法依存信息 67.0 删除LSTM层 65.7 删除注意力层 65.8 AGLSTM 67.5 表 5 SemEval 数据集上的消融研究结果 Table 5 Ablation analyses on SemEval % 模型 F1 删除句法依存信息 85.0 删除LSTM层 84.5 删除注意力层 84.2 AGLSTM 85.3 类似地,在对 SemEval 数据集进行分析时发 现,当分别去掉句法依存信息、LSTM 层、注意力 层时,AGLSTM 的 F1 指标值也均有所下降。这些都 说明,上述 3 个结构在模型训练中起了重要的作用。 采用配置为 2080Ti 的单个 GPU 进行模型训 练 , 图 4 、 5 展示了所提模型在处理数据 集 TACRED 和 Semeval 时消融分析的训练时长。可 以看出,针对 2 个数据集,AGLSTM 模型的运行 花费分别 为 653 mi n 和 76 min;当分别除 去 LSTM 层、句子结构信息和注意力机制时,模型的 训练时间均有所降低;特别地,当除去注意力机 制时,AGLSTM 运行时间的减少幅度最为明显。 这说明,注意力机制确实对模型复杂度有较大影 响,同时它也显著提高了模型的性能。此外,多 头注意力机制中的 K 值也会影响模型的复杂 度。当 K 从 2 变化到 5 时,模型训练的时间呈现 递增趋势。 653 618 636 553 564 600 653 655 500 540 580 620 660 原始模型 去掉 LSTM 去掉句子结构 去掉注意力机制 注意力头数=2 注意力头数=3 注意力头数=4 注意力头数=5 训练所需时间/min 模型种类 图 4 TACRED 数据集下模型训练时间分析 Fig. 4 Model training time analysis under the TACRED dataset 58 68 45 53 60 76 85 0 20 40 60 80 100 原始模型 去掉 LSTM 去掉句子结构 去掉注意力机制 注意力头数=2 注意力头数=3 注意力头数=4 注意力头数=5 训练所需时间/min 模型种类 76 图 5 Semeval 数据集下模型训练时间分析 Fig. 5 Model training time analysis under the Semeval dataset 3.7 模型的泛化性分析 从表 2 和表 3 的实验结果可知,相对其他对 比模型,在采用相同训练集和测试集的情况下, 所提模型在数据集 TACRED 和 SemEval 都取得 了较高的 F1 值。这在一定程度上说明所提模型 的泛化性好于其他对比模型。针对不同句子长度 进行模型泛化性分析,将数据集 TACRED 划分成 不同句子长度的数据集,图 6 展示了不同句子长 度下所提模型的 F1 值。可以看出:1) 当句子长度 位于 20~60 时,所提模型的 F1 值变化不大,而其 他对比模型的 F1 值变化幅度都要大于本文所提 模型。这说明本文所提模型更加稳定,具有更好 的泛化性和鲁棒性;2) 与 SDP-LSTM、PA-LSTM 和 LSTM 等基于顺序神经网络的模型相比,在处 理较短句子时,基于图结构神经网络的模 型 (AGLSTM 和 GCN) 的性能表现略差;但是,对于 复杂长句子,AGLSTM 和 GCN 的性能远高于 3 种 基于顺序神经网络的模型。这表明,相对基于顺 序神经网络的模型,基于图神经网络的模型可以 更好地处理复杂句子。 ·524· 智 能 系 统 学 报 第 16 卷
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·525· 75 business..”的可视化结果。 70 图7中4个子图分别对应4个注意力机制的 头。本文通过全连接构建完整的句子结构,因此 65 每个单词对句子中所有单词均有一个权重,图7 60 ·AGLSTM 中颜色的深浅代表关系权重的高低,即单词之间 C-GCN 相关性的强弱。可以看出,图7中对角线的颜色 -◆-LSTM SDP-LSTM 普遍较深,说明每个单词对应自己的权重最大; PA-LSTM 50 “Countrywide”和“Angelo Mozilo”是一对实体 20 3040 50 60 70 句子长度词 对,“Countrywide”是一个机构名,它的权重主要 集中在“CEO”和“article”等相近的词上;“Angelo 图6句子长度分析结果 Fig.6 Results of the sentence length analysis Mozilo”是一个人名,它的注意权重主要集中在 3.8可视化分析 “CEO”、“was”和“mocking'”等表现人物特征的词 本节通过对模型中使用的注意力机制进行可 上。实际上,这些词对“Countrywide'”和“Angelo 视化分析,说明所提模型更具可解释性。注意力 Mozilo'”之间关系“org:top_members/,employees' 机制的可视化显示了句中每个单词对于其他词的 有很重要的预测作用。因此这些词学习到的注意 重要程度,可以通过注意力机制来获得更丰富的 力权重较大,颜色较深:其他单词对于句子结构 词汇表征。图7展示了句子'In an August2004 信息的建模也起着一定的作用,不能完全忽略, Fortune article,Countrywide CEO Angelo Mozilo 其颜色较浅。这些都表明,模型使用的注意力机 was mocking WaMu for its stumbles in the mortage 制可以更好地建模句子的全局结构信息。 August 0.405 0.400 article 0.400 article 0.395 0.395 8 0.390 mg 0.390 m for for 0.385 stumbles 0.385 stumbles 0.380 mortgage 0.380 business business (a)注意力头数=l (b)注意力头数=2 0 兰u s=是0尖9 0.3975 Aug 0.3975 0.3950 04 0.3950 0.3925 0.3925 0.3900 0.3900 0.3875 m 0.3875 0.3850 stumble 0.3850 0.3825 stumbles 0.3825 0.3800 business business 0.3800 (c)注意力头数=3 (d注意力头数=4 图7注意力机制可视化分析 Fig.7 Visual analysis of the attention mechanisms
50 55 60 65 70 75 20 30 40 50 60 70 句子长度/词 AGLSTM C-GCN LSTM SDP-LSTM PA-LSTM F1/% 图 6 句子长度分析结果 Fig. 6 Results of the sentence length analysis 3.8 可视化分析 本节通过对模型中使用的注意力机制进行可 视化分析,说明所提模型更具可解释性。注意力 机制的可视化显示了句中每个单词对于其他词的 重要程度,可以通过注意力机制来获得更丰富的 词汇表征。图 7 展示了句子“In an August 2004 Fortune article, Countrywide CEO Angelo Mozilo was mocking WaMu for its stumbles in the mortage business.”的可视化结果。 图 7 中 4 个子图分别对应 4 个注意力机制的 头。本文通过全连接构建完整的句子结构,因此 每个单词对句子中所有单词均有一个权重,图 7 中颜色的深浅代表关系权重的高低,即单词之间 相关性的强弱。可以看出,图 7 中对角线的颜色 普遍较深,说明每个单词对应自己的权重最大; “Countrywide”和“Angelo Mozilo”是一对实体 对,“Countrywide”是一个机构名,它的权重主要 集中在“CEO”和“article”等相近的词上;“Angelo Mozilo”是一个人名,它的注意权重主要集中在 “CEO”、“was”和“mocking”等表现人物特征的词 上。实际上,这些词对“Countrywide”和“Angelo Mozilo”之间关系“org:top_members/ employees” 有很重要的预测作用。因此这些词学习到的注意 力权重较大,颜色较深;其他单词对于句子结构 信息的建模也起着一定的作用,不能完全忽略, 其颜色较浅。这些都表明,模型使用的注意力机 制可以更好地建模句子的全局结构信息。 0.405 0.400 0.395 0.390 0.385 0.380 (a) 注意力头数=1 (c) 注意力头数=3 0.400 0.395 0.390 0.385 0.380 (b) 注意力头数=2 0.390 0 0.392 5 0.395 0 0.397 5 0.387 5 0.385 0 0.382 5 0.380 0 In an August 2004 Fortune article Countrywide CEO Angelo Mozilo was mocking WaMu for its in the stumbles mortgage business , . In an August 2004 Fortune article Countrywide CEO Angelo Mozilo was mocking WaMu for its in the stumbles mortgage business , . In an August 2004 Fortune article Countrywide CEO Angelo Mozilo was mocking WaMu for its in the stumbles mortgage business , . In an August 2004 Fortune article Countrywide CEO Angelo Mozilo was mocking WaMu for its in the stumbles mortgage business , . In an August 2004 Fortune article , Countrywide CEO Angelo Mozilo was mocking WaMu for its stumbles in the mortgage business . In an August 2004 Fortune article , Countrywide CEO Angelo Mozilo was mocking WaMu for its stumbles in the mortgage business . In an August 2004 Fortune article , Countrywide CEO Angelo Mozilo was mocking WaMu for its stumbles in the mortgage business . In an August 2004 Fortune article , Countrywide CEO Angelo Mozilo was mocking WaMu for its stumbles in the mortgage business . (d) 注意力头数=4 0.390 0 0.392 5 0.395 0 0.397 5 0.387 5 0.385 0 0.382 5 0.380 0 图 7 注意力机制可视化分析 Fig. 7 Visual analysis of the attention mechanisms 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·525·
·526· 智能系统学报 第16卷 4结束语 ic representations from tree-structured long short-Term memory networks[C]//Proceedings of the 53rd Annual 本文提出了一种新型的注意力图长短时记忆 Meeting of the Association for Computational Linguistics 神经网络模型(AGLSTM)。该模型将注意力机制 and the 7th International Joint Conference on Natural Lan 与句子结构树结合,实现了模型自主学习句子结 guage Processing.Beijing,China:Association for Compu 构信息的功能。所提模型不仅拥有很好的捕捉复 tational Linguistics,2015:1556-1566 杂语义关系和依赖结构的能力,并且弥补了图卷 [8]ZHANG Yuhao,QI Peng,MANNING C D.Graph convo- lution over pruned dependency trees improves relation ex- 积网络对时序信息捕捉能力差的不足。与10种 traction[C]//Proceedings of the 2018 Conference on Empir- 关系提取模型或方法进行对比,实验结果表明, ical Methods in Natural Language Processing.Brussels, 所提模型在关系抽取上具有较佳的性能,其准确 Belgium:Association for Computational Linguistics,2018: 率要远高于其他对比模型。在未来工作中,将深 2205-2215. 入研究句内结构以及句间结构的信息提取,将模 [9]甘丽新,万常选,刘德喜,等.基于句法语义特征的中文 型进行完善并应用到句间关系抽取任务。 实体关系抽取[J].计算机研究与发展,2016,53(2): 284302. 参考文献: GAN Lixin,WANG Changxuan,LIU Dexi,et al.Chinese named entity relation extraction based on syntactic and se- [1]杨志豪洪莉,林鸿飞,等.基于支持向量机的生物医学文 mantic features[J].Journal of computer research and devel- 献蛋白质关系抽取).智能系统学报,2008(4):361-369. 0 oment,.2016,53(2284-302. Yang Zhihao,Hong Li,Lin Hongfei,et al.Extraction of in- [10]GUO Zhijiang,ZHANG Yan,LU Wei.Attention guided formation on protein-protein interaction from biomedical graph convolutional networks for relation extraction literatures using an SVM[J].CAAI transactions on intelli- [Cl//Proceedings of the 57th Annual Meeting of the Asso- gent systems,2008(4):361-369 ciation for Computational Linguistics.Florence,Italy: [2]李智超.图文知识图谱中的关系抽取算法研究D],北 ACL,241-251. 京:北京邮电大学,2018 [11]FU T J,LI P H,MA Weiyun.GraphRel:modeling text as LI Zhichao.A relation extraction algorithm in multi-modal relational graphs for joint entity and relation extraction knowledge graph[D].Beijing:Beijing University of Posts [Cl//Proceedings of the 57th Annual Meeting of the Asso- and Telecommunications,2018. ciation for Computational Linguistics.Florence,Italy:As- [3]张涛贾真,李天瑞,等.基于知识库的开放领域问答系统 sociation for Computational Linguistics,2019: [J.智能系统学报,2018,13(4):557-563 1409-1418. ZHANG Tao,JIA Zhen,LI Tianrui,et al.Open-domain [12]PENG Nanyun,POON H.QUIRK C,et al.Cross-sen- question-answering system based on large-scale know- tence N-ary relation extraction with graph LSTMs[J]. ledge base[J].CAAI transactions on intelligent systems, Transactions of the association for computational linguist- 2018.13(4):557-563. ics.2017,5:101-115. [4]ZHOU Peng,SHI Wei,TIAN Jun,et al.Attention-based [13]SONG Linfeng,ZHANG Yue,WANG Zhiguo,et al.N- bidirectional long short-term memory networks for rela- ary relation extraction using graph state LSTM[C]//Pro- tion classification[C]//Proceedings of the 54th Annual ceedings of the 2018 Conference on Empirical Methods in Meeting of the Association for Computational Linguistics. Natural Language Processing.Brussels,Belgium:Associ- Berlin,Germany:Association for Computational Linguist- ation for Computational Linguistics,2018:2226-2235. ics.2016:207-212 [14]ZHOU Peng,XU Jiaming,QI Zhenyu,et al.Distant su- [5]ZHANG Lei,XIANG Fusheng.Relation classification via pervision for relation extraction with hierarchical select- BiLSTM-CNN[C]//Proceedings of the 3rd International ive attention[J].Neural networks.2018.108:240-247. Conference on Data Mining and Big Data.Shanghai, [15]JI Guoliang,LIU Kang,HE Shizhu,et al.Distant supervi- China:Springer,2018:373-382. sion for relation extraction with sentence-level attention [6]XU Yan,MOU Lili,LI Ge,et al.Classifying relations via and entity descriptions[C]//Proceedings of the 31st AAAl long short term memory networks along shortest depend- Conference on Artificial Intelligence.San Francisco. ency paths[C]//Proceedings of the 2015 Conference on USA:AAAI Press,2017. Empirical Methods in Natural Language Processing.Lis- [16]ZHANG Shu,ZHENG Dequan,HU Xinchen,et al.Bid- bon,Portugal:Association for Computational Linguistics, irectional long short-term memory networks for relation 2015:1785-1794. classification[C]//Proceedings of the 29th Pacific Asia [7]TAI K S.SOCHER R,MANNING C D.Improved semant- Conference on Language,Information and Computation
4 结束语 本文提出了一种新型的注意力图长短时记忆 神经网络模型 (AGLSTM)。该模型将注意力机制 与句子结构树结合,实现了模型自主学习句子结 构信息的功能。所提模型不仅拥有很好的捕捉复 杂语义关系和依赖结构的能力,并且弥补了图卷 积网络对时序信息捕捉能力差的不足。与 10 种 关系提取模型或方法进行对比,实验结果表明, 所提模型在关系抽取上具有较佳的性能,其准确 率要远高于其他对比模型。在未来工作中,将深 入研究句内结构以及句间结构的信息提取,将模 型进行完善并应用到句间关系抽取任务。 参考文献: 杨志豪,洪莉,林鸿飞,等. 基于支持向量机的生物医学文 献蛋白质关系抽取 [J]. 智能系统学报, 2008(4): 361–369. Yang Zhihao, Hong Li, Lin Hongfei, et al. Extraction of information on protein-protein interaction from biomedical literatures using an SVM[J]. CAAI transactions on intelligent systems, 2008(4): 361–369. [1] 李智超. 图文知识图谱中的关系抽取算法研究 [D]. 北 京: 北京邮电大学, 2018. LI Zhichao. A relation extraction algorithm in multi-modal knowledge graph[D]. Beijing: Beijing University of Posts and Telecommunications, 2018. [2] 张涛,贾真,李天瑞,等. 基于知识库的开放领域问答系统 [J]. 智能系统学报, 2018, 13(4): 557–563. ZHANG Tao, JIA Zhen, LI Tianrui, et al. Open-domain question-answering system based on large-scale knowledge base[J]. CAAI transactions on intelligent systems, 2018, 13(4): 557–563. [3] ZHOU Peng, SHI Wei, TIAN Jun, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016: 207−212. [4] ZHANG Lei, XIANG Fusheng. Relation classification via BiLSTM-CNN[C]//Proceedings of the 3rd International Conference on Data Mining and Big Data. Shanghai, China: Springer, 2018: 373−382. [5] XU Yan, MOU Lili, LI Ge, et al. Classifying relations via long short term memory networks along shortest dependency paths[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association for Computational Linguistics, 2015: 1785−1794. [6] [7] TAI K S, SOCHER R, MANNING C D. Improved semantic representations from tree-structured long short-Term memory networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015: 1556−1566. ZHANG Yuhao, QI Peng, MANNING C D. Graph convolution over pruned dependency trees improves relation extraction[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018: 2205−2215. [8] 甘丽新, 万常选, 刘德喜, 等. 基于句法语义特征的中文 实体关系抽取 [J]. 计算机研究与发展, 2016, 53(2): 284–302. GAN Lixin, WANG Changxuan, LIU Dexi, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of computer research and development, 2016, 53(2): 284–302. [9] GUO Zhijiang, ZHANG Yan, LU Wei. Attention guided graph convolutional networks for relation extraction [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 241−251. [10] FU T J, LI P H, MA Weiyun. GraphRel: modeling text as relational graphs for joint entity and relation extraction [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 1409−1418. [11] PENG Nanyun, POON H, QUIRK C, et al. Cross-sentence N-ary relation extraction with graph LSTMs[J]. Transactions of the association for computational linguistics, 2017, 5: 101–115. [12] SONG Linfeng, ZHANG Yue, WANG Zhiguo, et al. Nary relation extraction using graph state LSTM[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018: 2226−2235. [13] ZHOU Peng, XU Jiaming, QI Zhenyu, et al. Distant supervision for relation extraction with hierarchical selective attention[J]. Neural networks, 2018, 108: 240–247. [14] JI Guoliang, LIU Kang, HE Shizhu, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017. [15] ZHANG Shu, ZHENG Dequan, HU Xinchen, et al. Bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation. [16] ·526· 智 能 系 统 学 报 第 16 卷
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·527· Shanghai,China:PACLIC,2015:73-78 [24]PENNINGTON J,SOCHER R,MANNING C.GloVe: [17]ZELENKO D,AONE C.RICHARDELLA A.Kernel global vectors for word representation[Cl/Proceedings of methods for relation extraction[J].The journal of ma- the 2014 Conference on Empirical Methods in Natural chine learning research,2003,3:1083-1106. Language Processing.Doha,Qatar:Association for Com- [18]ZENG Daojian,LIU Kang,LAI Siwei,et al.Relation putational Linguistics,2014:1532-1543. classification via convolutional deep neural network [25]YU Bowen,ZHANG Zhenyu,LIU Tingwen,et al.Bey- [Cl//Proceedings of COLING 2014,the 25th Internation- ond word attention:using segment attention in neural re- al Conference on Computational Linguistics:Technical lation extraction[Cl//Proceedings of the 28th Internation- Papers.Dublin,Ireland:Dublin City University and Asso al Joint Conference on Artificial Intelligence.Macao, ciation for Computational Linguistics,2014:2335-2344. China:IJCAI,2019:33-38. [19]ZHANG Yuhao,ZHONG V,CHEN Danqi,et al.Posi- [26]LEE J,SEO S,CHOI Y S.Semantic relation classifica- tion-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empir- tion via bidirectional LSTM networks with entity-aware ical Methods in Natural Language Processing.Copenha- attention using latent entity typing[J].Symmetry,2019, gen,Denmark:Association for Computational Linguist- 11(6)785. ics,2017:35-45 作者简介: [20]马语丹,赵义,金婧,等.结合实体共现信息与句子语义 张勇,教授,博土生导师,博士,中 特征的关系抽取方法[).中国科学:信息科学,2018, 国人工智能学会自然计算与数字智能 48(11):1533-1545 城市专委会委员,主要研究方向为智 MA Yudan,ZHAO Yi,JIN Jing,et al.Combining entity 能优化和数据挖掘。主持国家自然科 co-occurrence information and sentence semantic fea- 学基金3项,中国博士后科学基金特 tures for relation extraction[].Scientia sinica informa- 别资助等省部级科研项目5项。获教 tionis,,2018,48(11:1533-1545. 育部高等学校科学研究优秀成果二等 [21]MINTZ M,BILLS S,SNOW R,et al.Distant supervi- 奖。获授权发明专利4项,发表学术论文50余篇。 sion for relation extraction without labeled data[Cl//Pro- 高大林,硕士研究生,主要研究方 ceedings of the Joint Conference of the 47th Annual 向为自然语言处理、关系抽取。 Meeting of the ACL and the 4th International Joint Con- ference on Natural Language Processing of the AFNLP. Suntec,Singapore:Association for Computational Lin- guistics,.2009:1003-1011. [22]ZENG D,KANG L,CHEN Y,et al.Distant supervision for relation extraction via piecewise convolutional neural 巩敦卫,教授,博士生导师,博士 networks[C]//Proceedings of the Proceedings of the 2015 江苏省自动化学会常务理事、副秘书 Conference on Empirical Methods in Natural Language 长,主要研究方向为智能优化和软件 Processin.Lisbon,Portugal,2015:1753-1762. 测试。主持国家“973”计划子课题 [23]HENDRICKX I,KIM S N,KOZAREVA Z,et al.Semev- 1项,国家重点研发计划子课题1项, al-2010 task 8:Multi-way classification of semantic rela- 国家自然科学基金6项,省部级科研 tions between pairs of nominals[C]//Proceedings of the 项目8项。获高等学校科学研究优秀 5th International Workshop on Semantic Evaluation. 成果二等奖、江苏省科学技术二等奖。获授权发明专利 Uppsala,Sweden:ACM,2010:33-38. 15项。出版专著8部,发表学术论文100余篇
Shanghai, China: PACLIC, 2015: 73−78. ZELENKO D, AONE C, RICHARDELLA A. Kernel methods for relation extraction[J]. The journal of machine learning research, 2003, 3: 1083–1106. [17] ZENG Daojian, LIU Kang, LAI Siwei, et al. Relation classification via convolutional deep neural network [C]//Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. Dublin, Ireland: Dublin City University and Association for Computational Linguistics, 2014: 2335−2344. [18] ZHANG Yuhao, ZHONG V, CHEN Danqi, et al. Position-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017: 35−45. [19] 马语丹, 赵义, 金婧, 等. 结合实体共现信息与句子语义 特征的关系抽取方法 [J]. 中国科学: 信息科学, 2018, 48(11): 1533–1545. MA Yudan, ZHAO Yi, JIN Jing, et al. Combining entity co-occurrence information and sentence semantic features for relation extraction[J]. Scientia sinica informationis, 2018, 48(11): 1533–1545. [20] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore: Association for Computational Linguistics, 2009: 1003−1011. [21] ZENG D, KANG L, CHEN Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processin. Lisbon, Portugal, 2015: 1753−1762. [22] HENDRICKX I, KIM S N, KOZAREVA Z, et al. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden: ACM, 2010: 33−38. [23] PENNINGTON J, SOCHER R, MANNING C. GloVe: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1532−1543. [24] YU Bowen, ZHANG Zhenyu, LIU Tingwen, et al. Beyond word attention: using segment attention in neural relation extraction[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China: IJCAI, 2019: 33−38. [25] LEE J, SEO S, CHOI Y S. Semantic relation classification via bidirectional LSTM networks with entity-aware attention using latent entity typing[J]. Symmetry, 2019, 11(6): 785. [26] 作者简介: 张勇,教授,博士生导师,博士,中 国人工智能学会自然计算与数字智能 城市专委会委员,主要研究方向为智 能优化和数据挖掘。主持国家自然科 学基金 3 项,中国博士后科学基金特 别资助等省部级科研项目 5 项。获教 育部高等学校科学研究优秀成果二等 奖。获授权发明专利 4 项,发表学术论文 50 余篇。 高大林,硕士研究生,主要研究方 向为自然语言处理、关系抽取。 巩敦卫,教授,博士生导师,博士, 江苏省自动化学会常务理事、副秘书 长,主要研究方向为智能优化和软件 测试。主持国家“973”计划子课题 1 项,国家重点研发计划子课题 1 项, 国家自然科学基金 6 项,省部级科研 项目 8 项。获高等学校科学研究优秀 成果二等奖、江苏省科学技术二等奖。获授权发明专利 15 项。出版专著 8 部,发表学术论文 100 余篇。 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·527·