正在加载图片...
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·519· 为此,Guo等o提出了一种基于软修剪的关系提 CNN)提取词汇级和句子级特征,进而完成关系 取模型,用以实现模型自主学习句法结构,而无 抽取;Zhang等l6利用长短时记忆神经网络学习 需对句法结构进行硬性修剪。虽然所提模型可以 实体对之间的长期依赖性;Zhang等u例在词嵌入 很好地学习句法结构,但是,由于图卷积模型本 的基础上考虑单词的位置和词性、句子结构依赖 身的无向性,其对上下文中时序特征的学习能力 等信息,设计了一种新型的长短时记忆神经网络 较弱。 进行关系抽取。马语丹等2通过引入注意力机 目前,已有学者以句法依存树为基础,提出了 制提取实体的网络环境信息,生成全局的上下文 多种图神经网络模型,但是所提模型大多是基于 特征。鉴于LSTM对文本信息建模的优越性,以 图卷积神经网络。图卷积神经网络可以很好地 及句子结构信息对文本关系抽取任务的重要性, 学习图结构数据的信息,却难以有效处理时序数 学者们还提出了结合句子结构信息建模的SDP 据。这就意味着,面向具备时序特性的文本数 LSTM和Tree-LSTM等改进模型。 据,只依赖图卷积神经网络并不能很好地抽取文 远程监督关系提取方法借助知识库,利用知 本中时序信息。相对图卷积神经网络,长短时记 识库中包含的知识来对非结构化文本进行标注。 忆神经网络(long short term memory neural network. 这种方法可以自动构建大量训练数据,不仅解决 LSTM)可以有效提取上下文的时序信息。目前, 了现有方法数据量不足的缺点,而且增强了模型 部分学者开始尝试将其用于跨句关系的抽取问 的跨领域适应能力。Mintz等2u最早提出了远程 题,并提出了多种图长短时记忆神经网络21)。 监督的基本假设,定义了远程监督任务。然而, 但是,这些方法都是基于修剪后句子结构树的信 远程监督在解决数据量不足的同时,容易带来较 息来构建图神经网络,依然存在误删有用信息的 大的噪声。为此,越来越多的学者开始关注对远 不足。另外,传统方法对句子结构信息的使用完 程监督方法的改进研究。Zeng等22融合分段卷 全依赖于句子结构树。如果句子结构树中蕴含错 积神经网络和多实例学习(multiple instance learn- 误信息,很容易累加错误信息。 ing,ML),提出了一种混合关系提取模型。该模 鉴于此,本文提出一种注意力图长短时记忆 型通过PCNN提取句子特征,利用ML消除错误 神经网络(attention graph long short term memory 样本噪声,进而实现远程监督关系抽取。 neural network,.AGLSTM)。采用注意力机制与句 子结构树相结合的方式建立句子的全局结构信 2所提关系抽取模型 息,生成全局注意力权重矩阵,并将其用于构造 2.1模型框架 AGLSTM模型。所提方法不仅可以充分利用 为同时学习句法图中句子的结构特征和句 LSTM学习句子的时序结构特征,而且可以根据 子之间的时序结构特征,提出一种新的图神经 句法图信息自行学习句子的结构特征。相对于完 网络结构,即注意力图长短时记忆神经网络 全依赖句子结构树的传统方法,本文方法是在原 (AGLSTM)。图I给出了融合AGLSTM模型的关 始句子结构树的基础上,利用注意力机制使得模 系抽取框架。 型自行学习句子结构中的信息,不仅可以得到更 2.2 Embedding层 加有效的关系抽取模型,而且鲁棒性更好。 关系抽取方法需要考虑语料中的实体语义特 1相关工作 征和实体位置特征。在自然语言处理领域中,词 向量表示常用于表示词的语义信息。本文通过词 关系抽取是自然语言处理中的一项重要分支 嵌入方法对整个语料库进行训练,得到语料库的 任务,在从非结构化文本中抽取结构性信息时起 词向量矩阵,其中每个词表示为一个dd维的向 着重要作用。现有主流关系抽取技术可分为 量wd。另外,为了更好地表示实体的语义特 2种:远程监督关系抽取4均和有监督关系抽取。 征,利用stanfordparser工具对语料库进行命名实 有监督关系抽取法把关系抽取看作一种多分 体识别NER)分析,将生成的NER标签映射成一 类任务进行处理。早期的研究成果主要是使用核 个daer维的向量waer。将wuod和waer连接即为词 函数等机器学习方法设计分类器叨,并进行关系 的实体表示向量。 提取任务。随着深度学习的兴起,深度神经网络 本文采用Zeng等1提出的实体位置嵌入方 已在关系抽取中得到了广泛应用。Zeng等u1采 法引入实体位置信息。将句中每一个单词与实体 用深度卷积神经网络(convolutional neural network, 对(e1,e2)的相对位置(p1,P2)映射成d维的距离为此,Guo 等 [10] 提出了一种基于软修剪的关系提 取模型,用以实现模型自主学习句法结构,而无 需对句法结构进行硬性修剪。虽然所提模型可以 很好地学习句法结构,但是,由于图卷积模型本 身的无向性,其对上下文中时序特征的学习能力 较弱。 目前,已有学者以句法依存树为基础,提出了 多种图神经网络模型,但是所提模型大多是基于 图卷积神经网络[11]。图卷积神经网络可以很好地 学习图结构数据的信息,却难以有效处理时序数 据。这就意味着,面向具备时序特性的文本数 据,只依赖图卷积神经网络并不能很好地抽取文 本中时序信息。相对图卷积神经网络,长短时记 忆神经网络 (long short term memory neural network, LSTM) 可以有效提取上下文的时序信息。目前, 部分学者开始尝试将其用于跨句关系的抽取问 题,并提出了多种图长短时记忆神经网络[12-13]。 但是,这些方法都是基于修剪后句子结构树的信 息来构建图神经网络,依然存在误删有用信息的 不足。另外,传统方法对句子结构信息的使用完 全依赖于句子结构树。如果句子结构树中蕴含错 误信息,很容易累加错误信息。 鉴于此,本文提出一种注意力图长短时记忆 神经网络 (attention graph long short term memory neural network, AGLSTM)。采用注意力机制与句 子结构树相结合的方式建立句子的全局结构信 息,生成全局注意力权重矩阵,并将其用于构造 AGLSTM 模型。所提方法不仅可以充分利用 LSTM 学习句子的时序结构特征,而且可以根据 句法图信息自行学习句子的结构特征。相对于完 全依赖句子结构树的传统方法,本文方法是在原 始句子结构树的基础上,利用注意力机制使得模 型自行学习句子结构中的信息,不仅可以得到更 加有效的关系抽取模型,而且鲁棒性更好。 1 相关工作 关系抽取是自然语言处理中的一项重要分支 任务,在从非结构化文本中抽取结构性信息时起 着重要作用。现有主流关系抽取技术可分为 2 种:远程监督关系抽取[14-15] 和有监督关系抽取[5, 16]。 有监督关系抽取法把关系抽取看作一种多分 类任务进行处理。早期的研究成果主要是使用核 函数等机器学习方法设计分类器[17] ,并进行关系 提取任务。随着深度学习的兴起,深度神经网络 已在关系抽取中得到了广泛应用。Zeng 等 [18] 采 用深度卷积神经网络 (convolutional neural network, CNN) 提取词汇级和句子级特征,进而完成关系 抽取;Zhang 等 [16] 利用长短时记忆神经网络学习 实体对之间的长期依赖性;Zhang 等 [19] 在词嵌入 的基础上考虑单词的位置和词性、句子结构依赖 等信息,设计了一种新型的长短时记忆神经网络 进行关系抽取。马语丹等[20] 通过引入注意力机 制提取实体的网络环境信息,生成全局的上下文 特征。鉴于 LSTM 对文本信息建模的优越性,以 及句子结构信息对文本关系抽取任务的重要性, 学者们还提出了结合句子结构信息建模的 SDP￾LSTM[6] 和 Tree-LSTM[7] 等改进模型。 远程监督关系提取方法借助知识库,利用知 识库中包含的知识来对非结构化文本进行标注。 这种方法可以自动构建大量训练数据,不仅解决 了现有方法数据量不足的缺点,而且增强了模型 的跨领域适应能力。Mintz 等 [21] 最早提出了远程 监督的基本假设,定义了远程监督任务。然而, 远程监督在解决数据量不足的同时,容易带来较 大的噪声。为此,越来越多的学者开始关注对远 程监督方法的改进研究。Zeng 等 [22] 融合分段卷 积神经网络和多实例学习 (multiple instance learn￾ing,MIL),提出了一种混合关系提取模型。该模 型通过 PCNN 提取句子特征,利用 MIL 消除错误 样本噪声,进而实现远程监督关系抽取。 2 所提关系抽取模型 2.1 模型框架 为同时学习句法图中句子的结构特征和句 子之间的时序结构特征,提出一种新的图神经 网络结构,即注意力图长短时记忆神经网 络 (AGLSTM)。图 1 给出了融合 AGLSTM 模型的关 系抽取框架。 2.2 Embedding 层 dword wword dner wner wword wner 关系抽取方法需要考虑语料中的实体语义特 征和实体位置特征。在自然语言处理领域中,词 向量表示常用于表示词的语义信息。本文通过词 嵌入方法对整个语料库进行训练,得到语料库的 词向量矩阵,其中每个词表示为一个 维的向 量 。另外,为了更好地表示实体的语义特 征,利用 stanfordparser 工具对语料库进行命名实 体识别 (NER) 分析,将生成的 NER 标签映射成一 个 维的向量 。将 和 连接即为词 的实体表示向量。 (e1, e2) (p1, p2) dpos 本文采用 Zeng 等 [18] 提出的实体位置嵌入方 法引入实体位置信息。将句中每一个单词与实体 对 的相对位置 映射成 维的距离 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·519·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有