正在加载图片...
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·521 root 0 said 2 He 1 diary_5 had 8 the_4 he_7 assets 9 and 13 promoted 19) 25000012 the 14 he 15 had 16 recently 17 been 18 of_10 S11 图2句法分析树示例 Fig.2 Schematic diagram of the syntactic analysis 重矩阵A。A中每一项代表节点a到b的边权 重。采用多头注意力机制(multi-head-attention), 使模型从不同表征子空间中获得多层面的信息, 最终可得到k个注意力权重矩阵: A k=1,2,…,n 图3 GLSTM网络结构 Fig.3 Structure of the GLSTM network aa点…am 在AGLSTM中每2个单词节点之间的边权 式中:每个矩阵A代表句子结构的一个权重图 重为注意力层所得多头注意力矩阵中相应元素的 G。图1中右侧注意力层给出了注意力层输出的 权重值。h和h的计算公式分别为 k个矩阵A*(k=1,2,…,m),每一个注意力权重矩 h=∑ah, 阵A分别与权重图G一一对应。最后,将k个注 (1) (位ieall 意力权重矩阵进行线性变换,整合成最终的权重 h=∑ah (2) 矩阵A,即为AGLSTM层的重要参数。 (kkea Self-attention机制可以交互计算序列中任意 式中:为从节点i到节点j的句子结构权重;h 位置,从而捕获整个序列内的依赖关系。具体 表示节点j的所有边的输入;h"表示节点j所有 地,Self-attention计算公式为 边的输出;h;和h:为节点i和k的隐藏状态特 u:tanh(W.HLsTM +b.) 征。GLSTM网络定义为 A=softmax(Wu,) ij=(Wixj+Uah+U2hgu+b) (3) 式中:HsTM是Bi-LSTM层提取的文本特征向量; oj=(Woxj+Uoihin+Uh +bo) u,是以tanh为激活函数的感知机层得到的隐藏特 (4) 征向量。通过softmax函数获得标准化的权重矩 fj=(Wixj+Unhi+Uphou+br) (5) 阵A。经过k次self-attention计算,可以得到多 uj=(Wuxj+Umhi+Uho+ba) (6) 头注意力机制输出的k个注意力权重矩阵A*。 cj=fjoc-1+i⊙uj (7 将得到的注意力权重矩阵A代入式(1)、(2), h;=o,⊙tanh(cji) (8) 计算单词节点w,的隐藏状态;再将得到的和 式中:、0和∫分别是输入门、输出门和遗忘 h用于式(3(8)中,通过注意力机制与GLSTM 门:W.、Ux和b(x∈(i,o,f,w)为模型参数:h;为节 的网络结构相结合,进而构造AGLSTM层。 点j的隐藏状态特征。 2.6线性连接层 结合注意力机制和GLSTM,构造注意力图长 根据多头注意力层,可以得到k个不同的注 短时记忆神经网络(AGLSTM)。利用注意力机制 意力权重矩阵A。AGLSTM层输出便得到k个不 对句子结构特征进行注意力运算,得到注意力权 同的结果。本文利用线性连接层将这k个不同的root_0 said_2 He_1 diary_5 in_3 the_4 the_6 the_14 had_8 had_16 he_7 he_15 assets_9 and_13 250 000_12 of_10 $_11 promoted_19 recently_17 been_18 图 2 句法分析树示例 Fig. 2 Schematic diagram of the syntactic analysis m1 m . . . 2 m3 mn−1 mn 图 3 GLSTM 网络结构 Fig. 3 Structure of the GLSTM network h in j h out j 在 AGLSTM 中每 2 个单词节点之间的边权 重为注意力层所得多头注意力矩阵中相应元素的 权重值。 和 的计算公式分别为 h in j = ∑ (i, j)i∈all αi jhi (1) h out j = ∑ (j,k)k∈all αjkhk (2) αi j h in j h out j hi hk 式中: 为从节点 i 到节点 j 的句子结构权重; 表示节点 j 的所有边的输入; 表示节点 j 所有 边的输出; 和 为节点 i 和 k 的隐藏状态特 征。GLSTM 网络定义为 ij = σ(Wixj +Ui1h in j +Ui2h out j + bi) (3) oj = σ(Wo xj +Uo1h in j +Uo2h out j + bo) (4) fj = σ(Wf xj +Uf 1h in j +Uf 2h out j + bf) (5) uj = σ(Wu xj +Uu1h in j +Uu2h out j + bu) (6) cj = fj ⊙ cj−1 + ij ⊙uj (7) hj = oj ⊙tanh(cj) (8) ij oj fj Wx Ux bx(x ∈ (i,o, f,u)) hj 式中: 、 和 分别是输入门、输出门和遗忘 门; 、 和 为模型参数; 为节 点 j 的隐藏状态特征。 结合注意力机制和 GLSTM,构造注意力图长 短时记忆神经网络 (AGLSTM)。利用注意力机制 对句子结构特征进行注意力运算,得到注意力权 A k A 重矩阵 。 k 中每一项代表节点 a 到 b 的边权 重。采用多头注意力机制 (multi-head-attention), 使模型从不同表征子空间中获得多层面的信息, 最终可得到 k 个注意力权重矩阵: A k =   α k 11 α k 12 ··· α k 1n . . . . . . . . . α k n1 α k n2 ··· α k nn   , k = 1,2,··· ,n A k A k (k = 1,2,··· ,n) A k A 式中:每个矩阵 代表句子结构的一个权重图 G。图 1 中右侧注意力层给出了注意力层输出的 k 个矩阵 ,每一个注意力权重矩 阵 分别与权重图 G 一一对应。最后,将 k 个注 意力权重矩阵进行线性变换,整合成最终的权重 矩阵 ,即为 AGLSTM 层的重要参数。 Self-attention 机制可以交互计算序列中任意 位置,从而捕获整个序列内的依赖关系。具体 地,Self-attention 计算公式为 ut = tanh(WwHLSTM + bw) A k = softmax(Wuut) HLSTM ut A k A k 式中: 是 Bi-LSTM 层提取的文本特征向量; 是以 tanh 为激活函数的感知机层得到的隐藏特 征向量。通过 softmax 函数获得标准化的权重矩 阵 。经过 k 次 self-attention 计算,可以得到多 头注意力机制输出的 k 个注意力权重矩阵 。 A k wj h in j h out j 将得到的注意力权重矩阵 代入式 (1)、(2), 计算单词节点 的隐藏状态;再将得到的 和 用于式 (3)~(8) 中,通过注意力机制与 GLSTM 的网络结构相结合,进而构造 AGLSTM 层。 2.6 线性连接层 A 根据多头注意力层,可以得到 k 个不同的注 意力权重矩阵 。AGLSTM 层输出便得到 k 个不 同的结果。本文利用线性连接层将这 k 个不同的 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·521·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有