正在加载图片...
·520· 智能系统学报 第16卷 向量(w,w),其中w表示单词对实体e1的距 将实体语义特征嵌人与实体位置特征嵌入融 离信息,w表示单词对实体e的距离信息。最 合,作为模型嵌入层的输出,即wu=[wwod:Wner Wpos], 终实体的位置特征表示为wos=[wo,w]。 向量长度为dn=dod+daer+2 dps Softmax Layer 0.20.30.80.3 0. MaxPooling 0.20.50.10.1 0.40.40.10.3 0.80.20.20.1 注意力层 AGLSTM层 04020603 0.30.40.10.4 020.40.10.1 0.270. 0.70.3030.2 0.6+●0.3 Bi-LSTM层 哥 岛岛 句子结构关系树 全连接关系图 初始权重矩阵A said 2 He said indiary 模型输入: said 2 句子结构 said1 1 0 1 信息输入 He 1 (diary 5 diary 5) 0011 P,表示位置 嵌入向量 n表示单词 实体嵌人向量 囡 句子嵌入输人 句法结构信息输入 He said in the diary that he had assets of $250000 and that he had recently been promoted. 图1 AGLSTM模型的关系抽取框架 Fig.1 Relation extraction framework based on the AGLSTM model 2.3Bi-LSTM层 a11 a12 嵌入层输出的特征矩阵w包含每一个单词 A= .: 本身的信息,句子中每个词所包含的信息均独 anl an2 立。因为句子结构信息包含单词与单词间的相互 如图1右侧句子结构信息输入部分中初始权 关系,所以,为更好地将数据本身与句子结构信 重矩阵所示。将得到的邻接矩阵A与经过Bi- 息相结合,需要先通过一层双向LSTM层来获取 LSTM得到的文本特征相结合,输入到所提模型 词与词之间的语义连接,方法如下: 的AGLSTM层。 h,=LSTM(wh1) 2.5注意力图长短时记忆神经网络(AGLSTM) 克,=STM(w,hr-i) 现有方法大都依据句法结构信息将句子处理 成邻接子树,如图2所示。因为在子树中只有相 最终,将Bi-LSTM的正向和反向隐藏层输出 连叶子结点的单词可以构成联系,这些方法有可 相连接,可以得到输出特征h,=h,⊕h,。 能丢失远程单词之间的关联信息。鉴于此,本文 2.4句法结构矩阵的生成 采用软修剪策略,将句子的邻接子树转换为全连 对文本数据进行语义信息抽取时,不仅要考 接的边加权图;并通过注意力的形式,使模型可 虑句子所包含单词的特征信息,而且需要挖掘句 以根据初始邻接矩阵信息自行训练注意力权重, 子本身所蕴含的结构信息。已有大量研究成果将 进而更全面地学习句子的结构信息。 句法结构用于关系抽取,取得了很好的效果。 AGLSTM是由图长短时记忆神经网络(graph 为建立句法结构矩阵,首先利用句法依存分 析提取出每个句子序列S={S,S2,…,Sn}的句法结 long short term memory neural network,GLSTM) 构。例如,对句子He said in the diary that he had 注意力机制结合而成,如图1左侧所示。GLSTM assets of $250000 and that he had recently been 中每一个单词节点,的表达包括:单词节点的输 promoted.”进行句法分析,图2给出了它的句法 入特征向量表示x,句法图内所有与该单词相连 树。接着,将提取出的句法树信息转换成全连接 的边的表达和h。每一个边的表达是通过相 图的矩阵形式。图1右侧句子结构信息输入部分 连神经元节点的特征与边权重乘积得到,网络结 展示了构建初始邻接权重矩阵A的过程,其中, 构如图3所示。GLSTM中边权重只有1或0两 全连接关系图展示了扩展后的依存树。进一步, 种状态,当为0时代表该边不存在,而AGLSTM 将依存关系图写成矩阵形式,得到初始的句法结 是采用全连接的结构,边权重为0~1中的归一化 构邻接矩阵 值,因此学习到的信息更加丰富。(w 1 pos,w 2 pos) w 1 pos e1 w 2 pos e2 wpos = [w 1 pos,w 2 pos] 向量 ,其中 表示单词对实体 的距 离信息, 表示单词对实体 的距离信息。最 终实体的位置特征表示为 。 wu = [wword;wner;wpos] dw = dword +dner +2dpos 将实体语义特征嵌入与实体位置特征嵌入融 合,作为模型嵌入层的输出,即 , 向量长度为 。 h1 m1 m2 . . . . . . . . . MaxPooling Bi-LSTM 层 AGLSTM 层 模型输入: w 表示单词 嵌入向量 p 表示位置 嵌入向量 n 表示单词 实体嵌入向量 . . . . . . . . . . . . . . . said_2 He_1 diary_5 in_3 句子结构关系树 said_2 He_1 diary_5 in_3 in in He He diary diary said said 全连接关系图 初始权重矩阵 A A1 An G1 Gn 注意力层 句子结构 信息输入 . . . 0.3 0.8 0.2 0.1 0.4 0.3 0.2 0.2 ... ... ... ... ... ... ... ... 0.2 0.6 0.3 0.4 0.2 0.1 0.3 0.3 . . . He said in the diary that he had assets of $250000 and that he had recently been promoted. Softmax Layer 句子嵌入输入 句法结构信息输入 m3 mn−1 mn hn−1 hn−1 wn−1 pn−1 nn−1 wn pn nn hn h1 hn w1 p1 n1 n2 n3 p2 w2 w3 p3 h2 h3 h2 h3 0.8 0.2 0.2 0.1 0.4 0.4 0.1 0.3 0.2 0.5 0.1 0.1 0.2 0.3 0.8 0.3 0.7 0.3 0.3 0.2 0.2 0.4 0.1 0.1 0.3 0.4 0.1 0.4 0.4 0.2 0.6 0.3 1 1 0 0 1 1 0 1 0 0 1 1 0 1 1 1 图 1 AGLSTM 模型的关系抽取框架 Fig. 1 Relation extraction framework based on the AGLSTM model 2.3 Bi-LSTM 层 嵌入层输出的特征矩阵 wu 包含每一个单词 本身的信息,句子中每个词所包含的信息均独 立。因为句子结构信息包含单词与单词间的相互 关系,所以,为更好地将数据本身与句子结构信 息相结合,需要先通过一层双向 LSTM 层来获取 词与词之间的语义连接,方法如下: −→ht = −−−−−→ LSTM(wu, −−→ht−1) ←−ht = ←−−−−− LSTM(wu, ←−− ht−1) ht = −→ht ⊕ ←−ht 最终,将 Bi-LSTM 的正向和反向隐藏层输出 相连接,可以得到输出特征 。 2.4 句法结构矩阵的生成 对文本数据进行语义信息抽取时,不仅要考 虑句子所包含单词的特征信息,而且需要挖掘句 子本身所蕴含的结构信息。已有大量研究成果将 句法结构用于关系抽取,取得了很好的效果。 为建立句法结构矩阵,首先利用句法依存分 析提取出每个句子序列 S={S1 ,S2 , …, Sn}的句法结 构。例如,对句子“He said in the diary that he had assets of $250 000 and that he had recently been promoted.”进行句法分析,图 2 给出了它的句法 树。接着,将提取出的句法树信息转换成全连接 图的矩阵形式。图 1 右侧句子结构信息输入部分 展示了构建初始邻接权重矩阵 A 的过程,其中, 全连接关系图展示了扩展后的依存树。进一步, 将依存关系图写成矩阵形式,得到初始的句法结 构邻接矩阵 A =   a11 a12 ··· a1n . . . . . . . . . an1 an2 ··· ann   A 如图 1 右侧句子结构信息输入部分中初始权 重矩阵所示。将得到的邻接矩阵 与经过 Bi￾LSTM 得到的文本特征相结合,输入到所提模型 的 AGLSTM 层。 2.5 注意力图长短时记忆神经网络 (AGLSTM) 现有方法大都依据句法结构信息将句子处理 成邻接子树,如图 2 所示。因为在子树中只有相 连叶子结点的单词可以构成联系,这些方法有可 能丢失远程单词之间的关联信息。鉴于此,本文 采用软修剪策略,将句子的邻接子树转换为全连 接的边加权图;并通过注意力的形式,使模型可 以根据初始邻接矩阵信息自行训练注意力权重, 进而更全面地学习句子的结构信息。 wj xj h in j h out j AGLSTM 是由图长短时记忆神经网络 (graph long short term memory neural network, GLSTM) 和 注意力机制结合而成,如图 1 左侧所示。GLSTM 中每一个单词节点 的表达包括:单词节点的输 入特征向量表示 ,句法图内所有与该单词相连 的边的表达 和 。每一个边的表达是通过相 连神经元节点的特征与边权重乘积得到,网络结 构如图 3 所示。GLSTM 中边权重只有 1 或 0 两 种状态,当为 0 时代表该边不存在,而 AGLSTM 是采用全连接的结构,边权重为 0~1 中的归一化 值,因此学习到的信息更加丰富。 ·520· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有