不同点，此模型中在编码和解码器中都只用了 LSTM 顶层的隐状态，而前者

正在加载图片...

·1502 工程科学学报，第43卷，第11期不同点，此模型中在编码和解码器中都只用了层次注意力机制主要思想是：首先从文档的 LSTM顶层的隐状态，而前者在双向编码器中用了分层结构出发，单词组成句子，句子组成文档，所前向和反向源语言隐状态的级联，在非堆叠单向以自然而然建模时也分这两个层次进行.其次，不解码器中使用了目标隐状态同的单词对句子理解和不同的句子对于文本理解 2.2.3局部注意力机制和分类，具有不同的信息量和关注度，不能单纯均全局注意力机制有一个缺点，其对于每一个匀对待，所以引入分层注意力机制，分层注意力机目标单词都要考虑源语言句子中的所有单词，此制让我们对文本分类的内部机制有一定的白箱过程算法复杂性太大，并且不太可能翻译长序列理解而局部注意可以克服这种问题，针对每个目标单 2.3.2自顶向下注意力机制词，其只关注小部分的源语言子句子 Zhang等8在卷积神经网络中提出了基于自在时刻，模型首先针对每个目标单词生成一 J顶而下神经注意力(Top-down neural attention),使个对齐位置，.针对对齐位置v,如何确定，此模神经网络在学习过程中的注意力更加有针对性，型有两种变体：单调对齐(local-m)和预测对齐其实就是层次化注意力结构变体形式，而这种实 (local-p).前者简单地设，=t,假设源语言序列和现也十分贴近我们真正的生物视觉机制，具有十目标语言序列大体上单调对齐：而后者不假设源分重要的生物神经学理论依据.为了实现这种自语言序列和目标语言序列单调对齐，模型按照以顶而下神经注意力机制，采用了一种泛化的确定下方式预测对齐位置：v,=L·sigmoid(vTtanh(W,h,). 性赢者通吃(Winner-Take-All)的方法，从而可以选这里L是源语句长度，W和y是将要被学习用来择出与这个自顶而下信号最相关的神经元预测位置的模型参数.为了更偏向于，附近的对同时还提出了一个基于概率性的赢者通吃公齐点，设置了一个以u,为中心的高斯分布模拟对齐式来建立自顶而下的层次化神经注意力机制的卷程度. 高斯分布重新定义的对齐权重如下：B()= 积神经网铬(Convolutional neural networks,CNN)分 μ-)2 align(,五，)exp-2o2 类器模型，将确定性方法泛化到了概率性版本，使 ,其中标准差为σ=D/2, 得学出来的注意力映射不再是二值结构.这种注 D是凭经验选取的一个常数，是一个实数，而是意力映射其实也可以叫做软注意力映射，它的好一个在以为中心的窗口内的整数处也很明显，就是可以去捕捉更加细微的一些特与Bahdanau等相比，其使用了与，相似的上下征和变化等等.基于赢者通吃假设还提出了一种文向量来构造后续隐状态，虽然也能达到“覆盖” 改进的传播方法，可以有效地计算注意力上下文效果，但其没有分析这种连接是否有效.此处的模向量，得出每个神经元赢得可能性的边缘概率，并型更具有通用性，模型可应用于常规堆栈循环结且通过网络中的反向传播误差对比自上而下的信构，包括非注意力模型号的重要性 2.3分层注意力机制 2.3.3多步注意力机制 2.3.1层次注意力机制 2017年5月，Gehring等9在机器翻译任务中 Yang等)最早把注意力分层的思想用于文档提出了完全基于CNN构造序列到序列模型，文中分类，而且引入层次注意力(Hierarchical attention), 提出的多步注意力机制(Multi-.step attention)通过除了提高模型的精确度之外还可以进行单词与单该注意力结构来获取编码器和解码器中输入句子词之间、句子与句子之间重要性的分析和可视化. 之间的关系.ConvS2S模型在翻译任务上不仅仅正如其名，层次注意力机制构造了两个层次的注效果显著，而且所需训练时间也很短.多步注意力意力机制结构.第一个层次是对句子中每个单词机制实际上也是一种分层注意力机制，它在解码的注意力机制，并非所有的单词对句子含义的表器的每一层，都单独使用了注意力机制示，都有同样的贡献.因此，引入注意机制来提取该模型通过堆叠多层注意力机制来获取输这些关键词，这对于单词在句子中起的作用来说，入句子中单词与单词之间的依赖关系，特别是是很重要的选择和判断标准，而且还汇总了这些当句子非常长的时候，实验证明层叠的层数往表示形成句子向量的各种有价值的信息词汇.第往达到10层以上才能取得比较理想的结果.针二个层次是针对文档中每个句子的注意力机制，对每一个卷积步骤都对编码器的隐状态和解与单词级别类似码器的隐状态进行点积得到注意力矩阵，并且不同点，此模型中在编码和解码器中都只用了 LSTM 顶层的隐状态，而前者在双向编码器中用了前向和反向源语言隐状态的级联，在非堆叠单向解码器中使用了目标隐状态. 2.2.3 局部注意力机制全局注意力机制有一个缺点，其对于每一个目标单词都要考虑源语言句子中的所有单词，此过程算法复杂性太大，并且不太可能翻译长序列. 而局部注意可以克服这种问题，针对每个目标单词，其只关注小部分的源语言子句子. t υt υt υt = t υt = L ·sigmoid(v T υ tanh(Wυht)) Wυ vυ υt υt βt(υt) = align(ht , hs) exp( − (µ−υt) 2 2σ2 ) σ = D/2 υt µ υt 在时刻，模型首先针对每个目标单词生成一个对齐位置 . 针对对齐位置如何确定，此模型有两种变体：单调对齐（ local-m）和预测对齐（local-p）. 前者简单地设，假设源语言序列和目标语言序列大体上单调对齐；而后者不假设源语言序列和目标语言序列单调对齐，模型按照以下方式预测对齐位置： . 这里 L 是源语句长度，和是将要被学习用来预测位置的模型参数. 为了更偏向于附近的对齐点，设置了一个以为中心的高斯分布模拟对齐程度. 高斯分布重新定义的对齐权重如下：，其中标准差为， D 是凭经验选取的一个常数，是一个实数，而是一个在以为中心的窗口内的整数. 与 Bahdanau 等相比，其使用了与 ζt相似的上下文向量来构造后续隐状态，虽然也能达到“覆盖” 效果，但其没有分析这种连接是否有效. 此处的模型更具有通用性，模型可应用于常规堆栈循环结构，包括非注意力模型. 2.3 分层注意力机制 2.3.1 层次注意力机制 Yang 等[7] 最早把注意力分层的思想用于文档分类，而且引入层次注意力（Hierarchical attention），除了提高模型的精确度之外还可以进行单词与单词之间、句子与句子之间重要性的分析和可视化. 正如其名，层次注意力机制构造了两个层次的注意力机制结构. 第一个层次是对句子中每个单词的注意力机制，并非所有的单词对句子含义的表示，都有同样的贡献. 因此，引入注意机制来提取这些关键词，这对于单词在句子中起的作用来说，是很重要的选择和判断标准，而且还汇总了这些表示形成句子向量的各种有价值的信息词汇. 第二个层次是针对文档中每个句子的注意力机制，与单词级别类似. 层次注意力机制主要思想是：首先从文档的分层结构出发，单词组成句子，句子组成文档，所以自然而然建模时也分这两个层次进行. 其次，不同的单词对句子理解和不同的句子对于文本理解和分类，具有不同的信息量和关注度，不能单纯均匀对待，所以引入分层注意力机制，分层注意力机制让我们对文本分类的内部机制有一定的白箱理解. 2.3.2 自顶向下注意力机制 Zhang 等[8] 在卷积神经网络中提出了基于自顶而下神经注意力（Top-down neural attention），使神经网络在学习过程中的注意力更加有针对性，其实就是层次化注意力结构变体形式，而这种实现也十分贴近我们真正的生物视觉机制，具有十分重要的生物神经学理论依据. 为了实现这种自顶而下神经注意力机制，采用了一种泛化的确定性赢者通吃（Winner-Take-All）的方法，从而可以选择出与这个自顶而下信号最相关的神经元. 同时还提出了一个基于概率性的赢者通吃公式来建立自顶而下的层次化神经注意力机制的卷积神经网络（Convolutional neural networks，CNN）分类器模型，将确定性方法泛化到了概率性版本，使得学出来的注意力映射不再是二值结构. 这种注意力映射其实也可以叫做软注意力映射，它的好处也很明显，就是可以去捕捉更加细微的一些特征和变化等等. 基于赢者通吃假设还提出了一种改进的传播方法，可以有效地计算注意力上下文向量，得出每个神经元赢得可能性的边缘概率，并且通过网络中的反向传播误差对比自上而下的信号的重要性. 2.3.3 多步注意力机制 2017 年 5 月， Gehring 等[9] 在机器翻译任务中提出了完全基于 CNN 构造序列到序列模型，文中提出的多步注意力机制（Multi-step attention）通过该注意力结构来获取编码器和解码器中输入句子之间的关系. ConvS2S 模型在翻译任务上不仅仅效果显著，而且所需训练时间也很短. 多步注意力机制实际上也是一种分层注意力机制，它在解码器的每一层，都单独使用了注意力机制. 该模型通过堆叠多层注意力机制来获取输入句子中单词与单词之间的依赖关系，特别是当句子非常长的时候，实验证明层叠的层数往往达到 10 层以上才能取得比较理想的结果. 针对每一个卷积步骤都对编码器的隐状态和解码器的隐状态进行点积得到注意力矩阵，并且 · 1502 · 工程科学学报，第 43 卷，第 11 期

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：深度学习中注意力机制研究进展