正在加载图片...
·1502 工程科学学报,第43卷,第11期 不同点,此模型中在编码和解码器中都只用了 层次注意力机制主要思想是:首先从文档的 LSTM顶层的隐状态,而前者在双向编码器中用了 分层结构出发,单词组成句子,句子组成文档,所 前向和反向源语言隐状态的级联,在非堆叠单向 以自然而然建模时也分这两个层次进行.其次,不 解码器中使用了目标隐状态 同的单词对句子理解和不同的句子对于文本理解 2.2.3局部注意力机制 和分类,具有不同的信息量和关注度,不能单纯均 全局注意力机制有一个缺点,其对于每一个 匀对待,所以引入分层注意力机制,分层注意力机 目标单词都要考虑源语言句子中的所有单词,此 制让我们对文本分类的内部机制有一定的白箱 过程算法复杂性太大,并且不太可能翻译长序列 理解 而局部注意可以克服这种问题,针对每个目标单 2.3.2自顶向下注意力机制 词,其只关注小部分的源语言子句子 Zhang等8在卷积神经网络中提出了基于自 在时刻,模型首先针对每个目标单词生成一 J顶而下神经注意力(Top-down neural attention),使 个对齐位置,.针对对齐位置v,如何确定,此模 神经网络在学习过程中的注意力更加有针对性, 型有两种变体:单调对齐(local-m)和预测对齐 其实就是层次化注意力结构变体形式,而这种实 (local-p).前者简单地设,=t,假设源语言序列和 现也十分贴近我们真正的生物视觉机制,具有十 目标语言序列大体上单调对齐:而后者不假设源 分重要的生物神经学理论依据.为了实现这种自 语言序列和目标语言序列单调对齐,模型按照以 顶而下神经注意力机制,采用了一种泛化的确定 下方式预测对齐位置:v,=L·sigmoid(vTtanh(W,h,). 性赢者通吃(Winner-Take-All)的方法,从而可以选 这里L是源语句长度,W和y是将要被学习用来 择出与这个自顶而下信号最相关的神经元 预测位置的模型参数.为了更偏向于,附近的对 同时还提出了一个基于概率性的赢者通吃公 齐点,设置了一个以u,为中心的高斯分布模拟对齐 式来建立自顶而下的层次化神经注意力机制的卷 程度. 高斯分布重新定义的对齐权重如下:B()= 积神经网铬(Convolutional neural networks,CNN)分 μ-)2 align(,五,)exp-2o2 类器模型,将确定性方法泛化到了概率性版本,使 ,其中标准差为σ=D/2, 得学出来的注意力映射不再是二值结构.这种注 D是凭经验选取的一个常数,是一个实数,而是 意力映射其实也可以叫做软注意力映射,它的好 一个在以为中心的窗口内的整数 处也很明显,就是可以去捕捉更加细微的一些特 与Bahdanau等相比,其使用了与,相似的上下 征和变化等等.基于赢者通吃假设还提出了一种 文向量来构造后续隐状态,虽然也能达到“覆盖” 改进的传播方法,可以有效地计算注意力上下文 效果,但其没有分析这种连接是否有效.此处的模 向量,得出每个神经元赢得可能性的边缘概率,并 型更具有通用性,模型可应用于常规堆栈循环结 且通过网络中的反向传播误差对比自上而下的信 构,包括非注意力模型 号的重要性 2.3分层注意力机制 2.3.3多步注意力机制 2.3.1层次注意力机制 2017年5月,Gehring等9在机器翻译任务中 Yang等)最早把注意力分层的思想用于文档 提出了完全基于CNN构造序列到序列模型,文中 分类,而且引入层次注意力(Hierarchical attention), 提出的多步注意力机制(Multi-.step attention)通过 除了提高模型的精确度之外还可以进行单词与单 该注意力结构来获取编码器和解码器中输入句子 词之间、句子与句子之间重要性的分析和可视化. 之间的关系.ConvS2S模型在翻译任务上不仅仅 正如其名,层次注意力机制构造了两个层次的注 效果显著,而且所需训练时间也很短.多步注意力 意力机制结构.第一个层次是对句子中每个单词 机制实际上也是一种分层注意力机制,它在解码 的注意力机制,并非所有的单词对句子含义的表 器的每一层,都单独使用了注意力机制 示,都有同样的贡献.因此,引入注意机制来提取 该模型通过堆叠多层注意力机制来获取输 这些关键词,这对于单词在句子中起的作用来说, 入句子中单词与单词之间的依赖关系,特别是 是很重要的选择和判断标准,而且还汇总了这些 当句子非常长的时候,实验证明层叠的层数往 表示形成句子向量的各种有价值的信息词汇.第 往达到10层以上才能取得比较理想的结果.针 二个层次是针对文档中每个句子的注意力机制, 对每一个卷积步骤都对编码器的隐状态和解 与单词级别类似 码器的隐状态进行点积得到注意力矩阵,并且不同点 ,此模型中在编码和解码器中都只用了 LSTM 顶层的隐状态,而前者在双向编码器中用了 前向和反向源语言隐状态的级联,在非堆叠单向 解码器中使用了目标隐状态. 2.2.3 局部注意力机制 全局注意力机制有一个缺点,其对于每一个 目标单词都要考虑源语言句子中的所有单词,此 过程算法复杂性太大,并且不太可能翻译长序列. 而局部注意可以克服这种问题,针对每个目标单 词,其只关注小部分的源语言子句子. t υt υt υt = t υt = L ·sigmoid(v T υ tanh(Wυht)) Wυ vυ υt υt βt(υt) = align(ht , hs) exp( − (µ−υt) 2 2σ2 ) σ = D/2 υt µ υt 在时刻 ,模型首先针对每个目标单词生成一 个对齐位置 . 针对对齐位置 如何确定,此模 型有两种变体 :单调对齐( local-m)和预测对齐 (local-p). 前者简单地设 ,假设源语言序列和 目标语言序列大体上单调对齐;而后者不假设源 语言序列和目标语言序列单调对齐,模型按照以 下方式预测对齐位置: . 这里 L 是源语句长度, 和 是将要被学习用来 预测位置的模型参数. 为了更偏向于 附近的对 齐点,设置了一个以 为中心的高斯分布模拟对齐 程度. 高斯分布重新定义的对齐权重如下: ,其中标准差为 , D 是凭经验选取的一个常数, 是一个实数,而 是 一个在以 为中心的窗口内的整数. 与 Bahdanau 等相比,其使用了与 ζt相似的上下 文向量来构造后续隐状态,虽然也能达到“覆盖” 效果,但其没有分析这种连接是否有效. 此处的模 型更具有通用性,模型可应用于常规堆栈循环结 构,包括非注意力模型. 2.3    分层注意力机制 2.3.1 层次注意力机制 Yang 等[7] 最早把注意力分层的思想用于文档 分类,而且引入层次注意力(Hierarchical attention), 除了提高模型的精确度之外还可以进行单词与单 词之间、句子与句子之间重要性的分析和可视化. 正如其名,层次注意力机制构造了两个层次的注 意力机制结构. 第一个层次是对句子中每个单词 的注意力机制,并非所有的单词对句子含义的表 示,都有同样的贡献. 因此,引入注意机制来提取 这些关键词,这对于单词在句子中起的作用来说, 是很重要的选择和判断标准,而且还汇总了这些 表示形成句子向量的各种有价值的信息词汇. 第 二个层次是针对文档中每个句子的注意力机制, 与单词级别类似. 层次注意力机制主要思想是:首先从文档的 分层结构出发,单词组成句子,句子组成文档,所 以自然而然建模时也分这两个层次进行. 其次,不 同的单词对句子理解和不同的句子对于文本理解 和分类,具有不同的信息量和关注度,不能单纯均 匀对待,所以引入分层注意力机制,分层注意力机 制让我们对文本分类的内部机制有一定的白箱 理解. 2.3.2 自顶向下注意力机制 Zhang 等[8] 在卷积神经网络中提出了基于自 顶而下神经注意力(Top-down neural attention),使 神经网络在学习过程中的注意力更加有针对性, 其实就是层次化注意力结构变体形式,而这种实 现也十分贴近我们真正的生物视觉机制,具有十 分重要的生物神经学理论依据. 为了实现这种自 顶而下神经注意力机制,采用了一种泛化的确定 性赢者通吃(Winner-Take-All)的方法,从而可以选 择出与这个自顶而下信号最相关的神经元. 同时还提出了一个基于概率性的赢者通吃公 式来建立自顶而下的层次化神经注意力机制的卷 积神经网络(Convolutional neural networks,CNN)分 类器模型,将确定性方法泛化到了概率性版本,使 得学出来的注意力映射不再是二值结构. 这种注 意力映射其实也可以叫做软注意力映射,它的好 处也很明显,就是可以去捕捉更加细微的一些特 征和变化等等. 基于赢者通吃假设还提出了一种 改进的传播方法,可以有效地计算注意力上下文 向量,得出每个神经元赢得可能性的边缘概率,并 且通过网络中的反向传播误差对比自上而下的信 号的重要性. 2.3.3 多步注意力机制 2017 年 5 月, Gehring 等[9] 在机器翻译任务中 提出了完全基于 CNN 构造序列到序列模型,文中 提出的多步注意力机制(Multi-step attention)通过 该注意力结构来获取编码器和解码器中输入句子 之间的关系. ConvS2S 模型在翻译任务上不仅仅 效果显著,而且所需训练时间也很短. 多步注意力 机制实际上也是一种分层注意力机制,它在解码 器的每一层,都单独使用了注意力机制. 该模型通过堆叠多层注意力机制来获取输 入句子中单词与单词之间的依赖关系,特别是 当句子非常长的时候,实验证明层叠的层数往 往达到 10 层以上才能取得比较理想的结果. 针 对每一个卷积步骤都对编码器的隐状态和解 码器的隐状态进行点积得到注意力矩阵,并且 · 1502 · 工程科学学报,第 43 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有