αi ϕ 对于每个位置，该机制都能产生一个权重 . 这里函数的定义就决定

正在加载图片...

刘建伟等：深度学习中注意力机制研究进展 ·1501 对于每个位置，该机制都能产生一个权重α.这里微的，因此使用标准的反向传播过程可以实现端 Φ函数的定义就决定了如何将位置信息和权重信到端的学习.在此之前，大部分的传统注意力机制息结合都属于软注意力机制.软注意力机制是可以直接 2.1.2硬注意力机制求梯度的，能直接代入到模型中去，整体进行训在硬注意力机制中，权重所扮演的角色是练.所求的梯度可以经过注意力机制模块，反向传图像区域a;在时刻t被选中作为输人编码器信息的播到模型其它部分.两种注意力机制模型都有好概率，有且仅有一个区域会被选中.为此，引入位有坏，但目前主流的研究和应用还是更倾向于使置变量s,当区域被选中时取值为1，否则为0，即用软注意力机制，因为其可以直接求导，进行反向 p(si=1sj,a)=a,然后计算上下文向量g=∑sf 传播 2.2全局和局部注意力机制整个硬注意力机制是一个随机模型，会采样 2.2.1共同框架输入的隐状态，而不是整个编码端的隐状态，算出 2015年，Luong等6提出了全局和局部注意力单词出现在某个位置的条件后验概率.为了实现两种简单有效的注意机制，其中全局注意力机制梯度的反向传播，需要采用蒙特卡洛采样的方法能顾及到输入语言的所有源语言单词，局部注意来逼近目标函数的梯度力机制则只能一次查看源语言单词的一个子集 2.1.3软注意力机制如图2所示.二者的区别在于注意力被放在所有相比之下，权重所扮演的角色是图像区域的源语言位置上还是仅放在部分源语言位置上. a在时刻的输入编码器的信息中的所占的比例. 这两个模型的共同点是，在解码过程中，每个时刻软注意力机制可以通过计算一个加权注释向量，都是先将源语言输入到堆叠长短时记忆网络直接得到上下文向量：的数学期望，从而构造一个 (Long-short term memory,LSTM),计算源语言的各确定性注意力机制模型，即Es【G=∑a 个隐状态对应当前目标语言隐状态对应的上下文向量，得到目标语言隐状态.这样做的目的是为了这相当于在系统中加入了加权上下文向量得到上下文向量，进而用源语言句子的信息来帮整个模型在确定性软注意力机制下是光滑的、可助预测当前目标语言单词. (a) (b) Attention layer Attention layer Context vector Context vector Global align weights Aligned position Local weights HHHH:HHHH 图2两种简单有效的注意机制.()全局注意力，对每一步隐状态都计算了注意力值：(b)局部注意力，只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism (a)a global approach that always attends to all source words;(b)a local approach that only looks at a subset of source words at a time 2.2.2全局注意力机制节点，模型根据当前目标语言隐状态h,和所有的源全局注意力机制在生成上下文向量时考虑编语言隐状态得出一个变长对齐权重向量.然后码器的所有隐状态.在这个模型中，通过将当前目对所有源状态的加权平均计算出全局上下文向标隐状态，与每个源隐状态五，进行比较，得到一个量.图2中，，为最终计算得到的经过注意力加权可变长度的对齐向量B,其大小等于源语言端输入后的全局上下文向量句子的长度.把对齐向量作为权重，通过对源语言与Bahdanau模型相比，Luong等提出的全局隐状态的加权平均得到上下文向量.在每个时间注意力模型在本质上相似，但是也有几个重要的αi ϕ 对于每个位置，该机制都能产生一个权重 . 这里函数的定义就决定了如何将位置信息和权重信息结合. 2.1.2 硬注意力机制 αt,i ai t st,i i p(st,i = 1|sj<t ,ai) = αt,i ζt = ∑ i st,i fi 在硬注意力机制中，权重所扮演的角色是图像区域在时刻被选中作为输入编码器信息的概率，有且仅有一个区域会被选中. 为此，引入位置变量，当区域被选中时取值为 1，否则为 0，即，然后计算上下文向量 . 整个硬注意力机制是一个随机模型，会采样输入的隐状态，而不是整个编码端的隐状态，算出单词出现在某个位置的条件后验概率. 为了实现梯度的反向传播，需要采用蒙特卡洛采样的方法来逼近目标函数的梯度. 2.1.3 软注意力机制 αt,i ai t ζt Ep(st |a) [ ζt ] = ∑ L i=1 αt,i fi 相比之下，权重所扮演的角色是图像区域在时刻的输入编码器的信息中的所占的比例. 软注意力机制可以通过计算一个加权注释向量，直接得到上下文向量的数学期望，从而构造一个确定性注意力机制模型，即 . 这相当于在系统中加入了加权上下文向量. 整个模型在确定性软注意力机制下是光滑的、可微的，因此使用标准的反向传播过程可以实现端到端的学习. 在此之前，大部分的传统注意力机制都属于软注意力机制. 软注意力机制是可以直接求梯度的，能直接代入到模型中去，整体进行训练. 所求的梯度可以经过注意力机制模块，反向传播到模型其它部分. 两种注意力机制模型都有好有坏，但目前主流的研究和应用还是更倾向于使用软注意力机制，因为其可以直接求导，进行反向传播. 2.2 全局和局部注意力机制 2.2.1 共同框架 2015 年，Luong 等[6] 提出了全局和局部注意力两种简单有效的注意机制，其中全局注意力机制能顾及到输入语言的所有源语言单词，局部注意力机制则只能一次查看源语言单词的一个子集, 如图 2 所示. 二者的区别在于注意力被放在所有的源语言位置上还是仅放在部分源语言位置上. 这两个模型的共同点是，在解码过程中，每个时刻都是先将源语言输入到堆叠长短时记忆网络（Long-short term memory，LSTM），计算源语言的各个隐状态对应当前目标语言隐状态对应的上下文向量，得到目标语言隐状态. 这样做的目的是为了得到上下文向量，进而用源语言句子的信息来帮助预测当前目标语言单词. Attention layer Context vector ζt ht ht yt Global align weights at (a) ζt yt at pt ht Attention layer Context vector Local weights Aligned position (b) hs hs ~ ht ~ 图 2 两种简单有效的注意机制[6] . （a）全局注意力，对每一步隐状态都计算了注意力值；（b）局部注意力，只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism[6] : (a) a global approach that always attends to all source words; (b) a local approach that only looks at a subset of source words at a time 2.2.2 全局注意力机制 ht h¯ s βt 全局注意力机制在生成上下文向量时考虑编码器的所有隐状态. 在这个模型中，通过将当前目标隐状态与每个源隐状态进行比较，得到一个可变长度的对齐向量，其大小等于源语言端输入句子的长度. 把对齐向量作为权重，通过对源语言隐状态的加权平均得到上下文向量. 在每个时间 ht hs h˜ t 节点，模型根据当前目标语言隐状态和所有的源语言隐状态得出一个变长对齐权重向量. 然后对所有源状态的加权平均计算出全局上下文向量. 图 2 中，为最终计算得到的经过注意力加权后的全局上下文向量. 与 Bahdanau 模型相比，Luong 等提出的全局注意力模型在本质上相似，但是也有几个重要的刘建伟等：深度学习中注意力机制研究进展 · 1501 ·

<<向上翻页向下翻页>>

点击下载：深度学习中注意力机制研究进展