正在加载图片...
刘建伟等:深度学习中注意力机制研究进展 ·1501 对于每个位置,该机制都能产生一个权重α.这里 微的,因此使用标准的反向传播过程可以实现端 Φ函数的定义就决定了如何将位置信息和权重信 到端的学习.在此之前,大部分的传统注意力机制 息结合 都属于软注意力机制.软注意力机制是可以直接 2.1.2硬注意力机制 求梯度的,能直接代入到模型中去,整体进行训 在硬注意力机制中,权重所扮演的角色是 练.所求的梯度可以经过注意力机制模块,反向传 图像区域a;在时刻t被选中作为输人编码器信息的 播到模型其它部分.两种注意力机制模型都有好 概率,有且仅有一个区域会被选中.为此,引入位 有坏,但目前主流的研究和应用还是更倾向于使 置变量s,当区域被选中时取值为1,否则为0,即 用软注意力机制,因为其可以直接求导,进行反向 p(si=1sj,a)=a,然后计算上下文向量g=∑sf 传播 2.2全局和局部注意力机制 整个硬注意力机制是一个随机模型,会采样 2.2.1共同框架 输入的隐状态,而不是整个编码端的隐状态,算出 2015年,Luong等6提出了全局和局部注意力 单词出现在某个位置的条件后验概率.为了实现 两种简单有效的注意机制,其中全局注意力机制 梯度的反向传播,需要采用蒙特卡洛采样的方法 能顾及到输入语言的所有源语言单词,局部注意 来逼近目标函数的梯度 力机制则只能一次查看源语言单词的一个子集 2.1.3软注意力机制 如图2所示.二者的区别在于注意力被放在所有 相比之下,权重所扮演的角色是图像区域 的源语言位置上还是仅放在部分源语言位置上. a在时刻的输入编码器的信息中的所占的比例. 这两个模型的共同点是,在解码过程中,每个时刻 软注意力机制可以通过计算一个加权注释向量, 都是先将源语言输入到堆叠长短时记忆网络 直接得到上下文向量:的数学期望,从而构造一个 (Long-short term memory,LSTM),计算源语言的各 确定性注意力机制模型,即Es【G=∑a 个隐状态对应当前目标语言隐状态对应的上下文 向量,得到目标语言隐状态.这样做的目的是为了 这相当于在系统中加入了加权上下文向量 得到上下文向量,进而用源语言句子的信息来帮 整个模型在确定性软注意力机制下是光滑的、可 助预测当前目标语言单词. (a) (b) Attention layer Attention layer Context vector Context vector Global align weights Aligned position Local weights HHHH:HHHH 图2两种简单有效的注意机制.()全局注意力,对每一步隐状态都计算了注意力值:(b)局部注意力,只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism (a)a global approach that always attends to all source words;(b)a local approach that only looks at a subset of source words at a time 2.2.2全局注意力机制 节点,模型根据当前目标语言隐状态h,和所有的源 全局注意力机制在生成上下文向量时考虑编 语言隐状态得出一个变长对齐权重向量.然后 码器的所有隐状态.在这个模型中,通过将当前目 对所有源状态的加权平均计算出全局上下文向 标隐状态,与每个源隐状态五,进行比较,得到一个 量.图2中,,为最终计算得到的经过注意力加权 可变长度的对齐向量B,其大小等于源语言端输入 后的全局上下文向量 句子的长度.把对齐向量作为权重,通过对源语言 与Bahdanau模型相比,Luong等提出的全局 隐状态的加权平均得到上下文向量.在每个时间 注意力模型在本质上相似,但是也有几个重要的αi ϕ 对于每个位置,该机制都能产生一个权重 . 这里 函数的定义就决定了如何将位置信息和权重信 息结合. 2.1.2 硬注意力机制 αt,i ai t st,i i p(st,i = 1|sj<t ,ai) = αt,i ζt = ∑ i st,i fi 在硬注意力机制中,权重 所扮演的角色是 图像区域 在时刻 被选中作为输入编码器信息的 概率,有且仅有一个区域会被选中. 为此,引入位 置变量 ,当区域 被选中时取值为 1,否则为 0,即 ,然后计算上下文向量 . 整个硬注意力机制是一个随机模型,会采样 输入的隐状态,而不是整个编码端的隐状态,算出 单词出现在某个位置的条件后验概率. 为了实现 梯度的反向传播,需要采用蒙特卡洛采样的方法 来逼近目标函数的梯度. 2.1.3 软注意力机制 αt,i ai t ζt Ep(st |a) [ ζt ] = ∑ L i=1 αt,i fi 相比之下,权重 所扮演的角色是图像区域 在时刻 的输入编码器的信息中的所占的比例. 软注意力机制可以通过计算一个加权注释向量, 直接得到上下文向量 的数学期望,从而构造一个 确定性注意力机制模型,即 . 这相当于在系统中加入了加权上下文向量. 整个模型在确定性软注意力机制下是光滑的、可 微的,因此使用标准的反向传播过程可以实现端 到端的学习. 在此之前,大部分的传统注意力机制 都属于软注意力机制. 软注意力机制是可以直接 求梯度的,能直接代入到模型中去,整体进行训 练. 所求的梯度可以经过注意力机制模块,反向传 播到模型其它部分. 两种注意力机制模型都有好 有坏,但目前主流的研究和应用还是更倾向于使 用软注意力机制,因为其可以直接求导,进行反向 传播. 2.2    全局和局部注意力机制 2.2.1 共同框架 2015 年,Luong 等[6] 提出了全局和局部注意力 两种简单有效的注意机制,其中全局注意力机制 能顾及到输入语言的所有源语言单词,局部注意 力机制则只能一次查看源语言单词的一个子集, 如图 2 所示. 二者的区别在于注意力被放在所有 的源语言位置上还是仅放在部分源语言位置上. 这两个模型的共同点是,在解码过程中,每个时刻 都是先将源语言输入到堆叠长短时记忆网络 (Long-short term memory,LSTM),计算源语言的各 个隐状态对应当前目标语言隐状态对应的上下文 向量,得到目标语言隐状态. 这样做的目的是为了 得到上下文向量,进而用源语言句子的信息来帮 助预测当前目标语言单词. Attention layer Context vector ζt ht ht yt Global align weights at (a) ζt yt at pt ht Attention layer Context vector Local weights Aligned position (b) hs hs ~ ht ~ 图 2 两种简单有效的注意机制[6] . (a)全局注意力,对每一步隐状态都计算了注意力值;(b)局部注意力,只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism[6] : (a) a global approach that always attends to all source words; (b) a local approach that only looks at a subset of source words at a time 2.2.2 全局注意力机制 ht h¯ s βt 全局注意力机制在生成上下文向量时考虑编 码器的所有隐状态. 在这个模型中,通过将当前目 标隐状态 与每个源隐状态 进行比较,得到一个 可变长度的对齐向量 ,其大小等于源语言端输入 句子的长度. 把对齐向量作为权重,通过对源语言 隐状态的加权平均得到上下文向量. 在每个时间 ht hs h˜ t 节点,模型根据当前目标语言隐状态 和所有的源 语言隐状态 得出一个变长对齐权重向量. 然后 对所有源状态的加权平均计算出全局上下文向 量. 图 2 中, 为最终计算得到的经过注意力加权 后的全局上下文向量. 与 Bahdanau 模型相比,Luong 等提出的全局 注意力模型在本质上相似,但是也有几个重要的 刘建伟等: 深度学习中注意力机制研究进展 · 1501 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有