正在加载图片...
刘建伟等:深度学习中注意力机制研究进展 ·1503· 基于最终的注意力矩阵去指导解码器的解码 量,并再次映射,进而得到最终值.计算公式为: 操作. MultiHead(O,K,V)=Concat (head1,...head)Whead. 2.3.4多头注意力机制 中head;=Attention(Qi,K,V),Whead为多头注意力的 递归神经网络,特别是LSTM和门控循环神 权重,下标h为多头注意力的个数 经网络是解决语言建模和机器翻译这种序列建模 2.4多维自注意力机制 和转换问题的先进方法.Vaswani等Iuo提出了一 2.4.1通用结构 种新的框架,被称作Transformer,其与以往的模式 Shen等I山在additive注意力在每个token的特征 不同,并没有用任何CNN或者RNN的结构,而是 层的做出推广,叫做多维注意力,图3刻画了经典注 完全依赖注意机制来表示输入和输出之间的全局 意力与其区别,图中d表示神经网络的输人层神经 依赖关系 元个数.多维注意力没有对每个token嵌入向量x的 模型中的注意力可以描述为将一个查询向量 分量x计算一个标量得分值,而是对x中每个分量计 (Queries)Q和一组键-值对(Key-Value)K和V.映 算了一个向量得分值,即利用权重矩阵W,查询向 射为一个输出.输出是由值的加权和得到的,每个 量q与偏置b:kx,q)=Wr(WDx+W2q+b)+b. 值的权重是根据查询向量和相应的键通过一个对 在此基础上,作者定义了两种形式的自注意力机 齐函数计算出来的,计算公式为:Attention(Q,K,V)= 制:source2 token型和token2 token型.前者用于计 softmax(QKT/√d)V,d为查询向量的维数. 算每个x,与整个句子的相关性,将整句压缩为一个 多头注意力(Multi-head)则是用不同的、需要 向量,Lin等率先把这种自注意力机制引入自然 学习的线性映射,对查询向量,键及值进行多次变 语言处理某些任务中的句子嵌入表示,在数学表 换,然后分别对每一个映射之后得到的查询向量、 达上即去掉对齐函数x(x,q)中q有关的项;而后者 键及值,再进行上述多个单头注意力的并行运算, 将对齐函数k(,q)中的q换为x,下面介绍后者的 进而生成多个输出值,然后拼接起来成为高维向 几种变体形式 (a) Output (b) Output Broadcasted element-wise product Element-wise product Sum Sum along Col..② + along Col.②+ 1{ Softmax Alignment scor Alignment scor k(xq) 图3经典注意力机制(a)和多维注意力机制(b)四∈1,2,…,n为计算对齐函数(x,q)得到的对应值,图()中z为标量,图(b)中其值z为向量 Fig.3 Traditional (additive/multiplicative)attention(a)and multi-dimensional attention(b)denotes the alignment score()in figure (a)isa scalar and in figure (b)zi is a vector 2.4.2方向型自注意力机制 2.4.3双向分块自注意力机制 Shen等I]提出了基于掩码的token2 token型多 传统自注意力主要缺点在于需要很大的存储 维自注意力,称为方向型自注意力(Directional self- 空间存储所有元素对的对齐,对存储空间的需求 attention,DiSA).方向型自注意力机制考虑了单词 随序列长度呈二次方增长.为解决上述问题, 之间的依赖和时序关系,并融合了自注意力模块 Shen等I又提出了一种双向分块自注意力机制 的输入和输出,主要做了以下两个修改:把权值矩 Bidirectional block self-attention,Bi-BloSA), 阵W成了常数c,把sigmoid激活函数换成了tanh 而上可分为三个主要部分:分块内的注意力机制、 激活函数:使用了位置掩码矩阵,使得两元素之间 分块间的自注意力机制、上下文融合,实现更快且 的注意力矩阵是不对称的.使用掩码很容易对结 节省空间的上下文融合,然后基于Bi-BloSA提出 构丰富的先验知识编码,比如时序关系和稀疏依 了不使用RNN/CNN的序列编码模型,这种模型具 赖关系编码 有高度的可并行运算性,同时对局部和远距离相基于最终的注意力矩阵去指导解码器的解码 操作. 2.3.4 多头注意力机制 递归神经网络,特别是 LSTM 和门控循环神 经网络是解决语言建模和机器翻译这种序列建模 和转换问题的先进方法. Vaswani 等[10] 提出了一 种新的框架,被称作 Transformer,其与以往的模式 不同,并没有用任何 CNN 或者 RNN 的结构,而是 完全依赖注意机制来表示输入和输出之间的全局 依赖关系. Attention(Q,K,V) = softmax(QKT / √ dk)V dk 模型中的注意力可以描述为将一个查询向量 (Queries)Q 和一组键−值对(Key-Value)K 和 V,映 射为一个输出. 输出是由值的加权和得到的,每个 值的权重是根据查询向量和相应的键通过一个对 齐函数计算出来的,计算公式为: , 为查询向量的维数. 多头注意力(Multi-head)则是用不同的、需要 学习的线性映射,对查询向量,键及值进行多次变 换,然后分别对每一个映射之后得到的查询向量、 键及值,再进行上述多个单头注意力的并行运算, 进而生成多个输出值,然后拼接起来成为高维向 MultiHead(Q,K,V) = Concat(head1,···,headh)Whead headi = Attention(Qi ,Ki ,Vi) Whead h 量,并再次映射,进而得到最终值. 计算公式为: ,其 中 , 为多头注意力的 权重,下标 为多头注意力的个数. 2.4    多维自注意力机制 2.4.1 通用结构 x xi W b κ(xi , q) = WTσ(W(1)xi +W(2)q+b (1))+b xi κ(xi , q) κ(xi , q) xj Shen 等[11] 在additive 注意力在每个token 的特征 层的做出推广,叫做多维注意力,图 3 刻画了经典注 意力与其区别,图中 de 表示神经网络的输入层神经 元个数. 多维注意力没有对每个 token 嵌入向量 的 分量 计算一个标量得分值,而是对 xi 中每个分量计 算了一个向量得分值,即利用权重矩阵 ,查询向 量 q 与偏置 : . 在此基础上,作者定义了两种形式的自注意力机 制:source2token 型和 token2token 型. 前者用于计 算每个 与整个句子的相关性,将整句压缩为一个 向量,Lin 等[12] 率先把这种自注意力机制引入自然 语言处理某些任务中的句子嵌入表示,在数学表 达上即去掉对齐函数 中 q 有关的项;而后者 将对齐函数 中的 q 换为 ,下面介绍后者的 几种变体形式. x1 x2 … xn Alignment score κ (xi ,q) z1 z2 zn q Σ … Softmax Broadcasted element-wise product Output Sum along Col. 1 de (a) de de q Σ Element-wise product Output Sum along Col. Softmax along Col. (b) Alignment score κ (xi ,q) x1 x2 … xn z1 z2 z … n zi ∈ {z1,z2,··· ,zn} κ(xi 图 , q) zi zi  3 经典注意力机制(a)和多维注意力机制(b) [11] . 为计算对齐函数 得到的对应值,图(a)中 为标量,图(b)中其值 为向量 zi κ(xi , q) zi zi Fig.3 Traditional (additive/multiplicative) attention (a) and multi-dimensional attention (b) [11] . denotes the alignment score , in figure (a) is a scalar and in figure (b) is a vector 2.4.2 方向型自注意力机制 W Shen 等[11] 提出了基于掩码的 token2token 型多 维自注意力,称为方向型自注意力(Directional self￾attention,DiSA). 方向型自注意力机制考虑了单词 之间的依赖和时序关系,并融合了自注意力模块 的输入和输出. 主要做了以下两个修改:把权值矩 阵 成了常数 c,把 sigmoid 激活函数换成了 tanh 激活函数;使用了位置掩码矩阵,使得两元素之间 的注意力矩阵是不对称的. 使用掩码很容易对结 构丰富的先验知识编码,比如时序关系和稀疏依 赖关系编码. 2.4.3 双向分块自注意力机制 传统自注意力主要缺点在于需要很大的存储 空间存储所有元素对的对齐,对存储空间的需求 随序列长度呈二次方增长. 为解决上述问题 , Shen 等[13] 又提出了一种双向分块自注意力机制 (Bidirectional block self-attention,Bi-BloSA) ,自下 而上可分为三个主要部分:分块内的注意力机制、 分块间的自注意力机制、上下文融合,实现更快且 节省空间的上下文融合,然后基于 Bi-BloSA 提出 了不使用 RNN/CNN 的序列编码模型,这种模型具 有高度的可并行运算性,同时对局部和远距离相 刘建伟等: 深度学习中注意力机制研究进展 · 1503 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有