《工程科学学报》：深度学习中注意力机制研究进展

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：0.98MB

工程科学学报.第43卷，第11期：1499-1511.2021年11月 Chinese Journal of Engineering,Vol.43,No.11:1499-1511,November 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.30.005;http://cje.ustb.edu.cn 深度学习中注意力机制研究进展刘建伟巴，刘俊文，罗雄麟中国石油大学（北京）自动化系，北京102249 ☒通信作者，E-mail:liujw@cup.edu.cn 摘要对注意力机制的主流模型进行了全面系统的概述.注意力机制模拟人类视觉选择性的机制，其核心的目的是从冗杂的信息中选择出对当前任务目标关联性更大、更关键的信息而过滤噪声，也就是高效率信息选择和关注机制.首先简要介绍和定义了注意力机制的原型，接着按照多个层面对各种注意力机制结构进行分类，然后对注意力机制的可解释性进行了阐述司时总结了在各种领域的应用，最后指出了注意力机制未来的发展方向以及会面临的挑战关键词注意力机制：全局/局部注意力机制：硬/软注意力机制：自注意力机制：可解释性分类号TP181 Research progress in attention mechanism in deep learning LIU Jian-we LIU Jun-wen,LUO Xiong-lin Department of Automation,China University of Petroleum,Beijing 102249,China Corresponding author,E-mail:liujw@cup.edu.cn ABSTRACT There are two challenges with the traditional encoder-decoder framework.First,the encoder needs to compress all the necessary information of a source sentence into a fixed-length vector.Second,it is unable to model the alignment between the source and the target sentences,which is an essential aspect of structured output tasks,such as machine translation.To address these issues,the attention mechanism is introduced to the encoder-decoder model.This mechanism allows the model to align and translate by jointly learning a neural machine translation task.The whose core idea of this mechanism is to induce attention weights over the source sentences to prioritize the set of positions where relevant information is present for generating the next output token.Nowadays,this mechanism has become essential in neural networks,which have been researched for diverse applications.The present survey provides a systematic and comprehensive overview of the developments in attention modeling.The intuition behind attention modeling can be best explained by the simulation mechanism of human visual selectivity,which aims to select more relevant and critical information from tedious information for the current target task while ignoring other irrelevant information in a manner that assists in developing perception.In addition,attention mechanism is an efficient information selection and widely used in deep learning fields in recent years and played a pivotal role in natural language processing,speech recognition,and computer vision.This survey first briefly introduces the origin of the attention mechanism and defines a standard parametric and uniform model for encoder-decoder neural machine translation. Next,various techniques are grouped into coherent categories using types of alignment scores and number of sequences,abstraction levels,positions,and representations.A visual explanation of attention mechanism is then provided to a certain extent,and roles of attention mechanism in multiple application areas is summarized.Finally,this survey identified the future direction and challenges of the attention mechanism. KEY WORDS attention mechanism;global/local attention;hard/soft attention:self-attention;interpretability 收稿日期：2021-01-30 基金项目：中国石油大学（北京）科研基金资助项目(2462020YXZZ023)

深度学习中注意力机制研究进展刘建伟苣，刘俊文，罗雄麟中国石油大学 (北京) 自动化系，北京 102249 苣通信作者， E-mail: liujw@cup.edu.cn 摘要对注意力机制的主流模型进行了全面系统的概述. 注意力机制模拟人类视觉选择性的机制，其核心的目的是从冗杂的信息中选择出对当前任务目标关联性更大、更关键的信息而过滤噪声，也就是高效率信息选择和关注机制. 首先简要介绍和定义了注意力机制的原型，接着按照多个层面对各种注意力机制结构进行分类，然后对注意力机制的可解释性进行了阐述同时总结了在各种领域的应用，最后指出了注意力机制未来的发展方向以及会面临的挑战. 关键词注意力机制；全局/局部注意力机制；硬/软注意力机制；自注意力机制；可解释性分类号 TP181 Research progress in attention mechanism in deep learning LIU Jian-wei苣，LIU Jun-wen，LUO Xiong-lin Department of Automation, China University of Petroleum, Beijing 102249, China 苣 Corresponding author, E-mail: liujw@cup.edu.cn ABSTRACT There are two challenges with the traditional encoder–decoder framework. First, the encoder needs to compress all the necessary information of a source sentence into a fixed-length vector. Second, it is unable to model the alignment between the source and the target sentences, which is an essential aspect of structured output tasks, such as machine translation. To address these issues, the attention mechanism is introduced to the encoder–decoder model. This mechanism allows the model to align and translate by jointly learning a neural machine translation task. The whose core idea of this mechanism is to induce attention weights over the source sentences to prioritize the set of positions where relevant information is present for generating the next output token. Nowadays, this mechanism has become essential in neural networks, which have been researched for diverse applications. The present survey provides a systematic and comprehensive overview of the developments in attention modeling. The intuition behind attention modeling can be best explained by the simulation mechanism of human visual selectivity, which aims to select more relevant and critical information from tedious information for the current target task while ignoring other irrelevant information in a manner that assists in developing perception. In addition, attention mechanism is an efficient information selection and widely used in deep learning fields in recent years and played a pivotal role in natural language processing, speech recognition, and computer vision. This survey first briefly introduces the origin of the attention mechanism and defines a standard parametric and uniform model for encoder–decoder neural machine translation. Next, various techniques are grouped into coherent categories using types of alignment scores and number of sequences, abstraction levels, positions, and representations. A visual explanation of attention mechanism is then provided to a certain extent, and roles of attention mechanism in multiple application areas is summarized. Finally, this survey identified the future direction and challenges of the attention mechanism. KEY WORDS attention mechanism；global/local attention；hard/soft attention；self-attention；interpretability 收稿日期: 2021−01−30 基金项目: 中国石油大学（北京）科研基金资助项目（2462020YXZZ023）工程科学学报，第 43 卷，第 11 期：1499−1511，2021 年 11 月 Chinese Journal of Engineering, Vol. 43, No. 11: 1499−1511, November 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.30.005; http://cje.ustb.edu.cn

·1500 工程科学学报，第43卷，第11期随着深度学习领域的发展，注意力机制在计或摘要等结构化输出任务的一个重要方面.为了算机视觉和自然语言处理等领域取得了长足发解决这个问题，在编码器-解码器体系结构引入了展.注意力机制的广泛应用始于机器翻译领域，目注意力机制，如图1所示前已成为神经网络中的一个重要概念，不仅仅是从属概念，已然发展成独立的注意力网络山神经网络中注意力机制的快速发展具有如下 Decode 三点优势： ●●●Context vector (I)有效克服循环神经网络(Recurrent neural network,RNN)的一些挑战，例如随着输入长度的 000h Softmax 增加，预测性能下降和输入顺序处理导致的计算 Softmax Softmax 效率低下；在机器翻译中源语言和目标语言之间对齐以及大范围长期依赖学习问题. Hidden stateO 000 000 (2)可广泛用于提高神经网络的可解释性，而神经网络又被视为黑盒模型.这是一个显著的好 Encode 处，主要是因为人们对影响人类生活的应用中机器学习模型的公平性、问责制和透明度有越来越图1 带有注意力机制的Seq2Seq结构经典编码器-解码器网络) 多的渴求，而注意力机制在一定程度上可以提供 Fig.I Seg2Seg structure of a classic encoder-decoder network with an 可视化解释 attention mechanism (3)很明显的优势就是直接提高了模型性能假设源序列x=x1,2,…,xn卢目标序列y= 使得这些模型的预测推理结果最先进的，不管是 y1,y2,…,y,源序列经过双向循环神经网络后输用于机器翻译、回答问题、情绪分析、对话系统，出两个不同方向的隐状态向量：前向隐状态：和后还是图像视觉等多项任务四，这也是注意力机制广向隐状态，然后将两者进行拼接来表示编码器泛得到应用的根本推动力的隐状态h;=h;h"].在解码器经过位置时，通过鉴于注意力机制的理论意义、所蕴含的应用 s,=g(s-1y-1,c)计算得出每个单词的隐状态向价值以及可观的发展潜力，本文对注意力机制的量，其中（为计算隐状态向量的函数、上下文向研究进展进行了系统性的综述，为进一步深入研量c,是输入序列的隐状态h之加权，其中权重由对究注意力机制、开发注意力机制应用潜力确立良齐函数确定：好的基础.文中首先在第一节对注意力机制进行 exp(score(s:-1,hi)) 了概述以及问题的数学定义，并在第二节着重对 ati align(yt,xi)= (1) 注意力机制进行分类及归纳，从五个方面给出了 ∑=1exp(score(s-l,h) 注意力机制的不同描述.第三节阐述了目前注意这里的对齐函数实际上为每个位置的输入单力机制对神经网络的可解释性的讨论，第四节介词和位置的输出单词0，x)赋予一个分数，衡量它绍了注意力机制的应用场景，第五节给出了注意们之间的匹配度力机制未来发展方向，最后一节则对注意力机制 2 注意力机制分类进行了总结 2.1软注意力机制与硬注意力机制 1注意力机制数学表述 2.1.1共同框架为了方便，采用Bahdanau等)神经机器翻译 2015年，Xu等受机器翻译和对象检测工作 (Neural machine translation,NMT)中的解码器-编码的启发引入了一种基于注意力机制的模型，它自器结构来描述注意力机制.传统的编码器框架有动学习描述图像内容的文字，文中使用了两种不两个众所周知的挑战.首先，编码器必须将所有输同的模型：硬随机注意力和软确定性注意力.首先入信息压缩成一个固定长度的向量，然后将其传都使用卷积神经网络来提取一组称之为注释向量递给解码器.使用一个固定长度的向量压缩输入的特征向量∫={f,f2,…,f,分别对应于图像的部序列可能会导致信息丢失其次，它无法对输入分区域，这里，L为图像区域划分的个数，然后定和输出序列之间的对齐关系进行建模，这是翻译义一个机制Φ从注释向量中计算出上下文向量

随着深度学习领域的发展，注意力机制在计算机视觉和自然语言处理等领域取得了长足发展. 注意力机制的广泛应用始于机器翻译领域，目前已成为神经网络中的一个重要概念，不仅仅是从属概念，已然发展成独立的注意力网络[1] . 神经网络中注意力机制的快速发展具有如下三点优势：（ 1）有效克服循环神经网络（Recurrent neural network，RNN）的一些挑战，例如随着输入长度的增加，预测性能下降和输入顺序处理导致的计算效率低下；在机器翻译中源语言和目标语言之间对齐以及大范围长期依赖学习问题. （2）可广泛用于提高神经网络的可解释性，而神经网络又被视为黑盒模型. 这是一个显著的好处，主要是因为人们对影响人类生活的应用中机器学习模型的公平性、问责制和透明度有越来越多的渴求，而注意力机制在一定程度上可以提供可视化解释. （3）很明显的优势就是直接提高了模型性能，使得这些模型的预测推理结果最先进的，不管是用于机器翻译、回答问题、情绪分析、对话系统，还是图像视觉等多项任务[2] ，这也是注意力机制广泛得到应用的根本推动力. 鉴于注意力机制的理论意义、所蕴含的应用价值以及可观的发展潜力，本文对注意力机制的研究进展进行了系统性的综述，为进一步深入研究注意力机制、开发注意力机制应用潜力确立良好的基础. 文中首先在第一节对注意力机制进行了概述以及问题的数学定义，并在第二节着重对注意力机制进行分类及归纳，从五个方面给出了注意力机制的不同描述. 第三节阐述了目前注意力机制对神经网络的可解释性的讨论，第四节介绍了注意力机制的应用场景，第五节给出了注意力机制未来发展方向，最后一节则对注意力机制进行了总结. 1 注意力机制数学表述为了方便，采用 Bahdanau 等[3] 神经机器翻译（Neural machine translation，NMT）中的解码器-编码器结构来描述注意力机制. 传统的编码器框架有两个众所周知的挑战. 首先，编码器必须将所有输入信息压缩成一个固定长度的向量，然后将其传递给解码器. 使用一个固定长度的向量压缩输入序列可能会导致信息丢失[4] . 其次，它无法对输入和输出序列之间的对齐关系进行建模，这是翻译或摘要等结构化输出任务的一个重要方面. 为了解决这个问题，在编码器−解码器体系结构引入了注意力机制，如图 1 所示. h1 h2 h3 x1 x2 x3 s1 s2 Hidden state Score Score Score Softmax Softmax Softmax Context vector Encoder Decoder y1 y2 图 1 带有注意力机制的 Seq2Seq 结构经典编码器–解码器网络[3] Fig.1 Seq2Seq structure of a classic encoder–decoder network with an attention mechanism[3] x = [x1, x2,··· , xn] y = [y1, y2,··· , yn] h ′ i h ′′ i hi = [h ′ i ; h ′′ i ] t st = g(st−1,yt−1, ct) g(·) ct hi 假设源序列与目标序列，源序列经过双向循环神经网络后输出两个不同方向的隐状态向量：前向隐状态和后向隐状态，然后将两者进行拼接来表示编码器的隐状态 . 在解码器经过位置时，通过计算得出每个单词的隐状态向量，其中为计算隐状态向量的函数、上下文向量是输入序列的隐状态之加权，其中权重由对齐函数确定： αt,i = align(yt , xi) = exp(score (st−1, hi)) ∑n j=1 exp( score ( st−1, hj )) （1） i t (yt , xi) 这里的对齐函数实际上为每个位置的输入单词和位置的输出单词赋予一个分数，衡量它们之间的匹配度. 2 注意力机制分类 2.1 软注意力机制与硬注意力机制 2.1.1 共同框架 f = {f1, f2,··· , fL} ϕ ζt 2015 年，Xu 等[5] 受机器翻译和对象检测工作的启发引入了一种基于注意力机制的模型，它自动学习描述图像内容的文字. 文中使用了两种不同的模型：硬随机注意力和软确定性注意力. 首先都使用卷积神经网络来提取一组称之为注释向量的特征向量，分别对应于图像的部分区域，这里， L 为图像区域划分的个数，然后定义一个机制从注释向量中计算出上下文向量， · 1500 · 工程科学学报，第 43 卷，第 11 期

刘建伟等：深度学习中注意力机制研究进展 ·1501 对于每个位置，该机制都能产生一个权重α.这里微的，因此使用标准的反向传播过程可以实现端 Φ函数的定义就决定了如何将位置信息和权重信到端的学习.在此之前，大部分的传统注意力机制息结合都属于软注意力机制.软注意力机制是可以直接 2.1.2硬注意力机制求梯度的，能直接代入到模型中去，整体进行训在硬注意力机制中，权重所扮演的角色是练.所求的梯度可以经过注意力机制模块，反向传图像区域a;在时刻t被选中作为输人编码器信息的播到模型其它部分.两种注意力机制模型都有好概率，有且仅有一个区域会被选中.为此，引入位有坏，但目前主流的研究和应用还是更倾向于使置变量s,当区域被选中时取值为1，否则为0，即用软注意力机制，因为其可以直接求导，进行反向 p(si=1sj,a)=a,然后计算上下文向量g=∑sf 传播 2.2全局和局部注意力机制整个硬注意力机制是一个随机模型，会采样 2.2.1共同框架输入的隐状态，而不是整个编码端的隐状态，算出 2015年，Luong等6提出了全局和局部注意力单词出现在某个位置的条件后验概率.为了实现两种简单有效的注意机制，其中全局注意力机制梯度的反向传播，需要采用蒙特卡洛采样的方法能顾及到输入语言的所有源语言单词，局部注意来逼近目标函数的梯度力机制则只能一次查看源语言单词的一个子集 2.1.3软注意力机制如图2所示.二者的区别在于注意力被放在所有相比之下，权重所扮演的角色是图像区域的源语言位置上还是仅放在部分源语言位置上. a在时刻的输入编码器的信息中的所占的比例. 这两个模型的共同点是，在解码过程中，每个时刻软注意力机制可以通过计算一个加权注释向量，都是先将源语言输入到堆叠长短时记忆网络直接得到上下文向量：的数学期望，从而构造一个 (Long-short term memory,LSTM),计算源语言的各确定性注意力机制模型，即Es【G=∑a 个隐状态对应当前目标语言隐状态对应的上下文向量，得到目标语言隐状态.这样做的目的是为了这相当于在系统中加入了加权上下文向量得到上下文向量，进而用源语言句子的信息来帮整个模型在确定性软注意力机制下是光滑的、可助预测当前目标语言单词. (a) (b) Attention layer Attention layer Context vector Context vector Global align weights Aligned position Local weights HHHH:HHHH 图2两种简单有效的注意机制.()全局注意力，对每一步隐状态都计算了注意力值：(b)局部注意力，只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism (a)a global approach that always attends to all source words;(b)a local approach that only looks at a subset of source words at a time 2.2.2全局注意力机制节点，模型根据当前目标语言隐状态h,和所有的源全局注意力机制在生成上下文向量时考虑编语言隐状态得出一个变长对齐权重向量.然后码器的所有隐状态.在这个模型中，通过将当前目对所有源状态的加权平均计算出全局上下文向标隐状态，与每个源隐状态五，进行比较，得到一个量.图2中，，为最终计算得到的经过注意力加权可变长度的对齐向量B,其大小等于源语言端输入后的全局上下文向量句子的长度.把对齐向量作为权重，通过对源语言与Bahdanau模型相比，Luong等提出的全局隐状态的加权平均得到上下文向量.在每个时间注意力模型在本质上相似，但是也有几个重要的

αi ϕ 对于每个位置，该机制都能产生一个权重 . 这里函数的定义就决定了如何将位置信息和权重信息结合. 2.1.2 硬注意力机制 αt,i ai t st,i i p(st,i = 1|sj<t ,ai) = αt,i ζt = ∑ i st,i fi 在硬注意力机制中，权重所扮演的角色是图像区域在时刻被选中作为输入编码器信息的概率，有且仅有一个区域会被选中. 为此，引入位置变量，当区域被选中时取值为 1，否则为 0，即，然后计算上下文向量 . 整个硬注意力机制是一个随机模型，会采样输入的隐状态，而不是整个编码端的隐状态，算出单词出现在某个位置的条件后验概率. 为了实现梯度的反向传播，需要采用蒙特卡洛采样的方法来逼近目标函数的梯度. 2.1.3 软注意力机制 αt,i ai t ζt Ep(st |a) [ ζt ] = ∑ L i=1 αt,i fi 相比之下，权重所扮演的角色是图像区域在时刻的输入编码器的信息中的所占的比例. 软注意力机制可以通过计算一个加权注释向量，直接得到上下文向量的数学期望，从而构造一个确定性注意力机制模型，即 . 这相当于在系统中加入了加权上下文向量. 整个模型在确定性软注意力机制下是光滑的、可微的，因此使用标准的反向传播过程可以实现端到端的学习. 在此之前，大部分的传统注意力机制都属于软注意力机制. 软注意力机制是可以直接求梯度的，能直接代入到模型中去，整体进行训练. 所求的梯度可以经过注意力机制模块，反向传播到模型其它部分. 两种注意力机制模型都有好有坏，但目前主流的研究和应用还是更倾向于使用软注意力机制，因为其可以直接求导，进行反向传播. 2.2 全局和局部注意力机制 2.2.1 共同框架 2015 年，Luong 等[6] 提出了全局和局部注意力两种简单有效的注意机制，其中全局注意力机制能顾及到输入语言的所有源语言单词，局部注意力机制则只能一次查看源语言单词的一个子集, 如图 2 所示. 二者的区别在于注意力被放在所有的源语言位置上还是仅放在部分源语言位置上. 这两个模型的共同点是，在解码过程中，每个时刻都是先将源语言输入到堆叠长短时记忆网络（Long-short term memory，LSTM），计算源语言的各个隐状态对应当前目标语言隐状态对应的上下文向量，得到目标语言隐状态. 这样做的目的是为了得到上下文向量，进而用源语言句子的信息来帮助预测当前目标语言单词. Attention layer Context vector ζt ht ht yt Global align weights at (a) ζt yt at pt ht Attention layer Context vector Local weights Aligned position (b) hs hs ~ ht ~ 图 2 两种简单有效的注意机制[6] . （a）全局注意力，对每一步隐状态都计算了注意力值；（b）局部注意力，只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism[6] : (a) a global approach that always attends to all source words; (b) a local approach that only looks at a subset of source words at a time 2.2.2 全局注意力机制 ht h¯ s βt 全局注意力机制在生成上下文向量时考虑编码器的所有隐状态. 在这个模型中，通过将当前目标隐状态与每个源隐状态进行比较，得到一个可变长度的对齐向量，其大小等于源语言端输入句子的长度. 把对齐向量作为权重，通过对源语言隐状态的加权平均得到上下文向量. 在每个时间 ht hs h˜ t 节点，模型根据当前目标语言隐状态和所有的源语言隐状态得出一个变长对齐权重向量. 然后对所有源状态的加权平均计算出全局上下文向量. 图 2 中，为最终计算得到的经过注意力加权后的全局上下文向量. 与 Bahdanau 模型相比，Luong 等提出的全局注意力模型在本质上相似，但是也有几个重要的刘建伟等：深度学习中注意力机制研究进展 · 1501 ·

·1502 工程科学学报，第43卷，第11期不同点，此模型中在编码和解码器中都只用了层次注意力机制主要思想是：首先从文档的 LSTM顶层的隐状态，而前者在双向编码器中用了分层结构出发，单词组成句子，句子组成文档，所前向和反向源语言隐状态的级联，在非堆叠单向以自然而然建模时也分这两个层次进行.其次，不解码器中使用了目标隐状态同的单词对句子理解和不同的句子对于文本理解 2.2.3局部注意力机制和分类，具有不同的信息量和关注度，不能单纯均全局注意力机制有一个缺点，其对于每一个匀对待，所以引入分层注意力机制，分层注意力机目标单词都要考虑源语言句子中的所有单词，此制让我们对文本分类的内部机制有一定的白箱过程算法复杂性太大，并且不太可能翻译长序列理解而局部注意可以克服这种问题，针对每个目标单 2.3.2自顶向下注意力机制词，其只关注小部分的源语言子句子 Zhang等8在卷积神经网络中提出了基于自在时刻，模型首先针对每个目标单词生成一 J顶而下神经注意力(Top-down neural attention),使个对齐位置，.针对对齐位置v,如何确定，此模神经网络在学习过程中的注意力更加有针对性，型有两种变体：单调对齐(local-m)和预测对齐其实就是层次化注意力结构变体形式，而这种实 (local-p).前者简单地设，=t,假设源语言序列和现也十分贴近我们真正的生物视觉机制，具有十目标语言序列大体上单调对齐：而后者不假设源分重要的生物神经学理论依据.为了实现这种自语言序列和目标语言序列单调对齐，模型按照以顶而下神经注意力机制，采用了一种泛化的确定下方式预测对齐位置：v,=L·sigmoid(vTtanh(W,h,). 性赢者通吃(Winner-Take-All)的方法，从而可以选这里L是源语句长度，W和y是将要被学习用来择出与这个自顶而下信号最相关的神经元预测位置的模型参数.为了更偏向于，附近的对同时还提出了一个基于概率性的赢者通吃公齐点，设置了一个以u,为中心的高斯分布模拟对齐式来建立自顶而下的层次化神经注意力机制的卷程度. 高斯分布重新定义的对齐权重如下：B()= 积神经网铬(Convolutional neural networks,CNN)分 μ-)2 align(,五，)exp-2o2 类器模型，将确定性方法泛化到了概率性版本，使 ,其中标准差为σ=D/2, 得学出来的注意力映射不再是二值结构.这种注 D是凭经验选取的一个常数，是一个实数，而是意力映射其实也可以叫做软注意力映射，它的好一个在以为中心的窗口内的整数处也很明显，就是可以去捕捉更加细微的一些特与Bahdanau等相比，其使用了与，相似的上下征和变化等等.基于赢者通吃假设还提出了一种文向量来构造后续隐状态，虽然也能达到“覆盖” 改进的传播方法，可以有效地计算注意力上下文效果，但其没有分析这种连接是否有效.此处的模向量，得出每个神经元赢得可能性的边缘概率，并型更具有通用性，模型可应用于常规堆栈循环结且通过网络中的反向传播误差对比自上而下的信构，包括非注意力模型号的重要性 2.3分层注意力机制 2.3.3多步注意力机制 2.3.1层次注意力机制 2017年5月，Gehring等9在机器翻译任务中 Yang等)最早把注意力分层的思想用于文档提出了完全基于CNN构造序列到序列模型，文中分类，而且引入层次注意力(Hierarchical attention), 提出的多步注意力机制(Multi-.step attention)通过除了提高模型的精确度之外还可以进行单词与单该注意力结构来获取编码器和解码器中输入句子词之间、句子与句子之间重要性的分析和可视化. 之间的关系.ConvS2S模型在翻译任务上不仅仅正如其名，层次注意力机制构造了两个层次的注效果显著，而且所需训练时间也很短.多步注意力意力机制结构.第一个层次是对句子中每个单词机制实际上也是一种分层注意力机制，它在解码的注意力机制，并非所有的单词对句子含义的表器的每一层，都单独使用了注意力机制示，都有同样的贡献.因此，引入注意机制来提取该模型通过堆叠多层注意力机制来获取输这些关键词，这对于单词在句子中起的作用来说，入句子中单词与单词之间的依赖关系，特别是是很重要的选择和判断标准，而且还汇总了这些当句子非常长的时候，实验证明层叠的层数往表示形成句子向量的各种有价值的信息词汇.第往达到10层以上才能取得比较理想的结果.针二个层次是针对文档中每个句子的注意力机制，对每一个卷积步骤都对编码器的隐状态和解与单词级别类似码器的隐状态进行点积得到注意力矩阵，并且

不同点，此模型中在编码和解码器中都只用了 LSTM 顶层的隐状态，而前者在双向编码器中用了前向和反向源语言隐状态的级联，在非堆叠单向解码器中使用了目标隐状态. 2.2.3 局部注意力机制全局注意力机制有一个缺点，其对于每一个目标单词都要考虑源语言句子中的所有单词，此过程算法复杂性太大，并且不太可能翻译长序列. 而局部注意可以克服这种问题，针对每个目标单词，其只关注小部分的源语言子句子. t υt υt υt = t υt = L ·sigmoid(v T υ tanh(Wυht)) Wυ vυ υt υt βt(υt) = align(ht , hs) exp( − (µ−υt) 2 2σ2 ) σ = D/2 υt µ υt 在时刻，模型首先针对每个目标单词生成一个对齐位置 . 针对对齐位置如何确定，此模型有两种变体：单调对齐（ local-m）和预测对齐（local-p）. 前者简单地设，假设源语言序列和目标语言序列大体上单调对齐；而后者不假设源语言序列和目标语言序列单调对齐，模型按照以下方式预测对齐位置： . 这里 L 是源语句长度，和是将要被学习用来预测位置的模型参数. 为了更偏向于附近的对齐点，设置了一个以为中心的高斯分布模拟对齐程度. 高斯分布重新定义的对齐权重如下：，其中标准差为， D 是凭经验选取的一个常数，是一个实数，而是一个在以为中心的窗口内的整数. 与 Bahdanau 等相比，其使用了与 ζt相似的上下文向量来构造后续隐状态，虽然也能达到“覆盖” 效果，但其没有分析这种连接是否有效. 此处的模型更具有通用性，模型可应用于常规堆栈循环结构，包括非注意力模型. 2.3 分层注意力机制 2.3.1 层次注意力机制 Yang 等[7] 最早把注意力分层的思想用于文档分类，而且引入层次注意力（Hierarchical attention），除了提高模型的精确度之外还可以进行单词与单词之间、句子与句子之间重要性的分析和可视化. 正如其名，层次注意力机制构造了两个层次的注意力机制结构. 第一个层次是对句子中每个单词的注意力机制，并非所有的单词对句子含义的表示，都有同样的贡献. 因此，引入注意机制来提取这些关键词，这对于单词在句子中起的作用来说，是很重要的选择和判断标准，而且还汇总了这些表示形成句子向量的各种有价值的信息词汇. 第二个层次是针对文档中每个句子的注意力机制，与单词级别类似. 层次注意力机制主要思想是：首先从文档的分层结构出发，单词组成句子，句子组成文档，所以自然而然建模时也分这两个层次进行. 其次，不同的单词对句子理解和不同的句子对于文本理解和分类，具有不同的信息量和关注度，不能单纯均匀对待，所以引入分层注意力机制，分层注意力机制让我们对文本分类的内部机制有一定的白箱理解. 2.3.2 自顶向下注意力机制 Zhang 等[8] 在卷积神经网络中提出了基于自顶而下神经注意力（Top-down neural attention），使神经网络在学习过程中的注意力更加有针对性，其实就是层次化注意力结构变体形式，而这种实现也十分贴近我们真正的生物视觉机制，具有十分重要的生物神经学理论依据. 为了实现这种自顶而下神经注意力机制，采用了一种泛化的确定性赢者通吃（Winner-Take-All）的方法，从而可以选择出与这个自顶而下信号最相关的神经元. 同时还提出了一个基于概率性的赢者通吃公式来建立自顶而下的层次化神经注意力机制的卷积神经网络（Convolutional neural networks，CNN）分类器模型，将确定性方法泛化到了概率性版本，使得学出来的注意力映射不再是二值结构. 这种注意力映射其实也可以叫做软注意力映射，它的好处也很明显，就是可以去捕捉更加细微的一些特征和变化等等. 基于赢者通吃假设还提出了一种改进的传播方法，可以有效地计算注意力上下文向量，得出每个神经元赢得可能性的边缘概率，并且通过网络中的反向传播误差对比自上而下的信号的重要性. 2.3.3 多步注意力机制 2017 年 5 月， Gehring 等[9] 在机器翻译任务中提出了完全基于 CNN 构造序列到序列模型，文中提出的多步注意力机制（Multi-step attention）通过该注意力结构来获取编码器和解码器中输入句子之间的关系. ConvS2S 模型在翻译任务上不仅仅效果显著，而且所需训练时间也很短. 多步注意力机制实际上也是一种分层注意力机制，它在解码器的每一层，都单独使用了注意力机制. 该模型通过堆叠多层注意力机制来获取输入句子中单词与单词之间的依赖关系，特别是当句子非常长的时候，实验证明层叠的层数往往达到 10 层以上才能取得比较理想的结果. 针对每一个卷积步骤都对编码器的隐状态和解码器的隐状态进行点积得到注意力矩阵，并且 · 1502 · 工程科学学报，第 43 卷，第 11 期

刘建伟等：深度学习中注意力机制研究进展 ·1503· 基于最终的注意力矩阵去指导解码器的解码量，并再次映射，进而得到最终值.计算公式为：操作. MultiHead(O,K,V)=Concat (head1,...head)Whead. 2.3.4多头注意力机制中head;=Attention(Qi,K,V),Whead为多头注意力的递归神经网络，特别是LSTM和门控循环神权重，下标h为多头注意力的个数经网络是解决语言建模和机器翻译这种序列建模 2.4多维自注意力机制和转换问题的先进方法.Vaswani等Iuo提出了一 2.4.1通用结构种新的框架，被称作Transformer,其与以往的模式 Shen等I山在additive注意力在每个token的特征不同，并没有用任何CNN或者RNN的结构，而是层的做出推广，叫做多维注意力，图3刻画了经典注完全依赖注意机制来表示输入和输出之间的全局意力与其区别，图中d表示神经网络的输人层神经依赖关系元个数.多维注意力没有对每个token嵌入向量x的模型中的注意力可以描述为将一个查询向量分量x计算一个标量得分值，而是对x中每个分量计 (Queries)Q和一组键-值对(Key-Value)K和V.映算了一个向量得分值，即利用权重矩阵W,查询向射为一个输出.输出是由值的加权和得到的，每个量q与偏置b:kx,q)=Wr(WDx+W2q+b)+b. 值的权重是根据查询向量和相应的键通过一个对在此基础上，作者定义了两种形式的自注意力机齐函数计算出来的，计算公式为：Attention(Q,K,V)= 制：source2 token型和token2 token型.前者用于计 softmax(QKT/√d)V,d为查询向量的维数. 算每个x,与整个句子的相关性，将整句压缩为一个多头注意力(Multi-head)则是用不同的、需要向量，Lin等率先把这种自注意力机制引入自然学习的线性映射，对查询向量，键及值进行多次变语言处理某些任务中的句子嵌入表示，在数学表换，然后分别对每一个映射之后得到的查询向量、达上即去掉对齐函数x(x,q)中q有关的项；而后者键及值，再进行上述多个单头注意力的并行运算，将对齐函数k(,q)中的q换为x,下面介绍后者的进而生成多个输出值，然后拼接起来成为高维向几种变体形式 (a) Output (b) Output Broadcasted element-wise product Element-wise product Sum Sum along Col..② + along Col.②+ 1{ Softmax Alignment scor Alignment scor k(xq) 图3经典注意力机制(a)和多维注意力机制(b)四∈1,2，…，n为计算对齐函数(x,q)得到的对应值，图()中z为标量，图(b)中其值z为向量 Fig.3 Traditional (additive/multiplicative)attention(a)and multi-dimensional attention(b)denotes the alignment score()in figure (a)isa scalar and in figure (b)zi is a vector 2.4.2方向型自注意力机制 2.4.3双向分块自注意力机制 Shen等I]提出了基于掩码的token2 token型多传统自注意力主要缺点在于需要很大的存储维自注意力，称为方向型自注意力(Directional self- 空间存储所有元素对的对齐，对存储空间的需求 attention,DiSA).方向型自注意力机制考虑了单词随序列长度呈二次方增长.为解决上述问题，之间的依赖和时序关系，并融合了自注意力模块 Shen等I又提出了一种双向分块自注意力机制的输入和输出，主要做了以下两个修改：把权值矩 Bidirectional block self-attention,Bi-BloSA), 阵W成了常数c,把sigmoid激活函数换成了tanh 而上可分为三个主要部分：分块内的注意力机制、激活函数：使用了位置掩码矩阵，使得两元素之间分块间的自注意力机制、上下文融合，实现更快且的注意力矩阵是不对称的.使用掩码很容易对结节省空间的上下文融合，然后基于Bi-BloSA提出构丰富的先验知识编码，比如时序关系和稀疏依了不使用RNN/CNN的序列编码模型，这种模型具赖关系编码有高度的可并行运算性，同时对局部和远距离相

基于最终的注意力矩阵去指导解码器的解码操作. 2.3.4 多头注意力机制递归神经网络，特别是 LSTM 和门控循环神经网络是解决语言建模和机器翻译这种序列建模和转换问题的先进方法. Vaswani 等[10] 提出了一种新的框架，被称作 Transformer，其与以往的模式不同，并没有用任何 CNN 或者 RNN 的结构，而是完全依赖注意机制来表示输入和输出之间的全局依赖关系. Attention(Q,K,V) = softmax(QKT / √ dk)V dk 模型中的注意力可以描述为将一个查询向量（Queries）Q 和一组键−值对（Key-Value）K 和 V，映射为一个输出. 输出是由值的加权和得到的，每个值的权重是根据查询向量和相应的键通过一个对齐函数计算出来的，计算公式为：，为查询向量的维数. 多头注意力（Multi-head）则是用不同的、需要学习的线性映射，对查询向量，键及值进行多次变换，然后分别对每一个映射之后得到的查询向量、键及值，再进行上述多个单头注意力的并行运算，进而生成多个输出值，然后拼接起来成为高维向 MultiHead(Q,K,V) = Concat(head1,···,headh)Whead headi = Attention(Qi ,Ki ,Vi) Whead h 量，并再次映射，进而得到最终值. 计算公式为：，其中 , 为多头注意力的权重，下标为多头注意力的个数. 2.4 多维自注意力机制 2.4.1 通用结构 x xi W b κ(xi , q) = WTσ(W(1)xi +W(2)q+b (1))+b xi κ(xi , q) κ(xi , q) xj Shen 等[11] 在additive 注意力在每个token 的特征层的做出推广，叫做多维注意力，图 3 刻画了经典注意力与其区别，图中 de 表示神经网络的输入层神经元个数. 多维注意力没有对每个 token 嵌入向量的分量计算一个标量得分值，而是对 xi 中每个分量计算了一个向量得分值，即利用权重矩阵，查询向量 q 与偏置： . 在此基础上，作者定义了两种形式的自注意力机制：source2token 型和 token2token 型. 前者用于计算每个与整个句子的相关性，将整句压缩为一个向量，Lin 等[12] 率先把这种自注意力机制引入自然语言处理某些任务中的句子嵌入表示，在数学表达上即去掉对齐函数中 q 有关的项；而后者将对齐函数中的 q 换为，下面介绍后者的几种变体形式. x1 x2 … xn Alignment score κ (xi ,q) z1 z2 zn q Σ … Softmax Broadcasted element-wise product Output Sum along Col. 1 de (a) de de q Σ Element-wise product Output Sum along Col. Softmax along Col. (b) Alignment score κ (xi ,q) x1 x2 … xn z1 z2 z … n zi ∈ {z1,z2,··· ,zn} κ(xi 图 , q) zi zi 3 经典注意力机制（a）和多维注意力机制（b） [11] . 为计算对齐函数得到的对应值，图（a）中为标量，图（b）中其值为向量 zi κ(xi , q) zi zi Fig.3 Traditional (additive/multiplicative) attention (a) and multi-dimensional attention (b) [11] . denotes the alignment score , in figure (a) is a scalar and in figure (b) is a vector 2.4.2 方向型自注意力机制 W Shen 等[11] 提出了基于掩码的 token2token 型多维自注意力，称为方向型自注意力（Directional selfattention，DiSA）. 方向型自注意力机制考虑了单词之间的依赖和时序关系，并融合了自注意力模块的输入和输出. 主要做了以下两个修改：把权值矩阵成了常数 c，把 sigmoid 激活函数换成了 tanh 激活函数；使用了位置掩码矩阵，使得两元素之间的注意力矩阵是不对称的. 使用掩码很容易对结构丰富的先验知识编码，比如时序关系和稀疏依赖关系编码. 2.4.3 双向分块自注意力机制传统自注意力主要缺点在于需要很大的存储空间存储所有元素对的对齐，对存储空间的需求随序列长度呈二次方增长. 为解决上述问题， Shen 等[13] 又提出了一种双向分块自注意力机制（Bidirectional block self-attention，Bi-BloSA），自下而上可分为三个主要部分：分块内的注意力机制、分块间的自注意力机制、上下文融合，实现更快且节省空间的上下文融合，然后基于 Bi-BloSA 提出了不使用 RNN/CNN 的序列编码模型，这种模型具有高度的可并行运算性，同时对局部和远距离相刘建伟等：深度学习中注意力机制研究进展 · 1503 ·

·1504 工程科学学报，第43卷，第11期关性进行了良好的建模，在多种自然语言处理任机制和自注意力机制.简单来说，互注意力机制就务下达到最优效果是模拟源序列和目标序列中不同位置之间的关 2.4.4强化学习自注意力机制系，而位置个数的选择产生了各种丰富的注意力软注意力机制在建模句子的局部或全局依赖机制：而自注意力机制就是模拟相同输入的不同关系的时候，有前景，但是其计算效率低；而硬注位置之间的关系，也就是把互注意力机制中的目意力机制虽然直接有效，但是其不可微分.所以标序列替换成源序列即可，在Transformer模型中 Shen等w又将硬注意力机制和软注意力机制在强使用了大量的自注意力机制，为了使得研究者更化学习的方法下进行巧妙融合，提出了一种强化好地使用注意力机制，下面首先对注意力机制从型自注意力(Reinforcement self-attention,ReSA)模对齐函数方面进行分类（表1）. 块，这样就能使用硬注意力机制处理长句子依赖除了上述方式，Chaudhari等l6提出了从四个问题，用策略梯度进行学习，同时也能为软注意力不同角度对注意力机制进行分类，分别是序列个机制选择子集进行计算；而软注意力机制的前馈数，抽象层个数，位置个数，以及表示个数（见信号反过来用来对硬注意力机制提供奖励信号， 2.6.6节).作者强调上面这些类别并不相互排斥，进行更精细化的操作，同时为硬注意力机制提供可以交叉重叠，某种注意力机制可以归属多个不指导同的分类，可以作为多个类别的组合来混合使用. 2.5结构化自注意力机制 Kim等利用图模型将经典的注意力机制进表1几种常用的注意力机制及其对齐函数的数学形式行拓展，考虑了深度神经网络结构上的依赖，使得 Table 1 Summary of several attention mechanisms and corresponding alignment score functions 注意力机制从普通的软选择变成了既能内部结构 Name of attention 建模信息又不破坏端到端训练的新机制.在结构 mechanism Alignment score functions References 注意力模型中，没有对单输入式的选择建模，而是 Content-base attention score(s:,h)=cosine[s:,hi] 17刀对连续，子序列多输入式的选择建模.在这种情况 Additive attention score(s)=vT tanh(Wals:hl)[3] 下，注意力机制需要引入个离散的二元隐变量 Location-base attention a=softmax(Was,) [6 0=(o1,02,…,0n),0m表示给定输人元素是否包括在 Bi-linear attention score(st,h)=s Wahi [6 对应的子序列中.另外，注意力分布p(lx,q)用线性 Dot-product attention score(st,h)=s.hi [6 链式条件随机场(Linear chain CRF)来刻画每个 Scaled dot-product attention score(s)=sl [10] o之间的依赖关系，以此确定结构信息变量o的依赖结构.然后使用图模型推断前向传递期望值和 2.6.2对齐函数上下文向量对齐函数是衡量输入和输出匹配度的函数，分片注意力层中可以选择源句子中的子序在不同的注意力类型中，对齐函数采用了不同的列，而不再是经典注意力机制中token为单位.其数学形式，效果也不尽相同，在设计具体注意力网次，在语法树结构的建模中引入合成注意力层，这络时可以提供不同的选择.表1总结了几种常用两种新的注意力层，在多个任务上都取得了比经的注意力机制及其对齐函数的数学形式.主要有典注意力更好的结果.虽然结构化关注背后的基基于内容的(Content-base),基于加和的(Addition), 本思想很有洞见，但作者坦诚在实践中可能难以基于位置信息的(Location-base),基于双线性的使用.一个问题是，从计算的角度来看，在使用图 (Bilinear),基于点积的(Dot product),基于比例点形模型时数值稳定性往往差，因此计算在对数空积(Scaled dot-.product)的注意力机制类型.表1中间中执行更好，这会给模型代码增加相当大的复 W是神经网络权值矩阵，为反向传播过程训练杂性.另一个问题是，简单应用现有的自动微分工的参数具往往效率低下，为了使结构化注意易于处理大 2.6.3序列个数问题，通常需要手工编写梯度计算序列个数指的是输入序列的个数和输出序列 2.6注意力总结的个数.如果输入序列和对应输出序列都只有一 2.6.1概述个，称之为一对一(Distinctive)型注意力机制.用以上对常用的注意力机制做出了详细的分于翻译的大多数注意力模型)、图像描述和语音类，注意机制基本上可以分为两大类：（互）注意力识别劉这些都属于一对一类型的注意力机制.如

关性进行了良好的建模，在多种自然语言处理任务下达到最优效果. 2.4.4 强化学习自注意力机制软注意力机制在建模句子的局部或全局依赖关系的时候，有前景，但是其计算效率低；而硬注意力机制虽然直接有效，但是其不可微分. 所以 Shen 等[14] 又将硬注意力机制和软注意力机制在强化学习的方法下进行巧妙融合，提出了一种强化型自注意力（Reinforcement self-attention，ReSA）模块，这样就能使用硬注意力机制处理长句子依赖问题，用策略梯度进行学习，同时也能为软注意力机制选择子集进行计算；而软注意力机制的前馈信号反过来用来对硬注意力机制提供奖励信号，进行更精细化的操作，同时为硬注意力机制提供指导. 2.5 结构化自注意力机制 n o = (o1,o2,··· ,on) on p(o|x, q) on o Kim 等[15] 利用图模型将经典的注意力机制进行拓展，考虑了深度神经网络结构上的依赖，使得注意力机制从普通的软选择变成了既能内部结构建模信息又不破坏端到端训练的新机制. 在结构注意力模型中，没有对单输入式的选择建模，而是对连续，子序列多输入式的选择建模. 在这种情况下，注意力机制需要引入个离散的二元隐变量，表示给定输入元素是否包括在对应的子序列中. 另外，注意力分布用线性链式条件随机场（Linear chain CRF）来刻画每个之间的依赖关系，以此确定结构信息变量的依赖结构. 然后使用图模型推断前向传递期望值和上下文向量. 分片注意力层中可以选择源句子中的子序列，而不再是经典注意力机制中 token 为单位. 其次，在语法树结构的建模中引入合成注意力层. 这两种新的注意力层，在多个任务上都取得了比经典注意力更好的结果. 虽然结构化关注背后的基本思想很有洞见，但作者坦诚在实践中可能难以使用. 一个问题是，从计算的角度来看，在使用图形模型时数值稳定性往往差，因此计算在对数空间中执行更好，这会给模型代码增加相当大的复杂性. 另一个问题是，简单应用现有的自动微分工具往往效率低下，为了使结构化注意易于处理大问题，通常需要手工编写梯度计算. 2.6 注意力总结 2.6.1 概述以上对常用的注意力机制做出了详细的分类，注意机制基本上可以分为两大类：（互）注意力机制和自注意力机制. 简单来说，互注意力机制就是模拟源序列和目标序列中不同位置之间的关系，而位置个数的选择产生了各种丰富的注意力机制；而自注意力机制就是模拟相同输入的不同位置之间的关系，也就是把互注意力机制中的目标序列替换成源序列即可，在 Transformer 模型中使用了大量的自注意力机制. 为了使得研究者更好地使用注意力机制，下面首先对注意力机制从对齐函数方面进行分类（表 1）. 除了上述方式，Chaudhari 等[16] 提出了从四个不同角度对注意力机制进行分类，分别是序列个数，抽象层个数，位置个数，以及表示个数（见 2.6.6 节）. 作者强调上面这些类别并不相互排斥，可以交叉重叠，某种注意力机制可以归属多个不同的分类，可以作为多个类别的组合来混合使用. 表 1 几种常用的注意力机制及其对齐函数的数学形式 Table 1 Summary of several attention mechanisms and corresponding alignment score functions Name of attention mechanism Alignment score functions References Content-base attention score(st ,ht) = cosine[st ,hi] [17] Additive attention score(st ,ht) = v T a tanh(Wa[st ; hi]) [3] Location-base attention αt,i = softmax(Wa st) [6] Bi-linear attention score(st ,ht) = s T t Wahi [6] Dot-product attention score(st ,ht) = s T t hi [6] Scaled dot-product attention score(st ,ht) = s T t hi / √ n [10] 2.6.2 对齐函数 Wa v T a 对齐函数是衡量输入和输出匹配度的函数，在不同的注意力类型中，对齐函数采用了不同的数学形式，效果也不尽相同，在设计具体注意力网络时可以提供不同的选择. 表 1 总结了几种常用的注意力机制及其对齐函数的数学形式. 主要有基于内容的（Content-base），基于加和的（Addition），基于位置信息的（Location-base），基于双线性的（Bilinear），基于点积的（Dot product），基于比例点积（Scaled dot-product）的注意力机制类型. 表 1 中是神经网络权值矩阵，为反向传播过程训练的参数. 2.6.3 序列个数序列个数指的是输入序列的个数和输出序列的个数. 如果输入序列和对应输出序列都只有一个，称之为一对一（Distinctive）型注意力机制. 用于翻译的大多数注意力模型[3]、图像描述[5] 和语音识别[18] 这些都属于一对一类型的注意力机制. 如 · 1504 · 工程科学学报，第 43 卷，第 11 期

刘建伟等：深度学习中注意力机制研究进展 ·1505· 果模型有多个输人序列，并且学习不同输人序列提出了变分学习方法和强化学习策略梯度方法之间的权重矩阵，以捕获这些输入序列之间的关 2.6.6表示个数系，把这类称之为协同注意力机制(Co-attention). 大多数情况下，神经网络都是使用输入序列协同注意力机制典型的应用场景有：阅读理解，对的单一特征表示，但是在某些场景，使用输入的一输入（问题回答，文本）之间的注意力建模，找出对个特征表示可能不足以满足下游任务，需要注意回答问题最相关的问题关键词，协同注意力机制力来为这些不同的表示分配权重，这些表示可以非常有助于同时检测问题中的关键词和答案相关确定最相关的方面，而忽略输入中的噪声和冗余文章的段落.还有一类是自注意力机制(Self 信息.典型地，在自然语言场景中，Kiela等l学习 attention),一般输入是序列.输出不是，比如分类了同一输人句子的不同单词嵌人表示的注意力权和推荐任务，在此场景中，可以使用注意力来学习重，以改善句子表示，同时通过权重的可解释性，输入序列中对应于相同输入序列中的每个标记的确定哪些单词嵌入对句子的贡献度的大小.类似相关标记. 地，Maharjan等2o使用注意力机制来动态给书籍 2.6.4抽象层个数的不同特征表示赋权，捕捉词汇、句法、视觉和类在最一般的情况下，只为原始输入序列计算型等不同层面的信息注意力权重，这种注意力称为单级的(Single- 还有一种情况，就是引入权重来确定输入嵌 level).另一方面，注意力可以按顺序应用于输入入向量的各个维度分量的相关性，计算向量的每序列的多个抽象层次，较低抽象级别的输出（即上个特征的分数可以选择在任何给定上下文中最能下文向量)成为较高抽象级别的查询状态，这种类描述标记特定含义的特征.这对于自然语言应用型称之为多级(Multi-level). 程序来说尤其有用，因为在自然语言应用中，传统上面提到的层次注意力就是典型的多层次抽的单词嵌入表示会受到一词多义问题的影响象，在两个不同的抽象层次（即单词级别和句子级 Lin等2I和Shen等u针对语言理解问题给出了这别)上使用了注意力模型来完成文档分类任务，因种方法的例子，以获得更有效的句子嵌入表示.在为它捕获了文档的自然层次结构，即文档由句子此项类型的分类中把以上两种多元特征表示的形组成，句子由单词组成式统一称为多表示(Multi-representational).表2总 2.6.5位置个数结了近几年注意力机制的应用文献这里的位置个数指的是参与计算上下文问量 3注意力机制的可解释性的隐状态向量个数.Bahdanau等介绍的注意力机制也被称为软(so)注意力.顾名思义，它使用可解释性是指人类能够理解决策结果的原输入序列所有隐状态的加权平均值来构建上下文因的程度，模型可解释性指对模型内部机制的理向量.软加权虽然使得神经网络易于通过反向传解以及对模型结果的理解.近年来受到模型的性播进行有效的学习，但是也增加了计算成本.如果能以及透明度和公平性的推动，人工智能模型的这种加权的权值变成只有一个1，其余全是0，也可解释性引起了人们的极大兴趣.然而，神经网就是此时的上下文向量是随机采样的某个隐状络虽然在大部分任务表现良好，但是因为是黑盒态，这种称之为硬(Hard)注意力，大大减少了计算模型，缺乏可解释性，大大削弱了工业应用上对量，但是训练过程不可微分，难以优化模型所做的决定或预测的理解，而注意力机制的 Luong等在机器翻译中提出了局部(Local) 引入可以直觉地窥探神经网络内部的运行机制：和全局(Global)注意力.全局注意力类似于软注意对一个给定的输出，可以通过检查注意力机制权力.另一方面，局部注意力介于软注意和硬注意之重，得知模型分配了较大注意力权重的输入是哪间.关键思想是首先检测输入序列中的一个注意一个点或位置，然后在该位置周围选择一个窗口，创建假设注意力权重的重要性与序列中每个位置一个局部软注意力，此时的隐状态的个数就是窗的输出的预测值和输入对象的特定区域的相关程口的大小.输入序列中的位置可以设置单调对齐度高度相关，那么可以通过可视化一组输入和输或通过预测对齐学习.因此，局部注意力的优点是出对的注意权重来增强对模型结果的理解，这种在软注意和硬注意、计算效率和窗口内的可微性理解是否符合人类的思考逻辑值得商榷.在自然之间提供参数权衡，因此，为了克服这一局限性，语言处理中，研究者普遍认为，注意力机制为神经

果模型有多个输入序列，并且学习不同输入序列之间的权重矩阵，以捕获这些输入序列之间的关系，把这类称之为协同注意力机制（Co-attention）. 协同注意力机制典型的应用场景有：阅读理解，对输入（问题回答，文本）之间的注意力建模，找出对回答问题最相关的问题关键词，协同注意力机制非常有助于同时检测问题中的关键词和答案相关文章的段落 . 还有一类是自注意力机制（ Selfattention），一般输入是序列，输出不是，比如分类和推荐任务，在此场景中，可以使用注意力来学习输入序列中对应于相同输入序列中的每个标记的相关标记. 2.6.4 抽象层个数在最一般的情况下，只为原始输入序列计算注意力权重，这种注意力称为单级的（ Singlelevel）. 另一方面，注意力可以按顺序应用于输入序列的多个抽象层次. 较低抽象级别的输出（即上下文向量）成为较高抽象级别的查询状态，这种类型称之为多级（Multi-level）. 上面提到的层次注意力就是典型的多层次抽象，在两个不同的抽象层次（即单词级别和句子级别）上使用了注意力模型来完成文档分类任务，因为它捕获了文档的自然层次结构，即文档由句子组成，句子由单词组成. 2.6.5 位置个数这里的位置个数指的是参与计算上下文向量的隐状态向量个数. Bahdanau 等[3] 介绍的注意力机制也被称为软（soft）注意力. 顾名思义，它使用输入序列所有隐状态的加权平均值来构建上下文向量. 软加权虽然使得神经网络易于通过反向传播进行有效的学习，但是也增加了计算成本. 如果这种加权的权值变成只有一个 1，其余全是 0，也就是此时的上下文向量是随机采样的某个隐状态，这种称之为硬（Hard）注意力，大大减少了计算量，但是训练过程不可微分，难以优化. Luong 等[6] 在机器翻译中提出了局部（Local）和全局（Global）注意力. 全局注意力类似于软注意力. 另一方面，局部注意力介于软注意和硬注意之间. 关键思想是首先检测输入序列中的一个注意点或位置，然后在该位置周围选择一个窗口，创建一个局部软注意力，此时的隐状态的个数就是窗口的大小. 输入序列中的位置可以设置单调对齐或通过预测对齐学习. 因此，局部注意力的优点是在软注意和硬注意、计算效率和窗口内的可微性之间提供参数权衡，因此，为了克服这一局限性，提出了变分学习方法和强化学习策略梯度方法. 2.6.6 表示个数大多数情况下，神经网络都是使用输入序列的单一特征表示，但是在某些场景，使用输入的一个特征表示可能不足以满足下游任务，需要注意力来为这些不同的表示分配权重，这些表示可以确定最相关的方面，而忽略输入中的噪声和冗余信息. 典型地，在自然语言场景中，Kiela 等[19] 学习了同一输入句子的不同单词嵌入表示的注意力权重，以改善句子表示，同时通过权重的可解释性，确定哪些单词嵌入对句子的贡献度的大小. 类似地，Maharjan 等[20] 使用注意力机制来动态给书籍的不同特征表示赋权，捕捉词汇、句法、视觉和类型等不同层面的信息. 还有一种情况，就是引入权重来确定输入嵌入向量的各个维度分量的相关性，计算向量的每个特征的分数可以选择在任何给定上下文中最能描述标记特定含义的特征. 这对于自然语言应用程序来说尤其有用，因为在自然语言应用中，传统的单词嵌入表示会受到一词多义问题的影响. Lin 等[12] 和 Shen 等[11] 针对语言理解问题给出了这种方法的例子，以获得更有效的句子嵌入表示. 在此项类型的分类中把以上两种多元特征表示的形式统一称为多表示（Multi-representational）. 表 2 总结了近几年注意力机制的应用文献. 3 注意力机制的可解释性可解释性是指人类能够理解决策结果的原因的程度，模型可解释性指对模型内部机制的理解以及对模型结果的理解. 近年来受到模型的性能以及透明度和公平性的推动，人工智能模型的可解释性引起了人们的极大兴趣. 然而，神经网络虽然在大部分任务表现良好，但是因为是黑盒模型，缺乏可解释性，大大削弱了工业应用上对模型所做的决定或预测的理解，而注意力机制的引入可以直觉地窥探神经网络内部的运行机制：对一个给定的输出，可以通过检查注意力机制权重，得知模型分配了较大注意力权重的输入是哪一个. 假设注意力权重的重要性与序列中每个位置的输出的预测值和输入对象的特定区域的相关程度高度相关，那么可以通过可视化一组输入和输出对的注意权重来增强对模型结果的理解，这种理解是否符合人类的思考逻辑值得商榷. 在自然语言处理中，研究者普遍认为，注意力机制为神经刘建伟等：深度学习中注意力机制研究进展 · 1505 ·

·1506 工程科学学报，第43卷，第11期表2重要的注意力机制模型从四个不同方面的总结 Table2 Summary of key papers for technical approaches within each category References Number of sequences Number of abstraction levels Number of representations Number of positions Scenario of applications G] Distinctive Single-level Single-representational Soft Machine translation Distinctive Single-level Single-representational Hard Image captioning 句 Distinctive Single-level Single-representational Local Machine translation 7 Self-attention Single-level Single-representational Soft Document classification [18] Distinctive Multi-level Single-representational Soft Speech recognition 2 Distinctive Single-level Single-representational Soft Visual question answering [22] Co-attention Multi-level Single-representational Soft Sentiment classification [23 Self-attention Multi-level Single-representational Soft Recommender systems [1 Self-attention Single-level Multi-representational Soft Language understanding [19 Self-attention Single-level Multi-representational Soft Text representation 模型的工作方式提供了一种重要的解释方式意力机制能否解释模型预测提出了疑问.Jain 注意力机制实现可解释性，已经广泛应用在等)认为注意力机制并不能提高模型的可解释各种学习场景.Bahdanau等在机器翻译领域引性.如果注意力机制能提供解释，那么必须满足入注意力机制，解决了大范围序列依赖建模问题，以下两个性质：(a)服从特定概率分布的注意力权同时也对源语言英语和目标语言法语之间的自动值，权值的大小，必须与特征重要性度量值相关；对齐问题，给出了可视化解释，即使对于两种不同 (b)如果训练的注意力概率分布发生改变或变结构和文法的语言，不同语言间相互对应的单词换，那么预测结果也应该发生相应的(comparable) 之间的注意力权重明显更大.在机器阅读理解中，变化.并给出了两组实验对比来验证自己的观注意力机制模型已经成为网络结构中必不可少的点，首先假设计算得到的对象的注意力权重和对一环，机器阅读理解通过结合文本和问句两者的象的特征重要性度量值之间不总是一致的，也就信息，生成一个关于文本段落各个部分的注意力是注意力机制只能为模型的预测提供微弱的解权重，对文本信息进行加权，试图通过其去捕捉问释；接下来提出了一种替代性对抗注意力概率分题和文本篇章之间的匹配关系.而后来提出的协布，它可以最小程度地改变模型预测结果.为此，同注意力机制是一个双向的注意力机制，不仅要其控制训练好的模型的注意力权值所服从的概给阅读的文本段落生成一个注意力权重，还要给率分布，来判别是否存在替代性分布使得模型输问句也生成一个注意力权重.最后，Xu等阿对图出接近原始预测值，但是预测结果依然相同，即像文字描述任务中，生成的文本与相关图像区域使是注意到了不同的输入特征，甚至随机置换注关联关系，进行可视化意力权重，是否通常只会导致输出的微小变化. 实际上，除了上述应用场景的可解释性研究，其结果综合表明：注意力权重基本上无法提高模还有很多工业场景下，对于注意力机制的可解释型可解释性性研究文献.De-Arteaga等研究了社会职业分而Wiegreffe和Pinter2sI对以上结果提出了质类中性别偏见，并分析了这种偏见主要与哪些词疑，认为Jain等所得到的结论2可依赖模型解释性汇相关，被注意的词汇如何解释性性别偏见.作为的定义，且对于模型的测试是否正确，需要考虑模注意力机制的另一个有趣的应用，Lee等阿和型的所有元素，使用更加严谨的实验设计过程.认 Lu等26发布开源工具，用于可视化深度神经网络为违反事实的注意力权重实验，无法Jain等自身的注意力权重，通过注意力权重注人扰动信号，以的论点，首先其所提取的注意力权值所服从的概便模拟特定假设情景，并交互式观察深度神经网率分布不是原始的(Primitive),是分离了模型各部络预测值的变化，侦测注意力权重是否存在某种分而获得的注意力权重，与模型整体的依赖度会相关解释性降低；还有就是注意力重要性分数可以提供可解注意力机制已被应用在各种各样的学习场释性，但不是唯一的可解释性，取决于每个人对模景中，几乎普遍存在，不免让很多研究人员对注型解释性所作的定义

模型的工作方式提供了一种重要的解释方式. 注意力机制实现可解释性，已经广泛应用在各种学习场景. Bahdanau 等[3] 在机器翻译领域引入注意力机制，解决了大范围序列依赖建模问题，同时也对源语言英语和目标语言法语之间的自动对齐问题，给出了可视化解释，即使对于两种不同结构和文法的语言，不同语言间相互对应的单词之间的注意力权重明显更大. 在机器阅读理解中，注意力机制模型已经成为网络结构中必不可少的一环，机器阅读理解通过结合文本和问句两者的信息，生成一个关于文本段落各个部分的注意力权重，对文本信息进行加权，试图通过其去捕捉问题和文本篇章之间的匹配关系. 而后来提出的协同注意力机制是一个双向的注意力机制，不仅要给阅读的文本段落生成一个注意力权重，还要给问句也生成一个注意力权重. 最后，Xu 等[5] 对图像文字描述任务中，生成的文本与相关图像区域关联关系，进行可视化. 实际上，除了上述应用场景的可解释性研究，还有很多工业场景下，对于注意力机制的可解释性研究文献. De-Arteaga 等[24] 研究了社会职业分类中性别偏见，并分析了这种偏见主要与哪些词汇相关，被注意的词汇如何解释性性别偏见. 作为注意力机制的另一个有趣的应用， Lee 等 [25] 和 Liu 等[26] 发布开源工具，用于可视化深度神经网络的注意力权重，通过注意力权重注入扰动信号，以便模拟特定假设情景，并交互式观察深度神经网络预测值的变化，侦测注意力权重是否存在某种相关解释性. 注意力机制已被应用在各种各样的学习场景中，几乎普遍存在，不免让很多研究人员对注意力机制能否解释模型预测提出了疑问. Jain 等[27] 认为注意力机制并不能提高模型的可解释性. 如果注意力机制能提供解释，那么必须满足以下两个性质：（a）服从特定概率分布的注意力权值，权值的大小，必须与特征重要性度量值相关；（ b）如果训练的注意力概率分布发生改变或变换，那么预测结果也应该发生相应的 (comparable) 变化. 并给出了两组实验对比来验证自己的观点，首先假设计算得到的对象的注意力权重和对象的特征重要性度量值之间不总是一致的，也就是注意力机制只能为模型的预测提供微弱的解释；接下来提出了一种替代性对抗注意力概率分布，它可以最小程度地改变模型预测结果. 为此，其控制训练好的模型的注意力权值所服从的概率分布，来判别是否存在替代性分布使得模型输出接近原始预测值，但是预测结果依然相同，即使是注意到了不同的输入特征，甚至随机置换注意力权重，是否通常只会导致输出的微小变化. 其结果综合表明：注意力权重基本上无法提高模型可解释性. 而 Wiegreffe 和 Pinter [28] 对以上结果提出了质疑，认为 Jain 等所得到的结论[27] 依赖模型解释性的定义，且对于模型的测试是否正确，需要考虑模型的所有元素，使用更加严谨的实验设计过程. 认为违反事实的注意力权重实验，无法 Jain 等自身的论点，首先其所提取的注意力权值所服从的概率分布不是原始的（Primitive），是分离了模型各部分而获得的注意力权重，与模型整体的依赖度会降低；还有就是注意力重要性分数可以提供可解释性，但不是唯一的可解释性，取决于每个人对模型解释性所作的定义. 表 2 重要的注意力机制模型从四个不同方面的总结 Table 2 Summary of key papers for technical approaches within each category References Number of sequences Number of abstraction levels Number of representations Number of positions Scenario of applications [3] Distinctive Single-level Single-representational Soft Machine translation [5] Distinctive Single-level Single-representational Hard Image captioning [6] Distinctive Single-level Single-representational Local Machine translation [7] Self-attention Single-level Single-representational Soft Document classification [18] Distinctive Multi-level Single-representational Soft Speech recognition [21] Distinctive Single-level Single-representational Soft Visual question answering [22] Co-attention Multi-level Single-representational Soft Sentiment classification [23] Self-attention Multi-level Single-representational Soft Recommender systems [11] Self-attention Single-level Multi-representational Soft Language understanding [19] Self-attention Single-level Multi-representational Soft Text representation · 1506 · 工程科学学报，第 43 卷，第 11 期

刘建伟等：深度学习中注意力机制研究进展 ·1507· 4注意力机制的应用之间关系进行建模.模型结构采用了非局部神经网络，利用注意力机制进行计算，赋予感兴趣的区 4.1计算机视觉方面的应用域更大的权重在图像分类方面，Mnih等7为了解决在高分 4.2自然语言处理方面的应用辨率图片上使用卷积神经网络时，计算复杂性高注意力机制在自然语言处理中有着巨大的应的问题，在传统的RNN上加入了注意力机制进行用潜力，特别是神经机器翻译等任务.神经机器翻图像分类，即在高分辨图片或者视频帧上自适应译任务中大多使用编码器-解码器的网络结构，这地提取一系列的区域框，然后从被选区域提取图种结构有一个潜在的问题是，神经网络需要将源片或视频信息.Jetley等29提出了一种用于图像分语句所有的信息压缩成固定长度的向量.这可能类的CNN架构的端到端可训练注意力模块.该模使得神经网络难以处理长句子，尤其是那些比训块将二维特征矢量图作为输入，其形成CNN流水练语料库中句子更长的句子，随着输入句子长度线中不同阶段的输入图像的中间表示，并输出每的增加，原始编码器-解码器的性能会迅速下降个特征图的得分矩阵.通过结合该模块来修改标为了解决这一问题，Bahdanau等)引入了一准CNN架构，并且在约束下训练中间2维特征向种基于注意力机制的编码器一解码器扩展模型.每量的凸组合单独用于分类.Sharma等B0针对视频当生成的模型在翻译中生成一个单词的时候，它中的动作识别任务提出了一种基于软注意力的多会（软性地）搜索源句中最相关信息集的位置.然层递归神经网络，在网络中加入关注区域的移动、后，该模型根据与源语句位置相关的上下文向量缩放机制，连续部分信息的序列化输入，将目标作和之前产生的所有目标语言单词来预测下一个目进一步精细化，让模型可以捕获更精细的特征，通标单词，改善源语言和目标语言的对齐问题.之过将特征分成更小的块，注意力机制将筛选出更后，Luong等提出了全局注意力机制和局部注意有利于描述特征的那部分图像块力机制两种注意机制.全局注意机制在生成上下图片生成任务通常使用深度神经网络来提取文向量时考虑编码器的所有隐状态，但是全局注图片高层次特征，通过图片特征重构图像，然而从意机制有一个缺陷，其针对每一个目标语言单词包含丰富内容的图片生成图片是很棘手的事情都要考虑源语言语句中所有单词，此过程计算复为了克服这一困难，Kataoka等B]提出了一个基于杂性很高.局部注意机制可以克服这种问题，它对注意力机制的生成网络，生成网络被训练用来关每个目标单词，只关注源语言句子中的小部分单词注图像的局部细节并逐步分阶段生成图像.这使 2016年，Cohn等3扩展了注意力机制的神经得网络能够处理图像的一部分和整个图像的粗略机器翻译模型，包括基于对齐的文字结构偏差模结构的细节，验证了通过注意力机制和生成对抗型，直接将这些对齐误差信息引入注意力机制模网络生成图像的有效性.Gregor等B叫用生成对抗型.Feng等B7在注意力机制模型中应用了传统统网络和深度递归注意力写入器(Deep recurrent 计机器翻译的扭曲度(Distortion)和繁衍度概念 attentive writer,DRAW),实现图像的迭代构造过 (Fertility),认为当对齐不正确时，基于注意力机制程，以便产生更逼真的图像.Parmar等B]受卷积的“编码器-解码器”模型的翻译质量严重下降，文神经网络启发的Transformer变种提出了Image 中直接将前一时刻的上下文向量信息输入注意力 Transformer,重点是局部注意范围，即将接受域限模型，以帮助注意力模型更好地预测目标语言句制为局部领域.不过，这种模型有一个限制条件，子的词语顺序即要以失去全局接受域为代价，以降低存储和计 Eriguchi等IB提出了一种新的端到端的句法算成本 NMT模型，利用源语言端的短语结构构造了一个在与图像有关的多模态领域，Huang等B提序列到序列的翻译模型.句法NMT模型利用句法出了一种图像和文本双模态的神经网络翻译模解析树建立基于句法解析树的编码器，基于句法型，探索了将文本和图像多模态信息集成到基于解析树的编码器是顺序编码器模型的自然扩展，注意力机制的编码器-解码器结构中的方法.在学编码器中句法解析树的路径，可以与其对应的顺习图像描述子的背景下也探讨了注意力机制的有序编码器一起工作.此外.句法NMT模型引入了效性.Zhang等B阿在自注意力机制层加入生成对注意力机制，允许基于句法解析树的编码器不仅抗网络，使得生成器和判别器更好地对空间区域实现输入句子单词级的对齐，而且实现输入句子

4 注意力机制的应用 4.1 计算机视觉方面的应用在图像分类方面，Mnih 等[17] 为了解决在高分辨率图片上使用卷积神经网络时，计算复杂性高的问题，在传统的 RNN 上加入了注意力机制进行图像分类，即在高分辨图片或者视频帧上自适应地提取一系列的区域框，然后从被选区域提取图片或视频信息. Jetley 等[29] 提出了一种用于图像分类的 CNN 架构的端到端可训练注意力模块. 该模块将二维特征矢量图作为输入，其形成 CNN 流水线中不同阶段的输入图像的中间表示，并输出每个特征图的得分矩阵. 通过结合该模块来修改标准 CNN 架构，并且在约束下训练中间 2 维特征向量的凸组合单独用于分类. Sharma 等[30] 针对视频中的动作识别任务提出了一种基于软注意力的多层递归神经网络，在网络中加入关注区域的移动、缩放机制，连续部分信息的序列化输入，将目标作进一步精细化，让模型可以捕获更精细的特征，通过将特征分成更小的块，注意力机制将筛选出更有利于描述特征的那部分图像块. 图片生成任务通常使用深度神经网络来提取图片高层次特征，通过图片特征重构图像，然而从包含丰富内容的图片生成图片是很棘手的事情. 为了克服这一困难，Kataoka 等[31] 提出了一个基于注意力机制的生成网络，生成网络被训练用来关注图像的局部细节并逐步分阶段生成图像. 这使得网络能够处理图像的一部分和整个图像的粗略结构的细节，验证了通过注意力机制和生成对抗网络生成图像的有效性. Gregor 等[32] 用生成对抗网络和深度递归注意力写入器（ Deep recurrent attentive writer，DRAW），实现图像的迭代构造过程，以便产生更逼真的图像. Parmar 等[33] 受卷积神经网络启发的 Transformer 变种提出了 Image Transformer，重点是局部注意范围，即将接受域限制为局部领域. 不过，这种模型有一个限制条件，即要以失去全局接受域为代价，以降低存储和计算成本. 在与图像有关的多模态领域，Huang 等[34] 提出了一种图像和文本双模态的神经网络翻译模型，探索了将文本和图像多模态信息集成到基于注意力机制的编码器−解码器结构中的方法. 在学习图像描述子的背景下也探讨了注意力机制的有效性. Zhang 等[35] 在自注意力机制层加入生成对抗网络，使得生成器和判别器更好地对空间区域之间关系进行建模. 模型结构采用了非局部神经网络，利用注意力机制进行计算，赋予感兴趣的区域更大的权重. 4.2 自然语言处理方面的应用注意力机制在自然语言处理中有着巨大的应用潜力，特别是神经机器翻译等任务. 神经机器翻译任务中大多使用编码器−解码器的网络结构，这种结构有一个潜在的问题是，神经网络需要将源语句所有的信息压缩成固定长度的向量. 这可能使得神经网络难以处理长句子，尤其是那些比训练语料库中句子更长的句子，随着输入句子长度的增加，原始编码器−解码器的性能会迅速下降. 为了解决这一问题，Bahdanau 等[3] 引入了一种基于注意力机制的编码器−解码器扩展模型. 每当生成的模型在翻译中生成一个单词的时候，它会（软性地）搜索源句中最相关信息集的位置. 然后，该模型根据与源语句位置相关的上下文向量和之前产生的所有目标语言单词来预测下一个目标单词，改善源语言和目标语言的对齐问题. 之后，Luong 等[6] 提出了全局注意力机制和局部注意力机制两种注意机制. 全局注意机制在生成上下文向量时考虑编码器的所有隐状态，但是全局注意机制有一个缺陷，其针对每一个目标语言单词都要考虑源语言语句中所有单词，此过程计算复杂性很高. 局部注意机制可以克服这种问题，它对每个目标单词，只关注源语言句子中的小部分单词. 2016 年，Cohn 等[36] 扩展了注意力机制的神经机器翻译模型，包括基于对齐的文字结构偏差模型，直接将这些对齐误差信息引入注意力机制模型. Feng 等[37] 在注意力机制模型中应用了传统统计机器翻译的扭曲度（Distortion）和繁衍度概念（Fertility），认为当对齐不正确时，基于注意力机制的“编码器−解码器”模型的翻译质量严重下降，文中直接将前一时刻的上下文向量信息输入注意力模型，以帮助注意力模型更好地预测目标语言句子的词语顺序. Eriguchi 等[38] 提出了一种新的端到端的句法 NMT 模型，利用源语言端的短语结构构造了一个序列到序列的翻译模型. 句法 NMT 模型利用句法解析树建立基于句法解析树的编码器，基于句法解析树的编码器是顺序编码器模型的自然扩展，编码器中句法解析树的路径，可以与其对应的顺序编码器一起工作. 此外，句法 NMT 模型引入了注意力机制，允许基于句法解析树的编码器不仅实现输入句子单词级的对齐，而且实现输入句子刘建伟等：深度学习中注意力机制研究进展 · 1507 ·

点击下载完整版文档（PDF格式）

共14页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录