4 注意力机制的应用 4.1_中国高校课件下载中心

正在加载图片...

刘建伟等：深度学习中注意力机制研究进展 ·1507· 4注意力机制的应用之间关系进行建模.模型结构采用了非局部神经网络，利用注意力机制进行计算，赋予感兴趣的区 4.1计算机视觉方面的应用域更大的权重在图像分类方面，Mnih等7为了解决在高分 4.2自然语言处理方面的应用辨率图片上使用卷积神经网络时，计算复杂性高注意力机制在自然语言处理中有着巨大的应的问题，在传统的RNN上加入了注意力机制进行用潜力，特别是神经机器翻译等任务.神经机器翻图像分类，即在高分辨图片或者视频帧上自适应译任务中大多使用编码器-解码器的网络结构，这地提取一系列的区域框，然后从被选区域提取图种结构有一个潜在的问题是，神经网络需要将源片或视频信息.Jetley等29提出了一种用于图像分语句所有的信息压缩成固定长度的向量.这可能类的CNN架构的端到端可训练注意力模块.该模使得神经网络难以处理长句子，尤其是那些比训块将二维特征矢量图作为输入，其形成CNN流水练语料库中句子更长的句子，随着输入句子长度线中不同阶段的输入图像的中间表示，并输出每的增加，原始编码器-解码器的性能会迅速下降个特征图的得分矩阵.通过结合该模块来修改标为了解决这一问题，Bahdanau等)引入了一准CNN架构，并且在约束下训练中间2维特征向种基于注意力机制的编码器一解码器扩展模型.每量的凸组合单独用于分类.Sharma等B0针对视频当生成的模型在翻译中生成一个单词的时候，它中的动作识别任务提出了一种基于软注意力的多会（软性地）搜索源句中最相关信息集的位置.然层递归神经网络，在网络中加入关注区域的移动、后，该模型根据与源语句位置相关的上下文向量缩放机制，连续部分信息的序列化输入，将目标作和之前产生的所有目标语言单词来预测下一个目进一步精细化，让模型可以捕获更精细的特征，通标单词，改善源语言和目标语言的对齐问题.之过将特征分成更小的块，注意力机制将筛选出更后，Luong等提出了全局注意力机制和局部注意有利于描述特征的那部分图像块力机制两种注意机制.全局注意机制在生成上下图片生成任务通常使用深度神经网络来提取文向量时考虑编码器的所有隐状态，但是全局注图片高层次特征，通过图片特征重构图像，然而从意机制有一个缺陷，其针对每一个目标语言单词包含丰富内容的图片生成图片是很棘手的事情都要考虑源语言语句中所有单词，此过程计算复为了克服这一困难，Kataoka等B]提出了一个基于杂性很高.局部注意机制可以克服这种问题，它对注意力机制的生成网络，生成网络被训练用来关每个目标单词，只关注源语言句子中的小部分单词注图像的局部细节并逐步分阶段生成图像.这使 2016年，Cohn等3扩展了注意力机制的神经得网络能够处理图像的一部分和整个图像的粗略机器翻译模型，包括基于对齐的文字结构偏差模结构的细节，验证了通过注意力机制和生成对抗型，直接将这些对齐误差信息引入注意力机制模网络生成图像的有效性.Gregor等B叫用生成对抗型.Feng等B7在注意力机制模型中应用了传统统网络和深度递归注意力写入器(Deep recurrent 计机器翻译的扭曲度(Distortion)和繁衍度概念 attentive writer,DRAW),实现图像的迭代构造过 (Fertility),认为当对齐不正确时，基于注意力机制程，以便产生更逼真的图像.Parmar等B]受卷积的“编码器-解码器”模型的翻译质量严重下降，文神经网络启发的Transformer变种提出了Image 中直接将前一时刻的上下文向量信息输入注意力 Transformer,重点是局部注意范围，即将接受域限模型，以帮助注意力模型更好地预测目标语言句制为局部领域.不过，这种模型有一个限制条件，子的词语顺序即要以失去全局接受域为代价，以降低存储和计 Eriguchi等IB提出了一种新的端到端的句法算成本 NMT模型，利用源语言端的短语结构构造了一个在与图像有关的多模态领域，Huang等B提序列到序列的翻译模型.句法NMT模型利用句法出了一种图像和文本双模态的神经网络翻译模解析树建立基于句法解析树的编码器，基于句法型，探索了将文本和图像多模态信息集成到基于解析树的编码器是顺序编码器模型的自然扩展，注意力机制的编码器-解码器结构中的方法.在学编码器中句法解析树的路径，可以与其对应的顺习图像描述子的背景下也探讨了注意力机制的有序编码器一起工作.此外.句法NMT模型引入了效性.Zhang等B阿在自注意力机制层加入生成对注意力机制，允许基于句法解析树的编码器不仅抗网络，使得生成器和判别器更好地对空间区域实现输入句子单词级的对齐，而且实现输入句子4 注意力机制的应用 4.1 计算机视觉方面的应用在图像分类方面，Mnih 等[17] 为了解决在高分辨率图片上使用卷积神经网络时，计算复杂性高的问题，在传统的 RNN 上加入了注意力机制进行图像分类，即在高分辨图片或者视频帧上自适应地提取一系列的区域框，然后从被选区域提取图片或视频信息. Jetley 等[29] 提出了一种用于图像分类的 CNN 架构的端到端可训练注意力模块. 该模块将二维特征矢量图作为输入，其形成 CNN 流水线中不同阶段的输入图像的中间表示，并输出每个特征图的得分矩阵. 通过结合该模块来修改标准 CNN 架构，并且在约束下训练中间 2 维特征向量的凸组合单独用于分类. Sharma 等[30] 针对视频中的动作识别任务提出了一种基于软注意力的多层递归神经网络，在网络中加入关注区域的移动、缩放机制，连续部分信息的序列化输入，将目标作进一步精细化，让模型可以捕获更精细的特征，通过将特征分成更小的块，注意力机制将筛选出更有利于描述特征的那部分图像块. 图片生成任务通常使用深度神经网络来提取图片高层次特征，通过图片特征重构图像，然而从包含丰富内容的图片生成图片是很棘手的事情. 为了克服这一困难，Kataoka 等[31] 提出了一个基于注意力机制的生成网络，生成网络被训练用来关注图像的局部细节并逐步分阶段生成图像. 这使得网络能够处理图像的一部分和整个图像的粗略结构的细节，验证了通过注意力机制和生成对抗网络生成图像的有效性. Gregor 等[32] 用生成对抗网络和深度递归注意力写入器（ Deep recurrent attentive writer，DRAW），实现图像的迭代构造过程，以便产生更逼真的图像. Parmar 等[33] 受卷积神经网络启发的 Transformer 变种提出了 Image Transformer，重点是局部注意范围，即将接受域限制为局部领域. 不过，这种模型有一个限制条件，即要以失去全局接受域为代价，以降低存储和计算成本. 在与图像有关的多模态领域，Huang 等[34] 提出了一种图像和文本双模态的神经网络翻译模型，探索了将文本和图像多模态信息集成到基于注意力机制的编码器−解码器结构中的方法. 在学习图像描述子的背景下也探讨了注意力机制的有效性. Zhang 等[35] 在自注意力机制层加入生成对抗网络，使得生成器和判别器更好地对空间区域之间关系进行建模. 模型结构采用了非局部神经网络，利用注意力机制进行计算，赋予感兴趣的区域更大的权重. 4.2 自然语言处理方面的应用注意力机制在自然语言处理中有着巨大的应用潜力，特别是神经机器翻译等任务. 神经机器翻译任务中大多使用编码器−解码器的网络结构，这种结构有一个潜在的问题是，神经网络需要将源语句所有的信息压缩成固定长度的向量. 这可能使得神经网络难以处理长句子，尤其是那些比训练语料库中句子更长的句子，随着输入句子长度的增加，原始编码器−解码器的性能会迅速下降. 为了解决这一问题，Bahdanau 等[3] 引入了一种基于注意力机制的编码器−解码器扩展模型. 每当生成的模型在翻译中生成一个单词的时候，它会（软性地）搜索源句中最相关信息集的位置. 然后，该模型根据与源语句位置相关的上下文向量和之前产生的所有目标语言单词来预测下一个目标单词，改善源语言和目标语言的对齐问题. 之后，Luong 等[6] 提出了全局注意力机制和局部注意力机制两种注意机制. 全局注意机制在生成上下文向量时考虑编码器的所有隐状态，但是全局注意机制有一个缺陷，其针对每一个目标语言单词都要考虑源语言语句中所有单词，此过程计算复杂性很高. 局部注意机制可以克服这种问题，它对每个目标单词，只关注源语言句子中的小部分单词. 2016 年，Cohn 等[36] 扩展了注意力机制的神经机器翻译模型，包括基于对齐的文字结构偏差模型，直接将这些对齐误差信息引入注意力机制模型. Feng 等[37] 在注意力机制模型中应用了传统统计机器翻译的扭曲度（Distortion）和繁衍度概念（Fertility），认为当对齐不正确时，基于注意力机制的“编码器−解码器”模型的翻译质量严重下降，文中直接将前一时刻的上下文向量信息输入注意力模型，以帮助注意力模型更好地预测目标语言句子的词语顺序. Eriguchi 等[38] 提出了一种新的端到端的句法 NMT 模型，利用源语言端的短语结构构造了一个序列到序列的翻译模型. 句法 NMT 模型利用句法解析树建立基于句法解析树的编码器，基于句法解析树的编码器是顺序编码器模型的自然扩展，编码器中句法解析树的路径，可以与其对应的顺序编码器一起工作. 此外，句法 NMT 模型引入了注意力机制，允许基于句法解析树的编码器不仅实现输入句子单词级的对齐，而且实现输入句子刘建伟等：深度学习中注意力机制研究进展 · 1507 ·

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：深度学习中注意力机制研究进展