正在加载图片...
刘建伟等:深度学习中注意力机制研究进展 ·1507· 4注意力机制的应用 之间关系进行建模.模型结构采用了非局部神经 网络,利用注意力机制进行计算,赋予感兴趣的区 4.1计算机视觉方面的应用 域更大的权重 在图像分类方面,Mnih等7为了解决在高分 4.2自然语言处理方面的应用 辨率图片上使用卷积神经网络时,计算复杂性高 注意力机制在自然语言处理中有着巨大的应 的问题,在传统的RNN上加入了注意力机制进行 用潜力,特别是神经机器翻译等任务.神经机器翻 图像分类,即在高分辨图片或者视频帧上自适应 译任务中大多使用编码器-解码器的网络结构,这 地提取一系列的区域框,然后从被选区域提取图 种结构有一个潜在的问题是,神经网络需要将源 片或视频信息.Jetley等29提出了一种用于图像分 语句所有的信息压缩成固定长度的向量.这可能 类的CNN架构的端到端可训练注意力模块.该模 使得神经网络难以处理长句子,尤其是那些比训 块将二维特征矢量图作为输入,其形成CNN流水 练语料库中句子更长的句子,随着输入句子长度 线中不同阶段的输入图像的中间表示,并输出每 的增加,原始编码器-解码器的性能会迅速下降 个特征图的得分矩阵.通过结合该模块来修改标 为了解决这一问题,Bahdanau等)引入了一 准CNN架构,并且在约束下训练中间2维特征向 种基于注意力机制的编码器一解码器扩展模型.每 量的凸组合单独用于分类.Sharma等B0针对视频 当生成的模型在翻译中生成一个单词的时候,它 中的动作识别任务提出了一种基于软注意力的多 会(软性地)搜索源句中最相关信息集的位置.然 层递归神经网络,在网络中加入关注区域的移动、 后,该模型根据与源语句位置相关的上下文向量 缩放机制,连续部分信息的序列化输入,将目标作 和之前产生的所有目标语言单词来预测下一个目 进一步精细化,让模型可以捕获更精细的特征,通 标单词,改善源语言和目标语言的对齐问题.之 过将特征分成更小的块,注意力机制将筛选出更 后,Luong等提出了全局注意力机制和局部注意 有利于描述特征的那部分图像块 力机制两种注意机制.全局注意机制在生成上下 图片生成任务通常使用深度神经网络来提取 文向量时考虑编码器的所有隐状态,但是全局注 图片高层次特征,通过图片特征重构图像,然而从 意机制有一个缺陷,其针对每一个目标语言单词 包含丰富内容的图片生成图片是很棘手的事情 都要考虑源语言语句中所有单词,此过程计算复 为了克服这一困难,Kataoka等B]提出了一个基于 杂性很高.局部注意机制可以克服这种问题,它对 注意力机制的生成网络,生成网络被训练用来关 每个目标单词,只关注源语言句子中的小部分单词 注图像的局部细节并逐步分阶段生成图像.这使 2016年,Cohn等3扩展了注意力机制的神经 得网络能够处理图像的一部分和整个图像的粗略 机器翻译模型,包括基于对齐的文字结构偏差模 结构的细节,验证了通过注意力机制和生成对抗 型,直接将这些对齐误差信息引入注意力机制模 网络生成图像的有效性.Gregor等B叫用生成对抗 型.Feng等B7在注意力机制模型中应用了传统统 网络和深度递归注意力写入器(Deep recurrent 计机器翻译的扭曲度(Distortion)和繁衍度概念 attentive writer,DRAW),实现图像的迭代构造过 (Fertility),认为当对齐不正确时,基于注意力机制 程,以便产生更逼真的图像.Parmar等B]受卷积 的“编码器-解码器”模型的翻译质量严重下降,文 神经网络启发的Transformer变种提出了Image 中直接将前一时刻的上下文向量信息输入注意力 Transformer,重点是局部注意范围,即将接受域限 模型,以帮助注意力模型更好地预测目标语言句 制为局部领域.不过,这种模型有一个限制条件, 子的词语顺序 即要以失去全局接受域为代价,以降低存储和计 Eriguchi等IB提出了一种新的端到端的句法 算成本 NMT模型,利用源语言端的短语结构构造了一个 在与图像有关的多模态领域,Huang等B提 序列到序列的翻译模型.句法NMT模型利用句法 出了一种图像和文本双模态的神经网络翻译模 解析树建立基于句法解析树的编码器,基于句法 型,探索了将文本和图像多模态信息集成到基于 解析树的编码器是顺序编码器模型的自然扩展, 注意力机制的编码器-解码器结构中的方法.在学 编码器中句法解析树的路径,可以与其对应的顺 习图像描述子的背景下也探讨了注意力机制的有 序编码器一起工作.此外.句法NMT模型引入了 效性.Zhang等B阿在自注意力机制层加入生成对 注意力机制,允许基于句法解析树的编码器不仅 抗网络,使得生成器和判别器更好地对空间区域 实现输入句子单词级的对齐,而且实现输入句子4    注意力机制的应用 4.1    计算机视觉方面的应用 在图像分类方面,Mnih 等[17] 为了解决在高分 辨率图片上使用卷积神经网络时,计算复杂性高 的问题,在传统的 RNN 上加入了注意力机制进行 图像分类,即在高分辨图片或者视频帧上自适应 地提取一系列的区域框,然后从被选区域提取图 片或视频信息. Jetley 等[29] 提出了一种用于图像分 类的 CNN 架构的端到端可训练注意力模块. 该模 块将二维特征矢量图作为输入,其形成 CNN 流水 线中不同阶段的输入图像的中间表示,并输出每 个特征图的得分矩阵. 通过结合该模块来修改标 准 CNN 架构,并且在约束下训练中间 2 维特征向 量的凸组合单独用于分类. Sharma 等[30] 针对视频 中的动作识别任务提出了一种基于软注意力的多 层递归神经网络,在网络中加入关注区域的移动、 缩放机制,连续部分信息的序列化输入,将目标作 进一步精细化,让模型可以捕获更精细的特征,通 过将特征分成更小的块,注意力机制将筛选出更 有利于描述特征的那部分图像块. 图片生成任务通常使用深度神经网络来提取 图片高层次特征,通过图片特征重构图像,然而从 包含丰富内容的图片生成图片是很棘手的事情. 为了克服这一困难,Kataoka 等[31] 提出了一个基于 注意力机制的生成网络,生成网络被训练用来关 注图像的局部细节并逐步分阶段生成图像. 这使 得网络能够处理图像的一部分和整个图像的粗略 结构的细节,验证了通过注意力机制和生成对抗 网络生成图像的有效性. Gregor 等[32] 用生成对抗 网络和深度递归注意力写入器 ( Deep recurrent attentive writer,DRAW),实现图像的迭代构造过 程,以便产生更逼真的图像. Parmar 等[33] 受卷积 神经网络启发 的 Transformer 变种提出 了 Image Transformer,重点是局部注意范围,即将接受域限 制为局部领域. 不过,这种模型有一个限制条件, 即要以失去全局接受域为代价,以降低存储和计 算成本. 在与图像有关的多模态领域,Huang 等[34] 提 出了一种图像和文本双模态的神经网络翻译模 型,探索了将文本和图像多模态信息集成到基于 注意力机制的编码器−解码器结构中的方法. 在学 习图像描述子的背景下也探讨了注意力机制的有 效性. Zhang 等[35] 在自注意力机制层加入生成对 抗网络,使得生成器和判别器更好地对空间区域 之间关系进行建模. 模型结构采用了非局部神经 网络,利用注意力机制进行计算,赋予感兴趣的区 域更大的权重. 4.2    自然语言处理方面的应用 注意力机制在自然语言处理中有着巨大的应 用潜力,特别是神经机器翻译等任务. 神经机器翻 译任务中大多使用编码器−解码器的网络结构,这 种结构有一个潜在的问题是,神经网络需要将源 语句所有的信息压缩成固定长度的向量. 这可能 使得神经网络难以处理长句子,尤其是那些比训 练语料库中句子更长的句子,随着输入句子长度 的增加,原始编码器−解码器的性能会迅速下降. 为了解决这一问题,Bahdanau 等[3] 引入了一 种基于注意力机制的编码器−解码器扩展模型. 每 当生成的模型在翻译中生成一个单词的时候,它 会(软性地)搜索源句中最相关信息集的位置. 然 后,该模型根据与源语句位置相关的上下文向量 和之前产生的所有目标语言单词来预测下一个目 标单词,改善源语言和目标语言的对齐问题. 之 后,Luong 等[6] 提出了全局注意力机制和局部注意 力机制两种注意机制. 全局注意机制在生成上下 文向量时考虑编码器的所有隐状态,但是全局注 意机制有一个缺陷,其针对每一个目标语言单词 都要考虑源语言语句中所有单词,此过程计算复 杂性很高. 局部注意机制可以克服这种问题,它对 每个目标单词,只关注源语言句子中的小部分单词. 2016 年,Cohn 等[36] 扩展了注意力机制的神经 机器翻译模型,包括基于对齐的文字结构偏差模 型,直接将这些对齐误差信息引入注意力机制模 型. Feng 等[37] 在注意力机制模型中应用了传统统 计机器翻译的扭曲度(Distortion)和繁衍度概念 (Fertility),认为当对齐不正确时,基于注意力机制 的“编码器−解码器”模型的翻译质量严重下降,文 中直接将前一时刻的上下文向量信息输入注意力 模型,以帮助注意力模型更好地预测目标语言句 子的词语顺序. Eriguchi 等[38] 提出了一种新的端到端的句法 NMT 模型,利用源语言端的短语结构构造了一个 序列到序列的翻译模型. 句法 NMT 模型利用句法 解析树建立基于句法解析树的编码器,基于句法 解析树的编码器是顺序编码器模型的自然扩展, 编码器中句法解析树的路径,可以与其对应的顺 序编码器一起工作. 此外,句法 NMT 模型引入了 注意力机制,允许基于句法解析树的编码器不仅 实现输入句子单词级的对齐,而且实现输入句子 刘建伟等: 深度学习中注意力机制研究进展 · 1507 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有