正在加载图片...
·1500 工程科学学报,第43卷,第11期 随着深度学习领域的发展,注意力机制在计 或摘要等结构化输出任务的一个重要方面.为了 算机视觉和自然语言处理等领域取得了长足发 解决这个问题,在编码器-解码器体系结构引入了 展.注意力机制的广泛应用始于机器翻译领域,目 注意力机制,如图1所示 前已成为神经网络中的一个重要概念,不仅仅是 从属概念,已然发展成独立的注意力网络山 神经网络中注意力机制的快速发展具有如下 Decode 三点优势: ●●●Context vector (I)有效克服循环神经网络(Recurrent neural network,RNN)的一些挑战,例如随着输入长度的 000h Softmax 增加,预测性能下降和输入顺序处理导致的计算 Softmax Softmax 效率低下;在机器翻译中源语言和目标语言之间 对齐以及大范围长期依赖学习问题. Hidden stateO 000 000 (2)可广泛用于提高神经网络的可解释性,而 神经网络又被视为黑盒模型.这是一个显著的好 Encode 处,主要是因为人们对影响人类生活的应用中机 器学习模型的公平性、问责制和透明度有越来越 图1 带有注意力机制的Seq2Seq结构经典编码器-解码器网络) 多的渴求,而注意力机制在一定程度上可以提供 Fig.I Seg2Seg structure of a classic encoder-decoder network with an 可视化解释 attention mechanism (3)很明显的优势就是直接提高了模型性能 假设源序列x=x1,2,…,xn卢目标序列y= 使得这些模型的预测推理结果最先进的,不管是 y1,y2,…,y,源序列经过双向循环神经网络后输 用于机器翻译、回答问题、情绪分析、对话系统, 出两个不同方向的隐状态向量:前向隐状态:和后 还是图像视觉等多项任务四,这也是注意力机制广 向隐状态,然后将两者进行拼接来表示编码器 泛得到应用的根本推动力 的隐状态h;=h;h"].在解码器经过位置时,通过 鉴于注意力机制的理论意义、所蕴含的应用 s,=g(s-1y-1,c)计算得出每个单词的隐状态向 价值以及可观的发展潜力,本文对注意力机制的 量,其中(为计算隐状态向量的函数、上下文向 研究进展进行了系统性的综述,为进一步深入研 量c,是输入序列的隐状态h之加权,其中权重由对 究注意力机制、开发注意力机制应用潜力确立良 齐函数确定: 好的基础.文中首先在第一节对注意力机制进行 exp(score(s:-1,hi)) 了概述以及问题的数学定义,并在第二节着重对 ati align(yt,xi)= (1) 注意力机制进行分类及归纳,从五个方面给出了 ∑=1exp(score(s-l,h) 注意力机制的不同描述.第三节阐述了目前注意 这里的对齐函数实际上为每个位置的输入单 力机制对神经网络的可解释性的讨论,第四节介 词和位置的输出单词0,x)赋予一个分数,衡量它 绍了注意力机制的应用场景,第五节给出了注意 们之间的匹配度 力机制未来发展方向,最后一节则对注意力机制 2 注意力机制分类 进行了总结 2.1软注意力机制与硬注意力机制 1注意力机制数学表述 2.1.1共同框架 为了方便,采用Bahdanau等)神经机器翻译 2015年,Xu等受机器翻译和对象检测工作 (Neural machine translation,NMT)中的解码器-编码 的启发引入了一种基于注意力机制的模型,它自 器结构来描述注意力机制.传统的编码器框架有 动学习描述图像内容的文字,文中使用了两种不 两个众所周知的挑战.首先,编码器必须将所有输 同的模型:硬随机注意力和软确定性注意力.首先 入信息压缩成一个固定长度的向量,然后将其传 都使用卷积神经网络来提取一组称之为注释向量 递给解码器.使用一个固定长度的向量压缩输入 的特征向量∫={f,f2,…,f,分别对应于图像的部 序列可能会导致信息丢失其次,它无法对输入 分区域,这里,L为图像区域划分的个数,然后定 和输出序列之间的对齐关系进行建模,这是翻译 义一个机制Φ从注释向量中计算出上下文向量,随着深度学习领域的发展,注意力机制在计 算机视觉和自然语言处理等领域取得了长足发 展. 注意力机制的广泛应用始于机器翻译领域,目 前已成为神经网络中的一个重要概念,不仅仅是 从属概念,已然发展成独立的注意力网络[1] . 神经网络中注意力机制的快速发展具有如下 三点优势: ( 1)有效克服循环神经网络(Recurrent neural network,RNN)的一些挑战,例如随着输入长度的 增加,预测性能下降和输入顺序处理导致的计算 效率低下;在机器翻译中源语言和目标语言之间 对齐以及大范围长期依赖学习问题. (2)可广泛用于提高神经网络的可解释性,而 神经网络又被视为黑盒模型. 这是一个显著的好 处,主要是因为人们对影响人类生活的应用中机 器学习模型的公平性、问责制和透明度有越来越 多的渴求,而注意力机制在一定程度上可以提供 可视化解释. (3)很明显的优势就是直接提高了模型性能, 使得这些模型的预测推理结果最先进的,不管是 用于机器翻译、回答问题、情绪分析、对话系统, 还是图像视觉等多项任务[2] ,这也是注意力机制广 泛得到应用的根本推动力. 鉴于注意力机制的理论意义、所蕴含的应用 价值以及可观的发展潜力,本文对注意力机制的 研究进展进行了系统性的综述,为进一步深入研 究注意力机制、开发注意力机制应用潜力确立良 好的基础. 文中首先在第一节对注意力机制进行 了概述以及问题的数学定义,并在第二节着重对 注意力机制进行分类及归纳,从五个方面给出了 注意力机制的不同描述. 第三节阐述了目前注意 力机制对神经网络的可解释性的讨论,第四节介 绍了注意力机制的应用场景,第五节给出了注意 力机制未来发展方向,最后一节则对注意力机制 进行了总结. 1    注意力机制数学表述 为了方便,采用 Bahdanau 等[3] 神经机器翻译 (Neural machine translation,NMT)中的解码器-编码 器结构来描述注意力机制. 传统的编码器框架有 两个众所周知的挑战. 首先,编码器必须将所有输 入信息压缩成一个固定长度的向量,然后将其传 递给解码器. 使用一个固定长度的向量压缩输入 序列可能会导致信息丢失[4] . 其次,它无法对输入 和输出序列之间的对齐关系进行建模,这是翻译 或摘要等结构化输出任务的一个重要方面. 为了 解决这个问题,在编码器−解码器体系结构引入了 注意力机制,如图 1 所示. h1 h2 h3 x1 x2 x3 s1 s2 Hidden state Score Score Score Softmax Softmax Softmax Context vector Encoder Decoder y1 y2 图 1 带有注意力机制的 Seq2Seq 结构经典编码器–解码器网络[3] Fig.1 Seq2Seq structure of a classic encoder–decoder network with an attention mechanism[3] x = [x1, x2,··· , xn] y = [y1, y2,··· , yn] h ′ i h ′′ i hi = [h ′ i ; h ′′ i ] t st = g(st−1,yt−1, ct) g(·) ct hi 假设源序列 与目标序列 ,源序列经过双向循环神经网络后输 出两个不同方向的隐状态向量:前向隐状态 和后 向隐状态 ,然后将两者进行拼接来表示编码器 的隐状态 . 在解码器经过位置 时,通过 计算得出每个单词的隐状态向 量,其中 为计算隐状态向量的函数、上下文向 量 是输入序列的隐状态 之加权,其中权重由对 齐函数确定: αt,i = align(yt , xi) = exp(score (st−1, hi)) ∑n j=1 exp( score ( st−1, hj )) (1) i t (yt , xi) 这里的对齐函数实际上为每个位置 的输入单 词和位置 的输出单词 赋予一个分数,衡量它 们之间的匹配度. 2    注意力机制分类 2.1    软注意力机制与硬注意力机制 2.1.1 共同框架 f = {f1, f2,··· , fL} ϕ ζt 2015 年,Xu 等[5] 受机器翻译和对象检测工作 的启发引入了一种基于注意力机制的模型,它自 动学习描述图像内容的文字. 文中使用了两种不 同的模型:硬随机注意力和软确定性注意力. 首先 都使用卷积神经网络来提取一组称之为注释向量 的特征向量 ,分别对应于图像的部 分区域,这里, L 为图像区域划分的个数,然后定 义一个机制 从注释向量中计算出上下文向量 , · 1500 · 工程科学学报,第 43 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有