正在加载图片...
·1508 工程科学学报,第43卷,第11期 短语结构与输出翻译句子短语结构的对齐 应用,且效果极好.Chorowski等s刚为注意力机制 Sankaran等B9发现基于注意力机制的NMT模 提供了两种新的思路:一种更好的标准化方法,产 型,会出现只记忆当前输入的注意力缺陷问题,提 生更平滑的对齐方式和一种通用的提取和使用先 出了一种称为时序注意力机制的模型,该模型会 前路径特征的原则,这两种方法都可以被应用于 记忆翻译过程中每一时刻目标语言单词和源语言 语音识别之外的应用场景 单词之间的对齐信息,并根据历史对齐信息对当 Bahdanau等2把注意力机制模型用在了大规 前注意力机制进行调整.由于自然语言之间复杂 模词汇连续语音识别中,在注意力机制的基础之 的结构差异,单向注意力机制模型可能只抓住注 上,研究了一种更直接的方法,用一个递归神经网 意自然语言中存在的的部分规律.于是,Cheng等o 络代替隐马尔可夫模型,直接在字符级执行序列 为了使注意力机制模型更加全面准确反映自然语 预测.对于每个要预测的字符,注意机制扫描输入 言中存在的规律,提出了联合训练的双向注意力 序列并选择相关帧.同时也指出注意力机制模型 机制模型,该模型的中心思想是对于相同的机器 虽然有优点,但是还是有自身的问题,其适合短语 翻译训练数据,使源语言到目标语言和目标语言 识别,对长句子识别比较差;数据包含噪音的时候 到源语言的两个翻译模型的对齐矩阵保持一致 训练不稳定 而不是独立地对源语言和目标语言进行源语言翻 Shen和Leets]发现语音序列太长的时候,序 译模型的训练.之后,Lu等从重新排序的角度 列会包含噪音或者很多无关的信息.通过强调序 对注意力机制的对齐准确度问题进行分析,提出 列中的重点部分,注意力机制可以解决这个问题: 将传统机器翻译中目标词语与源词语的对齐信 用LSTM去读取输入序列,注意力机制选择序列 息,作为监督信号引入神经机器翻译训练过程,利 中的重点部分,通过突出重点语音子序列去预测 用该监督信号自动地引导注意力机制模型,对注 序列的类标签,该方法在关键词提取,对话行为侦 意力机制进行调整的方法 测两项任务中取得了很好的表现;Liu和Lanels 之后,Vaswani等uo提出一种著名的网络架 引入了编码器-解码器框架和注意力机制,联合建 构Transformer,,在第二节做出了详细的介绍,其模 模说话者意图识别和空缺值填充两个子问题,将 型架构避免了循环并完全依赖于注意力机制来绘 注意力机制加人到基于RNN的校准模型中去,使 制输入和输出之间的全局依赖关系,并完全避免 编码器-解码器结构学会同时校准和解码,能够在 循环和卷积.其结构允许进行更多的并行化,在翻 没有给定对齐信息时,对不同长度的序列进行映 译质量上更加优越、并行性更好并且需要的训练 射关系学习,分辨说话者意图,从自然语言对话重 时间显著减少.Britz等和Tang等也同样在 抓取语义成分,简化了口语理解技术的建模 NMT使用注意力在性能方面做出了开放式的实验 5注意力机制的未来方向 和评价. 还有,Yin等为了探索注意力机制在整合句 本文对注意力机制进行了全面的总结,本文 子之间的相互关系,提出了两种基于注意力的卷 从神经学、心理学方面引出了注意力机制,然后重 积神经网络来建模句子对.Zhuang等提出在文 点介绍了注意力机制的结构分类以及一些其它的 本分类引入分层注意力,利用包含在句子中的重要 结构.最后简单地归纳了计算机视觉注意力机制, 单词学习句子表示,然后利用文本中的重要句子 详尽地总结了注意力机制在各种领域中发挥的作 学习文本上下文表示.Zhou等在双向长短时记 用.在加入了注意力机制之后,大部分深度学习算 忆网络基础上加入注意力后,可以实现对分类起 法的准确性都得到了提高,模型的泛化能力得到 决定性作用的词语的自动对焦,提出的模型不使 改善.尽管迄今报告的成果令人鼓舞,但仍然存在 用NLP系统的任何特性.Wang等7和Ma等 一些不足和缺陷.我们尝试提出注意力机制的未 提出的基于刻面的情感分类方法将与刻面相关的 来研究方向如下: 概念的额外知识纳入模型,并利用关注度来适当 (1)注意力机制作为一种特征选择机制,实现 权衡概念与内容本身的区别,学习输入文本的情 了输出对输入的多个变量加权选择的过程,寻找 绪标识. 与当前输出最相关的特征,按比例加权得到上下 4.3语音识别方面的应用 文向量作为输入去预测输出,但是,同一个数据作 注意力机制逐渐在语音识别950]领域中得到 为输入和作为输出时,起的作用应该是不一样的,短语结构与输出翻译句子短语结构的对齐. Sankaran 等[39] 发现基于注意力机制的 NMT 模 型,会出现只记忆当前输入的注意力缺陷问题,提 出了一种称为时序注意力机制的模型,该模型会 记忆翻译过程中每一时刻目标语言单词和源语言 单词之间的对齐信息,并根据历史对齐信息对当 前注意力机制进行调整. 由于自然语言之间复杂 的结构差异,单向注意力机制模型可能只抓住注 意自然语言中存在的的部分规律. 于是,Cheng 等[40] 为了使注意力机制模型更加全面准确反映自然语 言中存在的规律,提出了联合训练的双向注意力 机制模型,该模型的中心思想是对于相同的机器 翻译训练数据,使源语言到目标语言和目标语言 到源语言的两个翻译模型的对齐矩阵保持一致. 而不是独立地对源语言和目标语言进行源语言翻 译模型的训练. 之后,Liu 等[41] 从重新排序的角度 对注意力机制的对齐准确度问题进行分析,提出 将传统机器翻译中目标词语与源词语的对齐信 息,作为监督信号引入神经机器翻译训练过程,利 用该监督信号自动地引导注意力机制模型,对注 意力机制进行调整的方法. 之后,Vaswani 等[10] 提出一种著名的网络架 构 Transformer,在第二节做出了详细的介绍,其模 型架构避免了循环并完全依赖于注意力机制来绘 制输入和输出之间的全局依赖关系,并完全避免 循环和卷积. 其结构允许进行更多的并行化,在翻 译质量上更加优越、并行性更好并且需要的训练 时间显著减少. Britz 等[42] 和 Tang 等[43] 也同样在 NMT 使用注意力在性能方面做出了开放式的实验 和评价. 还有,Yin 等[44] 为了探索注意力机制在整合句 子之间的相互关系,提出了两种基于注意力的卷 积神经网络来建模句子对. Zhuang 等 [45] 提出在文 本分类引入分层注意力,利用包含在句子中的重要 单词学习句子表示,然后利用文本中的重要句子 学习文本上下文表示. Zhou 等[46] 在双向长短时记 忆网络基础上加入注意力后,可以实现对分类起 决定性作用的词语的自动对焦,提出的模型不使 用 NLP 系统的任何特性. Wang 等[47] 和 Ma 等[48] 提出的基于刻面的情感分类方法将与刻面相关的 概念的额外知识纳入模型,并利用关注度来适当 权衡概念与内容本身的区别,学习输入文本的情 绪标识. 4.3    语音识别方面的应用 注意力机制逐渐在语音识别[49−50] 领域中得到 应用,且效果极好. Chorowski 等[51] 为注意力机制 提供了两种新的思路:一种更好的标准化方法,产 生更平滑的对齐方式和一种通用的提取和使用先 前路径特征的原则,这两种方法都可以被应用于 语音识别之外的应用场景. Bahdanau 等[52] 把注意力机制模型用在了大规 模词汇连续语音识别中,在注意力机制的基础之 上,研究了一种更直接的方法,用一个递归神经网 络代替隐马尔可夫模型,直接在字符级执行序列 预测. 对于每个要预测的字符,注意机制扫描输入 序列并选择相关帧. 同时也指出注意力机制模型 虽然有优点,但是还是有自身的问题,其适合短语 识别,对长句子识别比较差;数据包含噪音的时候 训练不稳定. Shen 和 Lee[53] 发现语音序列太长的时候,序 列会包含噪音或者很多无关的信息. 通过强调序 列中的重点部分,注意力机制可以解决这个问题: 用 LSTM 去读取输入序列,注意力机制选择序列 中的重点部分,通过突出重点语音子序列去预测 序列的类标签,该方法在关键词提取,对话行为侦 测两项任务中取得了很好的表现;Liu 和 Lane[54] 引入了编码器−解码器框架和注意力机制,联合建 模说话者意图识别和空缺值填充两个子问题,将 注意力机制加入到基于 RNN 的校准模型中去,使 编码器−解码器结构学会同时校准和解码,能够在 没有给定对齐信息时,对不同长度的序列进行映 射关系学习,分辨说话者意图,从自然语言对话重 抓取语义成分,简化了口语理解技术的建模. 5    注意力机制的未来方向 本文对注意力机制进行了全面的总结,本文 从神经学、心理学方面引出了注意力机制,然后重 点介绍了注意力机制的结构分类以及一些其它的 结构. 最后简单地归纳了计算机视觉注意力机制, 详尽地总结了注意力机制在各种领域中发挥的作 用. 在加入了注意力机制之后,大部分深度学习算 法的准确性都得到了提高,模型的泛化能力得到 改善. 尽管迄今报告的成果令人鼓舞,但仍然存在 一些不足和缺陷. 我们尝试提出注意力机制的未 来研究方向如下: (1)注意力机制作为一种特征选择机制,实现 了输出对输入的多个变量加权选择的过程,寻找 与当前输出最相关的特征,按比例加权得到上下 文向量作为输入去预测输出,但是,同一个数据作 为输入和作为输出时,起的作用应该是不一样的, · 1508 · 工程科学学报,第 43 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有