短语结构与输出翻译句子短语结构的对齐. Sankaran 等[39] 发现

正在加载图片...

·1508 工程科学学报，第43卷，第11期短语结构与输出翻译句子短语结构的对齐应用，且效果极好.Chorowski等s刚为注意力机制 Sankaran等B9发现基于注意力机制的NMT模提供了两种新的思路：一种更好的标准化方法，产型，会出现只记忆当前输入的注意力缺陷问题，提生更平滑的对齐方式和一种通用的提取和使用先出了一种称为时序注意力机制的模型，该模型会前路径特征的原则，这两种方法都可以被应用于记忆翻译过程中每一时刻目标语言单词和源语言语音识别之外的应用场景单词之间的对齐信息，并根据历史对齐信息对当 Bahdanau等2把注意力机制模型用在了大规前注意力机制进行调整.由于自然语言之间复杂模词汇连续语音识别中，在注意力机制的基础之的结构差异，单向注意力机制模型可能只抓住注上，研究了一种更直接的方法，用一个递归神经网意自然语言中存在的的部分规律.于是，Cheng等o 络代替隐马尔可夫模型，直接在字符级执行序列为了使注意力机制模型更加全面准确反映自然语预测.对于每个要预测的字符，注意机制扫描输入言中存在的规律，提出了联合训练的双向注意力序列并选择相关帧.同时也指出注意力机制模型机制模型，该模型的中心思想是对于相同的机器虽然有优点，但是还是有自身的问题，其适合短语翻译训练数据，使源语言到目标语言和目标语言识别，对长句子识别比较差；数据包含噪音的时候到源语言的两个翻译模型的对齐矩阵保持一致训练不稳定而不是独立地对源语言和目标语言进行源语言翻 Shen和Leets]发现语音序列太长的时候，序译模型的训练.之后，Lu等从重新排序的角度列会包含噪音或者很多无关的信息.通过强调序对注意力机制的对齐准确度问题进行分析，提出列中的重点部分，注意力机制可以解决这个问题：将传统机器翻译中目标词语与源词语的对齐信用LSTM去读取输入序列，注意力机制选择序列息，作为监督信号引入神经机器翻译训练过程，利中的重点部分，通过突出重点语音子序列去预测用该监督信号自动地引导注意力机制模型，对注序列的类标签，该方法在关键词提取，对话行为侦意力机制进行调整的方法测两项任务中取得了很好的表现；Liu和Lanels 之后，Vaswani等uo提出一种著名的网络架引入了编码器-解码器框架和注意力机制，联合建构Transformer,,在第二节做出了详细的介绍，其模模说话者意图识别和空缺值填充两个子问题，将型架构避免了循环并完全依赖于注意力机制来绘注意力机制加人到基于RNN的校准模型中去，使制输入和输出之间的全局依赖关系，并完全避免编码器-解码器结构学会同时校准和解码，能够在循环和卷积.其结构允许进行更多的并行化，在翻没有给定对齐信息时，对不同长度的序列进行映译质量上更加优越、并行性更好并且需要的训练射关系学习，分辨说话者意图，从自然语言对话重时间显著减少.Britz等和Tang等也同样在抓取语义成分，简化了口语理解技术的建模 NMT使用注意力在性能方面做出了开放式的实验 5注意力机制的未来方向和评价. 还有，Yin等为了探索注意力机制在整合句本文对注意力机制进行了全面的总结，本文子之间的相互关系，提出了两种基于注意力的卷从神经学、心理学方面引出了注意力机制，然后重积神经网络来建模句子对.Zhuang等提出在文点介绍了注意力机制的结构分类以及一些其它的本分类引入分层注意力，利用包含在句子中的重要结构.最后简单地归纳了计算机视觉注意力机制，单词学习句子表示，然后利用文本中的重要句子详尽地总结了注意力机制在各种领域中发挥的作学习文本上下文表示.Zhou等在双向长短时记用.在加入了注意力机制之后，大部分深度学习算忆网络基础上加入注意力后，可以实现对分类起法的准确性都得到了提高，模型的泛化能力得到决定性作用的词语的自动对焦，提出的模型不使改善.尽管迄今报告的成果令人鼓舞，但仍然存在用NLP系统的任何特性.Wang等7和Ma等一些不足和缺陷.我们尝试提出注意力机制的未提出的基于刻面的情感分类方法将与刻面相关的来研究方向如下：概念的额外知识纳入模型，并利用关注度来适当 (1)注意力机制作为一种特征选择机制，实现权衡概念与内容本身的区别，学习输入文本的情了输出对输入的多个变量加权选择的过程，寻找绪标识. 与当前输出最相关的特征，按比例加权得到上下 4.3语音识别方面的应用文向量作为输入去预测输出，但是，同一个数据作注意力机制逐渐在语音识别950]领域中得到为输入和作为输出时，起的作用应该是不一样的，短语结构与输出翻译句子短语结构的对齐. Sankaran 等[39] 发现基于注意力机制的 NMT 模型，会出现只记忆当前输入的注意力缺陷问题，提出了一种称为时序注意力机制的模型，该模型会记忆翻译过程中每一时刻目标语言单词和源语言单词之间的对齐信息，并根据历史对齐信息对当前注意力机制进行调整. 由于自然语言之间复杂的结构差异，单向注意力机制模型可能只抓住注意自然语言中存在的的部分规律. 于是，Cheng 等[40] 为了使注意力机制模型更加全面准确反映自然语言中存在的规律，提出了联合训练的双向注意力机制模型，该模型的中心思想是对于相同的机器翻译训练数据，使源语言到目标语言和目标语言到源语言的两个翻译模型的对齐矩阵保持一致. 而不是独立地对源语言和目标语言进行源语言翻译模型的训练. 之后，Liu 等[41] 从重新排序的角度对注意力机制的对齐准确度问题进行分析，提出将传统机器翻译中目标词语与源词语的对齐信息，作为监督信号引入神经机器翻译训练过程，利用该监督信号自动地引导注意力机制模型，对注意力机制进行调整的方法. 之后，Vaswani 等[10] 提出一种著名的网络架构 Transformer，在第二节做出了详细的介绍，其模型架构避免了循环并完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系，并完全避免循环和卷积. 其结构允许进行更多的并行化，在翻译质量上更加优越、并行性更好并且需要的训练时间显著减少. Britz 等[42] 和 Tang 等[43] 也同样在 NMT 使用注意力在性能方面做出了开放式的实验和评价. 还有，Yin 等[44] 为了探索注意力机制在整合句子之间的相互关系，提出了两种基于注意力的卷积神经网络来建模句子对. Zhuang 等 [45] 提出在文本分类引入分层注意力，利用包含在句子中的重要单词学习句子表示，然后利用文本中的重要句子学习文本上下文表示. Zhou 等[46] 在双向长短时记忆网络基础上加入注意力后，可以实现对分类起决定性作用的词语的自动对焦，提出的模型不使用 NLP 系统的任何特性. Wang 等[47] 和 Ma 等[48] 提出的基于刻面的情感分类方法将与刻面相关的概念的额外知识纳入模型，并利用关注度来适当权衡概念与内容本身的区别，学习输入文本的情绪标识. 4.3 语音识别方面的应用注意力机制逐渐在语音识别[49−50] 领域中得到应用，且效果极好. Chorowski 等[51] 为注意力机制提供了两种新的思路：一种更好的标准化方法，产生更平滑的对齐方式和一种通用的提取和使用先前路径特征的原则，这两种方法都可以被应用于语音识别之外的应用场景. Bahdanau 等[52] 把注意力机制模型用在了大规模词汇连续语音识别中，在注意力机制的基础之上，研究了一种更直接的方法，用一个递归神经网络代替隐马尔可夫模型，直接在字符级执行序列预测. 对于每个要预测的字符，注意机制扫描输入序列并选择相关帧. 同时也指出注意力机制模型虽然有优点，但是还是有自身的问题，其适合短语识别，对长句子识别比较差；数据包含噪音的时候训练不稳定. Shen 和 Lee[53] 发现语音序列太长的时候，序列会包含噪音或者很多无关的信息. 通过强调序列中的重点部分，注意力机制可以解决这个问题：用 LSTM 去读取输入序列，注意力机制选择序列中的重点部分，通过突出重点语音子序列去预测序列的类标签，该方法在关键词提取，对话行为侦测两项任务中取得了很好的表现；Liu 和 Lane[54] 引入了编码器−解码器框架和注意力机制，联合建模说话者意图识别和空缺值填充两个子问题，将注意力机制加入到基于 RNN 的校准模型中去，使编码器−解码器结构学会同时校准和解码，能够在没有给定对齐信息时，对不同长度的序列进行映射关系学习，分辨说话者意图，从自然语言对话重抓取语义成分，简化了口语理解技术的建模. 5 注意力机制的未来方向本文对注意力机制进行了全面的总结，本文从神经学、心理学方面引出了注意力机制，然后重点介绍了注意力机制的结构分类以及一些其它的结构. 最后简单地归纳了计算机视觉注意力机制，详尽地总结了注意力机制在各种领域中发挥的作用. 在加入了注意力机制之后，大部分深度学习算法的准确性都得到了提高，模型的泛化能力得到改善. 尽管迄今报告的成果令人鼓舞，但仍然存在一些不足和缺陷. 我们尝试提出注意力机制的未来研究方向如下：（1）注意力机制作为一种特征选择机制，实现了输出对输入的多个变量加权选择的过程，寻找与当前输出最相关的特征，按比例加权得到上下文向量作为输入去预测输出，但是，同一个数据作为输入和作为输出时，起的作用应该是不一样的， · 1508 · 工程科学学报，第 43 卷，第 11 期

<<向上翻页向下翻页>>

点击下载：深度学习中注意力机制研究进展