正在加载图片...
刘建伟等:深度学习中注意力机制研究进展 ·1505· 果模型有多个输人序列,并且学习不同输人序列 提出了变分学习方法和强化学习策略梯度方法 之间的权重矩阵,以捕获这些输入序列之间的关 2.6.6表示个数 系,把这类称之为协同注意力机制(Co-attention). 大多数情况下,神经网络都是使用输入序列 协同注意力机制典型的应用场景有:阅读理解,对 的单一特征表示,但是在某些场景,使用输入的一 输入(问题回答,文本)之间的注意力建模,找出对 个特征表示可能不足以满足下游任务,需要注意 回答问题最相关的问题关键词,协同注意力机制 力来为这些不同的表示分配权重,这些表示可以 非常有助于同时检测问题中的关键词和答案相关 确定最相关的方面,而忽略输入中的噪声和冗余 文章的段落.还有一类是自注意力机制(Self 信息.典型地,在自然语言场景中,Kiela等l学习 attention),一般输入是序列.输出不是,比如分类 了同一输人句子的不同单词嵌人表示的注意力权 和推荐任务,在此场景中,可以使用注意力来学习 重,以改善句子表示,同时通过权重的可解释性, 输入序列中对应于相同输入序列中的每个标记的 确定哪些单词嵌入对句子的贡献度的大小.类似 相关标记. 地,Maharjan等2o使用注意力机制来动态给书籍 2.6.4抽象层个数 的不同特征表示赋权,捕捉词汇、句法、视觉和类 在最一般的情况下,只为原始输入序列计算 型等不同层面的信息 注意力权重,这种注意力称为单级的(Single- 还有一种情况,就是引入权重来确定输入嵌 level).另一方面,注意力可以按顺序应用于输入 入向量的各个维度分量的相关性,计算向量的每 序列的多个抽象层次,较低抽象级别的输出(即上 个特征的分数可以选择在任何给定上下文中最能 下文向量)成为较高抽象级别的查询状态,这种类 描述标记特定含义的特征.这对于自然语言应用 型称之为多级(Multi-level). 程序来说尤其有用,因为在自然语言应用中,传统 上面提到的层次注意力就是典型的多层次抽 的单词嵌入表示会受到一词多义问题的影响 象,在两个不同的抽象层次(即单词级别和句子级 Lin等2I和Shen等u针对语言理解问题给出了这 别)上使用了注意力模型来完成文档分类任务,因 种方法的例子,以获得更有效的句子嵌入表示.在 为它捕获了文档的自然层次结构,即文档由句子 此项类型的分类中把以上两种多元特征表示的形 组成,句子由单词组成 式统一称为多表示(Multi-representational).表2总 2.6.5位置个数 结了近几年注意力机制的应用文献 这里的位置个数指的是参与计算上下文问量 3注意力机制的可解释性 的隐状态向量个数.Bahdanau等介绍的注意力 机制也被称为软(so)注意力.顾名思义,它使用 可解释性是指人类能够理解决策结果的原 输入序列所有隐状态的加权平均值来构建上下文 因的程度,模型可解释性指对模型内部机制的理 向量.软加权虽然使得神经网络易于通过反向传 解以及对模型结果的理解.近年来受到模型的性 播进行有效的学习,但是也增加了计算成本.如果 能以及透明度和公平性的推动,人工智能模型的 这种加权的权值变成只有一个1,其余全是0,也 可解释性引起了人们的极大兴趣.然而,神经网 就是此时的上下文向量是随机采样的某个隐状 络虽然在大部分任务表现良好,但是因为是黑盒 态,这种称之为硬(Hard)注意力,大大减少了计算 模型,缺乏可解释性,大大削弱了工业应用上对 量,但是训练过程不可微分,难以优化 模型所做的决定或预测的理解,而注意力机制的 Luong等在机器翻译中提出了局部(Local) 引入可以直觉地窥探神经网络内部的运行机制: 和全局(Global)注意力.全局注意力类似于软注意 对一个给定的输出,可以通过检查注意力机制权 力.另一方面,局部注意力介于软注意和硬注意之 重,得知模型分配了较大注意力权重的输入是哪 间.关键思想是首先检测输入序列中的一个注意 一个 点或位置,然后在该位置周围选择一个窗口,创建 假设注意力权重的重要性与序列中每个位置 一个局部软注意力,此时的隐状态的个数就是窗 的输出的预测值和输入对象的特定区域的相关程 口的大小.输入序列中的位置可以设置单调对齐 度高度相关,那么可以通过可视化一组输入和输 或通过预测对齐学习.因此,局部注意力的优点是 出对的注意权重来增强对模型结果的理解,这种 在软注意和硬注意、计算效率和窗口内的可微性 理解是否符合人类的思考逻辑值得商榷.在自然 之间提供参数权衡,因此,为了克服这一局限性, 语言处理中,研究者普遍认为,注意力机制为神经果模型有多个输入序列,并且学习不同输入序列 之间的权重矩阵,以捕获这些输入序列之间的关 系,把这类称之为协同注意力机制(Co-attention). 协同注意力机制典型的应用场景有:阅读理解,对 输入(问题回答,文本)之间的注意力建模,找出对 回答问题最相关的问题关键词,协同注意力机制 非常有助于同时检测问题中的关键词和答案相关 文章的段落 . 还有一类是自注意力机制 ( Self￾attention),一般输入是序列,输出不是,比如分类 和推荐任务,在此场景中,可以使用注意力来学习 输入序列中对应于相同输入序列中的每个标记的 相关标记. 2.6.4 抽象层个数 在最一般的情况下,只为原始输入序列计算 注意力权重 ,这种注意力称为单级的 ( Single￾level). 另一方面,注意力可以按顺序应用于输入 序列的多个抽象层次. 较低抽象级别的输出(即上 下文向量)成为较高抽象级别的查询状态,这种类 型称之为多级(Multi-level). 上面提到的层次注意力就是典型的多层次抽 象,在两个不同的抽象层次(即单词级别和句子级 别)上使用了注意力模型来完成文档分类任务,因 为它捕获了文档的自然层次结构,即文档由句子 组成,句子由单词组成. 2.6.5 位置个数 这里的位置个数指的是参与计算上下文向量 的隐状态向量个数. Bahdanau 等[3] 介绍的注意力 机制也被称为软(soft)注意力. 顾名思义,它使用 输入序列所有隐状态的加权平均值来构建上下文 向量. 软加权虽然使得神经网络易于通过反向传 播进行有效的学习,但是也增加了计算成本. 如果 这种加权的权值变成只有一个 1,其余全是 0,也 就是此时的上下文向量是随机采样的某个隐状 态,这种称之为硬(Hard)注意力,大大减少了计算 量,但是训练过程不可微分,难以优化. Luong 等[6] 在机器翻译中提出了局部(Local) 和全局(Global)注意力. 全局注意力类似于软注意 力. 另一方面,局部注意力介于软注意和硬注意之 间. 关键思想是首先检测输入序列中的一个注意 点或位置,然后在该位置周围选择一个窗口,创建 一个局部软注意力,此时的隐状态的个数就是窗 口的大小. 输入序列中的位置可以设置单调对齐 或通过预测对齐学习. 因此,局部注意力的优点是 在软注意和硬注意、计算效率和窗口内的可微性 之间提供参数权衡,因此,为了克服这一局限性, 提出了变分学习方法和强化学习策略梯度方法. 2.6.6 表示个数 大多数情况下,神经网络都是使用输入序列 的单一特征表示,但是在某些场景,使用输入的一 个特征表示可能不足以满足下游任务,需要注意 力来为这些不同的表示分配权重,这些表示可以 确定最相关的方面,而忽略输入中的噪声和冗余 信息. 典型地,在自然语言场景中,Kiela 等[19] 学习 了同一输入句子的不同单词嵌入表示的注意力权 重,以改善句子表示,同时通过权重的可解释性, 确定哪些单词嵌入对句子的贡献度的大小. 类似 地,Maharjan 等[20] 使用注意力机制来动态给书籍 的不同特征表示赋权,捕捉词汇、句法、视觉和类 型等不同层面的信息. 还有一种情况,就是引入权重来确定输入嵌 入向量的各个维度分量的相关性,计算向量的每 个特征的分数可以选择在任何给定上下文中最能 描述标记特定含义的特征. 这对于自然语言应用 程序来说尤其有用,因为在自然语言应用中,传统 的单词嵌入表示会受到一词多义问题的影响. Lin 等[12] 和 Shen 等[11] 针对语言理解问题给出了这 种方法的例子,以获得更有效的句子嵌入表示. 在 此项类型的分类中把以上两种多元特征表示的形 式统一称为多表示(Multi-representational). 表 2 总 结了近几年注意力机制的应用文献. 3    注意力机制的可解释性 可解释性是指人类能够理解决策结果的原 因的程度,模型可解释性指对模型内部机制的理 解以及对模型结果的理解. 近年来受到模型的性 能以及透明度和公平性的推动,人工智能模型的 可解释性引起了人们的极大兴趣. 然而,神经网 络虽然在大部分任务表现良好,但是因为是黑盒 模型,缺乏可解释性,大大削弱了工业应用上对 模型所做的决定或预测的理解,而注意力机制的 引入可以直觉地窥探神经网络内部的运行机制: 对一个给定的输出,可以通过检查注意力机制权 重,得知模型分配了较大注意力权重的输入是哪 一个. 假设注意力权重的重要性与序列中每个位置 的输出的预测值和输入对象的特定区域的相关程 度高度相关,那么可以通过可视化一组输入和输 出对的注意权重来增强对模型结果的理解,这种 理解是否符合人类的思考逻辑值得商榷. 在自然 语言处理中,研究者普遍认为,注意力机制为神经 刘建伟等: 深度学习中注意力机制研究进展 · 1505 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有