正在加载图片...
·1504 工程科学学报,第43卷,第11期 关性进行了良好的建模,在多种自然语言处理任 机制和自注意力机制.简单来说,互注意力机制就 务下达到最优效果 是模拟源序列和目标序列中不同位置之间的关 2.4.4强化学习自注意力机制 系,而位置个数的选择产生了各种丰富的注意力 软注意力机制在建模句子的局部或全局依赖 机制:而自注意力机制就是模拟相同输入的不同 关系的时候,有前景,但是其计算效率低;而硬注 位置之间的关系,也就是把互注意力机制中的目 意力机制虽然直接有效,但是其不可微分.所以 标序列替换成源序列即可,在Transformer模型中 Shen等w又将硬注意力机制和软注意力机制在强 使用了大量的自注意力机制,为了使得研究者更 化学习的方法下进行巧妙融合,提出了一种强化 好地使用注意力机制,下面首先对注意力机制从 型自注意力(Reinforcement self-attention,ReSA)模 对齐函数方面进行分类(表1). 块,这样就能使用硬注意力机制处理长句子依赖 除了上述方式,Chaudhari等l6提出了从四个 问题,用策略梯度进行学习,同时也能为软注意力 不同角度对注意力机制进行分类,分别是序列个 机制选择子集进行计算;而软注意力机制的前馈 数,抽象层个数,位置个数,以及表示个数(见 信号反过来用来对硬注意力机制提供奖励信号, 2.6.6节).作者强调上面这些类别并不相互排斥, 进行更精细化的操作,同时为硬注意力机制提供 可以交叉重叠,某种注意力机制可以归属多个不 指导 同的分类,可以作为多个类别的组合来混合使用. 2.5结构化自注意力机制 Kim等利用图模型将经典的注意力机制进 表1几种常用的注意力机制及其对齐函数的数学形式 行拓展,考虑了深度神经网络结构上的依赖,使得 Table 1 Summary of several attention mechanisms and corresponding alignment score functions 注意力机制从普通的软选择变成了既能内部结构 Name of attention 建模信息又不破坏端到端训练的新机制.在结构 mechanism Alignment score functions References 注意力模型中,没有对单输入式的选择建模,而是 Content-base attention score(s:,h)=cosine[s:,hi] 17刀 对连续,子序列多输入式的选择建模.在这种情况 Additive attention score(s)=vT tanh(Wals:hl)[3] 下,注意力机制需要引入个离散的二元隐变量 Location-base attention a=softmax(Was,) [6 0=(o1,02,…,0n),0m表示给定输人元素是否包括在 Bi-linear attention score(st,h)=s Wahi [6 对应的子序列中.另外,注意力分布p(lx,q)用线性 Dot-product attention score(st,h)=s.hi [6 链式条件随机场(Linear chain CRF)来刻画每个 Scaled dot-product attention score(s)=sl [10] o之间的依赖关系,以此确定结构信息变量o的依 赖结构.然后使用图模型推断前向传递期望值和 2.6.2对齐函数 上下文向量 对齐函数是衡量输入和输出匹配度的函数, 分片注意力层中可以选择源句子中的子序 在不同的注意力类型中,对齐函数采用了不同的 列,而不再是经典注意力机制中token为单位.其 数学形式,效果也不尽相同,在设计具体注意力网 次,在语法树结构的建模中引入合成注意力层,这 络时可以提供不同的选择.表1总结了几种常用 两种新的注意力层,在多个任务上都取得了比经 的注意力机制及其对齐函数的数学形式.主要有 典注意力更好的结果.虽然结构化关注背后的基 基于内容的(Content-base),基于加和的(Addition), 本思想很有洞见,但作者坦诚在实践中可能难以 基于位置信息的(Location-base),基于双线性的 使用.一个问题是,从计算的角度来看,在使用图 (Bilinear),基于点积的(Dot product),基于比例点 形模型时数值稳定性往往差,因此计算在对数空 积(Scaled dot-.product)的注意力机制类型.表1中 间中执行更好,这会给模型代码增加相当大的复 W是神经网络权值矩阵,为反向传播过程训练 杂性.另一个问题是,简单应用现有的自动微分工 的参数 具往往效率低下,为了使结构化注意易于处理大 2.6.3序列个数 问题,通常需要手工编写梯度计算 序列个数指的是输入序列的个数和输出序列 2.6注意力总结 的个数.如果输入序列和对应输出序列都只有一 2.6.1概述 个,称之为一对一(Distinctive)型注意力机制.用 以上对常用的注意力机制做出了详细的分 于翻译的大多数注意力模型)、图像描述和语音 类,注意机制基本上可以分为两大类:(互)注意力 识别劉这些都属于一对一类型的注意力机制.如关性进行了良好的建模,在多种自然语言处理任 务下达到最优效果. 2.4.4 强化学习自注意力机制 软注意力机制在建模句子的局部或全局依赖 关系的时候,有前景,但是其计算效率低;而硬注 意力机制虽然直接有效,但是其不可微分. 所以 Shen 等[14] 又将硬注意力机制和软注意力机制在强 化学习的方法下进行巧妙融合,提出了一种强化 型自注意力(Reinforcement self-attention,ReSA)模 块,这样就能使用硬注意力机制处理长句子依赖 问题,用策略梯度进行学习,同时也能为软注意力 机制选择子集进行计算;而软注意力机制的前馈 信号反过来用来对硬注意力机制提供奖励信号, 进行更精细化的操作,同时为硬注意力机制提供 指导. 2.5    结构化自注意力机制 n o = (o1,o2,··· ,on) on p(o|x, q) on o Kim 等[15] 利用图模型将经典的注意力机制进 行拓展,考虑了深度神经网络结构上的依赖,使得 注意力机制从普通的软选择变成了既能内部结构 建模信息又不破坏端到端训练的新机制. 在结构 注意力模型中,没有对单输入式的选择建模,而是 对连续,子序列多输入式的选择建模. 在这种情况 下,注意力机制需要引入 个离散的二元隐变量 , 表示给定输入元素是否包括在 对应的子序列中. 另外,注意力分布 用线性 链式条件随机场(Linear chain CRF)来刻画每个 之间的依赖关系,以此确定结构信息变量 的依 赖结构. 然后使用图模型推断前向传递期望值和 上下文向量. 分片注意力层中可以选择源句子中的子序 列,而不再是经典注意力机制中 token 为单位. 其 次,在语法树结构的建模中引入合成注意力层. 这 两种新的注意力层,在多个任务上都取得了比经 典注意力更好的结果. 虽然结构化关注背后的基 本思想很有洞见,但作者坦诚在实践中可能难以 使用. 一个问题是,从计算的角度来看,在使用图 形模型时数值稳定性往往差,因此计算在对数空 间中执行更好,这会给模型代码增加相当大的复 杂性. 另一个问题是,简单应用现有的自动微分工 具往往效率低下,为了使结构化注意易于处理大 问题,通常需要手工编写梯度计算. 2.6    注意力总结 2.6.1 概述 以上对常用的注意力机制做出了详细的分 类,注意机制基本上可以分为两大类:(互)注意力 机制和自注意力机制. 简单来说,互注意力机制就 是模拟源序列和目标序列中不同位置之间的关 系,而位置个数的选择产生了各种丰富的注意力 机制;而自注意力机制就是模拟相同输入的不同 位置之间的关系,也就是把互注意力机制中的目 标序列替换成源序列即可,在 Transformer 模型中 使用了大量的自注意力机制. 为了使得研究者更 好地使用注意力机制,下面首先对注意力机制从 对齐函数方面进行分类(表 1). 除了上述方式,Chaudhari 等[16] 提出了从四个 不同角度对注意力机制进行分类,分别是序列个 数 ,抽象层个数 ,位置个数 ,以及表示个数 ( 见 2.6.6 节). 作者强调上面这些类别并不相互排斥, 可以交叉重叠,某种注意力机制可以归属多个不 同的分类,可以作为多个类别的组合来混合使用. 表 1 几种常用的注意力机制及其对齐函数的数学形式 Table 1 Summary of several attention mechanisms and corresponding alignment score functions Name of attention mechanism Alignment score functions References Content-base attention score(st ,ht) = cosine[st ,hi] [17] Additive attention score(st ,ht) = v T a tanh(Wa[st ; hi]) [3] Location-base attention αt,i = softmax(Wa st) [6] Bi-linear attention score(st ,ht) = s T t Wahi [6] Dot-product attention score(st ,ht) = s T t hi [6] Scaled dot-product attention score(st ,ht) = s T t hi / √ n [10] 2.6.2 对齐函数 Wa v T a 对齐函数是衡量输入和输出匹配度的函数, 在不同的注意力类型中,对齐函数采用了不同的 数学形式,效果也不尽相同,在设计具体注意力网 络时可以提供不同的选择. 表 1 总结了几种常用 的注意力机制及其对齐函数的数学形式. 主要有 基于内容的(Content-base),基于加和的(Addition), 基于位置信息的(Location-base),基于双线性的 (Bilinear),基于点积的(Dot product),基于比例点 积(Scaled dot-product)的注意力机制类型. 表 1 中 是神经网络权值矩阵, 为反向传播过程训练 的参数. 2.6.3 序列个数 序列个数指的是输入序列的个数和输出序列 的个数. 如果输入序列和对应输出序列都只有一 个,称之为一对一(Distinctive)型注意力机制. 用 于翻译的大多数注意力模型[3]、图像描述[5] 和语音 识别[18] 这些都属于一对一类型的注意力机制. 如 · 1504 · 工程科学学报,第 43 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有