正在加载图片...
·1506 工程科学学报,第43卷,第11期 表2重要的注意力机制模型从四个不同方面的总结 Table2 Summary of key papers for technical approaches within each category References Number of sequences Number of abstraction levels Number of representations Number of positions Scenario of applications G] Distinctive Single-level Single-representational Soft Machine translation Distinctive Single-level Single-representational Hard Image captioning 句 Distinctive Single-level Single-representational Local Machine translation 7 Self-attention Single-level Single-representational Soft Document classification [18] Distinctive Multi-level Single-representational Soft Speech recognition 2 Distinctive Single-level Single-representational Soft Visual question answering [22] Co-attention Multi-level Single-representational Soft Sentiment classification [23 Self-attention Multi-level Single-representational Soft Recommender systems [1 Self-attention Single-level Multi-representational Soft Language understanding [19 Self-attention Single-level Multi-representational Soft Text representation 模型的工作方式提供了一种重要的解释方式 意力机制能否解释模型预测提出了疑问.Jain 注意力机制实现可解释性,已经广泛应用在 等)认为注意力机制并不能提高模型的可解释 各种学习场景.Bahdanau等在机器翻译领域引 性.如果注意力机制能提供解释,那么必须满足 入注意力机制,解决了大范围序列依赖建模问题, 以下两个性质:(a)服从特定概率分布的注意力权 同时也对源语言英语和目标语言法语之间的自动 值,权值的大小,必须与特征重要性度量值相关; 对齐问题,给出了可视化解释,即使对于两种不同 (b)如果训练的注意力概率分布发生改变或变 结构和文法的语言,不同语言间相互对应的单词 换,那么预测结果也应该发生相应的(comparable) 之间的注意力权重明显更大.在机器阅读理解中, 变化.并给出了两组实验对比来验证自己的观 注意力机制模型已经成为网络结构中必不可少的 点,首先假设计算得到的对象的注意力权重和对 一环,机器阅读理解通过结合文本和问句两者的 象的特征重要性度量值之间不总是一致的,也就 信息,生成一个关于文本段落各个部分的注意力 是注意力机制只能为模型的预测提供微弱的解 权重,对文本信息进行加权,试图通过其去捕捉问 释;接下来提出了一种替代性对抗注意力概率分 题和文本篇章之间的匹配关系.而后来提出的协 布,它可以最小程度地改变模型预测结果.为此, 同注意力机制是一个双向的注意力机制,不仅要 其控制训练好的模型的注意力权值所服从的概 给阅读的文本段落生成一个注意力权重,还要给 率分布,来判别是否存在替代性分布使得模型输 问句也生成一个注意力权重.最后,Xu等阿对图 出接近原始预测值,但是预测结果依然相同,即 像文字描述任务中,生成的文本与相关图像区域 使是注意到了不同的输入特征,甚至随机置换注 关联关系,进行可视化 意力权重,是否通常只会导致输出的微小变化. 实际上,除了上述应用场景的可解释性研究, 其结果综合表明:注意力权重基本上无法提高模 还有很多工业场景下,对于注意力机制的可解释 型可解释性 性研究文献.De-Arteaga等研究了社会职业分 而Wiegreffe和Pinter2sI对以上结果提出了质 类中性别偏见,并分析了这种偏见主要与哪些词 疑,认为Jain等所得到的结论2可依赖模型解释性 汇相关,被注意的词汇如何解释性性别偏见.作为 的定义,且对于模型的测试是否正确,需要考虑模 注意力机制的另一个有趣的应用,Lee等阿和 型的所有元素,使用更加严谨的实验设计过程.认 Lu等26发布开源工具,用于可视化深度神经网络 为违反事实的注意力权重实验,无法Jain等自身 的注意力权重,通过注意力权重注人扰动信号,以 的论点,首先其所提取的注意力权值所服从的概 便模拟特定假设情景,并交互式观察深度神经网 率分布不是原始的(Primitive),是分离了模型各部 络预测值的变化,侦测注意力权重是否存在某种 分而获得的注意力权重,与模型整体的依赖度会 相关解释性 降低;还有就是注意力重要性分数可以提供可解 注意力机制已被应用在各种各样的学习场 释性,但不是唯一的可解释性,取决于每个人对模 景中,几乎普遍存在,不免让很多研究人员对注 型解释性所作的定义模型的工作方式提供了一种重要的解释方式. 注意力机制实现可解释性,已经广泛应用在 各种学习场景. Bahdanau 等[3] 在机器翻译领域引 入注意力机制,解决了大范围序列依赖建模问题, 同时也对源语言英语和目标语言法语之间的自动 对齐问题,给出了可视化解释,即使对于两种不同 结构和文法的语言,不同语言间相互对应的单词 之间的注意力权重明显更大. 在机器阅读理解中, 注意力机制模型已经成为网络结构中必不可少的 一环,机器阅读理解通过结合文本和问句两者的 信息,生成一个关于文本段落各个部分的注意力 权重,对文本信息进行加权,试图通过其去捕捉问 题和文本篇章之间的匹配关系. 而后来提出的协 同注意力机制是一个双向的注意力机制,不仅要 给阅读的文本段落生成一个注意力权重,还要给 问句也生成一个注意力权重. 最后,Xu 等[5] 对图 像文字描述任务中,生成的文本与相关图像区域 关联关系,进行可视化. 实际上,除了上述应用场景的可解释性研究, 还有很多工业场景下,对于注意力机制的可解释 性研究文献. De-Arteaga 等[24] 研究了社会职业分 类中性别偏见,并分析了这种偏见主要与哪些词 汇相关,被注意的词汇如何解释性性别偏见. 作为 注意力机制的另一个有趣的应用 , Lee 等 [25] 和 Liu 等[26] 发布开源工具,用于可视化深度神经网络 的注意力权重,通过注意力权重注入扰动信号,以 便模拟特定假设情景,并交互式观察深度神经网 络预测值的变化,侦测注意力权重是否存在某种 相关解释性. 注意力机制已被应用在各种各样的学习场 景中,几乎普遍存在,不免让很多研究人员对注 意力机制能否解释模型预测提出了疑问. Jain 等[27] 认为注意力机制并不能提高模型的可解释 性. 如果注意力机制能提供解释,那么必须满足 以下两个性质:(a)服从特定概率分布的注意力权 值,权值的大小,必须与特征重要性度量值相关; ( b)如果训练的注意力概率分布发生改变或变 换,那么预测结果也应该发生相应的 (comparable) 变化. 并给出了两组实验对比来验证自己的观 点,首先假设计算得到的对象的注意力权重和对 象的特征重要性度量值之间不总是一致的,也就 是注意力机制只能为模型的预测提供微弱的解 释;接下来提出了一种替代性对抗注意力概率分 布,它可以最小程度地改变模型预测结果. 为此, 其控制训练好的模型的注意力权值所服从的概 率分布,来判别是否存在替代性分布使得模型输 出接近原始预测值,但是预测结果依然相同,即 使是注意到了不同的输入特征,甚至随机置换注 意力权重,是否通常只会导致输出的微小变化. 其结果综合表明:注意力权重基本上无法提高模 型可解释性. 而 Wiegreffe 和 Pinter [28] 对以上结果提出了质 疑,认为 Jain 等所得到的结论[27] 依赖模型解释性 的定义,且对于模型的测试是否正确,需要考虑模 型的所有元素,使用更加严谨的实验设计过程. 认 为违反事实的注意力权重实验,无法 Jain 等自身 的论点,首先其所提取的注意力权值所服从的概 率分布不是原始的(Primitive),是分离了模型各部 分而获得的注意力权重,与模型整体的依赖度会 降低;还有就是注意力重要性分数可以提供可解 释性,但不是唯一的可解释性,取决于每个人对模 型解释性所作的定义. 表 2 重要的注意力机制模型从四个不同方面的总结 Table 2 Summary of key papers for technical approaches within each category References Number of sequences Number of abstraction levels Number of representations Number of positions Scenario of applications [3] Distinctive Single-level Single-representational Soft Machine translation [5] Distinctive Single-level Single-representational Hard Image captioning [6] Distinctive Single-level Single-representational Local Machine translation [7] Self-attention Single-level Single-representational Soft Document classification [18] Distinctive Multi-level Single-representational Soft Speech recognition [21] Distinctive Single-level Single-representational Soft Visual question answering [22] Co-attention Multi-level Single-representational Soft Sentiment classification [23] Self-attention Multi-level Single-representational Soft Recommender systems [11] Self-attention Single-level Multi-representational Soft Language understanding [19] Self-attention Single-level Multi-representational Soft Text representation · 1506 · 工程科学学报,第 43 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有