第5卷第3期 信息安全学报 VoL 5 No. 3 2020年5月 ournal of Cyber Security 深度学习模型可解释性的硏究进展 化盈盈12,张岱墀12,葛仕明 中国科学院信息工程研究所北京中国100093 2中国科学院大学网络空间安全学院北京中国100049 摘要深度学习在很多人工智能应用领域中取得成功的关键原因在于,通过复杂的深层网络模型从海量数据中学习丰富的知 识然而,深度学习模型内部高度的复杂性常导致人们难以理解模型的决策结果,造成深度学习模型的不可解释性,从而限制了 模型的实际部署。因此,亟需提高深度学习模型的可解释性,使模型透明化,以推动人工智能领域硏究的发展。本文旨在对深度 学习模型可解释性的研究进展进行系统性的调研,从可解释性原理的角度对现有方法进行分类,并且结合可解释性方法在人工 智能领域的实际应用,分析目前可解释性硏究存在的问题,以及深度学习模型可解释性的发展趋势。为全面掌握模型可解释性 的研究进展以及未来的研究方向提供新的思路。 关键词深度学习模型;可解释性;人工智能 中图法分类号TP181DO1号10.19363/ cnkicn101380/tn2020.0501 Research progress in the Interpretability of deep Learning models HUA Yingying", ZHANG Daichi", GE Shiming Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China 2 School of Cyber Security, University of Chinese Academy of Sciences, Beijing 100049,China Abstract Deep learning has succeeded in many areas of artificial intelligence, and the key reason for this is to learn a wealth of knowledge from massive data through complex deep networks. However, the high degree of complexity in deep learning models often makes it difficult for people to understand the decision-making results, which makes deep learning models unexplainable and limits their practical deployment. Therefore, there is an urgent need to improve the interpretabil ity of deep learning models and make the models transparent to promote the development of artificial intelligence. This paper aims to systematically study the research progress in the interpretability of deep learning models. And we make a new division of these interpretable methods from the perspective of interpretability principles. According to the practical application of interpretability, we analyze and summarize the problems existing in the current interpretable research and the future development trend of explainable artificial intelligence. It provides new ideas to comprehensively understand the current progress and the further direction of interpretability Key words deep learning models; interpretability, artificial intelligence 模型是不可解释的2。 引言 深度学习模型的不可解释性存在很多的潜在危 深度学习模型叫在许多领域都具有非常好的性险,尤其在安全玫防领域。一方面会降低模型的可 能,比如人脸识别、图片分类、自然语言处理等,但信度,难以建立人与机器之间的信任;另一方面也 是这种表现更多的依赖于模型高度的非线性和调参会带来难以解决的安全问题,比如对抗样本攻击 技术。人们无法探知深度模型究竟从数据中学到了模型时,很难说明是哪些原因导致结果出现了如此 哪些知识,以及如何进行最终决策的。这种“端到端”大的偏差,从而无法对模型的攻击进行追踪和溯源。 的决策模式导致深度学习模型的解释性极弱。站在此外,一个不可解释的模型由于无法给予用户更多 人的角度分析,模型的决策过程是无法理解的,即可靠的信息,在很多领域的实际部署会受到极大地 通讯作者:葛仕明,博土,副研究员,博士生导师,上mai!: geshiming @iie.accn。 本课题得到国家自然科学基金(No61772513)资助 收稿日期:2020-02-07,修改日期:2020-04-22;定稿日期:2020-04-29
第 5 卷 第 3 期 信 息 安 全 学 报 Vol. 5 No. 3 2020 年 5 月 Journal of Cyber Security May, 2020 通讯作者: 葛仕明, 博士, 副研究员, 博士生导师, Email: geshiming@iie.ac.cn。 本课题得到国家自然科学基金(No.61772513)资助。 收稿日期: 2020-02-07; 修改日期: 2020-04-22; 定稿日期: 2020-04-29 深度学习模型可解释性的研究进展 化盈盈1,2, 张岱墀1,2, 葛仕明1 1中国科学院信息工程研究所 北京 中国 100093 2 中国科学院大学网络空间安全学院 北京 中国 100049 摘要 深度学习在很多人工智能应用领域中取得成功的关键原因在于, 通过复杂的深层网络模型从海量数据中学习丰富的知 识。然而, 深度学习模型内部高度的复杂性常导致人们难以理解模型的决策结果, 造成深度学习模型的不可解释性, 从而限制了 模型的实际部署。因此, 亟需提高深度学习模型的可解释性, 使模型透明化, 以推动人工智能领域研究的发展。本文旨在对深度 学习模型可解释性的研究进展进行系统性的调研, 从可解释性原理的角度对现有方法进行分类, 并且结合可解释性方法在人工 智能领域的实际应用, 分析目前可解释性研究存在的问题, 以及深度学习模型可解释性的发展趋势。为全面掌握模型可解释性 的研究进展以及未来的研究方向提供新的思路。 关键词 深度学习模型; 可解释性; 人工智能 中图法分类号 TP181 DOI 号 10.19363/J.cnki.cn10-1380/tn.2020.05.01 Research Progress in the Interpretability of Deep Learning Models HUA Yingying1,2, ZHANG Daichi1,2, GE Shiming1 1 Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China 2 School of Cyber Security, University of Chinese Academy of Sciences, Beijing 100049, China Abstract Deep learning has succeeded in many areas of artificial intelligence, and the key reason for this is to learn a wealth of knowledge from massive data through complex deep networks. However, the high degree of complexity in deep learning models often makes it difficult for people to understand the decision-making results, which makes deep learning models unexplainable and limits their practical deployment. Therefore, there is an urgent need to improve the interpretability of deep learning models and make the models transparent to promote the development of artificial intelligence. This paper aims to systematically study the research progress in the interpretability of deep learning models. And we make a new division of these interpretable methods from the perspective of interpretability principles. According to the practical application of interpretability, we analyze and summarize the problems existing in the current interpretable research and the future development trend of explainable artificial intelligence. It provides new ideas to comprehensively understand the current progress and the further direction of interpretability. Key words deep learning models; interpretability; artificial intelligence 1 引言 深度学习模型[1]在许多领域都具有非常好的性 能, 比如人脸识别、图片分类、自然语言处理等, 但 是这种表现更多的依赖于模型高度的非线性和调参 技术。人们无法探知深度模型究竟从数据中学到了 哪些知识, 以及如何进行最终决策的。这种“端到端” 的决策模式导致深度学习模型的解释性极弱。站在 人的角度分析, 模型的决策过程是无法理解的, 即 模型是不可解释的[2]。 深度学习模型的不可解释性存在很多的潜在危 险[3], 尤其在安全攻防领域。一方面会降低模型的可 信度, 难以建立人与机器之间的信任; 另一方面也 会带来难以解决的安全问题, 比如[4]对抗样本攻击 模型时, 很难说明是哪些原因导致结果出现了如此 大的偏差, 从而无法对模型的攻击进行追踪和溯源。 此外, 一个不可解释的模型由于无法给予用户更多 可靠的信息, 在很多领域的实际部署会受到极大地
2 Journal of○ ber securit信息安全学报,2020年5月,第5卷,第3期 限制。模型的不可解释性所带来的一连串问题,也在2.1什么是可解释性 不断驱动我们深入地探究如何提高深度学习模型的 可解释性0是指我们具有足够的可以理解的信 可解释性。因此,人们一直致力于更透彻地去理解深息,来解决某个问题。具体到人工智能领域,可解释 度学习模型内部复杂的过程,从而达到进一步优化的深度模型能够给出每一个预测结果的决策依据, 模型的目的。 比如银行的金融系统决定一个人是否应该得到贷 为了提高深度学习模型的可解释性,已经提出款,并给出相应的判决依据。如图1,分类器不仅要 了很多可解释性方法,比如利用特征重要性衡识别图片中的猫,而且要给出分类依据。比如决策树 量不同特征对决策结果的影响,或者用可解释的决模型利用信息理论的筛选变量标准帮助理解不同变 策树模拟深度学习模型的预测输出吲等。但是目前的量对决策结果的影响程度,所以决策树模型是一个 研究成果依然存在很多的不足,尤其是缺乏对可解用户友好的可解释性模型。而用户最不友好的深度 释性研究现状的总结与分析,现有的工作更多的侧神经网络则属于黑盒模型,模型高度的非线性让人 重于对可解释性方法的罗列介绍,没有对可解释性难以理解模型内部的决策过程,不能用人类可以理 的硏究成果进行全面了解和深入分析,不利于可解解的方式解释模型的具体含义和行为,所以深度学 释性硏究的进一步推进。尽管深度学习模型的可解习模型不具有很好的解释性。 释性早已成为研究的热点,并且在人工智能领域取 得了一定的关注,但是目前的可解释性研究成果相 Is Is a cat 对分散,这些可解释性方法缺乏系统的分析总结。 基于此,本文对深度学习模型的可解释性进行 了深入的调研,以促进可解释性的进一步发展。为了 全面掌握可解释性研究的进展,并为可解释性中存 图1可解释的人工智能 在的开放问题提供新的研究视角,本文将从新的角 Figure 1 Explainable Artificial Intelligence 度切入对目前的可解释性工作进行系统地分析总结, 探索可解释硏究的内在规律,预测可解释性未来的 根据可解释性的解释范围,我们可以分为全局 发展态势和研究方向。基于可解释性研究的原理,从可解释和局部可解释。全局可解释是基于整个数 模型结构、特征分析、可解释性迁移三个角度分析据集中的因变量和预测变量之间的关系来理解模型 目前的研究现状。通过对可解释性方法的系统性介的决策,即建立模型的输出和输入之间的关系,局部 解释性方法存在的问题和未来的发展趋势 关注该数据点和该点周围特征空间中的局部子区域 本文将从以下方面展开:首先介绍可解释性的并尝试基于该局部区域理解该点的模型决策。局部 研究现状,主要从可解释性的相关概念和可解释性可解释和全局可解释通常结合使用,共同解释深度 方法两个方面展开。然后结合可解释性的实际应用,型的决策结果 分析可解释性研究取得的进展和存在的不足。最后 全局可解释性:(1)整体模型的可解释性是指同 对可解释性的发展趋势进行总结与展望。 时理解整个模型,并解释全局模型输出。比如输入特 征对预测结果的重要性程度,以及不同特征之间的 2可解释性的研究现状 相互作用等等。这种可解释性是基于对模型、特征 和习得的知识(如权重、参数、结构等)的整体看法来 广义上来说我们对可解释性的需求主要来源于理解模型的决策结果,需要利用训练的模型、算法知 对问题和任务了解得还不够充分。而机器学习的 识和数据,但是全局模型的可解释性在实践中很难 的是从数据中发现知识或解决问题,那么在这个实现。(2)模块化层面上的全局可解释性是在模块层 过程中只要提供给用户关于数据或模型的可以理解面上理解模型,将全局模型的可解释性进行模块化 的信息,就可以更充分地发现知识、理解和解决问考虑到全局模型的可解释性通常无法实现,可以在 题。基于此,本文将详细分析可解释性的研究现状。模块层面上解释。比如从模型中解构出部分权重进 围绕现有的可解释性成果,介绍可解释性的相关概行理解,尽管权重仅在模型中其他特征的上下文中 念和解开深度学习模型的可解释性方法,为提高模有意义,但是这些权重仍然要比深度模型中所有的 型的可解释性提供进一步的研究思路。 参数更好理解
2 Journal of Cyber Security 信息安全学报, 2020 年 5 月, 第 5 卷, 第 3 期 限制。模型的不可解释性所带来的一连串问题, 也在 不断驱动我们深入地探究如何提高深度学习模型的 可解释性。因此, 人们一直致力于更透彻地去理解深 度学习模型内部复杂的过程, 从而达到进一步优化 模型的目的。 为了提高深度学习模型的可解释性, 已经提出 了很多可解释性方法[5-6], 比如利用特征重要性[7]衡 量不同特征对决策结果的影响, 或者用可解释的决 策树模拟深度学习模型的预测输出[8]等。但是目前的 研究成果依然存在很多的不足, 尤其是缺乏对可解 释性研究现状的总结与分析, 现有的工作更多的侧 重于对可解释性方法的罗列介绍, 没有对可解释性 的研究成果进行全面了解和深入分析, 不利于可解 释性研究的进一步推进。尽管深度学习模型的可解 释性早已成为研究的热点, 并且在人工智能领域取 得了一定的关注, 但是目前的可解释性研究成果相 对分散, 这些可解释性方法缺乏系统的分析总结。 基于此, 本文对深度学习模型的可解释性进行 了深入的调研, 以促进可解释性的进一步发展。为了 全面掌握可解释性研究的进展, 并为可解释性中存 在的开放问题提供新的研究视角, 本文将从新的角 度切入对目前的可解释性工作进行系统地分析总结, 探索可解释研究的内在规律, 预测可解释性未来的 发展态势和研究方向。基于可解释性研究的原理, 从 模型结构、特征分析、可解释性迁移三个角度分析 目前的研究现状。通过对可解释性方法的系统性介 绍, 再结合当前可解释性的一些典型应用, 分析可 解释性方法存在的问题和未来的发展趋势。 本文将从以下方面展开: 首先介绍可解释性的 研究现状, 主要从可解释性的相关概念和可解释性 方法两个方面展开。然后结合可解释性的实际应用, 分析可解释性研究取得的进展和存在的不足。最后 对可解释性的发展趋势进行总结与展望。 2 可解释性的研究现状 广义上来说我们对可解释性的需求主要来源于 对问题和任务了解得还不够充分。而机器学习的目 的是从数据中发现知识或解决问题[9], 那么在这个 过程中只要提供给用户关于数据或模型的可以理解 的信息, 就可以更充分地发现知识、理解和解决问 题。基于此, 本文将详细分析可解释性的研究现状。 围绕现有的可解释性成果, 介绍可解释性的相关概 念和解开深度学习模型的可解释性方法, 为提高模 型的可解释性提供进一步的研究思路。 2.1 什么是可解释性 可解释性[10]是指我们具有足够的可以理解的信 息, 来解决某个问题。具体到人工智能领域, 可解释 的深度模型能够给出每一个预测结果的决策依据, 比如银行的金融系统[10]决定一个人是否应该得到贷 款, 并给出相应的判决依据。如图 1, 分类器不仅要 识别图片中的猫, 而且要给出分类依据。比如决策树 模型利用信息理论的筛选变量标准帮助理解不同变 量对决策结果的影响程度, 所以决策树模型是一个 用户友好的可解释性模型。而用户最不友好的深度 神经网络则属于黑盒模型, 模型高度的非线性让人 难以理解模型内部的决策过程, 不能用人类可以理 解的方式解释模型的具体含义和行为, 所以深度学 习模型不具有很好的解释性。 图 1 可解释的人工智能 Figure 1 Explainable Artificial Intelligence 根据可解释性的解释范围, 我们可以分为全局 可解释和局部可解释[11]。全局可解释是基于整个数 据集中的因变量和预测变量之间的关系来理解模型 的决策, 即建立模型的输出和输入之间的关系。局部 可解释是对单个数据点的决策进行解释, 通常只需 关注该数据点和该点周围特征空间中的局部子区域, 并尝试基于该局部区域理解该点的模型决策。局部 可解释和全局可解释通常结合使用, 共同解释深度 模型的决策结果。 全局可解释性: (1)整体模型的可解释性是指同 时理解整个模型, 并解释全局模型输出。比如输入特 征对预测结果的重要性程度, 以及不同特征之间的 相互作用等等。这种可解释性是基于对模型、特征 和习得的知识(如权重、参数、结构等)的整体看法来 理解模型的决策结果, 需要利用训练的模型、算法知 识和数据, 但是全局模型的可解释性在实践中很难 实现。(2)模块化层面上的全局可解释性是在模块层 面上理解模型, 将全局模型的可解释性进行模块化。 考虑到全局模型的可解释性通常无法实现, 可以在 模块层面上解释。比如从模型中解构出部分权重进 行理解, 尽管权重仅在模型中其他特征的上下文中 有意义, 但是这些权重仍然要比深度模型中所有的 参数更好理解
化盈盈等:深度学习模型可解释性的研究进展 局部可解释性:(1)单一预测的局部可解释性是 特征统计分析:对不同的特征进行汇总统计或 对模型的一个预测结果进行解释。局部可解释的预者显著性可视化,以此建立特征和预测之间的因果 测结果可能只依赖于线性或某些单调的特征,而非关系∞03。许多可解释性方法根据决策结果对每个 对它们有复杂的依赖性,所以局部可解释性通常比特征进行汇总统计,并返回一个定量的指标,比如 全局可解释性更容易和准确。因此可以通过扰动输特征重要性衡量不同特征对预测结果的重要性程度 入,观察输出的变化,确定模型是基于哪些特征进或者特征之间的交互强度。此外,还可以对特征显著 行决策的,以解释预测的原因(2)一组预测的局部可性统计信息进行可视化,比如直观地展示出重要性 解释性是对多个样本的预测结果进行解释。多个样特征的特征显著图,或者显示特征和平均预测结果 本的模型预测可以用单一预测的局部可解释性方法关系的部分相关图。特征统计分析方法主要是从特 来分别进行解释,然后聚合为一组。此外,也可以使征层面上解释深度模型,特征作为可解释性和模型 用模块化的全局可解释性方法,将获取的样本组视之间的桥梁。 为完整的数据集,然后使用包含此子集的全局方法 本质上可解释模型:利用本质上可解释的模型 来解释。 近似模拟黑盒模型,然后通过查看可解释性模型内 基于可解释性的相关概念,目前主要从以下三部的参数或者特征统计信息来解释该黑盒模型3。 个方面研究深度学习模型的可解释性: 比如借助可解释的决策模型或稀疏性的线性模型来 (1)使深度学习模型内部的组件尽可能变得透近似黑盒模型,可以通过蒸馏等方法,在可解释的模 明、可理解,这是基于模型结构的可解释性。比如可型上建立输入和输出之间的关系,实现可解释性的迁 以通过可视化技术均来实现模型的透明化,或者移。这种可解释模型近似的方法通常不考虑黑盒模型 重新训练具有可解释性的模型。 内部的参数,直接对模型进行“端到端”的近似。下 (2)从模型中解构出尽可能多的知识进行理面将对这些可解释性方法进行详细的介绍,见表1。 解1621,属于建模中的可解释性。比如从特征层面 进行解释,可以从深度神经网络中学习可理解的特 表1可解释性方法 征语义图,以一种可解释性的方式对模型的知识进 Table 1 Explanation Methods 行表征。或者根据特征扰动对模型预测的影响,判断 如何解释深度学习模型 典型方法 模型内部可视化 可视化系统 ENNIs,可视化工具 特征的重要性程度。 (3)生成人为可以理解的解释,属于建模后的可 特征统计分析 LME,CAM,Grad-CAM2,解 解释性25。比如可以借助一些本质上可解释的模 本质上可解释模型 DLME,决策树量化解释,决策 型对黑盒模型的预测结果进行事后解释。 树正则化同明 2.2如何解释深度学习模型 为了解构人工智能中的黑盒模型,更好地理解模2.2.1模型内部可视化 型的预测结果,人们提出了很多可解释性方法。根据 由于人类对于世界的认知和感受主要来自于视 不同的标准,这些可解释性方法可以分为不同的类觉,良好的可视化可以有效地帮助人们理解深度网 别。例如,建模中的可解释性是训练可解释的模型(如络模型的内部组件,并进行有效的优化和调节。下面 决策树、线性模型等)建模后的可解释性是对模型的将介绍基于可视化技术来解释深度神经网络的典型 预测进行解释,不依赖于模型的训练。基于解释黑盒方法 模型的原理,本文将这些可解释性方法大致分为 可视化系统 CNNVis:为了更好的理解神经网 模型内部可视化:对模型内部学习的权重参络内部的工作机制,朱军等提出了可视化系统 数、神经网络的神经元或者特征检测器等进行可视 NAVIs。该系统首先提取神经元的衍生特征和神经 化26-9。由于权重直接反映特征对模型最终预测的元之间的连接,然后对提取的这些层、神经元以及连 贡献,所以可以非常粗暴地可视化出模型内部的权接关系进行聚合,最后实现对模型内部的可视化。该 重。同理,也可以对神经元或特征检测器可视化,展可视化系统包括有三个模块:(1)数据预处理模块:把 示出输入特征在模型内部的变化。尽管这类可解释神经网络转换为一个有向无环图,其中每一个神经 性方法可以直观地观察到模型内部输入的运算过程,元都是根据由一个节点和神经元之间的连接进行表 但是缺乏普适性,很难得出通用的可解释性,而且征,然后该模块可以计算神经元的派生特征和它们 解释的效果也有待提升。 之间的联系;(2)聚合模块:首先对特征图进行聚类
化盈盈 等: 深度学习模型可解释性的研究进展 3 局部可解释性: (1)单一预测的局部可解释性是 对模型的一个预测结果进行解释。局部可解释的预 测结果可能只依赖于线性或某些单调的特征, 而非 对它们有复杂的依赖性, 所以局部可解释性通常比 全局可解释性更容易和准确。因此可以通过扰动输 入, 观察输出的变化, 确定模型是基于哪些特征进 行决策的, 以解释预测的原因。(2)一组预测的局部可 解释性是对多个样本的预测结果进行解释。多个样 本的模型预测可以用单一预测的局部可解释性方法 来分别进行解释, 然后聚合为一组。此外, 也可以使 用模块化的全局可解释性方法, 将获取的样本组视 为完整的数据集, 然后使用包含此子集的全局方法 来解释。 基于可解释性的相关概念, 目前主要从以下三 个方面研究深度学习模型的可解释性: (1) 使深度学习模型内部的组件尽可能变得透 明、可理解, 这是基于模型结构的可解释性。比如可 以通过可视化技术[12-15]来实现模型的透明化, 或者 重新训练具有可解释性的模型。 (2) 从模型中解构出尽可能多的知识进行理 解[16-21], 属于建模中的可解释性。比如从特征层面 进行解释, 可以从深度神经网络中学习可理解的特 征语义图, 以一种可解释性的方式对模型的知识进 行表征。或者根据特征扰动对模型预测的影响, 判断 特征的重要性程度。 (3) 生成人为可以理解的解释, 属于建模后的可 解释性[22-25]。比如可以借助一些本质上可解释的模 型对黑盒模型的预测结果进行事后解释。 2.2 如何解释深度学习模型 为了解构人工智能中的黑盒模型, 更好地理解模 型的预测结果, 人们提出了很多可解释性方法。根据 不同的标准, 这些可解释性方法可以分为不同的类 别。例如, 建模中的可解释性是训练可解释的模型(如 决策树、线性模型等); 建模后的可解释性是对模型的 预测进行解释, 不依赖于模型的训练。基于解释黑盒 模型的原理, 本文将这些可解释性方法大致分为: 模型内部可视化: 对模型内部学习的权重参 数、神经网络的神经元或者特征检测器等进行可视 化[26-29]。由于权重直接反映特征对模型最终预测的 贡献, 所以可以非常粗暴地可视化出模型内部的权 重。同理, 也可以对神经元或特征检测器可视化, 展 示出输入特征在模型内部的变化。尽管这类可解释 性方法可以直观地观察到模型内部输入的运算过程, 但是缺乏普适性, 很难得出通用的可解释性, 而且 解释的效果也有待提升。 特征统计分析: 对不同的特征进行汇总统计或 者显著性可视化, 以此建立特征和预测之间的因果 关系[30-35]。许多可解释性方法根据决策结果对每个 特征进行汇总统计, 并返回一个定量的指标, 比如 特征重要性衡量不同特征对预测结果的重要性程度, 或者特征之间的交互强度。此外, 还可以对特征显著 性统计信息进行可视化, 比如直观地展示出重要性 特征的特征显著图, 或者显示特征和平均预测结果 关系的部分相关图。特征统计分析方法主要是从特 征层面上解释深度模型, 特征作为可解释性和模型 之间的桥梁。 本质上可解释模型: 利用本质上可解释的模型 近似模拟黑盒模型, 然后通过查看可解释性模型内 部的参数或者特征统计信息来解释该黑盒模型[36-37]。 比如借助可解释的决策模型或稀疏性的线性模型来 近似黑盒模型, 可以通过蒸馏等方法, 在可解释的模 型上建立输入和输出之间的关系, 实现可解释性的迁 移。这种可解释模型近似的方法通常不考虑黑盒模型 内部的参数, 直接对模型进行“端到端”的近似。下 面将对这些可解释性方法进行详细的介绍, 见表 1。 表 1 可解释性方法 Table 1 Explanation Methods 如何解释深度学习模型 典型方法 模型内部可视化 可视化系统 CNNVis[38]; 可视化工具 Lucid[39]; 特征统计分析 LIME[40]; CAM[41]; Grad-CAM[42]; 解 释图表征[45]; 本质上可解释模型 DLIME[47]; 决策树量化解释[48]; 决策 树正则化[49] 2.2.1 模型内部可视化 由于人类对于世界的认知和感受主要来自于视 觉, 良好的可视化可以有效地帮助人们理解深度网 络模型的内部组件, 并进行有效的优化和调节。下面 将介绍基于可视化技术来解释深度神经网络的典型 方法。 可视化系统 CNNVis: 为了更好的理解神经网 络内部的工作机制, 朱军等[38]提出了可视化系统 CNNVis。该系统首先提取神经元的衍生特征和神经 元之间的连接, 然后对提取的这些层、神经元以及连 接关系进行聚合, 最后实现对模型内部的可视化。该 可视化系统包括有三个模块: (1)数据预处理模块: 把 神经网络转换为一个有向无环图, 其中每一个神经 元都是根据由一个节点和神经元之间的连接进行表 征, 然后该模块可以计算神经元的派生特征和它们 之间的联系; (2)聚合模块: 首先对特征图进行聚类
Journal of○ ber securit信息安全学报,2020年5月,第5卷,第3期 从每个特征图集群中选择代表图层,然后将神经元输出的贡献,可以改变该特征值,然后通过输出结 聚类在代表图层中,并从每个神经元集群中选择代果的变化判断该特征的重要性程度。 表性神经元;(3)可视化模块:可视化出每一个神经元 Marco4等人提出了LME( Local Interpretable 集群,可以从中分析网络学习的特征、激活特征以及 Model- Agnostic Explanation)方法,用人类可以理解 对结果的贡献等。 CANVas还具有交互功能,可以人的表征方式来解释分类模型,该方法的核心思想是 为改变数据聚合过程,从而更好的观察模型内部的在预测结果的附近学习一个可解释性的模型,实现 运作过程。 对模型预测结果的局部可解释。LIME方法通过向输 可视化工具 Lucid:是一个建立在 Deep Dream入样本中添加扰动,根据模型输出的变化来判断不 上的神经网络可视化库, Deep Dream是进行可视化同特征对预测结果的影响程度,从而实现对黑盒模 神经网络理解图像方式的早期尝试,而Luid是改型决策过程的可解释。然后根据这些扰动的数据点 进后的用于研究神经网络可解释性的一套基础架构距离原始数据的距离分配权重,基于扰动后的样本 和工具。它提供顶尖的特征可视化技术实现和灵活学习一个可解释的模型。由于深度学习模型的决策 的抽象,使探索新的研究方向变得非常简单。Lud边界是非线性的,所以LME方法是通过学习一个局 利用可视化技术研究神经网络自身的运行方式,结部线性模型来解释样本的分类结果。输入样本中加 合特征可视化和其他可解释性技术来理解神经网络入的必须是人类可以理解的扰动,比如遮挡输入图 如何决策。这种结合允许我们稍微“站在神经网络片的某部分,从而确保模型的预测结果一定会发生 内部”,看到神经网络在某一具体时刻如何决策,及变化。由于该方法只是在输入值的周围做微小的扰 其如何影响最终输出。该技术通过可视化每个神经 动,并没有深入模型内部,所以LME是和模型无关 元能够看到哪个部分的检测器被激活。我们不仅可的可解释性方法并且LIME方法在文本和图像分类 以看到检测结果,而且能看到神经网络依据哪些特 征来识别图片的。 领域都取得了很好的解释性效果,极大地提高了人 可视化技术是深度学习模型可解释性研究的重类对人工智能的信任 要途径,同时也是最直观的解释性方法。但是可视化 LIME和其他一些类似的方法4通过向输入 方法也存在一定的局限,一方面可视化神经网络得中加入随机扰动,或者选择输入中的某些特征,以 到的结果绝大部分依然是人类难以理解的,而且也此生成对单个预测结果的解释。这些可解释性方法 缺少对这种解释方法的评价标准,从而会降低可视由于其简单易操作性而备受欢迎,但是会导致解释 化解释结果的可信度;另一方面,可视化方法通常结果的不稳定性,即对于相同的预测结果,模型给 是和其他的解释性方法相结合,而可视化技术作为出的解释却有所不同。可解释性方法缺乏稳定性会 最终解释结果的表征。可视化技术更多的用于局部影响解释结果的准确性,从而降低人们对人工智能 可解释性方法,以特征图的形式来解释深度神经网模型的信任。 络的决策机制。 (2)CAM Grad-CAM 222特征统计分析 卷积神经网络的最后一个卷积层包含有丰富的 深度学习模型由于其内部复杂的结构,会导致语义和结构知识,而全连接层的特征都是人类难以 模型的特征和预测结果之间的因果关系难以理解, 理解的。所以可以充分利用最后一个卷积层的特征 所以模型是不可解释的。基于此,可以通过对特征进来解释神经网络,然后借助可视化技术理解模型内 行统计分析,以建立特征和输出之间的因果关系,部的特征,以实现对神经网络输出结果的解释。基于 从而实现模型内部的透明化。因此特征统计分析方此,我们将会介绍CAM和 Grad-CAM两种方法。 法是指对深度模型的特征进行汇总分析或者显著性 CAM:周博磊刚提出了类别激活方法 可视化,对混乱的特征进行统计分析,计算不同特 CAM(Class Activation Mapping)来解释深层神经网 征对模型输出的贡献,并对显著性特征进行可视化 络,该方法的核心思想是在不使用任何边界框的前 该方法是基于特征对模型进行解释,以下是几种典提下,实现目标定位。CAM方法引入了全局平均池 型的基于特征统计分析的可解释方法 化层(GAP)替换掉卷积神经网络中的全连接层,然后 (I)LIME 得到最后一个卷积层中每个特征图的均值,经过加 由于深度模型内部的特征经过复杂的变化,并权和之后就能得到实际的输出结果,如图2。此外 且不同特征之间也可能相互影响,所以无法直接建该方法会强制最后一个卷积层生成和目标类别数量 立起某一特征和输出之间的关系。为了衡量特征对致的特征图,使经过GAP和 Softmax层之后得到
4 Journal of Cyber Security 信息安全学报, 2020 年 5 月, 第 5 卷, 第 3 期 从每个特征图集群中选择代表图层, 然后将神经元 聚类在代表图层中, 并从每个神经元集群中选择代 表性神经元; (3)可视化模块: 可视化出每一个神经元 集群, 可以从中分析网络学习的特征、激活特征以及 对结果的贡献等。CNNVis 还具有交互功能, 可以人 为改变数据聚合过程, 从而更好的观察模型内部的 运作过程。 可视化工具 Lucid: 是一个建立在 Deep Dream 上的神经网络可视化库, Deep Dream 是进行可视化 神经网络理解图像方式的早期尝试, 而 Lucid[39]是改 进后的用于研究神经网络可解释性的一套基础架构 和工具。它提供顶尖的特征可视化技术实现和灵活 的抽象, 使探索新的研究方向变得非常简单。Lucid 利用可视化技术研究神经网络自身的运行方式, 结 合特征可视化和其他可解释性技术来理解神经网络 如何决策。这种结合允许我们稍微“站在神经网络 内部”, 看到神经网络在某一具体时刻如何决策, 及 其如何影响最终输出。该技术通过可视化每个神经 元, 能够看到哪个部分的检测器被激活。我们不仅可 以看到检测结果, 而且能看到神经网络依据哪些特 征来识别图片的。 可视化技术是深度学习模型可解释性研究的重 要途径, 同时也是最直观的解释性方法。但是可视化 方法也存在一定的局限, 一方面可视化神经网络得 到的结果绝大部分依然是人类难以理解的, 而且也 缺少对这种解释方法的评价标准, 从而会降低可视 化解释结果的可信度; 另一方面, 可视化方法通常 是和其他的解释性方法相结合, 而可视化技术作为 最终解释结果的表征。可视化技术更多的用于局部 可解释性方法, 以特征图的形式来解释深度神经网 络的决策机制[10]。 2.2.2 特征统计分析 深度学习模型由于其内部复杂的结构, 会导致 模型的特征和预测结果之间的因果关系难以理解, 所以模型是不可解释的。基于此, 可以通过对特征进 行统计分析, 以建立特征和输出之间的因果关系, 从而实现模型内部的透明化。因此特征统计分析方 法是指对深度模型的特征进行汇总分析或者显著性 可视化, 对混乱的特征进行统计分析, 计算不同特 征对模型输出的贡献, 并对显著性特征进行可视化。 该方法是基于特征对模型进行解释, 以下是几种典 型的基于特征统计分析的可解释方法。 (1) LIME 由于深度模型内部的特征经过复杂的变化, 并 且不同特征之间也可能相互影响, 所以无法直接建 立起某一特征和输出之间的关系。为了衡量特征对 输出的贡献, 可以改变该特征值, 然后通过输出结 果的变化判断该特征的重要性程度。 Marco[40]等人提出了 LIME(Local Interpretable Model-Agnostic Explanation)方法, 用人类可以理解 的表征方式来解释分类模型, 该方法的核心思想是 在预测结果的附近学习一个可解释性的模型, 实现 对模型预测结果的局部可解释。LIME 方法通过向输 入样本中添加扰动, 根据模型输出的变化来判断不 同特征对预测结果的影响程度, 从而实现对黑盒模 型决策过程的可解释。然后根据这些扰动的数据点 距离原始数据的距离分配权重, 基于扰动后的样本 学习一个可解释的模型。由于深度学习模型的决策 边界是非线性的, 所以LIME方法是通过学习一个局 部线性模型来解释样本的分类结果。输入样本中加 入的必须是人类可以理解的扰动, 比如遮挡输入图 片的某部分, 从而确保模型的预测结果一定会发生 变化。由于该方法只是在输入值的周围做微小的扰 动, 并没有深入模型内部, 所以 LIME 是和模型无关 的可解释性方法。并且 LIME 方法在文本和图像分类 领域都取得了很好的解释性效果, 极大地提高了人 类对人工智能的信任。 LIME 和其他一些类似的方法[41-42]通过向输入 中加入随机扰动, 或者选择输入中的某些特征, 以 此生成对单个预测结果的解释。这些可解释性方法 由于其简单易操作性而备受欢迎, 但是会导致解释 结果的不稳定性, 即对于相同的预测结果, 模型给 出的解释却有所不同。可解释性方法缺乏稳定性会 影响解释结果的准确性, 从而降低人们对人工智能 模型的信任。 (2) CAM & Grad-CAM 卷积神经网络的最后一个卷积层包含有丰富的 语义和结构知识, 而全连接层的特征都是人类难以 理解的。所以可以充分利用最后一个卷积层的特征 来解释神经网络, 然后借助可视化技术理解模型内 部的特征, 以实现对神经网络输出结果的解释。基于 此, 我们将会介绍 CAM 和 Grad-CAM 两种方法。 CAM: 周博磊 [43] 提出了类别激活方法 CAM(Class Activation Mapping)来解释深层神经网 络, 该方法的核心思想是在不使用任何边界框的前 提下, 实现目标定位。CAM 方法引入了全局平均池 化层(GAP)替换掉卷积神经网络中的全连接层, 然后 得到最后一个卷积层中每个特征图的均值, 经过加 权和之后就能得到实际的输出结果, 如图 2。此外, 该方法会强制最后一个卷积层生成和目标类别数量 一致的特征图, 使经过 GAP 和 Softmax 层之后得到
化盈盈等:深度学习模型可解释性的研究进展 分类结果,从而可以为GAP输出的每个特征图赋予解释性的语义图,实现对模型内部知识的解构。利用 实际的含义。对模型输出结果进行解释时,可以直接学习到的语义图来表征深度学习模型的知识,由于 对GAP的输出进行可视化,即以热力图的形式可视该语义图是可以人为理解的,所以该语义图可以实 化出对应的特征图的加杈和,从而可以判断出对分现对深度模型的解释 类结果具有显著作用的特征。 张拳石等人提出了解释图的概念,它揭示了 由于CAM方法中没有全连接层,所以模型对输隐藏在预训练的神经网络内部的知识层次,即通过 入的尺寸没有要求,GAP可以更加充分的利用空间在深度神经网络内部学习一张解释图来实现对深度 信息。而且没有全连接层的参数也增加了模型的鲁模型的解释。这种简单而有效的方法是以无监督的 棒性,不易产生过拟合。但是CAM方法是通过修改方式自动从过滤器的特征图中发现目标部分,而无 模型的结构,然后重新训练新的模型以实现对黑盒需标注信息。学习到的解释图有多层,并且每一层对 模型的解释。所以该方法会增加模型训练的成本,而应于神经网络中的卷积层。解释图中的每个节点代 且极大地限制了模型的应用场景。 表一个特定的部分,从而可以从输入中解构出不同 的目标部分,如图4。我们将目标部分与每个过滤器 的特征分开。因此,我们可以从单个过滤器中学习多 。个节点。解释图中的边对节点之间的共同激活关系 输入 特征图和变形的空间关系进行建模。较高层中的节点代表 较大的部分,而较低层中的节点描述该部分的子区 图2CAM方法 域。我们可以将解释图视为神经网络中间层特征的 igure 2 CAM Method 压缩,通过使用数千个图节点来表示数百万个神经 Grad-CAM:为了解决CAM方法存在的问题,单位编码的信息,从而实现对深度模型内部可解释 Ramprasaath等人提出了 Grad-CAM方法生成对卷性知识的解构 积神经网络的可视化解释,该方法利用加权梯度类 A head filter 激活映射,使任何目标特征的梯度经过最后一个卷 解释图 A feet filter A 积层后产生大致的局部特征图,显示出图像中对目 A torso filte 标预测分类重要的区域Grad-CAM对最终的加权和 目标部分 加了一个ReLU层,原因在于我们只关心对类别有正 图4解释图表征 影响的那些像素点,如果不加ReLU层,最终可能会 Figure4 Explanatory Graph Representation 带入一些属于其他类别的像素,从而影响解释的效 果。该方法将现有的细粒度可视化方法与 Grad-CAM 由于神经网络中有非常复杂的语义和结构知识, 结合产生高分辨率的分类可视化特征,并将其运用很难以人类可理解的方式完全对神经网络进行解 到图像分类,图像文字描述以及视觉问答,如图3。释。而特征统计分析的方法则是通过对模型中的知 Grad-CAM适用于各种各样的CN网络模型且不会识进行解构表征,实现模型的可解释,这种方法是 改变网络结构,也不需要重新训练。 对模型的隐藏知识进行逐步解释。 irad-CAM Grad-CAM 223可解释模型 随着迁移学习的发展,不仅能够实现模型结构 的迁移,我们也可以将模型的可解释性进行迁移。利 用具有可解释性的模型,比如线性模型、决策树模型, 通过将黑盒的深度学习模型迁移到这些可解释的模 a group of people flying kites A man is sitting at a table 型中,从而可以解构这些不可解释的模型。 图3 Grad-CAM的图像文字描述解释 (1)线性模型 理解预测结果背后的原因对于评估模型的可信 igure 3 Image Captioning Explanations via Grad-CAM 度很重要,直接影响人工智能模型的实际应用,而 且有助于把不可信的模型或者决策结果变成可信的 (3)特征图表征 当人工智能模型用于社会中的实际问题时,决策结 特征图表征是指从深度神经网络中学习一个可果的可信度就非常重要。比如人工智能用于医疗诊
化盈盈 等: 深度学习模型可解释性的研究进展 5 分类结果, 从而可以为 GAP 输出的每个特征图赋予 实际的含义。对模型输出结果进行解释时, 可以直接 对 GAP 的输出进行可视化, 即以热力图的形式可视 化出对应的特征图的加权和, 从而可以判断出对分 类结果具有显著作用的特征。 由于 CAM 方法中没有全连接层, 所以模型对输 入的尺寸没有要求, GAP 可以更加充分的利用空间 信息。而且没有全连接层的参数也增加了模型的鲁 棒性, 不易产生过拟合。但是 CAM 方法是通过修改 模型的结构, 然后重新训练新的模型以实现对黑盒 模型的解释。所以该方法会增加模型训练的成本, 而 且极大地限制了模型的应用场景。 图 2 CAM 方法 Figure 2 CAM Method Grad-CAM: 为了解决 CAM 方法存在的问题, Ramprasaath 等人提出了 Grad-CAM[44]方法生成对卷 积神经网络的可视化解释, 该方法利用加权梯度类 激活映射, 使任何目标特征的梯度经过最后一个卷 积层后产生大致的局部特征图, 显示出图像中对目 标预测分类重要的区域。Grad-CAM 对最终的加权和 加了一个ReLU层, 原因在于我们只关心对类别有正 影响的那些像素点, 如果不加 ReLU 层, 最终可能会 带入一些属于其他类别的像素, 从而影响解释的效 果。该方法将现有的细粒度可视化方法与 Grad-CAM 结合产生高分辨率的分类可视化特征, 并将其运用 到图像分类, 图像文字描述以及视觉问答, 如图 3。 Grad-CAM 适用于各种各样的 CNN 网络模型且不会 改变网络结构, 也不需要重新训练。 图 3 Grad-CAM 的图像文字描述解释 Figure 3 Image Captioning Explanations via Grad-CAM (3) 特征图表征 特征图表征是指从深度神经网络中学习一个可 解释性的语义图, 实现对模型内部知识的解构。利用 学习到的语义图来表征深度学习模型的知识, 由于 该语义图是可以人为理解的, 所以该语义图可以实 现对深度模型的解释。 张拳石等人[45]提出了解释图的概念, 它揭示了 隐藏在预训练的神经网络内部的知识层次, 即通过 在深度神经网络内部学习一张解释图来实现对深度 模型的解释。这种简单而有效的方法是以无监督的 方式自动从过滤器的特征图中发现目标部分, 而无 需标注信息。学习到的解释图有多层, 并且每一层对 应于神经网络中的卷积层。解释图中的每个节点代 表一个特定的部分, 从而可以从输入中解构出不同 的目标部分, 如图 4。我们将目标部分与每个过滤器 的特征分开。因此, 我们可以从单个过滤器中学习多 个节点。解释图中的边对节点之间的共同激活关系 和变形的空间关系进行建模。较高层中的节点代表 较大的部分, 而较低层中的节点描述该部分的子区 域。我们可以将解释图视为神经网络中间层特征的 压缩, 通过使用数千个图节点来表示数百万个神经 单位编码的信息, 从而实现对深度模型内部可解释 性知识的解构。 图 4 解释图表征 Figure 4 Explanatory Graph Representation 由于神经网络中有非常复杂的语义和结构知识, 很难以人类可理解的方式完全对神经网络进行解 释。而特征统计分析的方法则是通过对模型中的知 识进行解构表征, 实现模型的可解释, 这种方法是 对模型的隐藏知识进行逐步解释。 2.2.3 可解释模型 随着迁移学习的发展, 不仅能够实现模型结构 的迁移, 我们也可以将模型的可解释性进行迁移。利 用具有可解释性的模型, 比如线性模型、决策树模型, 通过将黑盒的深度学习模型迁移到这些可解释的模 型中, 从而可以解构这些不可解释的模型。 (1) 线性模型 理解预测结果背后的原因对于评估模型的可信 度很重要, 直接影响人工智能模型的实际应用, 而 且有助于把不可信的模型或者决策结果变成可信的 当人工智能模型用于社会中的实际问题时, 决策结 果的可信度就非常重要。比如人工智能用于医疗诊
Journal of○ ber securit信息安全学报,2020年5月,第5卷,第3期 断,人们要求模型给出诊断结果,并且要能对结 x,x2…x深度学习模型nn 果进行解释,一方面便于医生对整个决策过程进行 监督,另一方面确保人们可以基于模型的诊断结果 采取行动。线性模型由于其结构的简单而具有良好 决策树 ,y2,",y 的可解释性,我们可以借助线性模型的可解释性来 x1,x2,…,xn 解开神经网络的黑盒特性。该方法的核心是训练 图6利用决策树模型解释黑盒模型 个线性模型来学习黑盒模型的输出结果,从而可以 Figure6 Explaining Black- box Model via decision 在神经网络的输入和输出之间建立线性关系,即可 Tree 认为实现了对模型预测结果的可解释,如图5 决策树量化解释:张拳石等研究者使用决策 xx2…,x深度学习模型y,y2…y 树在语义层次上来量化解释深度神经网络预测的 逻辑,即对每个输入图像,确定哪些物体部位被 用于预测,并量化测量每个物体部位对预测的贡献 线性模型 度。研究者通过略微修正神经网络而解开模型内部 的知识表征,并学习一种决策树来解释神经网络的 图5利用线性模型解释黑盒模型 预测结果。我们学习到一种分类物体的神经网络,带 Figure 5 Explaining Black-box Model via Linear 有顶部卷积层的解开表征,其中每个过滤层表征 Model 个特定的物体部位。以一种由粗到精的方式,决策树 解码神经网络全连接层中隐藏的各种决策模式。给 DLIME:LME方法中也使用了线性模型来解定一张输入图像,我们来量化分析模型预测结果的 释深度模型的预测结果,为了解决LME中存在的问基本原理。为了对CNN做出量化解释,该方法学习 题, Muhammad提出了DLME方法 DeterministIc CNN高层卷积层中物体部位的明确表征,并挖掘存 LME)。考虑到层次聚类的确定性和实施简单性,而储在全连接层之中的潜在决策模式。然后决策树按 且层次聚类不需要聚类的先验知识,所以DLME方照由粗到细的方式组织这些潜在的决策模式,从而 法首先使用层次聚类对数据集进行聚类分组,然后实现对模型的解释。 生成一系列样本和相应的预测结果。不同于LME 决策树正则化:斯坦福大学的 Mike wu等利 方法直接加入随机扰动,该方法使用K近邻选择出用决策树模型的模仿性,构建一个模拟决策树来逼 和测试样本最相似的近邻数据点,然后利用选择出近训练后的神经网络的预测结果,从而实现对深度 的样本重新训练一个线性回归模型,以生成解释性模型的可解释。但是训练深度神经网络时会出现很 结果。 DLIME方法中使用的是自下而上的聚合聚类,多局部极小值,其中只有部分极小值容易模仿。因此, 根据最近的数据点和聚类之间的欧式距离计算相邻用这种方法可能最后会陷于一个难以模仿的极小值 聚类之间的相似性,其中很重要的一步的确定层次(生成一个巨型决策树,无法在合理时间内走完)。如 聚类的集群数目,因为数据集的聚类数目可能会影果我们想在优化过程中提高模仿性,则可以尝试找 响线性模型的解释效果。LIME和其他基于随机扰动到更具可解释性的极小值。完美情况是,我们训练 的可解释性方法在每一次迭代时生成的解释结果都个行为非常像决策树的神经网络,因为我们仍然想 在变化,而实验结果表明DLME方法生成的解释结利用神经网络的非线性。另一种方式是使用简单决 果始终都是稳定的。但是该方法存在一个问题,数据策树正则化深度神经网络,我们称之为树正则化。给 集中样本的数目会影响聚类的效果,从而影响局部定决策树与数据集,我们能计算平均路径长度以作 预测结果的准确性。 为模拟、解释平均样本的成本。通过把这一项加入 (2)决策树模型 到目标函数,我们就能鼓励神经网络生成简单的决 运用可解释性模型来解开深度神经网络的黑盒策树并惩罚复杂而巨大的决策树。 特性通常是基于模型预测结果进行的全局可解释,3可解释性的现状分析 该方法利用可解释性的模型来模拟黑盒模型的输出 结果,可以将复杂的深度模型迁移到可解释的模型 为了提高黑盒模型的可解释性,提出了很多可 中,从而实现对模型决策结果的解释,如图6。 解释性方法。一方面可以在模型训练后应用模型分
6 Journal of Cyber Security 信息安全学报, 2020 年 5 月, 第 5 卷, 第 3 期 断[46], 人们要求模型给出诊断结果, 并且要能对结 果进行解释, 一方面便于医生对整个决策过程进行 监督, 另一方面确保人们可以基于模型的诊断结果 采取行动。线性模型由于其结构的简单而具有良好 的可解释性, 我们可以借助线性模型的可解释性来 解开神经网络的黑盒特性。该方法的核心是训练一 个线性模型来学习黑盒模型的输出结果, 从而可以 在神经网络的输入和输出之间建立线性关系, 即可 认为实现了对模型预测结果的可解释, 如图 5。 图 5 利用线性模型解释黑盒模型 Figure 5 Explaining Black-box Model via Linear Model DLIME: LIME 方法中也使用了线性模型来解 释深度模型的预测结果, 为了解决LIME中存在的问 题, Muhammad 提出了 DLIME[47]方法(Deterministic LIME)。考虑到层次聚类的确定性和实施简单性, 而 且层次聚类不需要聚类的先验知识, 所以 DLIME 方 法首先使用层次聚类对数据集进行聚类分组, 然后 生成一系列样本和相应的预测结果。不同于 LIME 方法直接加入随机扰动, 该方法使用 K 近邻选择出 和测试样本最相似的近邻数据点, 然后利用选择出 的样本重新训练一个线性回归模型, 以生成解释性 结果。DLIME 方法中使用的是自下而上的聚合聚类, 根据最近的数据点和聚类之间的欧式距离计算相邻 聚类之间的相似性, 其中很重要的一步的确定层次 聚类的集群数目, 因为数据集的聚类数目可能会影 响线性模型的解释效果。LIME 和其他基于随机扰动 的可解释性方法在每一次迭代时生成的解释结果都 在变化, 而实验结果表明 DLIME 方法生成的解释结 果始终都是稳定的。但是该方法存在一个问题, 数据 集中样本的数目会影响聚类的效果, 从而影响局部 预测结果的准确性。 (2) 决策树模型 运用可解释性模型来解开深度神经网络的黑盒 特性通常是基于模型预测结果进行的全局可解释, 该方法利用可解释性的模型来模拟黑盒模型的输出 结果, 可以将复杂的深度模型迁移到可解释的模型 中, 从而实现对模型决策结果的解释, 如图 6。 图 6 利用决策树模型解释黑盒模型 Figure 6 Explaining Black-box Model via Decision Tree 决策树量化解释: 张拳石等研究者使用决策 树在语义层次上来量化解释深度神经网络预测的 逻辑[48], 即对每个输入图像, 确定哪些物体部位被 用于预测, 并量化测量每个物体部位对预测的贡献 度。研究者通过略微修正神经网络而解开模型内部 的知识表征, 并学习一种决策树来解释神经网络的 预测结果。我们学习到一种分类物体的神经网络, 带 有顶部卷积层的解开表征, 其中每个过滤层表征一 个特定的物体部位。以一种由粗到精的方式, 决策树 解码神经网络全连接层中隐藏的各种决策模式。给 定一张输入图像, 我们来量化分析模型预测结果的 基本原理。为了对 CNN 做出量化解释, 该方法学习 CNN 高层卷积层中物体部位的明确表征, 并挖掘存 储在全连接层之中的潜在决策模式。然后决策树按 照由粗到细的方式组织这些潜在的决策模式, 从而 实现对模型的解释。 决策树正则化: 斯坦福大学的 Mike Wu 等[49]利 用决策树模型的模仿性, 构建一个模拟决策树来逼 近训练后的神经网络的预测结果, 从而实现对深度 模型的可解释。但是训练深度神经网络时会出现很 多局部极小值, 其中只有部分极小值容易模仿。因此, 用这种方法可能最后会陷于一个难以模仿的极小值 (生成一个巨型决策树, 无法在合理时间内走完)。如 果我们想在优化过程中提高模仿性, 则可以尝试找 到更具可解释性的极小值。完美情况是, 我们训练一 个行为非常像决策树的神经网络, 因为我们仍然想 利用神经网络的非线性。另一种方式是使用简单决 策树正则化深度神经网络, 我们称之为树正则化。给 定决策树与数据集, 我们能计算平均路径长度以作 为模拟、解释平均样本的成本。通过把这一项加入 到目标函数, 我们就能鼓励神经网络生成简单的决 策树并惩罚复杂而巨大的决策树。 3 可解释性的现状分析 为了提高黑盒模型的可解释性, 提出了很多可 解释性方法。一方面可以在模型训练后应用模型分
化盈盈等:深度学习模型可解释性的研究进展 析的方法使机器学习模型可解释,即建立事后解释大地限制了医疗诊断系统的临床应用。此外,当医生 性。另一方面,我们可以将可解释与模型学习分开,之间的诊断结果不一致时,由人工智能医疗诊断系 即我们专注于与模型无关的解释方法 统提供参考性的意见则是非常重要的,所以为了医 对于深度学习模型,可解释性主要体现在三个疗诊断系统的临床应用,人工智能的可解释性就显 方面:第一,对于使用者来说,如果人工智能的技术得尤为重要。下面我们将会介绍目前可解释性在医 只是提一些建议或者帮助我们做决定,那么做决定疗诊断系统的典型应用,这是医疗诊断可解释性的 的人必须要能够理解这个决策,为什么人工智能系重要进展 统给他们提了这个建议。比如,医生借助人工智能诊 Google团队研究了一种具有可解释性的心血 断疾病时,要能理解为什么医疗诊断系统做这样的管疾病医疗诊断系统,主要利用视网膜图像作为参 建议;第二,对于受到AI(人工智能)影响的人,如果考,来预测和心血管疾病相关的各种风险因素,比 AⅠ自己做了决定,那些受到决定影响的人要能够理如年龄、血压、吸烟史等的。然后基于这些风险指 解这个决定;第三,对于开发者来说,理解了深度学标直接预测心血管疾病发作的可能性,这个医疗诊 习的黑盒子,可以通过提供更好的学习数据,改善断系统能够以70%的准确率识别出患有心血管疾病 方法和模型,提高系统能力。而且提高深度学习模型的图像。为了保证该诊断系统同时具有可解释性,可 的可解释性和透明度,将有助于模型的除错、引导未以利用注意力机制自动生成一幅热力图,用来显示 来的数据收集方向、为特征构建和人类决策提供真对诊断结果具有显著影响的像素。此外,加州大学圣 正可靠的信息,最终在人与模型之间建立信任 地亚哥分校的张康教授研发出了一种可以精确诊 3.1可解释性的实际应用 断致盲性视网膜疾病与肺炎的医疗诊断系统,该系 尽管人工智能已经广泛应用于许多领域,但是统可以在30秒内确定患者是否需要接受治疗,并且 具有可解释性的模型依然极度缺乏,从而会严重影具有95%的诊断准确性。更重要的一点是,这种医疗 响深度学习的可信度。比如在安全领域,人工智能在诊断系统具备可解释性。系统在给出诊断报告的同 安全攻防方面展现了巨大的应用潜能,但是安全从时,会向人们显示决策过程中神经网络所激活的区 业者不理解深度模型的决策依据,一方面无法信任域,即可以提供诊断的依据。这种可解释的医疗诊断 模型的判别结果,另一方面不能很好的诊断和追踪系统不仅可以为医生提供具有参考价值的诊断报告 模型的错误,这会极大地限制人工智能在该领域的而且可以实现对病变部位的定位,有助于为后续进 实际应用。随着可解释人工智能的不断发展,已经有步的治疗提供帮助。 很多相对成熟的可解释性方法,并且已经成功应用312推荐系统 于具体的领域,比如可解释的医疗诊断系统、可解释 推荐系统是给用户推荐其感兴趣的内容,并给 的推荐系统,以及可解释的金融算法模型 出个性化的建议,比如各式各样的购物消费平台。但 311医疗诊断系统 是大多数的推荐系统只是给出最终的结果,而缺少 在医疗领域,人工智能可以基于大量的病理数对推荐结果的解释。基于这些推荐系统的解释结果 据进行疾病的诊断和预防,医疗诊断系统借助深度可以有依据的选择更明智、更准确的推荐结果,从而 学习方法训练计算机进行医学图像诊断,比如根据提高用户对该推荐系统的信任程度s61 病变图像识别早期癌症,预测心脏疾病等。大量的实 目前可解释性的推荐系统主要有嵌入式和后处 验数据证明,人工智能用于医疗诊断的准确性甚至理两种。嵌入式的可解释是向推荐系统中融入可解 会超过医生,而且深度学习完全是基于大数据进行释的模块,属于建模中的可解释,嵌入式的方法适 诊断,可以避免一些可能发生的主观错误,所以人用于开发人员。可解释的模块通过选择输入对象的 工智能医疗诊断系统在辅助医生诊断方面,具有广特征,确定对推荐结果有显著影响的特征作为解释 泛的应用前景55 结果。比如向用户推荐物品时,用作解释的物品特征 医疗诊断系统在投入临床实践时,受限于人工可能是一些词语、语句等等。嵌入式的可解释方法 智能的不可解释性。理论上,深度模型应该以医生可通常具有很高的模型解释性,但是受限于建模的困 以理解的方式给出诊断结果,即模型是基于哪些医难,解释的质量和连贯性难以保证。而后处理的可解 疗图像特征和诊断标准进行推理的,最终得出了什释是对在推荐结果给出后进行解释,属于事后解释 么样的诊断报告s。但是由于深度模型缺乏可解释后处理的方法则更适合向普通用户进行解释。可解 性,导致医生无法理解模型的诊断结果,所以就极释的模块只用于处理推荐结果,和推荐系统无关
化盈盈 等: 深度学习模型可解释性的研究进展 7 析的方法使机器学习模型可解释, 即建立事后解释 性。另一方面, 我们可以将可解释与模型学习分开, 即我们专注于与模型无关的解释方法。 对于深度学习模型, 可解释性主要体现在三个 方面: 第一, 对于使用者来说, 如果人工智能的技术 只是提一些建议或者帮助我们做决定, 那么做决定 的人必须要能够理解这个决策, 为什么人工智能系 统给他们提了这个建议。比如, 医生借助人工智能诊 断疾病时, 要能理解为什么医疗诊断系统做这样的 建议; 第二, 对于受到 AI(人工智能)影响的人, 如果 AI 自己做了决定, 那些受到决定影响的人要能够理 解这个决定; 第三, 对于开发者来说, 理解了深度学 习的黑盒子, 可以通过提供更好的学习数据, 改善 方法和模型, 提高系统能力。而且提高深度学习模型 的可解释性和透明度, 将有助于模型的除错、引导未 来的数据收集方向、为特征构建和人类决策提供真 正可靠的信息, 最终在人与模型之间建立信任[10]。 3.1 可解释性的实际应用 尽管人工智能已经广泛应用于许多领域, 但是 具有可解释性的模型依然极度缺乏, 从而会严重影 响深度学习的可信度。比如在安全领域, 人工智能在 安全攻防方面展现了巨大的应用潜能, 但是安全从 业者不理解深度模型的决策依据, 一方面无法信任 模型的判别结果, 另一方面不能很好的诊断和追踪 模型的错误, 这会极大地限制人工智能在该领域的 实际应用。随着可解释人工智能的不断发展, 已经有 很多相对成熟的可解释性方法, 并且已经成功应用 于具体的领域, 比如可解释的医疗诊断系统、可解释 的推荐系统, 以及可解释的金融算法模型。 3.1.1 医疗诊断系统 在医疗领域, 人工智能可以基于大量的病理数 据进行疾病的诊断和预防, 医疗诊断系统借助深度 学习方法训练计算机进行医学图像诊断, 比如根据 病变图像识别早期癌症, 预测心脏疾病等。大量的实 验数据证明, 人工智能用于医疗诊断的准确性甚至 会超过医生, 而且深度学习完全是基于大数据进行 诊断, 可以避免一些可能发生的主观错误, 所以人 工智能医疗诊断系统在辅助医生诊断方面, 具有广 泛的应用前景[50-54]。 医疗诊断系统在投入临床实践时, 受限于人工 智能的不可解释性。理论上, 深度模型应该以医生可 以理解的方式给出诊断结果, 即模型是基于哪些医 疗图像特征和诊断标准进行推理的, 最终得出了什 么样的诊断报告[55]。但是由于深度模型缺乏可解释 性, 导致医生无法理解模型的诊断结果, 所以就极 大地限制了医疗诊断系统的临床应用。此外, 当医生 之间的诊断结果不一致时, 由人工智能医疗诊断系 统提供参考性的意见则是非常重要的, 所以为了医 疗诊断系统的临床应用, 人工智能的可解释性就显 得尤为重要。下面我们将会介绍目前可解释性在医 疗诊断系统的典型应用, 这是医疗诊断可解释性的 重要进展。 Google 团队[56]研究了一种具有可解释性的心血 管疾病医疗诊断系统, 主要利用视网膜图像作为参 考, 来预测和心血管疾病相关的各种风险因素, 比 如年龄、血压、吸烟史等的。然后基于这些风险指 标直接预测心血管疾病发作的可能性, 这个医疗诊 断系统能够以 70%的准确率识别出患有心血管疾病 的图像。为了保证该诊断系统同时具有可解释性, 可 以利用注意力机制自动生成一幅热力图, 用来显示 对诊断结果具有显著影响的像素。此外, 加州大学圣 地亚哥分校的张康教授[57]研发出了一种可以精确诊 断致盲性视网膜疾病与肺炎的医疗诊断系统, 该系 统可以在 30 秒内确定患者是否需要接受治疗, 并且 具有 95%的诊断准确性。更重要的一点是, 这种医疗 诊断系统具备可解释性。系统在给出诊断报告的同 时, 会向人们显示决策过程中神经网络所激活的区 域, 即可以提供诊断的依据。这种可解释的医疗诊断 系统不仅可以为医生提供具有参考价值的诊断报告, 而且可以实现对病变部位的定位, 有助于为后续进 一步的治疗提供帮助。 3.1.2 推荐系统 推荐系统是给用户推荐其感兴趣的内容, 并给 出个性化的建议, 比如各式各样的购物消费平台。但 是大多数的推荐系统只是给出最终的结果, 而缺少 对推荐结果的解释。基于这些推荐系统的解释结果, 可以有依据的选择更明智、更准确的推荐结果, 从而 提高用户对该推荐系统的信任程度[58-61]。 目前可解释性的推荐系统主要有嵌入式和后处 理两种。嵌入式的可解释是向推荐系统中融入可解 释的模块, 属于建模中的可解释, 嵌入式的方法适 用于开发人员。可解释的模块通过选择输入对象的 特征, 确定对推荐结果有显著影响的特征作为解释 结果。比如向用户推荐物品时, 用作解释的物品特征 可能是一些词语、语句等等。嵌入式的可解释方法 通常具有很高的模型解释性, 但是受限于建模的困 难, 解释的质量和连贯性难以保证。而后处理的可解 释是对在推荐结果给出后进行解释, 属于事后解释, 后处理的方法则更适合向普通用户进行解释。可解 释的模块只用于处理推荐结果, 和推荐系统无关
Journal of○ ber securit信息安全学报,2020年5月,第5卷,第3期 所以解释内容不受推荐系统影响。这种解释方法适疏可加子网络、正交投影和光滑函数,其中稀疏可加 用于不同的推荐系统,而且易于实现,但是模型的子网络保证了子网络中岭函数的稀疏性,即使得模 解释性较差。 型尽量简洁、紧致,用最少的岭函数来构建模型。正 可解释的推荐系统通常以特征、用户和物品作交投影为数据旋转提供了正交基,使得模型可辨识 为解释的参考依据,推荐系统在对推荐对象进行序性增强。光滑函数使得岭函数更加光滑。与其他模 列建模时,可以基于其中的细粒度特征对推荐结果型(如多层感知支持向量机、随机森林等)相比,可解 进行解释,这种以特征为媒介的解释需要判定用释性神经网络模型的预测精度并不低,所以这是 户对不同特征的感兴趣程度,从中找出最适合用于种更简化的高精度新型可解释神经网络模型。索信 解释的特征。基于用户进行解释的推荐系统需要对达期待能将这种新型的可解释性机器学习模型大规 用户的喜好进行分析,然后利用相似的用户作为解模应用于银行业务中去,帮助客户创造更大的价值 释的依据。以物品为媒介进行解释的推荐系统是根 2019年2月,波兰政府对银行法进行了修订,赋 据用户的购买历史、浏览列表等进行推荐,对这类推予客户在做出信贷拒绝时获得解释的权利。因此 荐结果的解释会增加用户对系统的接受程度。目前用户对决策过程享受知情权,即如果决策过程是自 具有可解释的推荐系统通常是将三者相结合,比如动的,银行需要解释做出决策的依据。如果银行使用 可以借助知识图谱建立特征、用户和物品之间的关基于机器学习的智能金融系统,那么系统的可解释 系,然后根据被推荐对象和推荐系统选择合适的媒性就是至关重要的。因为我们不仅需要快速的决策 介进行可解释性的推荐。 结果,而且要能对结果的准确性进行验证,同时保 Nan Wang等人6开发了一种多任务的可解释性证用户对整个系统的可理解性。具备可解释性的金 推荐系统(MTR,以提高用户对推荐结果的满意融系统不仅能获得较高准确性的预测结果,而且可 度。该系统将用于推荐的用户偏好建模和用于解释以取得用户的信任,减少深度学习模型在金融行业 的用户评论建模整合在一起,不仅可以对用户的偏的应用局限。 好进行推荐,而且可以给出用户对特定商品有所偏3.2可解释性的问题分析 好的依据,即对推荐结果进行解释。MIER系统可以 人工智能在许多领域已经投入使用,但是依然 利用用户的评论来给出被推荐物品的总体评估结果,缺乏模型的可解释性研究,具备可解释性的人工智 基于此可解释的推荐结果,可以增强用户对该推荐能应用很少,从而会导致模型的可信度和安全性降 系统的信任度。 低阿。神经网络的发展为机器学习和人工智能领域 3.1.3金融风控 带来了显著的突破。复杂的网络结构层出不穷,在计 算法可解释性和透明性是一个重要的人工智能算机视觉和自然语言处理领域获得了极大的成功。 问题,对算法的安全感、信赖感、认同度取决于算法除了模型的预测表现,透明度和可解释性也是机器 的透明性和可理解性。在智能金融领域,算法的学习模型是否值得信赖的重要考核标准。然而,大部 透明性尤为迫切和重要 分神经网络都是黑盒模型,其内部的决策过程很难 深度学习模型的不可解释性严重影响人工智能被人们了解。如果没有充分的可解释性,这些模型在 在金融风控领域的应用,比如一家银行使用人工智能医疗、金融等领域的应用将受到很多限制 产品推荐系统,旨在帮助理财产品的交叉销售。但是 随着深度学习模型的实际应用不断推广,人们 由于管理人员无法解释模型建议背后的基本原理,因对模型的要求也在不断增加。在保证模型准确性的 此无法采纳这些建议。此外,如果依据模型的不透明前提下,如何提高模型的可解释性已经成为了研究 建议直接采取行动,可能会带来严重的后果。金融风的热点。在涉及建模预测时,高风险环境中使用的 控模型所需的可解释性程度是银行根据风险偏好做模型需要解释性,因为我们可能会为预测的错误而 出政策的关键,比如将所有深度学习模型保持在相同付出巨大的代价,而具备可解释性的模型在面对 的高标准可解释性或根据模型的风险进行区分。因此,这些问题的时候可以对异常产生的原因进行追踪和 模型必须能够为决策提供明确的原因解释网。 定位。而低风险环境中,可解释性同样也是很有价值 索信达和香港大学团队已开发出一种新型基的。比如电影推荐系统的错误并不会产生严重的后 于网络结构约束的可解释性神经网络模型6,该模果,人们更关心推荐结果。但是在产品的研发和部署 型在保持较高预测精确度的同时,大幅度提升了模阶段之后,解释性可以为系统的调试和维护提供方 型的可解释性。该模型使用三种网络结构化约束:稀向,有利于理解报错的原因。基于此,我们不仅要知
8 Journal of Cyber Security 信息安全学报, 2020 年 5 月, 第 5 卷, 第 3 期 所以解释内容不受推荐系统影响。这种解释方法适 用于不同的推荐系统, 而且易于实现, 但是模型的 解释性较差。 可解释的推荐系统通常以特征、用户和物品作 为解释的参考依据, 推荐系统在对推荐对象进行序 列建模时, 可以基于其中的细粒度特征对推荐结果 进行解释[62], 这种以特征为媒介的解释需要判定用 户对不同特征的感兴趣程度, 从中找出最适合用于 解释的特征。基于用户进行解释的推荐系统需要对 用户的喜好进行分析, 然后利用相似的用户作为解 释的依据。以物品为媒介进行解释的推荐系统是根 据用户的购买历史、浏览列表等进行推荐, 对这类推 荐结果的解释会增加用户对系统的接受程度。目前 具有可解释的推荐系统通常是将三者相结合, 比如 可以借助知识图谱建立特征、用户和物品之间的关 系, 然后根据被推荐对象和推荐系统选择合适的媒 介进行可解释性的推荐。 Nan Wang等人[63]开发了一种多任务的可解释性 推荐系统(MTER), 以提高用户对推荐结果的满意 度。该系统将用于推荐的用户偏好建模和用于解释 的用户评论建模整合在一起, 不仅可以对用户的偏 好进行推荐, 而且可以给出用户对特定商品有所偏 好的依据, 即对推荐结果进行解释。MTER 系统可以 利用用户的评论来给出被推荐物品的总体评估结果, 基于此可解释的推荐结果, 可以增强用户对该推荐 系统的信任度。 3.1.3 金融风控 算法可解释性和透明性是一个重要的人工智能 问题, 对算法的安全感、信赖感、认同度取决于算法 的透明性和可理解性。在智能金融领域[64-65], 算法的 透明性尤为迫切和重要。 深度学习模型的不可解释性严重影响人工智能 在金融风控领域的应用, 比如一家银行使用人工智能 产品推荐系统, 旨在帮助理财产品的交叉销售。但是 由于管理人员无法解释模型建议背后的基本原理, 因 此无法采纳这些建议。此外, 如果依据模型的不透明 建议直接采取行动, 可能会带来严重的后果。金融风 控模型所需的可解释性程度是银行根据风险偏好做 出政策的关键, 比如将所有深度学习模型保持在相同 的高标准可解释性或根据模型的风险进行区分。因此, 模型必须能够为决策提供明确的原因解释[66]。 索信达和香港大学团队已开发出一种新型基 于网络结构约束的可解释性神经网络模型[67], 该模 型在保持较高预测精确度的同时, 大幅度提升了模 型的可解释性。该模型使用三种网络结构化约束: 稀 疏可加子网络、正交投影和光滑函数, 其中稀疏可加 子网络保证了子网络中岭函数的稀疏性, 即使得模 型尽量简洁、紧致, 用最少的岭函数来构建模型。正 交投影为数据旋转提供了正交基, 使得模型可辨识 性增强。光滑函数使得岭函数更加光滑。与其他模 型(如多层感知支持向量机、随机森林等)相比, 可解 释性神经网络模型的预测精度并不低, 所以这是一 种更简化的高精度新型可解释神经网络模型。索信 达期待能将这种新型的可解释性机器学习模型大规 模应用于银行业务中去, 帮助客户创造更大的价值。 2019年2月, 波兰政府对银行法进行了修订, 赋 予客户在做出信贷拒绝时获得解释的权利[68]。因此 用户对决策过程享受知情权, 即如果决策过程是自 动的, 银行需要解释做出决策的依据。如果银行使用 基于机器学习的智能金融系统, 那么系统的可解释 性就是至关重要的。因为我们不仅需要快速的决策 结果, 而且要能对结果的准确性进行验证, 同时保 证用户对整个系统的可理解性。具备可解释性的金 融系统不仅能获得较高准确性的预测结果, 而且可 以取得用户的信任, 减少深度学习模型在金融行业 的应用局限。 3.2 可解释性的问题分析 人工智能在许多领域已经投入使用, 但是依然 缺乏模型的可解释性研究, 具备可解释性的人工智 能应用很少, 从而会导致模型的可信度和安全性降 低[69]。神经网络的发展为机器学习和人工智能领域 带来了显著的突破。复杂的网络结构层出不穷, 在计 算机视觉和自然语言处理领域获得了极大的成功。 除了模型的预测表现, 透明度和可解释性也是机器 学习模型是否值得信赖的重要考核标准。然而, 大部 分神经网络都是黑盒模型, 其内部的决策过程很难 被人们了解。如果没有充分的可解释性, 这些模型在 医疗、金融等领域的应用将受到很多限制。 随着深度学习模型的实际应用不断推广, 人们 对模型的要求也在不断增加。在保证模型准确性的 前提下, 如何提高模型的可解释性已经成为了研究 的热点[70]。在涉及建模预测时, 高风险环境中使用的 模型需要解释性, 因为我们可能会为预测的错误而 付出巨大的代价[71], 而具备可解释性的模型在面对 这些问题的时候可以对异常产生的原因进行追踪和 定位。而低风险环境中, 可解释性同样也是很有价值 的。比如电影推荐系统的错误并不会产生严重的后 果, 人们更关心推荐结果。但是在产品的研发和部署 阶段之后, 解释性可以为系统的调试和维护提供方 向, 有利于理解报错的原因。基于此, 我们不仅要知
化盈盈等:深度学习模型可解释性的研究进展 道模型预测的结果,而且需要知道模型为什么会做4总结与展望 出预测,了解更多关于问题、数据以及模型可能失败 的信息,以规避模型预测的风险。 目前的深度学习技术仍不完美,有待于进一步 为了增强神经网络模型的透明性,研究者们已提升尤其是模型的可解释性问题。由于模型内部的 经探索出许多可解释方法来解读神经网络的决策结参数共享和复杂的特征处理,很难解释模型到底学 果,但是目前可解释性的研究成果仍然无法满足对习到了什么知识,以及如何做出最终的决策。此外 深度模型的要求,主要还存在以下问题 很难辨别通过深度学习训练出来的数学模型是如何 (1)对深度模型进行解释的效果不理想。尽管已获得特定的预测、推荐或决策的。因此深度学习模 经提出了很多的可解释性方法,有的方法也取得了型即使能够完成目标任务,获得的效用也可能有限 不错的解释结果。但是目前所能实现的可解释性仍特别是当预测或决策可能对个人、社会等产生不良 然达不到人们对神经网络的要求,深度模型内部的影响时。在这种情况下,用户有时需要知道运作背后 运作机制依旧不是人为可以理解的方式。目前的可的原理例如为什么算法可以从具有法律影响的事实 解释性研究更多的还是停留于初级探索阶段,尤其调查结果到具有监管影响的商业决策中给出推荐建 在安全领域,从而限制了人工智能的进一步应用 议,以及为什么某些因素在特定情况下如此重要。但 (2)缺乏统一的可解释性评价指标。由于可解释是出于安全性考虑以及伦理和法律的需要,算法的 的概念偏向于抽象,所以导致缺乏可信的评价指标,可解释性又是十分必要的。 更多的是定性评价可解释性方法,缺少统一的定量 尽管深度学习模型的可解释性已经取得了不错 指标。可解释性衡量指标的缺乏归根到底还是人们的研究成果,但是如何生成可解释性结果是一个非 对人工智能的可解释性理解不够,从而会影响可解常复杂的过程,目前依然存在很多的挑战。首先是研 释性的研究。 究者对模型可解释性的重视程度仍然不够,开发者 (3)可解释性的应用领域有限。已有的方法主要关注更多的还是精确度,而忽视了长期的用户体验 是用于解释深度学习在图像分析领域的应用,而在其次是目前的可解释性算法过于复杂,就极大地限 安全应用方面,比如逆向工程和恶意软件分析领域,制了可解释性模型的实际部署,最后是可解释在实 缺乏可解释的研究。而且现有的方法通常有较低的时性和普适性方面仍然需要改进,而且缺乏一套通 解释精度。对于拥有模糊边界的应用而言,比如图像用的可解释性系统,目前的可解释性对算法、模型和 识别,相对较低的解释精度是可以接受的。但是对于场景等有很强的依赖。由此可见,深度模型的可解释 安全应用,比如二进制分析而言,即使对于一个字性仍然有很长的路要走。 节的解释偏差也会导致严重的误解或者错误。 如何保持模型性能且具备可解释性将是未来一 此外,目前这些可解释性方法极大地受限于算个重要研究方向。人工智能系统的可解释性并不是 法、模型结构、应用场景等因素,尽管可以用来解释 个新问题,随着深度学习的成功和采用,它也在 深度学习模型的行为决策和预测结果,但是在以下不断发展,带来了更多样化、更先进的应用,也带来 几种情况下,可解释方法可能无法正常工作:(1)如果了更多的不透明性。更大及更复杂的模型使我们很 模型为互动建模,比如随机森林。由于目前的可解释难用人类的语言来解释为什么会做出某种决定,这 性方法仍然达不到实时、可互动的解释,所以解释互是人工智能系统在应用领域的使用率仍然很低的原 动建模的模型有待研究;(2)特征是否相互关联,特征因之一。因此可解释性将会是未来研究的热点,并且 之间的相互作用会极大地增加模型解释的难度,不仍然有许多值得研究的方向,比如可解释性的量化 仅要考虑特征的显著性,而且要评估不同特征之间实现对模型可解释性的统一度量,将可解释性指标 的关联性对模型决策的影响。目前的可解释方法并纳入模型的评估体系;利用更先进的认知理论模仿 没有考虑特征之间的相互作用;(3)如果模型没有正人脑的运作模式,从而设计出可解释的深度学习模 确地建模因果关系,由于可解释方法直接对模型进型,研究实时可交互的智能人机系统,在满足可解 行解释,而缺乏前期对模型建模正确性的测试,(4)如释性的前提下,实现人机交互 果解释方法的参数设置不正确,有些可解释方法很参考文献 大程度上取决于超参数的设置,比如LME方法中的 参数设置会影响解释结果,参数的稳定性直接会影u] LeCun Y, Bengio y, Hinton Gi Deep Learning). Nature,2015 响可解释性的可信度。 521(7553):436-444
化盈盈 等: 深度学习模型可解释性的研究进展 9 道模型预测的结果, 而且需要知道模型为什么会做 出预测, 了解更多关于问题、数据以及模型可能失败 的信息, 以规避模型预测的风险[72]。 为了增强神经网络模型的透明性, 研究者们已 经探索出许多可解释方法来解读神经网络的决策结 果, 但是目前可解释性的研究成果仍然无法满足对 深度模型的要求, 主要还存在以下问题: (1) 对深度模型进行解释的效果不理想。尽管已 经提出了很多的可解释性方法, 有的方法也取得了 不错的解释结果。但是目前所能实现的可解释性仍 然达不到人们对神经网络的要求, 深度模型内部的 运作机制依旧不是人为可以理解的方式。目前的可 解释性研究更多的还是停留于初级探索阶段, 尤其 在安全领域, 从而限制了人工智能的进一步应用。 (2) 缺乏统一的可解释性评价指标。由于可解释 的概念偏向于抽象, 所以导致缺乏可信的评价指标, 更多的是定性评价可解释性方法, 缺少统一的定量 指标。可解释性衡量指标的缺乏归根到底还是人们 对人工智能的可解释性理解不够, 从而会影响可解 释性的研究。 (3) 可解释性的应用领域有限。已有的方法主要 是用于解释深度学习在图像分析领域的应用, 而在 安全应用方面, 比如逆向工程和恶意软件分析领域, 缺乏可解释的研究。而且现有的方法通常有较低的 解释精度。对于拥有模糊边界的应用而言, 比如图像 识别, 相对较低的解释精度是可以接受的。但是对于 安全应用, 比如二进制分析而言, 即使对于一个字 节的解释偏差也会导致严重的误解或者错误。 此外, 目前这些可解释性方法极大地受限于算 法、模型结构、应用场景等因素, 尽管可以用来解释 深度学习模型的行为决策和预测结果, 但是在以下 几种情况下, 可解释方法可能无法正常工作: (1)如果 模型为互动建模, 比如随机森林。由于目前的可解释 性方法仍然达不到实时、可互动的解释, 所以解释互 动建模的模型有待研究; (2)特征是否相互关联, 特征 之间的相互作用会极大地增加模型解释的难度, 不 仅要考虑特征的显著性, 而且要评估不同特征之间 的关联性对模型决策的影响。目前的可解释方法并 没有考虑特征之间的相互作用; (3)如果模型没有正 确地建模因果关系, 由于可解释方法直接对模型进 行解释, 而缺乏前期对模型建模正确性的测试; (4)如 果解释方法的参数设置不正确, 有些可解释方法很 大程度上取决于超参数的设置, 比如LIME方法中的 参数设置会影响解释结果, 参数的稳定性直接会影 响可解释性的可信度。 4 总结与展望 目前的深度学习技术仍不完美, 有待于进一步 提升,尤其是模型的可解释性问题。由于模型内部的 参数共享和复杂的特征处理, 很难解释模型到底学 习到了什么知识, 以及如何做出最终的决策。此外, 很难辨别通过深度学习训练出来的数学模型是如何 获得特定的预测、推荐或决策的。因此深度学习模 型即使能够完成目标任务, 获得的效用也可能有限, 特别是当预测或决策可能对个人、社会等产生不良 影响时。在这种情况下, 用户有时需要知道运作背后 的原理,例如为什么算法可以从具有法律影响的事实 调查结果到具有监管影响的商业决策中给出推荐建 议, 以及为什么某些因素在特定情况下如此重要。但 是出于安全性考虑以及伦理和法律的需要, 算法的 可解释性又是十分必要的。 尽管深度学习模型的可解释性已经取得了不错 的研究成果, 但是如何生成可解释性结果是一个非 常复杂的过程, 目前依然存在很多的挑战。首先是研 究者对模型可解释性的重视程度仍然不够, 开发者 关注更多的还是精确度, 而忽视了长期的用户体验; 其次是目前的可解释性算法过于复杂, 就极大地限 制了可解释性模型的实际部署; 最后是可解释在实 时性和普适性方面仍然需要改进, 而且缺乏一套通 用的可解释性系统, 目前的可解释性对算法、模型和 场景等有很强的依赖。由此可见, 深度模型的可解释 性仍然有很长的路要走。 如何保持模型性能且具备可解释性将是未来一 个重要研究方向。人工智能系统的可解释性并不是 一个新问题, 随着深度学习的成功和采用, 它也在 不断发展, 带来了更多样化、更先进的应用, 也带来 了更多的不透明性。更大及更复杂的模型使我们很 难用人类的语言来解释为什么会做出某种决定, 这 是人工智能系统在应用领域的使用率仍然很低的原 因之一。因此可解释性将会是未来研究的热点, 并且 仍然有许多值得研究的方向, 比如可解释性的量化, 实现对模型可解释性的统一度量, 将可解释性指标 纳入模型的评估体系; 利用更先进的认知理论模仿 人脑的运作模式, 从而设计出可解释的深度学习模 型; 研究实时可交互的智能人机系统[2], 在满足可解 释性的前提下, 实现人机交互。 参考文献 [1] LeCun Y, Bengio Y, Hinton G. Deep Learning[J]. Nature, 2015, 521(7553): 436-444
10 Journal of○ ber securit信息安全学报,2020年5月,第5卷,第3期 [2 Wu F, Liao BB, Han Y H. Interpretability for Deep Leaming Aero Weaponry, 2019(1): 39-46 [18]Y. Geng, J. Chen, E. Jimenez-Ruiz, et al. Human-centric Transfer 吴飞,廖彬兵,韩亚洪,深度学习的可解释性[航空兵器 earning Explanation via Knowledge Graph [EB/OL]. 2019 2019(1):39-46.) arXiv:l90108547. 3] Ras G van Gerven M, Haselager P Explanation Methods in Deep [19]X. Wang, D. Wang, C. Xu, et al. Explainable Knowledge Graphs for Recommendation[C]. A44/ Springer Series on Challenges in Machine Learning. Cham 5329-5336 [4] Dong Y, Su H, Zhu J, et al, Towards Interpretable Deep Neural prediction and explanation in knowledge graphs[C]. WSDM. 2019 ArXiv Preprint ArXiv: 1901.09035 [21]Y. Bai, H. Ding, S. Bian, et al. SimgNN: A neural network ap- 5]R Guidotti, A Monreale, S Ruggieri, et al. A survey of methods proach to fast graph similarity computation[C]. WSDM. 2019 for explaining black box models]. ACM Comput. Surv. 2018, 22]R Chen, H. Chen, G Huang, et al. Explaining Neural Networks [6]Adadi A, Berrada M. Peeking Inside the Black-Box: A Survey on Semantically and Quantitatively[ EB/OL]. 2018: ar Xiv: 1812 Explainable Artificial Intelligence(XAD[] IEEE Access, 2018, 6:52138-52 [23] Hohman F, Park H, Robinson C, et al. Summit: Scaling Deep [7 Schwab P, Miladinovic D, Karlen w. Granger-Causal Attentive Learning Interpretability by Visualizing Activation and Attribution Mixtures of Experts: Learning Important Features with Neural Networks). Proceedings of the AAAl Conference on Artificial In- puter Graphics,2020,26(1):1096-1106 telligence,2019,33:4846-4853 [24]B. A. Plummer, M. I. Vasileva, V. Petsiuk, K. Saenko, et al. Why [ Humbird K D, Peterson J L, Mc Clarren R G Deep Neural Network do These Match? Explaining the Behavior of Image Simila Initialization with Decision TreesJJ. IEEE Transactions on Neural Models[EB/OL]. 2019: arXiv: 1905. 10797 Networks and Learning Systems, 2019, 30(5): 1286-I [25]S M. Lundberg. Explainable Al for Trees: From Local Explana [9mitchellTM,Machinelearninghttps://www.springer.com/jour. tions to Global Understanding J]. Nature Machine Intelligence 2019:1-72. 0] Bao W, Yue J, Rao Y L A Deep Learning Framework for Financial [26 Gi Castanon, J Byme. Visualizing and quantifying discriminative Time Series Using Stacked Autoencoders and Long-short Term features for face recognition[C]. 13th IEEE Int. Conf. Autom. Face Memory]. PLos One, 2017, 12(7):e0180944 Gesture Recognition, 2018: 16-23 I1 C Molnar, Interpretable Machine Learning. A Guide for Making [27] Richard Webster B, Kwon S Y, Clarizio C, et al. Visual Psycho- ing Face Recognition algorithms able M]. Computer Vision-ECCV 2018 Cham: Springer Interna [12Q. shi Zhang, S. chun Zhu. Visual interpretability for deep learn nal ing,2018:263-281 ing: a survey P]. Front. Inf. Technol Electron. Eng. 2018, 19(1): [28] W. Nie, Y. Zhang, A. B Patel. A theoretical explanation for per- plexing behaviors of backpropagation-based visualizations[C [13]J. Wang, L. Gou, w. Zhang, et al. Deepvid deep visual interpreta- 35th Int Conf. Mach. Learn ICML 2018: 6105-6114 tion and diagnosis for image classifiers via knowledge distilla [29]Zhou B L, Sun YY, Bau D, et al. Interpretable Basis Decomp tion[J]. IEEE Trans. Vis. Comput. Graph. 2019, 25(6): 2168-2180 tion for Visual Explanation [M]. Computer Vision-ECCV 2018 [14] B. Zhou. Interpretable representation learming for visual intelli- Cham: Springer International Publishing, 2018: 122-138 gence[C]. MITEECS, 2018: 256-263 30 S. Hooker, D. Erhan, P-J. Kindermans, et al. Evaluating Feature [15]J. Shi, H. Zhang, J. Li Explainable and Explicit Visual Reasonin portance Estimates[EB/OL 2018: ar Xiv 1806. 10758. over Scene Graphs[EB/OL]. 2018: arXiv: 1812.018 31 Ventura F, Cerquitelli T, Giacalone F Black-Box Model Explained [16 B. Zhou, D Bau, A. Oliva, et al. Interpreting Deep Visual Repre- through an Assessment of Its Interpretable Features). New Trends sentations via Network Dissection(C). IEEE Trans. Pattern Ana in Databases and Information Systems, 2018: 138-149 Mach. Intell.2018,11(2):26-35 32]R C. Fong, A. Vedaldi Interpretable Explanations of Black Boxes [17 M. Aubry, B C. Russell. Understanding deep features with com- by Meaningful Perturbation[C]. IEEE Int. Conf. Comput. 2017 puter-generated imagery[C]. IEEE Int. Conf. Comput. 2015 3449-3457
10 Journal of Cyber Security 信息安全学报, 2020 年 5 月, 第 5 卷, 第 3 期 [2] Wu F, Liao B B, Han Y H. Interpretability for Deep Learning[J]. Aero Weaponry, 2019(1):39-46. (吴飞, 廖彬兵, 韩亚洪. 深度学习的可解释性[J]. 航空兵器, 2019(1):39-46.) [3] Ras G, van Gerven M, Haselager P. Explanation Methods in Deep Learning: Users, Values, Concerns and Challenges[M]. The Springer Series on Challenges in Machine Learning. Cham: Springer International Publishing, 2018: 19-36. [4] Dong Y , Su H , Zhu J , et al, Towards Interpretable Deep Neural Networks by Leveraging Adversarial Examples[EB/OL]. 2017: ArXiv Preprint ArXiv:1901.09035. [5] R. Guidotti, A. Monreale, S. Ruggieri, et al. A survey of methods for explaining black box models[J]. ACM Comput. Surv. 2018, 51(5):18-36. [6] Adadi A, Berrada M. Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI)[J]. IEEE Access, 2018, 6:52138-52160. [7] Schwab P, Miladinovic D, Karlen W. Granger-Causal Attentive Mixtures of Experts: Learning Important Features with Neural Networks[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:4846-4853. [8] Humbird K D, Peterson J L, McClarren R G. Deep Neural Network Initialization with Decision Trees[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(5):1286-1295. [9] Mitchell T M, Machine learning, https://www.springer.com/journal/10994, 1997. [10] Bao W, Yue J, Rao Y L. A Deep Learning Framework for Financial Time Series Using Stacked Autoencoders and Long-short Term Memory[J]. PLoS One, 2017, 12(7):e0180944. [11] C. Molnar, Interpretable Machine Learning. A Guide for Making Black Box Models Explainable. https://www.cornell.edu/video/ kilian-weinberger-interpretable-machine-learning. 2019. [12] Q. shi Zhang , S. chun Zhu. Visual interpretability for deep learning: a survey[J]. Front. Inf. Technol. Electron. Eng. 2018, 19(1): 27-39. [13] J. Wang, L. Gou, W. Zhang, et al. Deepvid: deep visual interpretation and diagnosis for image classifiers via knowledge distillation[J]. IEEE Trans. Vis. Comput. Graph. 2019, 25(6): 2168-2180. [14] B. Zhou. Interpretable representation learning for visual intelligence[C]. MIT EECS, 2018:256-263. [15] J. Shi, H. Zhang, J. Li. Explainable and Explicit Visual Reasoning over Scene Graphs[EB/OL]. 2018: arXiv:1812.01855. [16] B. Zhou, D. Bau, A. Oliva, et al. Interpreting Deep Visual Representations via Network Dissection[C]. IEEE Trans. Pattern Anal. Mach. Intell. 2018, 11(2):26-35. [17] M. Aubry, B. C. Russell. Understanding deep features with computer-generated imagery[C]. IEEE Int. Conf. Comput. 2015: 2875-2883. [18] Y. Geng, J. Chen, E. Jimenez-Ruiz, et al. Human-centric Transfer Learning Explanation via Knowledge Graph [EB/OL]. 2019: arXiv:1901.08547. [19] X. Wang, D. Wang, C. Xu, et al. Explainable Reasoning over Knowledge Graphs for Recommendation[C]. AAAI Conf. 2019: 5329-5336. [20] W. Zhang, B. Paudel, W. Zhang, et al. Interaction embeddings for prediction and explanation in knowledge graphs[C]. WSDM. 2019: 96-104. [21] Y. Bai, H. Ding, S. Bian, et al. SimgNN: A neural network approach to fast graph similarity computation[C]. WSDM. 2019: 384-392. [22] R. Chen, H. Chen, G. Huang, et al. Explaining Neural Networks Semantically and Quantitatively[EB/OL]. 2018: arXiv:1812. 07169. [23] Hohman F, Park H, Robinson C, et al. Summit: Scaling Deep Learning Interpretability by Visualizing Activation and Attribution Summarizations[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(1):1096-1106. [24] B. A. Plummer, M. I. Vasileva, V. Petsiuk, K. Saenko, et al. Why do These Match? Explaining the Behavior of Image Similarity Models[EB/OL]. 2019: arXiv:1905.10797. [25] S. M. Lundberg. Explainable AI for Trees: From Local Explanations to Global Understanding[J]. Nature Machine Intelligence, 2019: 1-72. [26] G. Castañón , J. Byrne. Visualizing and quantifying discriminative features for face recognition[C]. 13th IEEE Int. Conf. Autom. Face Gesture Recognition, 2018: 16-23. [27] RichardWebster B, Kwon S Y, Clarizio C, et al. Visual Psychophysics for Making Face Recognition Algorithms more Explainable[M]. Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 263-281. [28] W. Nie, Y. Zhang, A. B. Patel. A theoretical explanation for perplexing behaviors of backpropagation-based visualizations[C]. 35th Int. Conf. Mach. Learn. ICML. 2018: 6105-6114. [29] Zhou B L, Sun Y Y, Bau D, et al. Interpretable Basis Decomposition for Visual Explanation[M]. Computer Vision–ECCV 2018. Cham: Springer International Publishing, 2018: 122-138. [30] S. Hooker, D. Erhan, P.-J. Kindermans,et al. Evaluating Feature Importance Estimates[EB/OL]. 2018: arXiv:1806.10758. [31] Ventura F, Cerquitelli T, Giacalone F. Black-Box Model Explained through an Assessment of Its Interpretable Features[J]. New Trends in Databases and Information Systems, 2018: 138-149. [32] R. C. Fong , A. Vedaldi. Interpretable Explanations of Black Boxes by Meaningful Perturbation[C]. IEEE Int. Conf. Comput. 2017: 3449-3457