正在加载图片...
.1234· 工程科学学报.第41卷,第10期 来学习每一层的位宽.该控制器可以在精度和压缩 5 网络蒸馏 比之间进行权衡.在给定量化位宽序列情况下,量 化器采用量化距离作为量化过程中权重重要性 网络蒸馏或知识蒸馏(knowledge distillation, 判据. KD)的概念最早由Bucilucǎ等[s6]提出.他们训练一 评价:目前对于图像分类任务,许多量化技术都 个带有伪数据标记强分类器的压缩/集成模型,并恢 可以达到无损压缩,但是当任务变得复杂时,例如图 复原始较大网络输出.但这项工作仅限于浅层模 像分割等等,使用量化通常会对模型精度带来巨大 型.后来Ba与Caruana[s)]将深度较广的网络压缩 影响.尤其对于模型较大的卷积神经网络,比如 成较浅的网络,其中压缩模型模仿复杂模型学习函 GoogLeNet,二值网络会使网络精度大幅下降.此 数.知识蒸馏方法主要思想是通过softmax学习类 外,目前存在的二值化策略都是基于简单的矩阵相 分布输出,将知识从一个大的教师模型转化到一个 乘,这忽略了二值化对精度损失的影响 小的学生模型 Hinton等ss]引入知识蒸馏压缩框架,使用教师 4网络分解 模型最终softmax的输出对学生模型的输出进行监 卷积神经网络主要包括卷积层以及全连接层, 督,使得教师模型的信息可以传递到学生模型中. 卷积层计算量较大而参数量较少,而全连接层与之 知识蒸馏算法虽然简单,但在各种图像分类任务中 相反.因此,网络分解主要是将矩阵二维张量奇异 显示出良好效果.Romero等[s]提出当模型层数较 值分解(singular value decomposition,SVD)s推广 多时,直接使用教师模型的输出对学生模型进行监 到三维卷积核或者使用多个一维张量外积求和逼近 督会比较困难,因此提出Fitnets模型,将教师模型 来减少网络推断的时间 的中间层输出作为对学生模型的中级监督信息,使 Jaderberg等Is提出通过利用跨通道或滤波器 得两者中间层的响应尽量一致.如图3所示,首先 使用中级监督训练学生模型前半部分参数,然后再 冗余来构造一个在空间域中秩为1的低秩滤波器. 利用教师模型最后输出监督整个学生模型参数训 使用秩为1的卷积核作用在输入图上产生相互独立 练.其中,W,表示教师网络的训练参数,W、表示 的M个基本特征图.此方法与架构无关,可以很容 FitNet的训练参数,Wa表示教师网络从第一层到 易应用到现有的CPU和GPU卷积框架上,从而提 高性能.Kim等[]首先进行变分贝叶斯矩阵分解 第h层的训练参数,Wciu表示FitNet从第一层到 指导层的训练参数,W,是回归参数.Chen等o提 的秩选择,然后再进行核张量Tucker分解,最后再 出使用网络生长方法来获得学生模型网络结构. 次对模型进行调整.Denil等[s]提出给定每个特征 与Hoiem61]提出分别从横向和纵向上进行网络生 一部分权重值就可能准确预测剩下的值,并进一步 长,再利用知识蒸馏方法训练学生模型 说明不仅参数值可以被预测,而且许多参数甚至不 Zagoruyko与Komodakis[62]将注意力图(atten- 需要学习.Clvi等[s]提出塔克张量层去代替全连 tion ma即)作为知识从教师模型迁移到学生模型.注 接层的稠密矩阵,将这些权值矩阵视为高阶权值张 意力机制很早就被用在自然语言处理中,后来被证 量展开.利用张量分解压缩特性,提出利用权张量 明将注意力应用在卷积神经网络中也可以取得不错 多途径性质来有效减少参数个数的框架.塔克分解 效果.Mirzadeh等]引入多级知识蒸馏,利用一个 将权张量分解为核张量和因子矩阵.通过将矩阵导 中等规模网络来弥合学生和教师之间鸿沟.研究教 数的概念扩展到张量,在这个框架内重新推导反向 师助理粒度影响,并将该框架扩展到多级蒸馏.并 传播,通过计算梯度,利用的塔克分解物理可解释性 对教师助理知识提炼框架进行实证和理论分析 来洞察训练 Lu等64]为了同时达到良好性能和可解释性,将深 评价:网络分解方法对于模型压缩与加速非常 度神经网络引入决策树.将此问题表示为一个多输 直接,但是由于涉及到矩阵分解操作,实现起来并不 出回归问题,实验表明,在相同树深水平上,学生模 容易.此外,由于不同层含有不同的信息,因此全局 型比普通决策树具有更好精度性能 压缩对于网络至关重要,但目前方法是按层来进行 Yang等[6s]叼引入快照蒸馏(snapshot distillation, 矩阵分解,这不能进行全局参数压缩.最后,矩阵分 SD),这是第一个支持师生一代优化的框架.快照 解需要大量模型重训练已达到与原模型一致的收敛 蒸馏的概念非常简单:不借用前辈监督信号,而是从 效果 同一代人早期时代中提取信息,同时确保教师和学工程科学学报,第 41 卷,第 10 期 来学习每一层的位宽. 该控制器可以在精度和压缩 比之间进行权衡. 在给定量化位宽序列情况下,量 化器采用量化距离作为量化过程中权重重要性 判据. 评价:目前对于图像分类任务,许多量化技术都 可以达到无损压缩,但是当任务变得复杂时,例如图 像分割等等,使用量化通常会对模型精度带来巨大 影响. 尤其对于模型较大的卷积神经网络,比如 GoogLeNet,二值网络会使网络精度大幅下降. 此 外,目前存在的二值化策略都是基于简单的矩阵相 乘,这忽略了二值化对精度损失的影响. 4 网络分解 卷积神经网络主要包括卷积层以及全连接层, 卷积层计算量较大而参数量较少,而全连接层与之 相反. 因此,网络分解主要是将矩阵二维张量奇异 值分解( singular value decomposition, SVD) [51] 推广 到三维卷积核或者使用多个一维张量外积求和逼近 来减少网络推断的时间. Jaderberg 等[52]提出通过利用跨通道或滤波器 冗余来构造一个在空间域中秩为 1 的低秩滤波器. 使用秩为 1 的卷积核作用在输入图上产生相互独立 的 M 个基本特征图. 此方法与架构无关,可以很容 易应用到现有的 CPU 和 GPU 卷积框架上,从而提 高性能. Kim 等[53] 首先进行变分贝叶斯矩阵分解 的秩选择,然后再进行核张量 Tucker 分解,最后再 次对模型进行调整. Denil 等[54] 提出给定每个特征 一部分权重值就可能准确预测剩下的值,并进一步 说明不仅参数值可以被预测,而且许多参数甚至不 需要学习. Calvi 等[55] 提出塔克张量层去代替全连 接层的稠密矩阵,将这些权值矩阵视为高阶权值张 量展开. 利用张量分解压缩特性,提出利用权张量 多途径性质来有效减少参数个数的框架. 塔克分解 将权张量分解为核张量和因子矩阵. 通过将矩阵导 数的概念扩展到张量,在这个框架内重新推导反向 传播,通过计算梯度,利用的塔克分解物理可解释性 来洞察训练. 评价:网络分解方法对于模型压缩与加速非常 直接,但是由于涉及到矩阵分解操作,实现起来并不 容易. 此外,由于不同层含有不同的信息,因此全局 压缩对于网络至关重要,但目前方法是按层来进行 矩阵分解,这不能进行全局参数压缩. 最后,矩阵分 解需要大量模型重训练已达到与原模型一致的收敛 效果. 5 网络蒸馏 网络蒸馏或知识蒸馏 ( knowledge distillation, KD)的概念最早由 Bucilu伲 等[56] 提出. 他们训练一 个带有伪数据标记强分类器的压缩/ 集成模型,并恢 复原始较大网络输出. 但这项工作仅限于浅层模 型. 后来 Ba 与 Caruana [57] 将深度较广的网络压缩 成较浅的网络,其中压缩模型模仿复杂模型学习函 数. 知识蒸馏方法主要思想是通过 softmax 学习类 分布输出,将知识从一个大的教师模型转化到一个 小的学生模型. Hinton 等[58]引入知识蒸馏压缩框架,使用教师 模型最终 softmax 的输出对学生模型的输出进行监 督,使得教师模型的信息可以传递到学生模型中. 知识蒸馏算法虽然简单,但在各种图像分类任务中 显示出良好效果. Romero 等[59] 提出当模型层数较 多时,直接使用教师模型的输出对学生模型进行监 督会比较困难,因此提出 Fitnets 模型,将教师模型 的中间层输出作为对学生模型的中级监督信息,使 得两者中间层的响应尽量一致. 如图 3 所示,首先 使用中级监督训练学生模型前半部分参数,然后再 利用教师模型最后输出监督整个学生模型参数训 练. 其中,WT 表示教师网络的训练参数,WS 表示 FitNet 的训练参数,WHint 表示教师网络从第一层到 第 h 层的训练参数,WGuided表示 FitNet 从第一层到 指导层的训练参数,Wr 是回归参数. Chen 等[60] 提 出使用网络生长方法来获得学生模型网络结构. Li 与 Hoiem [61]提出分别从横向和纵向上进行网络生 长,再利用知识蒸馏方法训练学生模型. Zagoruyko 与 Komodakis [62] 将注意力图( atten鄄 tion map)作为知识从教师模型迁移到学生模型. 注 意力机制很早就被用在自然语言处理中,后来被证 明将注意力应用在卷积神经网络中也可以取得不错 效果. Mirzadeh 等[63]引入多级知识蒸馏,利用一个 中等规模网络来弥合学生和教师之间鸿沟. 研究教 师助理粒度影响,并将该框架扩展到多级蒸馏. 并 对教师助理知识提炼框架进行实证和理论分析. Liu 等[64]为了同时达到良好性能和可解释性,将深 度神经网络引入决策树. 将此问题表示为一个多输 出回归问题,实验表明,在相同树深水平上,学生模 型比普通决策树具有更好精度性能. Yang 等[65]引入快照蒸馏( snapshot distillation, SD),这是第一个支持师生一代优化的框架. 快照 蒸馏的概念非常简单:不借用前辈监督信号,而是从 同一代人早期时代中提取信息,同时确保教师和学 ·1234·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有