正在加载图片...
李江昀等:深度神经网络模型压缩综述 ·1235· 教师网络 FitNet W w w. Weud-argminWW) W=argmin Lo(W。) W。 W Wcuiad W W W W yue W W (a) b C 图3使用知识提示方式训练学生网络[].(a)教师学生网络:(b)暗示学习:(c)知识蒸馏 Fig.3 Training a student network using hints[s):(a)teacher and student networks;(b)hints training:(c)knowledge distillation 生之间差异足够大.Wang等[6o]设计了专用模型压 引入了注意力的损失 缩框架.基于知识蒸馏范式,联合使用暗示学习、蒸 评价:基于网络蒸馏的方法可以使很深的模型 馏学习和自学习来训练一个紧凑、快速神经网络. 变得更浅,从而帮助网络减少大量计算量.但是目 从繁琐模型中提取知识是自适应有界的,并小心地 前网络蒸馏主要适用在分类任务上,对于检测、分割 加以扰动,以加强差异隐私.进一步提出一种查询 等复杂任务应用有很大的局限性,而且学生模型的 样本选择方法,以减少查询数量和控制隐私.Lee 设计缺少重要指导导致学生模型很难能训成功,这 等6)提出基于奇异值分解的知识提取方法.此外, 些都导致网络蒸馏方法还无法成为模型压缩的主流 将知识转移定义为一个自我监督任务,并提出连续 方法 接收教师模型信息的方法.Lan等6]提出用于在线 6紧凑网络设计 蒸馏的实时本地集成学习策略.Liu等[]将经过不 同初始化训练的多个模型集合提取为一个模型.除 以上模型压缩方法大多是针对已经训练好的模 了学习如何匹配集成对参考状态的概率输出外,还 型,通过各种手段降低其模型大小.然而紧凑网络 使用集成来探索搜索空间,并从探索中遇到的状态 设计是为了设计更加精简有效的网络,这是模型压 中学习. 缩另一个新颖的思路.近年来,紧凑网络设计取得 目前网络蒸馏方法大多用于分类任务,但对于 了巨大进展,大致方向可以分为紧凑卷积结构和网 更加复杂的检测、分割任务也存在一定应用.目标 络结构搜索 检测:Li等0]将网络蒸馏的方法引入到目标检测 紧凑卷积结构:卷积操作是深度神经网络中最 中,提出利用区域候选框采样后的特征图进行蒸馏, 重要的操作,网络的参数量与计算量占比颇高,因此 使用L2损失减小大小网络上局部特征采样结果的 很多工作都尝试对通常的卷积操作做出改进.lan- 差别,在检测任务上取得了一定的效果.Chen等] dola等[s]提出SqueezeNet,.大量使用1×1卷积核来 将himt学习、软目标和硬目标的方法同时引入到目 替换3×3卷积,降低3×3卷积核的通道数,延迟下 标检测蒸馏里面,通过对不同的损失函数赋予不同 采样等,最终参数量比AlexNet!)少50倍但精度类 权重实现整个网络的训练.Wang等[n)通过实验说 似.谷歌团队Howard等[6-]提出了MobileNet系列 明直接使用分类的蒸馏方式在检测中表现不足的原 移动端网络模型.MobileNetvl提出使用深度可分离 因,并在此基础上引入区域周边的锚点作为监督信 卷积(depth-wise separable convolution)来替代传统 息,避免了完全模拟时的背景噪声问题.语义分割: 卷积,极大的减少了网络的参数量:MobileNetv2.在 u等[]将相对嫡损失,注意力图损失以及生成对 MobileNetv1的基础上引入Linear Bottlenecks逆残差 抗网络(generative adversarial network,GAN)损失 结构来实现非线性修正单元的输入信息完整性,并 一起引入到分割任务中,在分割表现上取得了一定 提出Inverted Residuals来提升模型的表现能力; 提升.He等[4]提出使用自动编码器对教师模型特 MobileNetv3采用了神经网络搜索的方法,网络中引 征进行迁移使其更容易被学生模型所学习,同时也 入了SENet[例]中的轻量级注意力模块,在表现与李江昀等: 深度神经网络模型压缩综述 图 3 使用知识提示方式训练学生网络[59] . (a)教师学生网络;(b)暗示学习;(c)知识蒸馏 Fig. 3 Training a student network using hints [59] : (a)teacher and student networks; (b)hints training;(c)knowledge distillation 生之间差异足够大. Wang 等[66] 设计了专用模型压 缩框架. 基于知识蒸馏范式,联合使用暗示学习、蒸 馏学习和自学习来训练一个紧凑、快速神经网络. 从繁琐模型中提取知识是自适应有界的,并小心地 加以扰动,以加强差异隐私. 进一步提出一种查询 样本选择方法,以减少查询数量和控制隐私. Lee 等[67]提出基于奇异值分解的知识提取方法. 此外, 将知识转移定义为一个自我监督任务,并提出连续 接收教师模型信息的方法. Lan 等[68]提出用于在线 蒸馏的实时本地集成学习策略. Liu 等[69] 将经过不 同初始化训练的多个模型集合提取为一个模型. 除 了学习如何匹配集成对参考状态的概率输出外,还 使用集成来探索搜索空间,并从探索中遇到的状态 中学习. 目前网络蒸馏方法大多用于分类任务,但对于 更加复杂的检测、分割任务也存在一定应用. 目标 检测:Li 等[70] 将网络蒸馏的方法引入到目标检测 中,提出利用区域候选框采样后的特征图进行蒸馏, 使用 L2 损失减小大小网络上局部特征采样结果的 差别,在检测任务上取得了一定的效果. Chen 等[71] 将 hint 学习、软目标和硬目标的方法同时引入到目 标检测蒸馏里面,通过对不同的损失函数赋予不同 权重实现整个网络的训练. Wang 等[72] 通过实验说 明直接使用分类的蒸馏方式在检测中表现不足的原 因,并在此基础上引入区域周边的锚点作为监督信 息,避免了完全模拟时的背景噪声问题. 语义分割: Liu 等[73]将相对熵损失,注意力图损失以及生成对 抗网络 ( generative adversarial network, GAN) 损失 一起引入到分割任务中,在分割表现上取得了一定 提升. He 等[74]提出使用自动编码器对教师模型特 征进行迁移使其更容易被学生模型所学习,同时也 引入了注意力的损失. 评价:基于网络蒸馏的方法可以使很深的模型 变得更浅,从而帮助网络减少大量计算量. 但是目 前网络蒸馏主要适用在分类任务上,对于检测、分割 等复杂任务应用有很大的局限性,而且学生模型的 设计缺少重要指导导致学生模型很难能训成功,这 些都导致网络蒸馏方法还无法成为模型压缩的主流 方法. 6 紧凑网络设计 以上模型压缩方法大多是针对已经训练好的模 型,通过各种手段降低其模型大小. 然而紧凑网络 设计是为了设计更加精简有效的网络,这是模型压 缩另一个新颖的思路. 近年来,紧凑网络设计取得 了巨大进展,大致方向可以分为紧凑卷积结构和网 络结构搜索. 紧凑卷积结构:卷积操作是深度神经网络中最 重要的操作,网络的参数量与计算量占比颇高,因此 很多工作都尝试对通常的卷积操作做出改进. Ian鄄 dola 等[75]提出 SqueezeNet,大量使用 1 伊 1 卷积核来 替换 3 伊 3 卷积,降低 3 伊 3 卷积核的通道数,延迟下 采样等,最终参数量比 AlexNet [2] 少 50 倍但精度类 似. 谷歌团队 Howard 等[76鄄鄄78]提出了 MobileNet 系列 移动端网络模型. MobileNetv1 提出使用深度可分离 卷积( depth鄄wise separable convolution) 来替代传统 卷积,极大的减少了网络的参数量;MobileNetv2 在 MobileNetv1 的基础上引入 Linear Bottlenecks 逆残差 结构来实现非线性修正单元的输入信息完整性,并 提出 Inverted Residuals 来提升模型的表现能力; MobileNetv3 采用了神经网络搜索的方法,网络中引 入了 SENet [79] 中的轻量级注意力模块,在表现与 ·1235·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有