正在加载图片...
李江昀等:深度神经网络模型压缩综述 ·1231· 针对以上非结构化剪枝的问题,Anwar等I16]率 可以解决传统剪枝方法的局部重要性判断以及无法 先提出了结构化剪枝的概念.方法的主要思想是定 弥补的剪枝过程,原理类似于随机神经元失活 义显著性变量并进行贪婪剪枝,提出核内定步长粒 1.3卷积核剪枝与通道剪枝 度将细粒度剪枝转化为粗粒度剪枝如通道剪枝或卷 卷积核剪枝与通道剪枝都属于粗粒度剪枝,剪 积核剪枝.核内定步长粒度核心思想为作用在同一 枝后模型使用现有硬件与计算库即可进行训练,并 输入特征图上的卷积核必须采用相同的步长和偏 且最终可以获得更高压缩率与更短计算时间.虽然 置,作用在不同特征图上的卷积核步长与偏置可以 两种剪枝方式出发点并不一样,但其本质上是一致 不同.进行贪婪剪枝时,提出使用进化粒子滤波器 的,特征图与卷积核具有对应关系,减去某一个特征 决定网络连接重要性,使用此方法可以保证网络准 图的同时与其相连的卷积核也将被一起移除 确率下降更低.Wen等[]提出了结构稀疏化的学 i等2】提出基于卷积核剪枝的压缩技术.主 习方法去对深度神经网络的结构如卷积核、通道、层 要思想是对网络输出精度影响较小的卷积核进行剪 深度等进行正则化.此方法可以从一个更大的深度 枝,通过移除网络中那些卷积核以及其所连接的特 神经网络学习到一个更紧凑的模型来减少参数量和 征图,网络计算量大幅度降低.假设网络第i个卷 计算量,而且可以获得对深度神经网络硬件友好的 积层的输入通道数为n:,h,/w:分别表示输入特征图 结构化稀疏方式来加速网络验证并可以提高最终分 的宽和高,通过卷积层得到的输出特征图通道数为 类精度 n:+1,h:+1/o:+1分别表示输出特征图的宽和高,卷积 Lin等8]提出结构化稀疏正则化.此方法结合 核的宽和高均为k,那么卷积核矩阵F:∈ 两种不同的结构化稀疏方式,充分协调全局输出与 Rxxx,进行卷积运算的计算量为n+1n,2h+1 局部剪枝操作去自适应的剪枝滤波器.此外,提出 w:+1·根据图1所示,当一个滤波器F,被剪枝掉, 基于拉格朗日乘法器的交替更新机制在提升网络结 它所对应的特征图x+,也将被移除,这减少了 构化稀疏性与优化识别损失之间进行更替.Go n,2h+10:+1次计算量.此外,下一层中与被剪枝掉 等9]提出一种新的模型压缩方法称为“动态网络手 特征图所对应的滤波器也将被移除,这又减少几+2 术”(dynamic network surgery),它可以通过网络训 k2h:+2心:+2的计算量.为了衡量每层滤波器重要性, 练动态地进行网络剪枝.与之前使用贪婪方式进行 提出通过计算每一层滤波器权重绝对值之和,然后 剪枝的方法比,此方法将连接拼接的思想结合到整 移除那些求和值较小的滤波器以及所对应特征图的 个网络剪枝过程中可以有效避免错误剪枝且使其成 方法.为了在多个层同时进行剪枝,又提出独立剪 为连续过程.Jia等[2o】提出Drop Prunning剪枝技 枝和贪婪剪枝两种方式.对于剪枝后网络训练也提 术,此方法也采用标准的迭代剪枝-重训练的策略, 出两种训练方式,分别为多次剪枝操作后再训练与 提出在每一个剪枝阶段都使用策略,随机删除一部 剪枝和重训练交替进行,针对不同难度网络采用不 分不重要权重和随机恢复一些被剪枝权重,此方法 同训练方式 卷积核矩阵 F 图1减去一个滤波器及其对应的特征图[2)] Fig.I Pruning a filter and its corresponding feature map(2] Hu等[2]提出网络修剪(network trimming),通 多滤波器之间的激活是高度不相关的,因此利用这 过对在大型数据集上神经元的输出分析来减掉不重 点来剔除大量只具有少量信息的滤波器而不影响模 要部分来迭代地优化网络.Tian等s]发现,在最后 型性能.Luo等2]提出将滤波器剪枝当作一个优化 一个卷积层中,经过线性判别分析(linear discrimi-- 问题,并且揭示对滤波器进行剪枝需要基于从下一 nant analysis,LDA)分析发现对于每一个类别,有很 层计算得到统计信息而非当前层,这是此方法与其李江昀等: 深度神经网络模型压缩综述 针对以上非结构化剪枝的问题,Anwar 等[16] 率 先提出了结构化剪枝的概念. 方法的主要思想是定 义显著性变量并进行贪婪剪枝,提出核内定步长粒 度将细粒度剪枝转化为粗粒度剪枝如通道剪枝或卷 积核剪枝. 核内定步长粒度核心思想为作用在同一 输入特征图上的卷积核必须采用相同的步长和偏 置,作用在不同特征图上的卷积核步长与偏置可以 不同. 进行贪婪剪枝时,提出使用进化粒子滤波器 决定网络连接重要性,使用此方法可以保证网络准 确率下降更低. Wen 等[17] 提出了结构稀疏化的学 习方法去对深度神经网络的结构如卷积核、通道、层 深度等进行正则化. 此方法可以从一个更大的深度 神经网络学习到一个更紧凑的模型来减少参数量和 计算量,而且可以获得对深度神经网络硬件友好的 结构化稀疏方式来加速网络验证并可以提高最终分 类精度. Lin 等[18]提出结构化稀疏正则化. 此方法结合 两种不同的结构化稀疏方式,充分协调全局输出与 局部剪枝操作去自适应的剪枝滤波器. 此外,提出 基于拉格朗日乘法器的交替更新机制在提升网络结 构化稀疏性与优化识别损失之间进行更替. Guo 等[19]提出一种新的模型压缩方法称为“动态网络手 术冶(dynamic network surgery), 它可以通过网络训 练动态地进行网络剪枝. 与之前使用贪婪方式进行 剪枝的方法比,此方法将连接拼接的思想结合到整 个网络剪枝过程中可以有效避免错误剪枝且使其成 为连续过程. Jia 等[20] 提出 Drop Prunning 剪枝技 术,此方法也采用标准的迭代剪枝鄄鄄重训练的策略, 提出在每一个剪枝阶段都使用策略,随机删除一部 分不重要权重和随机恢复一些被剪枝权重,此方法 可以解决传统剪枝方法的局部重要性判断以及无法 弥补的剪枝过程,原理类似于随机神经元失活. 1郾 3 卷积核剪枝与通道剪枝 卷积核剪枝与通道剪枝都属于粗粒度剪枝,剪 枝后模型使用现有硬件与计算库即可进行训练,并 且最终可以获得更高压缩率与更短计算时间. 虽然 两种剪枝方式出发点并不一样,但其本质上是一致 的,特征图与卷积核具有对应关系,减去某一个特征 图的同时与其相连的卷积核也将被一起移除. Li 等[21] 提出基于卷积核剪枝的压缩技术. 主 要思想是对网络输出精度影响较小的卷积核进行剪 枝,通过移除网络中那些卷积核以及其所连接的特 征图,网络计算量大幅度降低. 假设网络第 i 个卷 积层的输入通道数为 ni,hi / wi 分别表示输入特征图 的宽和高,通过卷积层得到的输出特征图通道数为 ni + 1 ,hi + 1 / wi + 1分别表示输出特征图的宽和高,卷积 核 的 宽 和 高 均 为 k, 那 么 卷 积 核 矩 阵 Fi 沂 R ni 伊 ni + 1 伊 k 伊 k ,进行卷积运算的计算量为 ni + 1 ni k 2 hi + 1 wi + 1 . 根据图 1 所示,当一个滤波器 Fi,j被剪枝掉, 它所对应的特征图 xi + 1,j 也将被移除, 这减少了 ni k 2 hi + 1wi + 1次计算量. 此外,下一层中与被剪枝掉 特征图所对应的滤波器也将被移除,这又减少 ni + 2 k 2 hi + 2wi + 2的计算量. 为了衡量每层滤波器重要性, 提出通过计算每一层滤波器权重绝对值之和,然后 移除那些求和值较小的滤波器以及所对应特征图的 方法. 为了在多个层同时进行剪枝,又提出独立剪 枝和贪婪剪枝两种方式. 对于剪枝后网络训练也提 出两种训练方式,分别为多次剪枝操作后再训练与 剪枝和重训练交替进行,针对不同难度网络采用不 同训练方式. 图 1 减去一个滤波器及其对应的特征图[21] Fig. 1 Pruning a filter and its corresponding feature map [21] Hu 等[22] 提出网络修剪( network trimming),通 过对在大型数据集上神经元的输出分析来减掉不重 要部分来迭代地优化网络. Tian 等[23] 发现,在最后 一个卷积层中,经过线性判别分析( linear discrimi鄄 nant analysis, LDA)分析发现对于每一个类别,有很 多滤波器之间的激活是高度不相关的,因此利用这 点来剔除大量只具有少量信息的滤波器而不影响模 型性能. Luo 等[24]提出将滤波器剪枝当作一个优化 问题,并且揭示对滤波器进行剪枝需要基于从下一 层计算得到统计信息而非当前层,这是此方法与其 ·1231·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有