正在加载图片...
·1232· 工程科学学报.第41卷,第10期 他方法的重要区别.He等2]提出软滤波器剪枝加 非结构化的连续体显式调整.Cheng等[]提出使用 速深度神经网络的推断。此方法允许被剪掉滤波器 循环推测方法去代替全连接层中卷积线性预测.此 在训练中继续更新,这使得网络有更大模型容量与 循环结构可以持续减少内存占用并可以使用快速傅 优化空间,并且可以减少对预训练模型依赖,使得模 里叶变换来加速计算,大大降低模型空间复杂度. 型能从头训练 以上三种方法均是基于结构化矩阵方式来减少内存 He等2]提出一种递归两阶段通道剪枝算法去 消耗并加速网络的推理以及训练速度 有效地对每层进行剪枝.首先利用lass0回归方法 Chen等[)]提出利用网络本身冗余去实现模型 对卷积通道进行选择性删除,然后利用最小二乘重 压缩的哈希网络.此方法利用低成本哈希函数随机 构删除之前网络响应.进一步将此方法推广到多分 地将有连接权重分组到哈希桶中,同一个哈希桶内 支情况,在保证性能前提下降低模型参数量与计算 参数将共享同一值,这些参数可以使用反向传播进 量.H血等[2]认为存在的剪枝方法直接重构特征图 行调整.哈希程序不需要额外内存消耗并可以大大 误差来进行通道选择,这忽略了特征图特征和语义 提高网络的速度.Shi等[34]在哈希网络基础上进一 分布以及通道对整体表现的真正贡献,因此提出同 步提出函数哈希网络.对于网络每一层,使用多个 时利用基础模型输出以及被剪枝的分类损失函数去 低成本哈希函数在压缩空间取值,然后使用小重构 监督每层通道选择,尤其引入附加损失去编码基础 网络去恢复那一层输出.Han等1)使用k均值聚类 模型和被剪枝模型特征图内特征与语义分布差异, 的方法进行参数共享.首先修剪不重要连接,重新 通过同时考虑重构误差、附加损失和分类损失,被剪 训练稀疏连接网络,然后使用权重共享连接权重,再 枝后模型精度获得极大提高.Zhuang等[2]提出一 对量化后的权重和码本使用霍夫曼编码,以进一步 个简单有效判别力驱动的通道剪枝去选择真正有助 降低压缩率.如图2所示,对训练好的模型,使用k 于判别力的通道.引入判别力驱动损失函数去增加 均值聚类算法确定每一层共享权重数值,所有属于 网络中间层判别力并通过考虑附加损失和重构误差 同一簇权重共享相同权值,但是对不同层权值不共 去选择出每层最有判别力通道,最后提出一种贪婪 享.将n个原始权重W={w1,w2,…,wn}划分到k 算法去进行通道选择以及参数优化.He与Han[2] 个聚类中C={c1,c2,…,cn},n≥k,最小化簇内平 提出一种自动深度压缩方法,利用强化学习去采样 方和(within-cluster sum of squares,WCSS): 设计空间实现了更高的模型压缩率 argmin∑∑lw-c,2 (1) 评价:网络剪枝是为了移除网络中冗余参数,从 i=1 weci 而降低网络复杂度,提高网络泛化能力.因此最重 Wu等3]提出对权重使用k均值算法,通过仅 要的问题就是如何确定网络中哪些参数是冗余的, 记录k个聚类中心以及权重分配指数进行权值共享 不论是哪种剪枝方式都必须要面对此问题.为此, 压缩算法.Lu等6]提出对循环神经网络(recurrent 许多方法已经被提出来,但是目前并没有明确准则 neural networks,RNN)使用低秩分解与参数共享机 来解决此问题.大多数方法都需要反复实验来确 制减少循环结构冗余.i等)提出权重采样网 定,这造成人力与物力的极大浪费.此外,剪枝后的 络,从一个紧密可学习参数集中采样来学习模型参 网络有可能需要额外的存储开销以及计算库,这对 数.这种方式天然迫使网络参数共享,且可以同时 于模型在嵌入式或者移动设备上部署造成影响. 提升权重与计算共享,最终结合权值量化可以在模 2参数共享 型大小以及计算量上取得巨大下降.Yang等)提 出卷积滤波器表示的权重共享方法进行模型压缩. 参数共享或者权值共享主要思想就是让网络中 该方法通过学习三维张量滤波器(filter summary, 多个参数共享同一值,但是具体实现方式不尽相同. S),减少卷积层参数个数.将卷积滤波器作为重叠 Appuswamy等[o]推导了高效能神经形态结构中网 三维块从张量滤波器中提取,并在它们重叠区域将 络表示与块托普利兹卷积矩阵之间关系,并在此基 附近滤波器加入张量滤波器共享权重. 础上利用一组结构化卷积矩阵来实现深度卷积网络 评价:参数共享主要是让网络中多个参数共享 并取得显著效果.Sindhwani等[3]提出统一框架来 一值.此方法从原理上可以极大的降低模型参数 学习一大类以低秩为特征的结构参数矩阵.结构化 量,但是在实际操作过程中,通常会需要进行k均值 转换允许快速函数和梯度评估,并跨越丰富参数共 聚类,模型最终结果与聚类效果息息相关.而且,如 享配置范围,其统计建模能力可以沿着从结构化到 果过分追求模型压缩比,使用参数共享后模型精度工程科学学报,第 41 卷,第 10 期 他方法的重要区别. He 等[25] 提出软滤波器剪枝加 速深度神经网络的推断. 此方法允许被剪掉滤波器 在训练中继续更新,这使得网络有更大模型容量与 优化空间,并且可以减少对预训练模型依赖,使得模 型能从头训练. He 等[26]提出一种递归两阶段通道剪枝算法去 有效地对每层进行剪枝. 首先利用 lasso 回归方法 对卷积通道进行选择性删除,然后利用最小二乘重 构删除之前网络响应. 进一步将此方法推广到多分 支情况,在保证性能前提下降低模型参数量与计算 量. Hu 等[27]认为存在的剪枝方法直接重构特征图 误差来进行通道选择,这忽略了特征图特征和语义 分布以及通道对整体表现的真正贡献,因此提出同 时利用基础模型输出以及被剪枝的分类损失函数去 监督每层通道选择,尤其引入附加损失去编码基础 模型和被剪枝模型特征图内特征与语义分布差异, 通过同时考虑重构误差、附加损失和分类损失,被剪 枝后模型精度获得极大提高. Zhuang 等[28] 提出一 个简单有效判别力驱动的通道剪枝去选择真正有助 于判别力的通道. 引入判别力驱动损失函数去增加 网络中间层判别力并通过考虑附加损失和重构误差 去选择出每层最有判别力通道,最后提出一种贪婪 算法去进行通道选择以及参数优化. He 与 Han [29] 提出一种自动深度压缩方法,利用强化学习去采样 设计空间实现了更高的模型压缩率. 评价:网络剪枝是为了移除网络中冗余参数,从 而降低网络复杂度,提高网络泛化能力. 因此最重 要的问题就是如何确定网络中哪些参数是冗余的, 不论是哪种剪枝方式都必须要面对此问题. 为此, 许多方法已经被提出来,但是目前并没有明确准则 来解决此问题. 大多数方法都需要反复实验来确 定,这造成人力与物力的极大浪费. 此外,剪枝后的 网络有可能需要额外的存储开销以及计算库,这对 于模型在嵌入式或者移动设备上部署造成影响. 2 参数共享 参数共享或者权值共享主要思想就是让网络中 多个参数共享同一值,但是具体实现方式不尽相同. Appuswamy 等[30] 推导了高效能神经形态结构中网 络表示与块托普利兹卷积矩阵之间关系,并在此基 础上利用一组结构化卷积矩阵来实现深度卷积网络 并取得显著效果. Sindhwani 等[31] 提出统一框架来 学习一大类以低秩为特征的结构参数矩阵. 结构化 转换允许快速函数和梯度评估,并跨越丰富参数共 享配置范围,其统计建模能力可以沿着从结构化到 非结构化的连续体显式调整. Cheng 等[32]提出使用 循环推测方法去代替全连接层中卷积线性预测. 此 循环结构可以持续减少内存占用并可以使用快速傅 里叶变换来加速计算,大大降低模型空间复杂度. 以上三种方法均是基于结构化矩阵方式来减少内存 消耗并加速网络的推理以及训练速度. Chen 等[33]提出利用网络本身冗余去实现模型 压缩的哈希网络. 此方法利用低成本哈希函数随机 地将有连接权重分组到哈希桶中,同一个哈希桶内 参数将共享同一值,这些参数可以使用反向传播进 行调整. 哈希程序不需要额外内存消耗并可以大大 提高网络的速度. Shi 等[34] 在哈希网络基础上进一 步提出函数哈希网络. 对于网络每一层,使用多个 低成本哈希函数在压缩空间取值,然后使用小重构 网络去恢复那一层输出. Han 等[14]使用 k 均值聚类 的方法进行参数共享. 首先修剪不重要连接,重新 训练稀疏连接网络,然后使用权重共享连接权重,再 对量化后的权重和码本使用霍夫曼编码,以进一步 降低压缩率. 如图 2 所示,对训练好的模型,使用 k 均值聚类算法确定每一层共享权重数值,所有属于 同一簇权重共享相同权值,但是对不同层权值不共 享. 将 n 个原始权重 W = {w1 ,w2 ,…,wn }划分到 k 个聚类中 C = { c1 ,c2 ,…,cn },n垌k,最小化簇内平 方和(within鄄cluster sum of squares, WCSS): argmin C 移 k i = 1 移w沂ci |w - ci | 2 (1) Wu 等[35]提出对权重使用 k 均值算法,通过仅 记录 k 个聚类中心以及权重分配指数进行权值共享 压缩算法. Lu 等[36]提出对循环神经网络 (recurrent neural networks,RNN) 使用低秩分解与参数共享机 制减少循环结构冗余. Jin 等[37] 提出权重采样网 络,从一个紧密可学习参数集中采样来学习模型参 数. 这种方式天然迫使网络参数共享,且可以同时 提升权重与计算共享,最终结合权值量化可以在模 型大小以及计算量上取得巨大下降. Yang 等[38] 提 出卷积滤波器表示的权重共享方法进行模型压缩. 该方法通过学习三维张量滤波器 ( filter summary, FS),减少卷积层参数个数. 将卷积滤波器作为重叠 三维块从张量滤波器中提取,并在它们重叠区域将 附近滤波器加入张量滤波器共享权重. 评价:参数共享主要是让网络中多个参数共享 一值. 此方法从原理上可以极大的降低模型参数 量,但是在实际操作过程中,通常会需要进行 k 均值 聚类,模型最终结果与聚类效果息息相关. 而且,如 果过分追求模型压缩比,使用参数共享后模型精度 ·1232·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有