第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202106023 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20211012.1937.008.html 基于广泛激活深度残差网络的图像超分辨率重建 王凡超,丁世飞2 (1.中国矿业大学计算机科学与技术学院,江苏徐州221116:2.矿山数字化教育部工程研究中心,江苏徐州 221116) 摘要:为了得到更好的图像评价指标,均方误差损失是大多数现有的与深度学习方法结合的图像超分辨率技 术都在使用的目标优化函数,但大多数算法构建出来的图像因严重丢失高频信息和模糊的纹理边缘而不能达 到视觉感受的需求。针对上述问题,本文提出融合感知损失的广泛激活的非常深的残差网络的超分辨率模型, 通过引入感知损失、对抗损失,并结合平均绝对误差组成新的损失函数,通过调整不同损失项的权重对损失函 数进行优化,提高了对低分率图像的特征重构能力,高度还原图像缺失的高频信息。本文选取峰值信噪比 (peak signal--to-noise ratio,PSNR)和结构相似度(structural similarity,SSIM)两个国际公认的评判指标作为客观评 判标准,更换数据集进行实验分析、结果对比,在主观视觉上直观观察效果,结果从不同角度证明本文方法性 能较对比模型有所提升,证明了引入感知损失后,模型更好地构建了低分辨率图的纹理细节,可以获得更好的 视觉体验。 关键词:深度学习:超分辨率;广泛激活;感知损失:特征重构;峰值信噪比;结构相似度:视觉体验 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2022)02-0440-07 中文引用格式:王凡超,丁世飞.基于广泛激活深度残差网络的图像超分辨率重建J.智能系统学报,2022,17(2):440-446. 英文引用格式:WANG Fanchao,,DING Shifei.Image super--resolution reconstruction based on widely activated deep residual net- works Jl.CAAI transactions on intelligent systems,2022,17(2):440-446. Image super-resolution reconstruction based on widely activated deep residual networks WANG Fanchao',DING Shifei2 (1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;2.Mine Di- gitization Engineering Research Center of Ministry of Education of the People's Republic of China,Xuzhou 221116,China) Abstract:To obtain good image evaluation indexes,the mean squared error loss is used as an objective optimization function in image super-resolution technologies combined with the deep learning method.However,most constructed images cannot meet the visual experience requirement due to the serious loss of high-frequency signals and fuzzy tex- ture edges.In response to the above problems,in this paper,we propose a super-resolution model for a widely activated deep residual network combining perceptual loss.A new loss function is formed by introducing perceptual and ad- versarial losses and is optimized by adjusting the weight of different losses.The loss function is optimized to improve the feature reconstruction ability of low-resolution images and highly restore the high-frequency information missing from the images.Two internationally recognized evaluation indicators,namely,peak signal-to-noise ratio and structural similarity,are selected as objective evaluation criteria.A comparative analysis is performed on different datasets,and the images produced are subjected to direct and subjective observations.The results show that the performance of the proposed method is improved in different aspects in comparison with the compared models.Hence,after the introduc- tion of perceptual loss,the model can effectively reconstruct the texture details of low-resolution images and offer an outstanding visual experience. Keywords:deep learning;super-resolution;extensive activation,perceptual loss,feature reconstruction;peak signal-to- noise ratio;structural similarity;visual experience 收稿日期:2021-06-15.网络出版日期:2021-10-13. 基金项目:国家自然科学基金项目(61976216,61672522). 如今,图像处理技术和信息交互快速发展,图 通信作者:丁世飞.E-mail:dingsf@cumt.edu.cn. 像作为极其重要的信息载体,在公共安防、医学
DOI: 10.11992/tis.202106023 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211012.1937.008.html 基于广泛激活深度残差网络的图像超分辨率重建 王凡超1 ,丁世飞1,2 (1. 中国矿业大学 计算机科学与技术学院,江苏 徐州 221116; 2. 矿山数字化教育部工程研究中心,江苏 徐州 221116) 摘 要:为了得到更好的图像评价指标,均方误差损失是大多数现有的与深度学习方法结合的图像超分辨率技 术都在使用的目标优化函数,但大多数算法构建出来的图像因严重丢失高频信息和模糊的纹理边缘而不能达 到视觉感受的需求。针对上述问题,本文提出融合感知损失的广泛激活的非常深的残差网络的超分辨率模型, 通过引入感知损失、对抗损失,并结合平均绝对误差组成新的损失函数,通过调整不同损失项的权重对损失函 数进行优化,提高了对低分率图像的特征重构能力,高度还原图像缺失的高频信息。本文选取峰值信噪比 (peak signal-to-noise ratio, PSNR) 和结构相似度 (structural similarity, SSIM) 两个国际公认的评判指标作为客观评 判标准,更换数据集进行实验分析、结果对比,在主观视觉上直观观察效果,结果从不同角度证明本文方法性 能较对比模型有所提升,证明了引入感知损失后,模型更好地构建了低分辨率图的纹理细节,可以获得更好的 视觉体验。 关键词:深度学习;超分辨率;广泛激活;感知损失;特征重构;峰值信噪比;结构相似度;视觉体验 中图分类号:TP391.41 文献标志码:A 文章编号:1673−4785(2022)02−0440−07 中文引用格式:王凡超, 丁世飞. 基于广泛激活深度残差网络的图像超分辨率重建 [J]. 智能系统学报, 2022, 17(2): 440–446. 英文引用格式:WANG Fanchao, DING Shifei. Image super-resolution reconstruction based on widely activated deep residual networks[J]. CAAI transactions on intelligent systems, 2022, 17(2): 440–446. Image super-resolution reconstruction based on widely activated deep residual networks WANG Fanchao1 ,DING Shifei1,2 (1. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China; 2. Mine Digitization Engineering Research Center of Ministry of Education of the People’s Republic of China, Xuzhou 221116, China) Abstract: To obtain good image evaluation indexes, the mean squared error loss is used as an objective optimization function in image super-resolution technologies combined with the deep learning method. However, most constructed images cannot meet the visual experience requirement due to the serious loss of high-frequency signals and fuzzy texture edges. In response to the above problems, in this paper, we propose a super-resolution model for a widely activated deep residual network combining perceptual loss. A new loss function is formed by introducing perceptual and adversarial losses and is optimized by adjusting the weight of different losses. The loss function is optimized to improve the feature reconstruction ability of low-resolution images and highly restore the high-frequency information missing from the images. Two internationally recognized evaluation indicators, namely, peak signal-to-noise ratio and structural similarity, are selected as objective evaluation criteria. A comparative analysis is performed on different datasets, and the images produced are subjected to direct and subjective observations. The results show that the performance of the proposed method is improved in different aspects in comparison with the compared models. Hence, after the introduction of perceptual loss, the model can effectively reconstruct the texture details of low-resolution images and offer an outstanding visual experience. Keywords: deep learning; super-resolution; extensive activation; perceptual loss; feature reconstruction; peak signal-tonoise ratio; structural similarity; visual experience 如今,图像处理技术和信息交互快速发展,图 像作为极其重要的信息载体,在公共安防、医学 收稿日期:2021−06−15. 网络出版日期:2021−10−13. 基金项目:国家自然科学基金项目 (61976216,61672522). 通信作者:丁世飞. E-mail: dingsf@cumt.edu.cn. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
第2期 王凡超,等:基于广泛激活深度残差网络的图像超分辨率重建 ·441· 诊疗、卫星遥感等应用领域中愈发重要,但环境 本文的主要贡献包括以下方面: 和噪声等因素的干扰,导致图像出现质量低或者 1)使用权重归一化代替批量归一化,提高了 细节的纹理信息缺乏等问题。图像超分辨率 学习率和训练、测试准确率; (super resolution,.SR),特别单图像超分辨率(single 2)使用预训练的深度模型提取微活前的特征 image super-resolution,SISR),几十年来受到广泛 得到感知损失,通过构建的图像与真实图像计算 关注。单图像超分辨率为了通过技术手段将低分 对抗损失,并结合图像的像素损失,构建了新损 辨率(Iow-resolution,.LR)图像重新构建为高分辨 失函数; 率(high-resolution,HR)图像,使其具有良好的高 3)使用全局跳跃连接避免梯度消失的问题, 频、纹理和边缘信息。经过几十年发展,图像超 促进梯度的反向传播,从而加快训练过程: 分辨率逐渐被分为基于插值-)、基于重建和基 4)实验证明了本文提出的损失函数改进在不 于学习的三大类。 同数据集上可以取得更好的评价指标,在主观视 基于插值和重建超分辨率算法属于传统算 觉效果也有所提高: 法,都运用经典的数学模型算法,但随着放大因 5)本文提供了高倍重建任务中优化损失函 子的增大,这两种算法提供的用于重新构建高 数、调整残差块等新的研究方向。 分辨率图像的细节信息资源不足的弊端逐渐显 1相关工作 露,使得这些传统算法很难达到重建高频信息的 目的。 11超分辨率网络 深度学习高速发展以来,图像重建领域也 从超分辨率卷积神经网络(SRCNN)首次提 始使用深度学习模型来完成特定任务。2014年, 出端到端卷积神经网络作为新的映射方式开始, Dong等o最先将卷积神经网络应用到图像超分 超分辨率与卷积神经网络模型越来越密切。 辨率任务上,提出了超分辨率卷积神经网络(su- 1.1.1上采样 per-resolution convolutional neural network,SR- 超分辨率卷积神经网络(SRCNN)对图像进 CNN)模型,该模型进行端到端的图像对训练,在 行上采样,在高分辨率特征空间上计算卷积导致 当时大大提高了重建效果,同时也开辟了超分辨 其效率是低分辨率空间的S2倍(S为放大因子). 率技术的新时代。2016年,Kim等m将超分辨率 因此效率低下。另一个有效的替代方案是子像素 任务与残差思想进行结合,提出了使用非常深的 卷积l(sub-pixel convolution),该卷积比反卷积层 卷积网络超分辨率(super--resolution using very deep 引入更少的伪像误差。 convolution network,VDSR)模型,同时将网络的 1.1.2标准化 深度增加到了20层,证明了深层网络能提取出更 从3层的超分辨率卷积神经网络O(SRCNN) 多的特征,取得更好的重建效果。Lim等⑧通过 到l60层的多尺度超分辨率网络[(multi-.scale 对残差结构的改进,提出增强型深度超分辨率网 deep super-resolution,,MDSR),图像超分辨率网络 (enhanced deep super-resolution network, 越来越深人,训练变得更加困难。批量归一化 EDSR)模型,通过移除批规范化处理(batch nor- (batch normalization,BN)在许多任务中能解决训 malization,.BN)操作,增加层数,提取更多特征, 练困难的问题,例如SRResNet"2l(super--esoution 从而获得更满意的结果。 residual network)中使用了批量归一化。 针对上述模型中存在的对不同层的图像信息 BN通过再次校准中间特征的均值和方差来 使用率不足等问题,本文提出了融合感知损失的 解决训练深度神经网络时内部协变量偏移的问 广泛激活的深度残差网络的超分辨率模型 题。简单来说,如果忽略BN中可学习参数的重 (widely-activated deep residual network for super-res- 新缩放,那么训练期间可用训练小批量的均值和 olution combining perceptual loss,.PWDSR),通过已 方差对每一层的特征进行归一化: 训练的VGG模型o提取激活前的特征,使用激 t=X8-Eg[x8] (1) 活前的特征会克服两个缺点:第一,深层网络中 VVarg [x8]+s 激活后得到的稀疏特征能够提供的监督效果非常 式中:x是当前训练批次的特征,它是一个较小 弱,影响性能;第二,激活后的特征会使得重建后 的值用来避免零除。然后将一阶和二阶统计信息 的图像与真实图像在亮度上有所差异。融合感知 更新为全局统计信息: 损失更着眼于纹理而不是目标物体。 E[x←-EB[xs] (2)
诊疗、卫星遥感等应用领域中愈发重要,但环境 和噪声等因素的干扰,导致图像出现质量低或者 细节的纹理信息缺乏等问题[1]。图像超分辨率 (super resolution, SR),特别单图像超分辨率 (single image super-resolution, SISR),几十年来受到广泛 关注。单图像超分辨率为了通过技术手段将低分 辨率 (low-resolution, LR) 图像重新构建为高分辨 率 (high-resolution, HR) 图像,使其具有良好的高 频、纹理和边缘信息。经过几十年发展,图像超 分辨率逐渐被分为基于插值[2-3] 、基于重建[4] 和基 于学习[5] 三大类。 基于插值和重建超分辨率算法属于传统算 法,都运用经典的数学模型算法,但随着放大因 子的增大,这两种算法提供的用于重新构建高 分辨率图像的细节信息资源不足的弊端逐渐显 露,使得这些传统算法很难达到重建高频信息的 目的。 深度学习高速发展以来,图像重建领域也开 始使用深度学习模型来完成特定任务。2014 年, Dong 等 [6] 最先将卷积神经网络应用到图像超分 辨率任务上,提出了超分辨率卷积神经网络 (super-resolution convolutional neural network,SRCNN) 模型,该模型进行端到端的图像对训练,在 当时大大提高了重建效果,同时也开辟了超分辨 率技术的新时代。2016 年,Kim 等 [7] 将超分辨率 任务与残差思想进行结合,提出了使用非常深的 卷积网络超分辨率 (super-resolution using very deep convolution network, VDSR) 模型,同时将网络的 深度增加到了 20 层,证明了深层网络能提取出更 多的特征,取得更好的重建效果。Lim 等 [8] 通过 对残差结构的改进,提出增强型深度超分辨率网 络 (enhanced deep super-resolution network, EDSR) 模型,通过移除批规范化处理[9] (batch normalization, BN) 操作,增加层数,提取更多特征, 从而获得更满意的结果。 针对上述模型中存在的对不同层的图像信息 使用率不足等问题,本文提出了融合感知损失的 广泛激活的深度残差网络的超分辨率模 型 (widely-activated deep residual network for super-resolution combining perceptual loss, PWDSR),通过已 训练的 VGG 模型[10] 提取激活前的特征,使用激 活前的特征会克服两个缺点:第一,深层网络中, 激活后得到的稀疏特征能够提供的监督效果非常 弱,影响性能;第二,激活后的特征会使得重建后 的图像与真实图像在亮度上有所差异。融合感知 损失更着眼于纹理而不是目标物体。 本文的主要贡献包括以下方面: 1) 使用权重归一化代替批量归一化,提高了 学习率和训练、测试准确率; 2) 使用预训练的深度模型提取激活前的特征 得到感知损失,通过构建的图像与真实图像计算 对抗损失,并结合图像的像素损失,构建了新损 失函数; 3) 使用全局跳跃连接避免梯度消失的问题, 促进梯度的反向传播,从而加快训练过程; 4) 实验证明了本文提出的损失函数改进在不 同数据集上可以取得更好的评价指标,在主观视 觉效果也有所提高; 5) 本文提供了高倍重建任务中优化损失函 数、调整残差块等新的研究方向。 1 相关工作 1.1 超分辨率网络 从超分辨率卷积神经网络[6] (SRCNN) 首次提 出端到端卷积神经网络作为新的映射方式开始, 超分辨率与卷积神经网络模型越来越密切。 1.1.1 上采样 超分辨率卷积神经网络[6] (SRCNN) 对图像进 行上采样,在高分辨率特征空间上计算卷积导致 其效率是低分辨率空间的 S 2 倍 (S 为放大因子), 因此效率低下。另一个有效的替代方案是子像素 卷积[11] (sub-pixel convolution),该卷积比反卷积层 引入更少的伪像误差。 1.1.2 标准化 从 3 层的超分辨率卷积神经网络[6] (SRCNN) 到 160 层的多尺度超分辨率网络[8] (multi-scale deep super-resolution, MDSR),图像超分辨率网络 越来越深入,训练变得更加困难。批量归一化[9] (batch normalization, BN) 在许多任务中能解决训 练困难的问题,例如 SRResNet[12] (super-resolution residual network) 中使用了批量归一化。 BN 通过再次校准中间特征的均值和方差来 解决训练深度神经网络时内部协变量偏移的问 题。简单来说,如果忽略 BN 中可学习参数的重 新缩放,那么训练期间可用训练小批量的均值和 方差对每一层的特征进行归一化: xˆ = xB −EB [xB] √ VarB [xB]+ε (1) 式中:xB 是当前训练批次的特征,它是一个较小 的值用来避免零除。然后将一阶和二阶统计信息 更新为全局统计信息: E[x] ← EB [xB] (2) 第 2 期 王凡超,等:基于广泛激活深度残差网络的图像超分辨率重建 ·441·
·442· 智能系统学报 第17卷 Var[x←-Vars[xsl (3) 3×3卷积核ReLU3×3卷积核 其中一表示分配移动线。这些全局统计信息将用 于标准化: 无wsa-E因 (4) VVar[x]+s 但BN用于超分辨率任务时存在以下问题: 1)图像SR通常仅使用较小的图像块(48×48)来 (a)基础残差块 加快训练速度,小图像块的均值和方差相差很 3×3卷积核ReLU 3×3卷积核 大,影响统计数据:2)图像SR网络中没有使用正 则化器会过度拟合训练数据集;3)图像SR网络 的训练和测试时使用不同公式会降低密集像素值 预测的准确性。 1.1.3跳跃连接 (b)广泛激活的残差块 跳跃连接在深层神经网络中具有优良表现, 3×3卷积核 ReLU 其可以兼顾低级特征和高级特征。非常深的卷积 网络超分辨率(super--resolution using very deep convolution network,VDSR)模型使用全局跳跃连 接。残差密集网络(RDN)使用所有卷积层的分 层特征。 (c)更广泛激活的残差块 1.1.4分组卷积和深度可分离卷积 分组卷积将特征按通道划分为多个组,并分 图1广泛激活的残差块与基础残差块的对比 别在组内执行卷积,然后进行串联以形成最终输 Fig.1 Comparison of the residual block with wide activa- tion and the original residual block 出。在组卷积中,参数的数量可以减少g倍,其 中g是组数。 2本文模型 深度可分离卷积是深度非线性卷积(即在输 入的每个通道上独立执行的空间卷积),然后是点 受增强型超分辨率生成对抗网络l(enhanced 卷积(即1×1卷积)。也可以将其视为特定类型的 super-resolution generative adversarial networks,ES- RGAN)中使用感知域损失的启发,本文针对广泛 组卷积,其中组数g是通道数。 激活的深度残差网络存在对不同层级图像信息使 1.2广泛激活的深度残差网络 广泛激活的深度残差网络"(widely-activated 用不足的问题,引入感知域损失,通过调整损失 权重进行优化。本文网络模型如图2所示。 deep residual network for super-resolution,WDSR) 在RLU激活层之前扩展特征,同时追求不会额 ①卷积层 总损失 外增加运算量。该模型压缩残差等价映射路径的 〔权重归一化 特征,同时扩展激活前的特征,如图1所示,并与 子像素卷积 感知 增强型深度超分辨率网络(EDSR)中的基础残差 损失 图 块(图1(a)进行对比。WDSR-A中的(图1(b)具 有细长的映射路径,在每个残差块中激活之前都 具有较宽的(2~4倍)通道。WDSR-B(图1(c)具 有线性低秩卷积堆栈,同时在不额外增加运算量 的情况下加宽激活范围(6~9倍)。首先使用 生成高分 辨率图像 1×1卷积核增加通道数,在RLU激活层之后使用 有效的线性低秩卷积,用两个低秩的卷积核替换 图2融合感知损失的广泛激活的深度残差网络的超分 辨率模型 一个大的卷积核(1×1卷积核降低通道数,3×3卷 Fig.2 Widely-activated deep residual network for super- 积核执行空间特征提取)。在WDSR-A和WDSR- resolution combining perceptual loss B中,所有RLU激活层仅应用于两个较宽的功 本文调用已训练的VGG19模型作为特征提 能部件(具有较大通道的功能部件)之间。 取器。VGG网络模型o如图3所示
Var[x] ← VarB [xB] (3) 其中←表示分配移动线。这些全局统计信息将用 于标准化: xˆtest = xtest −E[x] √ Var[x]+ε (4) 但 BN 用于超分辨率任务时存在以下问题: 1) 图像 SR 通常仅使用较小的图像块 (48×48) 来 加快训练速度,小图像块的均值和方差相差很 大,影响统计数据;2) 图像 SR 网络中没有使用正 则化器会过度拟合训练数据集;3) 图像 SR 网络 的训练和测试时使用不同公式会降低密集像素值 预测的准确性。 1.1.3 跳跃连接 跳跃连接在深层神经网络中具有优良表现, 其可以兼顾低级特征和高级特征。非常深的卷积 网络超分辨率[7] (super-resolution using very deep convolution network, VDSR) 模型使用全局跳跃连 接。残差密集网络[13] (RDN) 使用所有卷积层的分 层特征。 1.1.4 分组卷积和深度可分离卷积 分组卷积将特征按通道划分为多个组,并分 别在组内执行卷积,然后进行串联以形成最终输 出。在组卷积中,参数的数量可以减少 g 倍,其 中 g 是组数。 深度可分离卷积是深度非线性卷积 (即在输 入的每个通道上独立执行的空间卷积),然后是点 卷积 (即 1×1 卷积)。也可以将其视为特定类型的 组卷积,其中组数 g 是通道数。 1.2 广泛激活的深度残差网络 广泛激活的深度残差网络[14] (widely-activated deep residual network for super-resolution, WDSR) 在 ReLU 激活层之前扩展特征,同时追求不会额 外增加运算量。该模型压缩残差等价映射路径的 特征,同时扩展激活前的特征,如图 1 所示,并与 增强型深度超分辨率网络[8] (EDSR) 中的基础残差 块 (图 1(a)) 进行对比。WDSR-A 中的(图 1(b)) 具 有细长的映射路径,在每个残差块中激活之前都 具有较宽的 (2~4 倍) 通道。WDSR-B(图 1(c)) 具 有线性低秩卷积堆栈,同时在不额外增加运算量 的情况下加宽激活范 围 (6~9 倍 )。首先使 用 1×1 卷积核增加通道数,在 ReLU 激活层之后使用 有效的线性低秩卷积,用两个低秩的卷积核替换 一个大的卷积核 (1×1 卷积核降低通道数,3×3 卷 积核执行空间特征提取)。在 WDSR-A 和 WDSRB 中,所有 ReLU 激活层仅应用于两个较宽的功 能部件 (具有较大通道的功能部件) 之间。 3×3 卷积核 ReLU 3×3 卷积核 (a) 基础残差块 3×3 卷积核 ReLU 3×3 卷积核 (b) 广泛激活的残差块 3×3 卷积核 ReLU 1×1 3×3 (c) 更广泛激活的残差块 图 1 广泛激活的残差块与基础残差块的对比 Fig. 1 Comparison of the residual block with wide activation and the original residual block 2 本文模型 受增强型超分辨率生成对抗网络[15] (enhanced super-resolution generative adversarial networks, ESRGAN) 中使用感知域损失的启发,本文针对广泛 激活的深度残差网络存在对不同层级图像信息使 用不足的问题,引入感知域损失,通过调整损失 权重进行优化。本文网络模型如图 2 所示。 感知 损失 对抗 损失 像素 损失 总损失 VGG 卷积层 跳跃连接 多个 残差块 低分辨 率图像 生成高分 辨率图像 真实高分 辨率图像 权重归一化 子像素卷积 3×3 3×3 5×5 图 2 融合感知损失的广泛激活的深度残差网络的超分 辨率模型 Fig. 2 Widely-activated deep residual network for superresolution combining perceptual loss 本文调用已训练的 VGG19 模型作为特征提 取器。VGG 网络模型[10] 如图 3 所示。 ·442· 智 能 系 统 学 报 第 17 卷
第2期 王凡超,等:基于广泛激活深度残差网络的图像超分辨率重建 ·443· 224×224×3 224×224×64 1,2,3。 为了在重建时保证重建图像与对应低分辨率 112×112×128 图像在低频部分保持图像结构的一致性,像素损 56×56×256 失使用平均绝对误差,公式为 28×28×512 7×7×512 4=∑s- (8) 11×1×4096 1×1×1000 式中:S代表生成图像;H代表真实高分辨率图 14×14×512 口卷积层+ReLU 像;n代表网络超参数batch的大小。 口最大池化层 根据生成对抗网络的思想,在网络重建出一 ▣全连接层+ReLU 幅高分辨率图像之后,与其对应真实高分辨率图 Softmax 像进行比较计算,假设N个batch,生成n个标签, 输人图像 公式为 lg={1,r2,…,rw} (9) 图3VGG结构模型 Fig.3 VGG structure model r=-[y-log((x))+(1-ya)-log(1-(x))](10) 其中,o(xn)为sigmoid函数,可以把x映射到(0, 2.1权重归一化 1)之间: 由于批量归一化干扰图像超分辨率的准确 1 性,故本文使用权重归一化(weigh normalization, r(x)= 1+e-x (11) WN)来代替批量归一化。权重归一化是神经网 本文使用的特征是预训练的深度网络激活层 络中权重向量的重新参数化,将这些权重向量的 前的特征。公式为 长度与其方向解耦,使其不会在小批量中引入示 例之间的依赖关系,并且在训练和测试中具有相 ,-立cle,p-份 (12) 同的表示形式。输出y的形式为 式中:P、q分别代表真实高分辨率图像和生成图 y=w…x+b (5) 像;p表示预训练的神经网络;j表示该网络的第 式中:w是k维权重向量;b是标量偏差项;x是输 j层;C×H×W为第j层特征图的形状,使用的是 入的k维向量。WN使用以下参数重新参数化权 每个卷积模块的激活值。 重向量: 为确定损失函数中不同分量的权重值,本文 1 (6) 进行了参数实验,根据收敛情况确定权重值, 其中,"是一个k维矢量,g是一个标量,表示 图46分别为感知损失、像素损失、对抗损失随 v的欧几里得范数。通过这种形式化,得到w=g, 权重的变化曲线,损失函数收敛到最小值时对应 而与参数v无关。对于图像超分辨率,WN只是 值即为正则因子权重值,i=1,2,3。 一种重新参数化技术,并且具有完全相同的表示 PWDSR算法描述如下: 能力,因此不会影响准确性。同时,WN可以提高 输入低分辨率图像,真实高分辨率图像; 学习率,并提高训练和测试准确性。 输出生成的高辨率图像。 2.2损失函数改进 1)低分辨率图像→GPU→低分辨率图像对 模型重新构建图像的结果很大程度上取决于 应张量,真实高分辨率图像→GPU三高分辨率 损失函数的选择,一般超分辨率模型选择平均绝 图像对应张量: 对误差(mean absolute error,.MAE)或者均方误差 2)低分辨率图像对应张量→PWDSR三超分 (mean-square error,.MSE)作为优化的目标,原因是 辨率生成图像对应张量; 在测试时可以获得较高的评价指标,但是在进行 3)不同层feature map一VGG→lp: 8倍等大尺度的超分辨率重建任务中,重新构建 4)[高分辨率图像对应张量-低分辨率图像对 的图像缺失大量高频信息,导致构建的图像不能 应张量]曰1,1e 达到视觉要求。本文模型使用感知损失函数I。, 5)通过公式1=,+2山+l计算损失; 像素损失函数1,和对抗损失函数1,通过配置 7)是否达到epoch最大值,是则输出超分辨 3种损失函数不同权重使其更好地对高频信息进 率图像对应张量;否则继续训练: 行重新构建,总损失函数可表示为 6)PWDSR←-l: 1=Ailp+Azh+A3lg (7) 8)超分辨率图像对应张量→CPU一生成的 其中,,代表调节各个损失项权重的正则因子,i= 高分辨率图像
224×224×3 112×112×128 56×56×256 28×28×512 14×14×512 7×7×512 1×1×4 096 1×1×1 000 输入图像 最大池化层 全连接层+ReLU Softmax 卷积层+ReLU 224×224×64 图 3 VGG 结构模型 Fig. 3 VGG structure model 2.1 权重归一化 由于批量归一化干扰图像超分辨率的准确 性,故本文使用权重归一化 (weigh normalization, WN) 来代替批量归一化。权重归一化是神经网 络中权重向量的重新参数化,将这些权重向量的 长度与其方向解耦,使其不会在小批量中引入示 例之间的依赖关系,并且在训练和测试中具有相 同的表示形式。输出 y 的形式为 y = w· x+b (5) 式中:w 是 k 维权重向量;b 是标量偏差项;x 是输 入的 k 维向量。WN 使用以下参数重新参数化权 重向量: w = g ∥v∥ v (6) 其中,v 是一个 k 维矢量,g 是一个标量,||v||表示 v 的欧几里得范数。通过这种形式化,得到||w||=g, 而与参数 v 无关。对于图像超分辨率,WN 只是 一种重新参数化技术,并且具有完全相同的表示 能力,因此不会影响准确性。同时,WN 可以提高 学习率,并提高训练和测试准确性。 2.2 损失函数改进 模型重新构建图像的结果很大程度上取决于 损失函数的选择,一般超分辨率模型选择平均绝 对误差 (mean absolute error, MAE) 或者均方误差 (mean-square error, MSE) 作为优化的目标,原因是 在测试时可以获得较高的评价指标,但是在进行 8 倍等大尺度的超分辨率重建任务中,重新构建 的图像缺失大量高频信息,导致构建的图像不能 达到视觉要求。本文模型使用感知损失函数 lp, 像素损失函数 l 1 和对抗损失函数 l g,通过配置 3 种损失函数不同权重使其更好地对高频信息进 行重新构建,总损失函数可表示为 l = λ1lp +λ2l1 +λ3lg (7) 其中,λi 代表调节各个损失项权重的正则因子,i = 1, 2, 3。 为了在重建时保证重建图像与对应低分辨率 图像在低频部分保持图像结构的一致性,像素损 失使用平均绝对误差,公式为 l1 = 1 n ∑ |S − H| (8) 式中:S 代表生成图像;H 代表真实高分辨率图 像;n 代表网络超参数 batch 的大小。 根据生成对抗网络的思想,在网络重建出一 幅高分辨率图像之后,与其对应真实高分辨率图 像进行比较计算,假设 N 个 batch,生成 n 个标签, 公式为 lg = {r1,r2,··· ,rN} (9) rn = − [ yn ·log(σ(xn))+(1−yn)·log(1−σ(xn))] (10) 其中,σ(xn ) 为 sigmoid 函数,可以把 x 映射到 (0, 1) 之间: σ(x) = 1 1+e −x (11) 本文使用的特征是预训练的深度网络激活层 前的特征。公式为 lp = ∑N i=1 1 CjHjWj [ ϕj(p)−ϕj(q) 1 ] (12) 式中:p、q 分别代表真实高分辨率图像和生成图 像;φ 表示预训练的神经网络;j 表示该网络的第 j 层;Cj×Hj×Wj 为第 j 层特征图的形状,使用的是 每个卷积模块的激活值。 为确定损失函数中不同分量的权重值,本文 进行了参数实验,根据收敛情况确定权重值, 图 4~6 分别为感知损失、像素损失、对抗损失随 权重的变化曲线,损失函数收敛到最小值时对应 值即为正则因子 λi 权重值,i = 1, 2, 3。 PWDSR 算法描述如下: 输入 低分辨率图像,真实高分辨率图像; 输出 生成的高辨率图像。 ⇒ ⇒ 1) 低分辨率图像 → GPU 低分辨率图像对 应张量,真实高分辨率图像 → GPU 高分辨率 图像对应张量; 2) 低分辨率图像对应张量→ PWDSR ⇒ 超分 辨率生成图像对应张量; 3) 不同层 feature map → VGG ⇒ lp; ⇒ 4) [ 高分辨率图像对应张量−低分辨率图像对 应张量 ] l1,lg; 5) 通过公式 l = λ1lp +λ2l1 +λ3lg计算损失; 7) 是否达到 epoch 最大值,是则输出超分辨 率图像对应张量;否则继续训练; 6) PWDSR ← l; 8) 超分辨率图像对应张量→ CPU ⇒ 生成的 高分辨率图像。 第 2 期 王凡超,等:基于广泛激活深度残差网络的图像超分辨率重建 ·443·
·444· 智能系统学报 第17卷 36.15 据集,该数据集包含1000张2K分辨率的高清图 36.05 像,其中800张作为训练数据集,100张用于验证, 35.95 号35.85 100张用于测试。该数据集还包含高清分辨率图 曾35.75 像对应的低分辨率图像(使用插值法获得)便于 35.65 训练。本文中,将DIV2K数据集中编号1~800的 35.55 图像作为训练集,编号801~900的图像作为验证 35.45 0.068 集,编号901~1000的图像作为测试集,另选Set5 Set14为测试集进行对比。Set5为5张动植物的 图像,Setl4数据集包含14张自然景象的图像。 图4感知损失收敛曲线 3.2评价指标 Fig.4 Perceptual loss convergence curve 图像超分辨率效果的客观评价指标为峰值信 36.10 噪比(peak signal-.to-noise ratio,PSNR)和结构相似 36.00 35.90 (structural similarity,SSIM). 号35.80 3.2.1峰值信噪比 兰35.70 峰值信噪比是图像超分辨率评价指标中使用 35.60 最多的一种标准,其使用均方误差来对图片质量 35.50 作判断。对于单色m×n的高清原图I与超分辨率 35.40 、、、、、 得到的图片K,两者之间的均方误差公式为 MSE=- n∑x)-Kr (13) 图5像素损失收敛曲线 Fig.5 Pixel loss convergence curve 峰值信噪比的公式为 36.175f (MAX PSNR=10-lgMSE =20-lg MAX (14) 36.165 VMSE 36.155 式中:MAX,表示像素最大值,如果采样点用8位 36.145 号35.135 表示,则为255。可见,MSE与PSNR成反比, 遵35.125 PSNR越大代表重新构建的图像效果越好。 35.115 3.2.2结构相似度 35.105 结构相似度是图像超分辨率重建的另一个应 35.095 35.08 用较为广泛的测量指标,其输入是两张图像,其 0 0.0002 0.0004 0.0006 0.0008 0.0010 0.001 中一张是未经压缩的无失真图像y,另一张是重 新构建出的图像x,那么SSM公式为 (15) 图6对抗损失收敛曲线 SSIM(y)=[l(x.y)]".[c(x.y)[s(x.y) Fig.6 Adversarial loss convergence curve 式中:a>0,B>0,y>0,1是亮度(luminance)比较,c 是对比度(contrast)比较,s是结构(structure)比较: 3实验设置 1(x,y)= 2μ4,+C1 ++C 本实验在Windows 10操作系统中使用PyT- orch深度学习框架,Python版本为3.7.6,硬件配 c(x,y)= 20g+C2 ++c 置为Intel(R)Core(TMi5-7300 HQ CPU@2.50GHz, 24GB内存,显卡为NIDIA GeForce GTX1050Ti, s(x.)=o+c xOy+C3 使用CUDA10.2+cudnn7.4.1进行GPU加速,在 一般c=c/2,其中4、4,表示均值。a、o,表 训练过程中,采用Adam梯度下降算法,设置初始 示方差,o,表示x与y的协方差。在实际应用中 学习率为0.001,模型的epoch设置为200,每 通常设===1,故可将式(15)简化为 10次保存一次网络模型。 SSIM(x,y)= (2μ4,+C)(og+c2) 3.1数据集 (++c)(++c2 DIV2K数据集是用于NTIRE大赛的标准数 可以看出,SSIM具有对称性,即SSIM(x,y)=
0.068 35.45 35.55 35.65 35.75 35.85 35.95 36.05 36.15 0.070 0.072 0.074 0.076 0.078 0.080 0.088 0.090 0.092 λ1 Loss/dB 图 4 感知损失收敛曲线 Fig. 4 Perceptual loss convergence curve λ2 0.882 35.40 35.50 35.60 35.70 35.80 35.90 36.00 36.10 0.884 0.886 0.888 0.890 0.898 0.900 0.902 0.904 0.906 Loss/dB 图 5 像素损失收敛曲线 Fig. 5 Pixel loss convergence curve λ3 0 35.085 35.095 35.105 35.115 35.125 35.135 36.145 36.165 36.155 36.175 0.000 2 0.000 4 0.000 6 0.000 8 0.001 0 0.001 2 Loss/dB 图 6 对抗损失收敛曲线 Fig. 6 Adversarial loss convergence curve 3 实验设置 本实验在 Windows 10 操作系统中使用 PyTorch 深度学习框架,Python 版本为 3.7.6,硬件配 置为 Intel(R) Core(TM) i5-7300HQ CPU @ 2.50 GHz, 24 GB 内存,显卡为 NIDIA GeForce GTX 1 050 Ti, 使用 CUDA 10.2 + cudnn 7.4.1 进行 GPU 加速,在 训练过程中,采用 Adam 梯度下降算法,设置初始 学习率为 0.001,模型的 epoch 设置为 200,每 10 次保存一次网络模型。 3.1 数据集 DIV2K 数据集是用于 NTIRE 大赛的标准数 据集,该数据集包含 1 000 张 2K 分辨率的高清图 像,其中 800 张作为训练数据集,100 张用于验证, 100 张用于测试。该数据集还包含高清分辨率图 像对应的低分辨率图像 (使用插值法获得) 便于 训练。本文中,将 DIV2K 数据集中编号 1~800 的 图像作为训练集,编号 801~900 的图像作为验证 集,编号 901~1 000 的图像作为测试集,另选 Set5、 Set14 为测试集进行对比。Set5 为 5 张动植物的 图像,Set14 数据集包含 14 张自然景象的图像。 3.2 评价指标 图像超分辨率效果的客观评价指标为峰值信 噪比 (peak signal-to-noise ratio, PSNR) 和结构相似 性 (structural similarity, SSIM)。 3.2.1 峰值信噪比 峰值信噪比是图像超分辨率评价指标中使用 最多的一种标准,其使用均方误差来对图片质量 作判断。对于单色 m×n 的高清原图 I 与超分辨率 得到的图片 K,两者之间的均方误差公式为 MSE = 1 mn ∑m−1 i=1 ∑n−1 j=1 [ I(x, y)−K(x, y) ]2 (13) 峰值信噪比的公式为 PSNR = 10 ·lg( MAX2 I MSE ) = 20 ·lg( MAXI √ MSE) (14) 式中:MAXI 表示像素最大值,如果采样点用 8 位 表示,则为 255。可见,MSE 与 PSNR 成反比, PSNR 越大代表重新构建的图像效果越好。 3.2.2 结构相似度 结构相似度是图像超分辨率重建的另一个应 用较为广泛的测量指标,其输入是两张图像,其 中一张是未经压缩的无失真图像 y,另一张是重 新构建出的图像 x,那么 SSIM 公式为 SSIM(x, y) = [ l(x, y) ]α · [ c (x, y) ]β · [ s(x, y) ]γ (15) 式中:α>0,β>0,γ>0,l 是亮度 (luminance) 比较,c 是对比度 (contrast) 比较,s 是结构 (structure) 比较: l(x, y) = 2µxµy +c1 µ 2 x +µ 2 y +c1 c (x, y) = 2σxy +c2 σ2 x +σ2 y +c2 s(x, y) = σxy +c3 σxσy +c3 一般 c3=c2 /2,其中 μx、μy 表示均值。σx 2 、σy 2 表 示方差,σxy 表示 x 与 y 的协方差。在实际应用中 通常设 α=β=γ=1,故可将式 (15) 简化为 SSIM(x, y) = ( 2µxµy +c1 ) (σxy +c2 ) ( µ 2 x +µ 2 y +c1 ) (σ2 x +σ2 y +c2 ) 可以看出,SSIM 具有对称性,即 SSIM(x, y)= ·444· 智 能 系 统 学 报 第 17 卷
第2期 王凡超,等:基于广泛激活深度残差网络的图像超分辨率重建 ·445· SSIM(,x),SSIM∈[0,1],SSIM与输出图像和无失 式证明了本文提出的模型改进能优于其他模型。 真图像的差距成反比,SSIM越大图像质量越好。 3.3.1客观评价结果 当两幅图像一模一样时,SSM=1。 本文在3个公开数据集上测试了WDSR-A、 3.3实验结果及分析 WDSR-B以及本文模型,分别计算在不同数据集 本实验从客观评价结果和主观评价结果两方 上采用不同算法进行上采样2、3、4倍时的PSNR 面来表现改进模型的超分辨率能力,通过不同方 和SSM,对比结果如表1所示。 表1在不同数据集上对比放大倍数为2、3、4的重构图像的PSNR和SSIM Table 1 Comparison of PSNR and SSIM of 2,3,and 4 times reconstructed images on different datasets WDSR-A WDSR-B PWDSR 数据集 放大倍数 PSNR/dB SSIM t/min PSNR/dB SSIM t/min PSNR/dB SSIM /min 2 33.8613 0.8040 1054.0 34.8217 0.8357 1055.0 35.0280 0.8521 1056.5 DIV2K 3 31.0211 0.7084 1332.8 31.0644 0.7145 1335.0 31.1129 0.7202 1337.5 4 28.7837 0.6321 1695.5 28.9369 0.6367 1697.5 29.0079 0.6524 1702.5 2 35.0688 0.9002 89.4 35.1157 0.9020 89.5 35.3112 0.9084 89.6 Set5 3 31.0657 0.7165 107.9 31.3806 0.7345 108.0 31.7262 0.7465 109.1 29.3180 0.6730 144.2 29.3658 0.6851 144.7 29.5172 0.6964 145.6 2 31.0615 0.7131 262.5 31.1140 0.7252 264.6 31.1448 0.7308 266.0 Set14 3 27.8946 0.6180 328.1 28.0032 0.6225 329.7 28.9950 0.6434 331.9 4 26.2087 0.6043 420.8 26.3112 0.6087 422.1 27.2699 0.6176 424.4 注:粗体字代表最好结果 从实验结果不难发现,更换不同数据集,本文 提出的方法在2、3、4倍重建任务中,都能够取得 原图 WDSR-A 较好的PSNR和SSIM值,相较于其他模型,在客 WDSR-B本文方 法 31.066/ 31.381/ 31.726 观指标上有所提升。 0.717 0.735 0.747 Baby (set5) 3.3.2主观评价结果 本文分别选取了DIV2K、Set5、Setl4数据集 图8baby(Set5)3倍重建视觉比较 Fig.8 Visual comparison of SR results of "baby"(Set5) 中的3张高分辨率图像进行放大倍数为2、3、4的 with scale factor 3 重构对比,为了更好地体现对比结果,本文将选 取不同图片的不同细节进行放大对比:图7选取 DIV2K数据集中图像绿叶的右端枝叶部分进行 4倍重建对比,图8选取Set5数据集中图像婴儿 原图 WDSR-A WDSR-B 本文方法 26.209/ 26.311/ 27.270/ 的左眼及上方部分进行3倍重建对比,图9选取 0.604 0.609 0.618 Setl4数据集中图像女孩的左眼及下方部分进行 Comic (set14) 4倍重建对比。 图9 comic(Set14)4倍重建视觉比较 Fig.9 Visual comparison of SR results of "comic"(Set14) with scale factor 4 从视觉对比结果可以看出,3种模型在2、3、 原图 WDSR-A WDSR-B本文方法 4倍的重建任务中都可以完成重建高分辨率图 28.784/ 28937/ 29008 0632 0637 0803(DV2K) 0.652 像,但本文提出模型在不同倍数重建任务中,能 够重建出更好的纹理细节,达到更好的视觉效 图7编号0803DIV2K4倍重建视觉比较 Fig.7 Visual comparison of SR results of "0803"(DIV2K) 果,说明重新构建出的图像更接近原始高分辨率 with scale factor 4 图像
SSIM(y, x),SSIM∈[0, 1],SSIM 与输出图像和无失 真图像的差距成反比,SSIM 越大图像质量越好。 当两幅图像一模一样时,SSIM=1。 3.3 实验结果及分析 本实验从客观评价结果和主观评价结果两方 面来表现改进模型的超分辨率能力,通过不同方 式证明了本文提出的模型改进能优于其他模型。 3.3.1 客观评价结果 本文在 3 个公开数据集上测试了 WDSR-A、 WDSR-B 以及本文模型,分别计算在不同数据集 上采用不同算法进行上采样 2、3、4 倍时的 PSNR 和 SSIM,对比结果如表 1 所示。 表 1 在不同数据集上对比放大倍数为 2、3、4 的重构图像的 PSNR 和 SSIM Table 1 Comparison of PSNR and SSIM of 2, 3, and 4 times reconstructed images on different datasets 数据集 放大倍数 WDSR-A WDSR-B PWDSR PSNR/dB SSIM t/min PSNR/dB SSIM t/min PSNR/dB SSIM t/min DIV2K 2 33.861 3 0.8040 1054.0 34.8217 0.8357 1 055.0 35.028 0 0.852 1 1056.5 3 31.021 1 0.7084 1332.8 31.0644 0.7145 1 335.0 31.112 9 0.720 2 1337.5 4 28.783 7 0.6321 1695.5 28.9369 0.6367 1 697.5 29.007 9 0.652 4 1702.5 Set5 2 35.068 8 0.9002 89.4 35.1157 0.9020 89.5 35.311 2 0.908 4 89.6 3 31.065 7 0.7165 107.9 31.3806 0.7345 108.0 31.726 2 0.746 5 109.1 4 29.318 0 0.6730 144.2 29.3658 0.6851 144.7 29.517 2 0.696 4 145.6 Set14 2 31.061 5 0.7131 262.5 31.1140 0.7252 264.6 31.144 8 0.730 8 266.0 3 27.894 6 0.6180 328.1 28.0032 0.6225 329.7 28.995 0 0.643 4 331.9 4 26.208 7 0.6043 420.8 26.3112 0.6087 422.1 27.269 9 0.617 6 424.4 注:粗体字代表最好结果 从实验结果不难发现,更换不同数据集,本文 提出的方法在 2、3、4 倍重建任务中,都能够取得 较好的 PSNR 和 SSIM 值,相较于其他模型,在客 观指标上有所提升。 3.3.2 主观评价结果 本文分别选取了 DIV2K、Set5、Set14 数据集 中的 3 张高分辨率图像进行放大倍数为 2、3、4 的 重构对比,为了更好地体现对比结果,本文将选 取不同图片的不同细节进行放大对比:图 7 选取 DIV2K 数据集中图像绿叶的右端枝叶部分进行 4 倍重建对比,图 8 选取 Set5 数据集中图像婴儿 的左眼及上方部分进行 3 倍重建对比,图 9 选取 Set14 数据集中图像女孩的左眼及下方部分进行 4 倍重建对比。 0803 (DIV2K) 原图 WDSR-A 28.784/ 0.632 WDSR-B 28.937/ 0.637 本文方法 29.008/ 0.652 图 7 编号 0803(DIV2K) 4 倍重建视觉比较 Fig. 7 Visual comparison of SR results of “0803” (DIV2K) with scale factor 4 Baby (set5) 原图 WDSR-A 31.066/ 0.717 WDSR-B 31.381/ 0.735 本文方法 31.726/ 0.747 图 8 baby(Set5) 3 倍重建视觉比较 Fig. 8 Visual comparison of SR results of “baby” (Set5) with scale factor 3 Comic (set14) 原图 WDSR-A 26.209/ 0.604 WDSR-B 26.311/ 0.609 本文方法 27.270/ 0.618 图 9 comic(Set14) 4 倍重建视觉比较 Fig. 9 Visual comparison of SR results of “comic” (Set14) with scale factor 4 从视觉对比结果可以看出,3 种模型在 2、3、 4 倍的重建任务中都可以完成重建高分辨率图 像,但本文提出模型在不同倍数重建任务中,能 够重建出更好的纹理细节,达到更好的视觉效 果,说明重新构建出的图像更接近原始高分辨率 图像。 第 2 期 王凡超,等:基于广泛激活深度残差网络的图像超分辨率重建 ·445·
·446· 智能系统学报 第17卷 4结束语 [8]LIM B.SON S,KIM H,et al.Enhanced deep residual networks for single image super-resolution[C]//Proceed- 本文在广泛激活的深度残差网络的基础上, ings of 2017 IEEE Conference on Computer Vision and 融合感知损失、对抗损失、像素损失,对整体损失 Pattern Recognition Workshops.Honolulu,USA,2017: 136-144. 函数进行优化,使用已训练好的VGG19模型提取 [9]IOFFE S,SZEGEDY C.Batch normalization:accelerat- 激活前的特征得到感知损失,避免了使用激活后 ing deep network training by reducing internal covariate 的稀疏特征导致的性能不良等问题。本文使用权 shift[C]//Proceedings of the 32nd International Confer- 重归一化代替批量归一化,提高了学习率和训练、 ence on Machine Learning.Lille,France,2015:448-456. 测试准确率。使用全局跳跃连接,避免梯度消失 [10 ]SIMONYAN K,ZISSERMAN A.Very deep convolu- 的问题,同时有助于梯度的反向传播,加快训练 tional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2021-01-01].https:/arxiv.org/abs/1409 过程。从实验结果可以看出,本文提出的损失函 1556. 数改进在不同数据集上可以取得更好的评价指 [11]SHI Wenzhe,CABALLERO J,HUSZAR F,et al.Real- 标,在主观视觉效果也有所提高。在高倍重建任 time single image and video super-resolution using an 务上还有提升空间,后续工作以调整残差块和优 efficient sub-pixel convolutional neural network[C]// 化损失函数等方向进行展开。 Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016: 参考文献: 1874-1883. [12]LEDIG C.THEIS L.HUSZAR F,et al.Photo-realistic [1]雷鹏程,刘丛,唐坚刚,等.分层特征融合注意力网络图 single image super-resolution using a generative ad- 像超分辨率重建[U.中国图象图形学报,2020,25(9): versarial network[Cl//Proceedings of 2017 IEEE Confer- 1773-1786. ence on Computer Vision and Pattern Recognition.Hon- LEI Pengcheng,LIU Cong,TANG Jiangang,et al.Hier- oluu,USA,2017:4681-4690. archical feature fusion attention network for image super- [13]ZHANG Yulun,TIAN Yapeng,KONG Yu,et al.Resid- resolution reconstruction[J].Journal of image and graph- ual dense network for image super-resolution[C]//Pro- ics.2020,25(9):1773-1786. ceedings of 2018 IEEE/CVF Conference on Computer [2]HUANG Zhengzhong,CAO Liangcai.Bicubic interpola- Vision and Pattern Recognition.Salt Lake City,USA, tion and extrapolation iteration method for high resolu- 2018:2472-2481. tion digital holographic reconstruction[J].Optics and [14]YU Jiahui,FAN Yuchen,YANG Jianchao,et al.Wide lasers in engineering,2020,130:106090. activation for efficient and accurate image super-resolu- [3]HAO Sai,DONG Xianghuai.Interpolation-based plane tion[EB/oLJ.(2018-12-21)[2021-01-01].https:/axiv stress anisotropic yield models[J].International journal of org/abs/1808.08718vl. mechanical sciences,2020,178:105612. [15]WANG Xintao,YU Ke,WU Shixiang,et al.ESRGAN: [4]贺璟,郝晓丽,吕进来梯度插值与可变阈值改进的 enhanced super-resolution generative adversarial net- P0CS算法[.中国科技论文,2017,12(14):1655- works[C]//Proceedings of the European Conference on 1658,1684 Computer Vision.Munich,Germany,2018:63-79 HE Jing,HAO Xiaoli,LU Jinlai.POCS algorithm based 作者简介: on gradient interpolation and variable threshold[J].China sciencepaper,2017,12(14):1655-1658,1684 王凡超,硕士研究生,主要研究方 [5]白蔚,杨撒博雅,刘家瑛,等.基于显著性稀疏表示的图 向为深度学习、图像超分辨率。 像超分辨率算法[].中国科技论文,2014,9(1):103- 107 BAI Wei,YANG Saboya,LIU Jiaying,et al.Image su- per resolution based on salient sparse coding[J].China sciencepaper,2014,9(1):103-107. [6]DONG Chao,LOY CC,HE Kaiming,et al.Learning a 丁世飞,教授,博土生导师,CCF deep convolutional network for image super-resolution 杰出会员,第八届吴文俊人工智能科 [C]//Proceedings of the 13th European Conference on 学技术奖获得者,主要研究方向为人 Computer Vision.Zurich,Switzerland,2014:184-199. 工智能与模式识别、机器学习与数据 [7]KIM J,LEE J K,LEE K M.Accurate image super-resolu- 挖掘。主持国家重点基础研究计划课 tion using very deep convolutional networks[Cl//Proceed- 题1项、国家自然科学基金面上项目 ings of 2016 IEEE Conference on Computer Vision and 3项。出版专著5部,发表学术论文 Pattern Recognition.Las Vegas,USA,2016:1646-1654. 200余篇
4 结束语 本文在广泛激活的深度残差网络的基础上, 融合感知损失、对抗损失、像素损失,对整体损失 函数进行优化,使用已训练好的 VGG19 模型提取 激活前的特征得到感知损失,避免了使用激活后 的稀疏特征导致的性能不良等问题。本文使用权 重归一化代替批量归一化,提高了学习率和训练、 测试准确率。使用全局跳跃连接,避免梯度消失 的问题,同时有助于梯度的反向传播,加快训练 过程。从实验结果可以看出,本文提出的损失函 数改进在不同数据集上可以取得更好的评价指 标,在主观视觉效果也有所提高。在高倍重建任 务上还有提升空间,后续工作以调整残差块和优 化损失函数等方向进行展开。 参考文献: 雷鹏程, 刘丛, 唐坚刚, 等. 分层特征融合注意力网络图 像超分辨率重建 [J]. 中国图象图形学报, 2020, 25(9): 1773–1786. LEI Pengcheng, LIU Cong, TANG Jiangang, et al. Hierarchical feature fusion attention network for image superresolution reconstruction[J]. Journal of image and graphics, 2020, 25(9): 1773–1786. [1] HUANG Zhengzhong, CAO Liangcai. Bicubic interpolation and extrapolation iteration method for high resolution digital holographic reconstruction[J]. Optics and lasers in engineering, 2020, 130: 106090. [2] HAO Sai, DONG Xianghuai. Interpolation-based plane stress anisotropic yield models[J]. International journal of mechanical sciences, 2020, 178: 105612. [3] 贺璟, 郝晓丽, 吕进来. 梯度插值与可变阈值改进的 POCS 算法 [J]. 中国科技论文, 2017, 12(14): 1655– 1658,1684. HE Jing, HAO Xiaoli, LÜ Jinlai. POCS algorithm based on gradient interpolation and variable threshold[J]. China sciencepaper, 2017, 12(14): 1655–1658,1684. [4] 白蔚, 杨撒博雅, 刘家瑛, 等. 基于显著性稀疏表示的图 像超分辨率算法 [J]. 中国科技论文, 2014, 9(1): 103– 107. BAI Wei, YANG Saboya, LIU Jiaying, et al. Image super resolution based on salient sparse coding[J]. China sciencepaper, 2014, 9(1): 103–107. [5] DONG Chao, LOY C C, HE Kaiming, et al. Learning a deep convolutional network for image super-resolution [C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 184−199. [6] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1646−1654. [7] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA, 2017: 136−144. [8] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 448−456. [9] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2021-01-01].https://arxiv.org/abs/1409. 1556. [10] SHI Wenzhe, CABALLERO J, HUSZÁR F, et al. Realtime single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1874−1883. [11] LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4681−4690. [12] ZHANG Yulun, TIAN Yapeng, KONG Yu, et al. Residual dense network for image super-resolution[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 2472−2481. [13] YU Jiahui, FAN Yuchen, YANG Jianchao, et al. Wide activation for efficient and accurate image super-resolution[EB/OL]. (2018-12-21)[2021-01-01]. https://arxiv. org/abs/1808.08718v1. [14] WANG Xintao, YU Ke, WU Shixiang, et al. ESRGAN: enhanced super-resolution generative adversarial networks[C]//Proceedings of the European Conference on Computer Vision. Munich, Germany, 2018: 63−79. [15] 作者简介: 王凡超,硕士研究生,主要研究方 向为深度学习、图像超分辨率。 丁世飞,教授,博士生导师,CCF 杰出会员,第八届吴文俊人工智能科 学技术奖获得者,主要研究方向为人 工智能与模式识别、机器学习与数据 挖掘。主持国家重点基础研究计划课 题 1 项、国家自然科学基金面上项目 3 项。出版专著 5 部,发表学术论文 200 余篇。 ·446· 智 能 系 统 学 报 第 17 卷