第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Nov.2021 D0:10.11992/tis.202011022 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210901.1633.008.html 空洞卷积与注意力融合的对抗式图像阴影去除算法 刘万军,佟畅,曲海成 (辽宁工程技术大学软件学院,辽宁葫芦岛125105) 摘要:为了解决暗区域、纹理复杂或半影区域的阴影去除效果不明显的问题,提出了空洞卷积与注意力机制 融合的对抗式图像阴影去除算法。该算法基于生成对抗网络的总体思想,将空洞卷积引入残差网络中,用自定 义的空洞残差块进行特征提取,扩大了特征提取的感受野。在注意力编码阶段,加入4层相同结构的空洞卷 积,确保最小计算量的情况下为解码阶段提供更抽象、更本质的全局的语义特征。运用多重注意力机制,引导 判别网络对无阴影图像的鉴别,提高判别网络能力。该算法分别在ISTD(image shadow triplets dataset))与 SRD(shadow removal dataset)公开数据集上进行检验,SSIM(structural similarity)值达到97.77%。该算法图像特征 信息保存完整,画面请晰,暗区域及地物复杂的区域阴影去除效果较好,对半影区域,也有具有良好的表现。 关键词:生成对抗网络;空洞卷积;多重注意力:残差网络;多尺度;自编码:长短记忆法:阴影去除 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2021)06-1081-09 中文引用格式:刘万军,佟畅,曲海成.空洞卷积与注意力融合的对抗式图像阴影去除算法J.智能系统学报,2021,16(6): 1081-1089. 英文引用格式:LIUWanjun,TONG Chang,QU Haicheng.An antagonistic image shadow removal algorithm based on dilated con- volution and attention mechanismJ.CAAI transactions on intelligent systems,2021,16(6):1081-1089. An antagonistic image shadow removal algorithm based on dilated convolution and attention mechanism LIU Wanjun,TONG Chang,QU Haicheng (Software College,Liaoning Technical University,Huludao 125105,China) Abstract:To solve the problem of the unobvious shadow removal effect in dark areas or complex textured and penum- bra areas,an antagonistic image shadow removal algorithm is proposed based on a dilated convolution and attention mechanism.The algorithm is based on the general idea of generative adversarial networks.First,the dilated convolution is introduced into the residual network,and the user-defined hole residual block is used for feature extraction,expand- ing the receptive field of feature extraction.Second,in the attention coding stage,four layers of dilated convolution with the same structure are added to provide more abstract and essential global semantic features for the decoding phase with a minimum calculation amount.Finally,the multiple attention mechanism is used to guide the discrimination network to identify the unshadowed image;thus,improving the discrimination network's ability.The proposed algorithm is tested on image shadow triplets dataset and shadow removal public datasets and achieves the structural similarity of 97.77%. The image feature information of the algorithm is well preserved,the picture is clear,the shadow removal effect is good in the dark area and complex area,and the algorithm has good performance for the penumbra area. Keywords:generative adversarial networks;hole convolution;multiple attention;residual network;multi-scale;auto- coder:long short-term memory:shadow removal 光线穿过一切不透明物体都会产生阴影,图 收稿日期:2020-11-20.网络出版日期:2021-09-01. 基金项目:国家自然科学基金项目(41701479):辽宁省教育厅 像中阴影的存在十分常见。图像阴影会对目标检 科学研究经费项目(L2019几010):辽宁省自然科学 测与识别、图像分割等问题产生一定影响。因此, 基金面上项目(20180550529). 通信作者:佟畅.E-mail:1879031567@qq.com 去除图像中的阴影是一个十分重要的研究内容
DOI: 10.11992/tis.202011022 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210901.1633.008.html 空洞卷积与注意力融合的对抗式图像阴影去除算法 刘万军,佟畅,曲海成 (辽宁工程技术大学 软件学院,辽宁 葫芦岛 125105) 摘 要:为了解决暗区域、纹理复杂或半影区域的阴影去除效果不明显的问题,提出了空洞卷积与注意力机制 融合的对抗式图像阴影去除算法。该算法基于生成对抗网络的总体思想,将空洞卷积引入残差网络中,用自定 义的空洞残差块进行特征提取,扩大了特征提取的感受野。在注意力编码阶段,加入 4 层相同结构的空洞卷 积,确保最小计算量的情况下为解码阶段提供更抽象、更本质的全局的语义特征。运用多重注意力机制,引导 判别网络对无阴影图像的鉴别,提高判别网络能力。该算法分别在 ISTD(image shadow triplets dataset) 与 SRD(shadow removal dataset) 公开数据集上进行检验,SSIM(structural similarity) 值达到 97.77%。该算法图像特征 信息保存完整,画面清晰,暗区域及地物复杂的区域阴影去除效果较好,对半影区域,也有具有良好的表现。 关键词:生成对抗网络;空洞卷积;多重注意力;残差网络;多尺度;自编码;长短记忆法;阴影去除 中图分类号:TP391.41 文献标志码:A 文章编号:1673−4785(2021)06−1081−09 中文引用格式:刘万军, 佟畅, 曲海成. 空洞卷积与注意力融合的对抗式图像阴影去除算法 [J]. 智能系统学报, 2021, 16(6): 1081–1089. 英文引用格式:LIU Wanjun, TONG Chang, QU Haicheng. An antagonistic image shadow removal algorithm based on dilated convolution and attention mechanism[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1081–1089. An antagonistic image shadow removal algorithm based on dilated convolution and attention mechanism LIU Wanjun,TONG Chang,QU Haicheng (Software College, Liaoning Technical University, Huludao 125105, China) Abstract: To solve the problem of the unobvious shadow removal effect in dark areas or complex textured and penumbra areas, an antagonistic image shadow removal algorithm is proposed based on a dilated convolution and attention mechanism. The algorithm is based on the general idea of generative adversarial networks. First, the dilated convolution is introduced into the residual network, and the user-defined hole residual block is used for feature extraction, expanding the receptive field of feature extraction. Second, in the attention coding stage, four layers of dilated convolution with the same structure are added to provide more abstract and essential global semantic features for the decoding phase with a minimum calculation amount. Finally, the multiple attention mechanism is used to guide the discrimination network to identify the unshadowed image; thus, improving the discrimination network’s ability. The proposed algorithm is tested on image shadow triplets dataset and shadow removal public datasets and achieves the structural similarity of 97.77%. The image feature information of the algorithm is well preserved, the picture is clear, the shadow removal effect is good in the dark area and complex area, and the algorithm has good performance for the penumbra area. Keywords: generative adversarial networks; hole convolution; multiple attention; residual network; multi-scale; autocoder; long short-term memory; shadow removal 光线穿过一切不透明物体都会产生阴影,图 像中阴影的存在十分常见。图像阴影会对目标检 测与识别、图像分割等问题产生一定影响。因此, 去除图像中的阴影是一个十分重要的研究内容。 收稿日期:2020−11−20. 网络出版日期:2021−09−01. 基金项目:国家自然科学基金项目 (41701479);辽宁省教育厅 科学研究经费项目 (LJ2019JL010);辽宁省自然科学 基金面上项目 (20180550529). 通信作者:佟畅. E-mail:1879031567@qq.com. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
·1082· 智能系统学报 第16卷 去除阴影的算法按实现方法可分为基于物理 构成,生成器的作用是生成可以骗过判别器的图 模型的方法、图像自身特征的方法、机器学习和 片,判别器的目的是不被生成器生成的图片骗 深度学习等方法。从物理模型)出发,进行阴影 过,生成器与判别器相互制约,共同成长,迭代至 去除,利用光源与障碍物的关系进行建模,具有 生成器生成的图片可以骗过判别器。生成器与判 一定的可行性,但建模过程的计算量大,所需的 别器的直观感受如图1所示。由图l(a(d)显示 计算参数精确度欠缺。多尺度与形态学方法) 了生成对抗网络(generative adversarial networks, 区域匹配算法I、设置纹理置信区间6等算法在 GAN)训练模型的过程。 计算过程中存在着固有的误差。归一化植被指 判别器分布…真实数据 生成器生成的分布 (normalized difference vegetation index,NDVI) 影影响去除线性模型Ⅵ,需对图片特定区域进行 处理。递归式阴影注意力模型(recursive shadow attention model,.RSAM)、新的生成器结构及多尺度 (a)开始训练(b)过程1(c)过程2(d)训练结束 图像分解法⑧具有局限性。机器学习方法提高 了阴影检测与去除的时效性,但监测效果有待提 图1生成器与判别器对抗图 高0"”。深度学习框架下图像阴影去除存在需要 Fig.1 Antagonism graph between the generator and dis- criminator 大量训练样本凶、复杂照明变化任务去除不明显间 1.2注意力机制 黑色物体误检或漏检问题。当前的主流阴影去 注意力机制是在视觉图像领域首先提出的, 除算法,普遍存在模型设计过程中具有局限性以 实际就是对目标数据进行加权变换,扩展了上下 及阴影去除精确度不高的问题。阴影去除算法存 文语义信息。把注意力集中放在重要的点上,而 在问题可具体总结为两方面:1)对复杂的纹理或 忽略其他不重要的因素,而重要程度的判断取决 与阴影区域相似的暗区域的情况,图像的阴影去 于应用场景。 除效果不明显;2)半影区域的图像阴影去除效果 根据应用场景的不同,注意力机制分为空间 不明显,去除阴影后的图像留有较小的包围带。 注意力机制和时间注意力机制。空间注意力机制 为了解决这些问题,提出了空洞卷积与注意力机 一般用于图像处理方面。根据注意力函数的输入 制融合的对抗式图像阴影去除算法(CDD atten- 序列的位置,分为软注意力机制与硬注意力机 tion and dilated convolutions of automatic encoding 制,软注意力机制使用输人序列所有隐藏状态的 and multiple attention of generative adversarial net- 加权平均值来构建内容向量。软注意力机制、空 works,.ADAGAN)。该算法基于生成对抗网络的 间注意力机制,形成的二维注意力图的对应权值 思想,将空洞卷积与残差网络、注意力编码相结合。 在0~1,越重要分配的权值越大。注意力机制可 用自定义的空洞卷积残差块进行特征提取,提取 的特征信息精确性更高,使编码阶段的输入特征 由空洞残差网络与长短期记忆网络(long short 信息更加精准。在自动编码阶段,空洞卷积层的 term memory,.LSTM)组成,可表示为 加入,代替了池化层,减少了不可逆的信息损失, c,=(cl,{a1)=) 使编码最后三层的输出包含较大范围的信息。作 a, exp() (1) 为临近解码阶段的空洞卷积层,是图像编码阶段 全部特征的高度代表,为解码阶段提供更加精 exp(ej) =1 确、抽象的特征,即为解码阶段提供更精准的全 式中:c,表示整体的某一部分;E表示对应c,在 局的语义特征。在判别网络中,通过多个注意力 1时刻的注意力得分。 网络,进行编码的指导,减少了判别网络的误 长短期记忆网络是Hochreiter&Schmidhuber 差。该算法提升了去除阴影的准确率,减小了生 于1997年提出的一种特殊的循环神经网络(re- 成的无阴影图像与真实无阴影图像的误差。 current neural network.RNN.由遗忘门、输入门和 1注意力生成对抗网络 输出门共同组成。 注意力机制的组成及应用过程如图2所示。 1.1生成对抗网络 图2为注意力机制在生成对抗网络中与生成网络 生成对抗网络是蒙特利尔大学的Goodfellow 部分结合的构成展示,不仅包含重点关注的内 Ian于2014年提出,由生成器和判别器两部分 容,也包括周围的环境信息,注意力机制生成注
去除阴影的算法按实现方法可分为基于物理 模型的方法、图像自身特征的方法、机器学习和 深度学习等方法。从物理模型[1-3] 出发,进行阴影 去除,利用光源与障碍物的关系进行建模,具有 一定的可行性,但建模过程的计算量大,所需的 计算参数精确度欠缺。多尺度与形态学方法[4] 、 区域匹配算法[5] 、设置纹理置信区间[6] 等算法在 计算过程中存在着固有的误差。归一化植被指 数 (normalized difference vegetation index,NDVI) 阴 影影响去除线性模型[7] ,需对图片特定区域进行 处理。递归式阴影注意力模型 (recursive shadow attention model,RSAM)、新的生成器结构及多尺度 图像分解法[8-9] 具有局限性。机器学习方法提高 了阴影检测与去除的时效性,但监测效果有待提 高 [10-11]。深度学习框架下图像阴影去除存在需要 大量训练样本[12] 、复杂照明变化任务去除不明显[13] 、 黑色物体误检或漏检问题[14]。当前的主流阴影去 除算法,普遍存在模型设计过程中具有局限性以 及阴影去除精确度不高的问题。阴影去除算法存 在问题可具体总结为两方面:1) 对复杂的纹理或 与阴影区域相似的暗区域的情况,图像的阴影去 除效果不明显;2) 半影区域的图像阴影去除效果 不明显,去除阴影后的图像留有较小的包围带。 为了解决这些问题,提出了空洞卷积与注意力机 制融合的对抗式图像阴影去除算法 (CDD attention and dilated convolutions of automatic encoding and multiple attention of generative adversarial networks, ADAGAN)。该算法基于生成对抗网络的 思想,将空洞卷积与残差网络、注意力编码相结合。 用自定义的空洞卷积残差块进行特征提取,提取 的特征信息精确性更高,使编码阶段的输入特征 信息更加精准。在自动编码阶段,空洞卷积层的 加入,代替了池化层,减少了不可逆的信息损失, 使编码最后三层的输出包含较大范围的信息。作 为临近解码阶段的空洞卷积层,是图像编码阶段 全部特征的高度代表,为解码阶段提供更加精 确、抽象的特征,即为解码阶段提供更精准的全 局的语义特征。在判别网络中,通过多个注意力 网络,进行编码的指导,减少了判别网络的误 差。该算法提升了去除阴影的准确率,减小了生 成的无阴影图像与真实无阴影图像的误差。 1 注意力生成对抗网络 1.1 生成对抗网络 生成对抗网络是蒙特利尔大学的 Goodfellow Ian 于 2014 年提出[15] ,由生成器和判别器两部分 构成,生成器的作用是生成可以骗过判别器的图 片,判别器的目的是不被生成器生成的图片骗 过,生成器与判别器相互制约,共同成长,迭代至 生成器生成的图片可以骗过判别器。生成器与判 别器的直观感受如图 1 所示。由图 1(a)~(d) 显示 了生成对抗网络 (generative adversarial networks, GAN) 训练模型的过程。 … x z (a) 开始训练 (b) 过程 1 (c) 过程 2 (d) 训练结束 判别器分布 真实数据 生成器生成的分布 图 1 生成器与判别器对抗图 Fig. 1 Antagonism graph between the generator and discriminator 1.2 注意力机制 注意力机制是在视觉图像领域首先提出的, 实际就是对目标数据进行加权变换,扩展了上下 文语义信息。把注意力集中放在重要的点上,而 忽略其他不重要的因素,而重要程度的判断取决 于应用场景。 根据应用场景的不同,注意力机制分为空间 注意力机制和时间注意力机制。空间注意力机制 一般用于图像处理方面。根据注意力函数的输入 序列的位置,分为软注意力机制与硬注意力机 制,软注意力机制使用输入序列所有隐藏状态的 加权平均值来构建内容向量。软注意力机制、空 间注意力机制,形成的二维注意力图的对应权值 在 0~1,越重要分配的权值越大。注意力机制可 由空洞残差网络与长短期记忆网络 (long short term memory, LSTM) 组成,可表示为 ct = φ({ci} M i=1 ,{α t i } M i=1 ) = ∑M i=1 αici α t i = exp(e t i ) ∑M j=1 exp(e t j ) (1) e t 式中:ci 表示整体的某一部分; i表示对应 ci 在 t 时刻的注意力得分。 长短期记忆网络是 Hochreiter & Schmidhuber 于 1997 年提出的一种特殊的循环神经网络 (recurrent neural network, RNN),由遗忘门、输入门和 输出门共同组成。 注意力机制的组成及应用过程如图 2 所示。 图 2 为注意力机制在生成对抗网络中与生成网络 部分结合的构成展示,不仅包含重点关注的内 容,也包括周围的环境信息,注意力机制生成注 ·1082· 智 能 系 统 学 报 第 16 卷
第6期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1083· 意力图指导编码阶段的无阴影图像的生成。同 1.4损失函数 时,注意力图受阴影模板(带阴影的图片与不带 在生成对抗网络中,为了达到纳什平衡⑧,需 阴影的真实图片作差)的影响。具体图片的注意 优化,见式(3): 力图如图3所示。 minmaxV(D.G)=Epoo[logD(x)]+ E-p.(o llog(1-D(G(Z)))] (3) 空洞残 长短记忆 注意力 阴影图 差块 网络 卷积层 图1 式中:G为生成网络;D为判别网络;Paax)代表 真实分布;p(e)代表噪声分布。 空洞残 长短记忆 卷积层 注意力 注意力机制的损失函数为 差块 网络 图2 L(A-(M) (4) =1 空洞残 长短记忆 注意力 卷积层 差块 网络 图5 损失的计算是通过比较每次生成的注意力 图(A,)与对应图片阴影掩模(M)之间的均方误差 编码器 (MSE)进行的。由参考文献[19-23]得知,N取5, 图2生成器注意力网络 0取0.8为宜。 Fig.2 Generator attention network 编码阶段的损失(L)由两部分构成,即图片 的真实损失(L)和模型损失(Lm)。图片的真实损 失为编码生成的图片与真实图片的均方误差, B取值参考文献[19]。模型损失为通过VGG网络 编码生成的图片与真实图片的损失的均方误差, (a)阴影图 (b)一次注意(c)三次注意(d)五次注意 力图 力图 力图 可表示为 图3生成注意力图示例 L=∑L0,F)+∑L0.F Fig.3 Example of generating attention map L,(Oi.F)=B:VMSE(Oi.F) 1.3空洞卷积 L(Oi,F)=VMSE(VGG(O:),VGG(F)) 空洞卷积(atrous convolutions)也称扩张卷积 (dilated convolutions),与普通卷积层相比,引入了 2 ADAGAN算法 一个称为“扩张率(dilation rate)的新参数,该参 为了解决图片阴影去除过程中存在的阴影少 数定义了卷积核处理数据时各值的间距。空洞 卷积具有数据结构保留完整和不使用下采样 量遗漏,半影去除不完全的问题,提出了ADAGAN 算法。该算法中GAN(generative adversarial net-. (down-sampling)的特性,优点明显。但多层的空 woks),即生成对抗网络,是该算法的主体思想。 洞卷积也有破坏数据连续性的缺点。 第1个A(CDD of attention)指的是生成器中注意 空洞卷积的卷积核是通过在普通的卷积核上 力机制特征提取运用CDD(convolutions and dilated 填0实现的,增大了网络的扩张系数,空洞卷积 convolutions and dilated convolutions)空洞残差块; 示意如图4所示。扩张系数与空洞卷积核的尺寸 D(dilated convolutions of automatic encoding) 关系为 是在生成器自编码阶段加入的4层相同结构的空 kdsize =(y-1)(ksize-1)+ksize (2) 洞卷积层;第2个A(multiple attention)指的是判别 式中:y表示空洞卷积的扩张系数;kze表示普通 器中的多重注意力网络。 卷积核尺寸:kd表示空洞卷积核尺寸,当=1时 2.1算法总体架构 即为普通卷积核。 ADAGAN算法运用细节信息提取更精细的 VGG-E作为该网络的预训练模型。基于生成对 抗网络架构,主体可分为图片阴影的特征提取 注意力编码和判别网络3部分。其中,特征提取 与注意力编码属于生成器部分,判别网络属于判 (a)普通卷积核 (b)空洞率为1 (c)空洞率为3 别器部分。 的卷积核 的卷积核 在生成器部分,对图片阴影信息进行特征提 图4空洞卷积示意 取,特征提取使用CDD残差块,提取特征作为生 Fig.4 Example of dilated convolutions 成器注意力机制的输人。在生成器的自编码阶
意力图指导编码阶段的无阴影图像的生成。同 时,注意力图受阴影模板 (带阴影的图片与不带 阴影的真实图片作差) 的影响。具体图片的注意 力图如图 3 所示。 阴影图 空洞残 差块 空洞残 差块 长短记忆 网络 长短记忆 网络 卷积层 卷积层 注意力 图 1 注意力 图 2 空洞残 差块 长短记忆 网络 卷积层 注意力 图 5 编码器 … … … … 图 2 生成器注意力网络 Fig. 2 Generator attention network (a) 阴影图 (b) 一次注意 力图 (c) 三次注意 力图 (d) 五次注意 力图 图 3 生成注意力图示例 Fig. 3 Example of generating attention map 1.3 空洞卷积 空洞卷积 (atrous convolutions) 也称扩张卷积 (dilated convolutions),与普通卷积层相比,引入了 一个称为“扩张率 (dilation rate)”的新参数,该参 数定义了卷积核处理数据时各值的间距[16]。空洞 卷积具有数据结构保留完整和不使用下采样 (down-sampling) 的特性,优点明显。但多层的空 洞卷积也有破坏数据连续性的缺点。 空洞卷积的卷积核是通过在普通的卷积核上 填 0 实现的,增大了网络的扩张系数[17] ,空洞卷积 示意如图 4 所示。扩张系数与空洞卷积核的尺寸 关系为 kdsize = (γ−1)(ksize −1)+ksize (2) 式中:γ 表示空洞卷积的扩张系数;ksize 表示普通 卷积核尺寸;kdsize 表示空洞卷积核尺寸,当 γ=1 时 即为普通卷积核。 (a) 普通卷积核 (b) 空洞率为 1 的卷积核 (c) 空洞率为 3 的卷积核 图 4 空洞卷积示意 Fig. 4 Example of dilated convolutions 1.4 损失函数 在生成对抗网络中,为了达到纳什平衡[18] ,需 优化,见式 (3): minmaxV(D,G) = Ex∼pdata (x)[logD(x)]+ Ez∼pn (z)[log(1− D(G(z)))] (3) 式中:G 为生成网络;D 为判别网络;pdata(x) 代表 真实分布;pn (z) 代表噪声分布。 注意力机制的损失函数为 La({A}, M) = ∑N t=1 θ N−tLMSE(At , M) (4) 损失的计算是通过比较每次生成的注意力 图 (At ) 与对应图片阴影掩模 (M) 之间的均方误差 (MSE) 进行的。由参考文献 [19-23] 得知,N 取 5, θ 取 0.8 为宜。 编码阶段的损失 (Le ) 由两部分构成,即图片 的真实损失 (Lr ) 和模型损失 (Lm)。图片的真实损 失为编码生成的图片与真实图片的均方误差, β 取值参考文献 [19]。模型损失为通过 VGG 网络 编码生成的图片与真实图片的损失的均方误差, 可表示为 Le = ∑N i=1 Lr(Oi ,F)+ ∑N i=1 Lm(Oi ,F) Lr(Oi ,F) = βiVMSE(Oi ,F) Lm(Oi ,F) = VMSE(VGG(Oi),VGG(F)) 2 ADAGAN 算法 为了解决图片阴影去除过程中存在的阴影少 量遗漏,半影去除不完全的问题,提出了 ADAGAN 算法。该算法中 GAN(generative adversarial networks),即生成对抗网络,是该算法的主体思想。 第 1 个 A(CDD of attention) 指的是生成器中注意 力机制特征提取运用 CDD(convolutions and dilated convolutions and dilated convolutions) 空洞残差块; D(dilated convolutions of automatic encoding) 指的 是在生成器自编码阶段加入的 4 层相同结构的空 洞卷积层;第 2 个 A(multiple attention) 指的是判别 器中的多重注意力网络。 2.1 算法总体架构 ADAGAN 算法运用细节信息提取更精细的 VGG-E 作为该网络的预训练模型。基于生成对 抗网络架构,主体可分为图片阴影的特征提取、 注意力编码和判别网络 3 部分。其中,特征提取 与注意力编码属于生成器部分,判别网络属于判 别器部分。 在生成器部分,对图片阴影信息进行特征提 取,特征提取使用 CDD 残差块,提取特征作为生 成器注意力机制的输入。在生成器的自编码阶 第 6 期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1083·
·1084· 智能系统学报 第16卷 段,加入空洞卷积层。判别器部分由多层卷积注 加充分,增大特征的感受范围,减少计算量。该 意力(multiple attention)网络组成。空洞卷积阴影 实验在7层卷积后,加入4层同样结构的空洞卷 去除算法整体框架如图5所示。其中,注意力编 积层,通过多层堆叠的方式增加感受野,为后续的 码部分由注意力生成网络和自动编码网络组成。 解码过程提取更抽象、更本质的全局的语义特征。 阴影图 特征提取 真实无阴影图 编码阶段可分为编码与解码两个部分,编码 由卷积层与空洞卷积完成,解码由反卷积与卷积 配合完成。 注意力编码 判别网络 该实验编码阶段共由11个卷积层,4个空洞 卷积层,2个反卷积层以及3个跳跃连接层组成, 生成无阴影图 各层之间的连接关系见表1。其中编码阶段的输 入为带阴影的图像与注意力图,每层之间的激活 图5空洞卷积阴影去除算法整体框架图 Fig.5 Block diagram of the dilated convolution shadow re- 函数为LRelu,.输出结果为不带阴影的图片。Conv moval algorithm 代表卷积层,Dia cont代表空洞卷积层,Deconv 生成器与判别器部分相互作用,互相影响,形 代表反卷积层,Skp为跳跃连接层。 成表现良好的图片去除阴影网络。 表1去除阴影算法编码表 2.2CDD残差块 Table 1 Shadow removal algorithm code 为了增加对图片中阴影信息提取的精确度,在 名称 输入 输出 卷积核 网络中引人CDD残差块。该方法运用普通卷积 Convl 图片+注意力图 Lrelul 3×3 与空洞卷积组合的方式,结合残差网络的结构, Convl 1 Lrelul Lrelul_1 3×3 使生成器注意力机制部分的输入特征更加充分。 Conv2 Lrelul 1 Lrelu2 3×3 空洞卷积能在不增加算法复杂度的情况下, Conv3 Lrelu2 Lrelu3 3×3 Conv4 Lrelu3 Lrelu4 3×3 具有更大的感受野,越大的感受野包含越多的上 Conv5 Lrelu4 Lrelu5 3×3 下文关系,但它也会损失信息的连续性,适合大 Conv6 Lrelu5 Lrelu6 3×3 区域的阴影。为了使空洞卷积对小区域的阴影也 Dia convl Lrelu6 Lrelu7 3×3 有很好的特征感知强度,借助残差网络的结构, Dia conv2 Lrelu7 Lrelu8 3×3 发现二者的结合,有助于提高特征提取阶段的精 Dia_conv3 Lrelu8 Lrelu9 3×3 确性。残差块对比如图6所示。为了特征提取的 Dia conv4 Lrelu9 Lrelu10 3×3 表达更加精确细致,改变激活函数relu为Irelu,使 Conv7 Lrelul0 Lrelul1 3×3 值为负数时,也有一定区分,不全为0。 Conv8 Lrelul1 Lrelu12 3×3 Deconv_1 Lrelu12 Lrelul3 4×4 卷积层 卷积层 Conv 9 Lrelu13+Lrelu3 Lrelul4 3×3 Deconv 2 Lrelu14 Lrelu15 4×4 relu Conv_10 Lrelu15+Lrelul Lrelul6 3×3 Lrelu12+Lrelu10 Skip_1 3×3 卷积层 Skip_1 空洞卷积层 Skip_2 Lrelul4 Skip_2 3×3 relu Irelu Skip_3 Lrelu16 Skip_3 3×3 卷积层 空洞卷积层 2.4改进判别网络 卷积网络无法有效地捕捉图像的几何结构和 形状,而注意力模型可通过不同的权重系数来强 调目标的重要性,抑制无关的细节2,且不需要监 (a)原始残差块 (b)新型空洞卷积残差块 督。注意力模型的最终目的是帮助类似编解码器 图6残差块对比 这样的框架,更好地学到多种内容模态之间的相 Fig.6 Residual blocks comparison 互关系,从而更好地表示这些信息,克服其无法 2.3扩展的编码阶段 解释从而很难设计的缺陷。因此可以灵活地感知 在编码阶段加入空洞卷积层,使特征表达更 到全局与局部的联系,提升网络的感知能力,提
段,加入空洞卷积层。判别器部分由多层卷积注 意力 (multiple attention) 网络组成。空洞卷积阴影 去除算法整体框架如图 5 所示。其中,注意力编 码部分由注意力生成网络和自动编码网络组成。 阴影图 特征提取 真实无阴影图 注意力编码 判别网络 生成无阴影图 图 5 空洞卷积阴影去除算法整体框架图 Fig. 5 Block diagram of the dilated convolution shadow removal algorithm 生成器与判别器部分相互作用,互相影响,形 成表现良好的图片去除阴影网络。 2.2 CDD 残差块 为了增加对图片中阴影信息提取的精确度,在 网络中引入 CDD 残差块。该方法运用普通卷积 与空洞卷积组合的方式,结合残差网络的结构, 使生成器注意力机制部分的输入特征更加充分。 空洞卷积能在不增加算法复杂度的情况下, 具有更大的感受野,越大的感受野包含越多的上 下文关系,但它也会损失信息的连续性,适合大 区域的阴影。为了使空洞卷积对小区域的阴影也 有很好的特征感知强度,借助残差网络的结构, 发现二者的结合,有助于提高特征提取阶段的精 确性。残差块对比如图 6 所示。为了特征提取的 表达更加精确细致,改变激活函数 relu 为 lrelu,使 值为负数时,也有一定区分,不全为 0。 卷积层 + 卷积层 卷积层 relu relu 卷积层 + 空洞卷积层 空洞卷积层 lrelu lrelu (a) 原始残差块 (b) 新型空洞卷积残差块 图 6 残差块对比 Fig. 6 Residual blocks comparison 2.3 扩展的编码阶段 在编码阶段加入空洞卷积层,使特征表达更 加充分,增大特征的感受范围,减少计算量。该 实验在 7 层卷积后,加入 4 层同样结构的空洞卷 积层,通过多层堆叠的方式增加感受野,为后续的 解码过程提取更抽象、更本质的全局的语义特征。 编码阶段可分为编码与解码两个部分,编码 由卷积层与空洞卷积完成,解码由反卷积与卷积 配合完成。 该实验编码阶段共由 11 个卷积层,4 个空洞 卷积层,2 个反卷积层以及 3 个跳跃连接层组成, 各层之间的连接关系见表 1。其中编码阶段的输 入为带阴影的图像与注意力图,每层之间的激活 函数为 LRelu,输出结果为不带阴影的图片。Conv 代表卷积层,Dia_conv 代表空洞卷积层,Deconv 代表反卷积层,Skip 为跳跃连接层。 表 1 去除阴影算法编码表 Table 1 Shadow removal algorithm code 名称 输入 输出 卷积核 Conv1 图片+注意力图 Lrelu1 3×3 Conv1_1 Lrelu1 Lrelu1_1 3×3 Conv2 Lrelu1_1 Lrelu2 3×3 Conv3 Lrelu2 Lrelu3 3×3 Conv4 Lrelu3 Lrelu4 3×3 Conv5 Lrelu4 Lrelu5 3×3 Conv6 Lrelu5 Lrelu6 3×3 Dia_conv1 Lrelu6 Lrelu7 3×3 Dia_conv2 Lrelu7 Lrelu8 3×3 Dia_conv3 Lrelu8 Lrelu9 3×3 Dia_conv4 Lrelu9 Lrelu10 3×3 Conv7 Lrelu10 Lrelu11 3×3 Conv8 Lrelu11 Lrelu12 3×3 Deconv_1 Lrelu12 Lrelu13 4×4 Conv_9 Lrelu13+Lrelu3 Lrelu14 3×3 Deconv_2 Lrelu14 Lrelu15 4×4 Conv_10 Lrelu15+Lrelu1 Lrelu16 3×3 Skip_1 Lrelu12+Lrelu10 Skip_1 3×3 Skip_2 Lrelu14 Skip_2 3×3 Skip_3 Lrelu16 Skip_3 3×3 2.4 改进判别网络 卷积网络无法有效地捕捉图像的几何结构和 形状,而注意力模型可通过不同的权重系数来强 调目标的重要性,抑制无关的细节[20] ,且不需要监 督。注意力模型的最终目的是帮助类似编解码器 这样的框架,更好地学到多种内容模态之间的相 互关系,从而更好地表示这些信息,克服其无法 解释从而很难设计的缺陷。因此可以灵活地感知 到全局与局部的联系,提升网络的感知能力,提 ·1084· 智 能 系 统 学 报 第 16 卷
第6期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1085· 高输出的质量。 式中:m、n分别为图像的长与宽;I为真实图像: 注意力机制可分为加法注意力机制和乘法注 K为生成图像。 意力机制,乘法注意力机制是面对加法注意力机 均方根误差(root mean squared error,RMSE) 制要求编码与解码的隐藏层长度必须相同的条件 是一个中间的评价指标,很多评价指标都是基于 的改进,具有更高的灵活性。因此,在判别器设 均方根误差进行的,是均方误差(MSE)的开根号 计中,运用乘法注意力机制。而在多次网络卷积 数,均方根误差可用来计算阴影图与非阴影图的 结构后,特征信息逐渐精简的同时,重点可能会 像素级误差,可表示为 被分散。因此,在每2层卷积层中加入乘法注意 RMSE =VMSE 力机制,突出重点,强调特征,感知全局,提升质 3.3 实验结果与分析 量。判别器设计如图7所示。 实验中针对生成器与判别器的特点,并参考 生成无 文献[23]来设置学习率参数。其中,生成器网络 阴影图片 卷积 注意 学习率为0.002,判别器网络学习率为0.001,且每 直实无 层 力 阴影图片 进行10000次训练,学习率缩小0.1倍。预训练 参数基于VGG-E网络。阴影区与非阴影区的像 图7判别器设计图 Fig.7 Design of the discriminator 素差的阈值设为30。 该实验在ISTD数据集与SRD数据集上进行 3实验及结果分析 实验,经过100000次训练,实验最佳结果SSIM 可达到0.977,PSNR为32.2,RMSE为6.2。因 3.1实验环境及数据集 ISTD与SRD数据集中各类别图像在数据集中的 实验环境为ubuntul6.10系统、GeForce GTX 1080Ti显卡。数据集选取ISTD2]和SRD22。 占比不一致且同一类别中各图像阴影区域的占比 ISTD数据集共1870对阴影与非阴影数据对,其 也不一致,因此分别在两个数据集的测试集中选 中训练集1330对,测试集540对。SRD数据集共 取不同类别。在同一类别中选取一副图片进行测 3088对阴影与非阴影数据对,其中训练集2680对, 试,并对它们的值进行展示,不同数据集效果对 测试集408对。 比见表2(其中,图片1~3为ISTD数据集上图片, 3.2实验评价 图片46为SRD数据集上图片)。 实验的评价主要从视觉效果和现流行的衡量 表2不同数据集效果对比 指标(结构相似性、蜂值信噪比、均方根误差)进 Table 2 Comparison of effect of different data sets 行评价。结构相似性(structural similarity,SSIM) 实验次数 评价指标 基于图像亮度、对比度和结构进行评价,可表示为 1 2 3 4 5 6 SSIM(x.y)= (2μ4,+c)(2cg+c2) (5) SSIM 0.975 0.9140.973 0.9770.967 (+H+c)2++c2) 0.958 式中:x、y代表要比较的两张图片;4为x的均 PSNR 28.88 27.51 30.1531.3228.9032.23 值,4,为y的均值;为x的方差;为y的方差; RMSE 9.17 10.73 7.92 6.92 9.15 6.23 σ为x和y的协方差;C1=(kL)2、c2=(kL)为两 个常数,避免除0:L为像素范围;本次实验k1为 该算法分别在ISTD和SRD数据集上选取 0.01;k为0.03。式(⑤)的值越接近1,两图片相似 3个图片进行展示,可见该算法的阴影去除效果 性越强。 较好,对相对复杂地物的阴影去除效果也表现良 峰值信噪比(peak signal-to-noise ratio,PSNR), 好,视觉感受上不存在半影情况。不同数据集实 单位是B,数值越大表示效果越好。峰值信噪比 验效果如图8所示。图8共6组图片,前3组(图 基于对应像素点间的误差,即基于误差敏感的图 (a)~(i)为ISTD数据集的测试图片,后3组(图 像质量评价。不考虑人眼的视觉特性,会出现评 G)()为SRD数据集的测试图片。 价结果与人的主观感觉不一致的情况,可表示为 实验是基于GAN网络与空洞卷积、注意力结 PSNR =101g( MAX 合的思想进行的,分别在特征提取、自编码、判断 MSE 网络进行巧妙设计。其中特征提取运用空洞残差 1 (6) MSE=- 分号6)-K6 块,自编码加入空洞卷积,判别网络加入多层乘 法注意力网络。逐步改进实验效果见表3。由表3
高输出的质量。 注意力机制可分为加法注意力机制和乘法注 意力机制,乘法注意力机制是面对加法注意力机 制要求编码与解码的隐藏层长度必须相同的条件 的改进,具有更高的灵活性。因此,在判别器设 计中,运用乘法注意力机制。而在多次网络卷积 结构后,特征信息逐渐精简的同时,重点可能会 被分散。因此,在每 2 层卷积层中加入乘法注意 力机制,突出重点,强调特征,感知全局,提升质 量。判别器设计如图 7 所示。 生成无 阴影图片 真实无 阴影图片 卷积 层 注意 力 卷积 层 卷积 层 注意 力 FC 图 7 判别器设计图 Fig. 7 Design of the discriminator 3 实验及结果分析 3.1 实验环境及数据集 实验环境为 ubuntu16.10 系统、GeForce GTX 1080Ti 显卡。数据集选取 ISTD[ 2 1 ] 和 SRD[ 2 2 ]。 ISTD 数据集共 1870 对阴影与非阴影数据对,其 中训练集 1 330 对,测试集 540 对。SRD 数据集共 3088 对阴影与非阴影数据对,其中训练集 2680 对, 测试集 408 对。 3.2 实验评价 实验的评价主要从视觉效果和现流行的衡量 指标 (结构相似性、峰值信噪比、均方根误差) 进 行评价。结构相似性 (structural similarity, SSIM) 基于图像亮度、对比度和结构进行评价,可表示为 SSIM(x, y) = (2µxµy +c1)(2σxy +c2) (µ 2 x +µ 2 y +c1)(σ2 x +σ2 y +c2) (5) µx µy σ 2 x σ 2 y σxy 式中:x、y 代表要比较的两张图片; 为 x 的均 值, 为 y 的均值; 为 x 的方差; 为 y 的方差; 为 x 和 y 的协方差;c1 = (k1L) 2 、c2 = (k2L) 2 为两 个常数,避免除 0;L 为像素范围;本次实验 k1 为 0.01;k2 为 0.03。式 (5) 的值越接近 1,两图片相似 性越强。 峰值信噪比 (peak signal-to-noise ratio, PSNR), 单位是 dB,数值越大表示效果越好。峰值信噪比 基于对应像素点间的误差,即基于误差敏感的图 像质量评价。不考虑人眼的视觉特性,会出现评 价结果与人的主观感觉不一致的情况,可表示为 PSNR = 10lg( MAX2 I MSE ) MSE = 1 mn ∑m−1 i=0 ∑n−1 j=0 [I(i, j)− K(i, j)]2 (6) 式中:m、n 分别为图像的长与宽;I 为真实图像; K 为生成图像。 均方根误差 (root mean squared error, RMSE) 是一个中间的评价指标,很多评价指标都是基于 均方根误差进行的,是均方误差 (MSE) 的开根号 数,均方根误差可用来计算阴影图与非阴影图的 像素级误差,可表示为 RMSE = √ MSE 3.3 实验结果与分析 实验中针对生成器与判别器的特点,并参考 文献 [23] 来设置学习率参数。其中,生成器网络 学习率为 0.002,判别器网络学习率为 0.001,且每 进行 10 000 次训练,学习率缩小 0.1 倍。预训练 参数基于 VGG-E 网络。阴影区与非阴影区的像 素差的阈值设为 30。 该实验在 ISTD 数据集与 SRD 数据集上进行 实验,经过 100 000 次训练,实验最佳结果 SSIM 可达到 0.977,PSNR 为 32.2,RMSE 为 6.2。因 ISTD 与 SRD 数据集中各类别图像在数据集中的 占比不一致且同一类别中各图像阴影区域的占比 也不一致,因此分别在两个数据集的测试集中选 取不同类别。在同一类别中选取一副图片进行测 试,并对它们的值进行展示,不同数据集效果对 比见表 2(其中,图片 1~3 为 ISTD 数据集上图片, 图片 4~6 为 SRD 数据集上图片)。 表 2 不同数据集效果对比 Table 2 Comparison of effect of different data sets 评价指标 实验次数 1 2 3 4 5 6 SSIM 0.958 0.975 0.914 0.973 0.977 0.967 PSNR 28.88 27.51 30.15 31.32 28.90 32.23 RMSE 9.17 10.73 7.92 6.92 9.15 6.23 该算法分别在 ISTD 和 SRD 数据集上选取 3 个图片进行展示,可见该算法的阴影去除效果 较好,对相对复杂地物的阴影去除效果也表现良 好,视觉感受上不存在半影情况。不同数据集实 验效果如图 8 所示。图 8 共 6 组图片,前 3 组 (图 (a)~(i)) 为 ISTD 数据集的测试图片,后 3 组 (图 (j)~(r)) 为 SRD 数据集的测试图片。 实验是基于 GAN 网络与空洞卷积、注意力结 合的思想进行的,分别在特征提取、自编码、判断 网络进行巧妙设计。其中特征提取运用空洞残差 块,自编码加入空洞卷积,判别网络加入多层乘 法注意力网络。逐步改进实验效果见表 3。由表 3 第 6 期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1085·
·1086· 智能系统学报 第16卷 可知,CDD残差块的引用,虽具有更大的感受野, 表3逐步改进实验效果 但因破坏了信息的连续性,造成客观衡量指标的 Table 3 Gradual improve ment of the experimental effect 降低,为了兼顾感受野与信息的连续性,即主观 编号空洞卷积CDD块注意力SSIM PSNR RMSE 视觉感受与客观衡量指标,在运用CDD残差块的 0.910 22.70 18.67 同时引入注重连续性的注意力机制(LSTM为核 2 0.91123.2817.48 心模块),解决了特征提取过程增加感受野与关注 信息连续性的问题,提升阴影区域特征提取的精 3 0.90922.69 18.70 确性。因此,综合使用CDD残差块与注意力机制 0.91624.4215.32 时,客观衡量指标有明显的提升。 表3指标为SRD训练集上,20000次训练后, 随机选取一幅图像(MG4699)进行测试的结果, 逐步改进实验视觉效果如图9所示。 (a)带阴影图片1(b)实验结果图1(c)真实无阴影图1 (a)带阴影的 b)编码加空洞(©)加多重注意力 原图片 卷积 (d)带阴影图片2(e)实验结果图2(D真实无阴影图2 (d)特征为空洞 (e)本文算法 (①真实无阴影图 卷积 图9逐步改进实验视觉效果图 (g)带阴影图片3()实验结果图3(①真实无阴影图3 Fig.9 Gradual improve ment of the visual effect of the ex- periment 通过图9这组实验可以看出:在判别网络中 嵌入多重注意力,可以提高阴影去除的效果。空 洞残差块使特征提取阶段具有更大的感受野,但 同时也破坏了信息的连续性。由表3可知,在加 G)带阴影图片4(k)实验结果图4①真实无阴影图4 入空洞残差块后,客观测量指标有所下降。但从 图9的图像的视觉效果来看,图像的主观视觉效 果比较好。因此,把两者结合进行实验,发现实 验无论在视觉效果,还是在图像测试指标上,都 比其他效果要好。 (m)带阴影图片5()实验结果图5(o)真实无阴影图5 为了证明该算法的有效性,用该算法与参考 文献[5,14,21]进行对比。文献[5]为依靠图像自 身特性进行的阴影去除的方法,按文献[5]的思 路与参数进行对比实验。文献[14]与文献[21], 均在ISTD(训练集1330对,测试集540对)与 SRD(训练集2680对,测试集408对)数据集上进 (P)带阴影图片6(q)实验结果图6(①真实无阴影图6 行训练与测试,参数配置参考各自原文献。对比 图8不同数据集实验效果 实验的方法,均与本文算法在同实验条件下进行, Fig.8 Experimental renderings of different data sets 视觉效果如图10、11所示。图像在ISTD数据集
可知,CDD 残差块的引用,虽具有更大的感受野, 但因破坏了信息的连续性,造成客观衡量指标的 降低,为了兼顾感受野与信息的连续性,即主观 视觉感受与客观衡量指标,在运用 CDD 残差块的 同时引入注重连续性的注意力机制 (LSTM 为核 心模块),解决了特征提取过程增加感受野与关注 信息连续性的问题,提升阴影区域特征提取的精 确性。因此,综合使用 CDD 残差块与注意力机制 时,客观衡量指标有明显的提升。 (a) 带阴影图片 1 (b) 实验结果图 1 (c) 真实无阴影图 1 (d) 带阴影图片 2 (e) 实验结果图 2 (f) 真实无阴影图 2 (g) 带阴影图片 3 (h) 实验结果图 3 (i) 真实无阴影图 3 (j) 带阴影图片 4 (k) 实验结果图 4 (l) 真实无阴影图 4 (m) 带阴影图片 5 (n) 实验结果图 5 (o) 真实无阴影图 5 (p) 带阴影图片 6 (q) 实验结果图 6 (r) 真实无阴影图 6 图 8 不同数据集实验效果 Fig. 8 Experimental renderings of different data sets 表 3 逐步改进实验效果 Table 3 Gradual improve ment of the experimental effect 编号 空洞卷积 CDD块 注意力 SSIM PSNR RMSE 1 √ 0.910 22.70 18.67 2 √ √ 0.911 23.28 17.48 3 √ √ 0.909 22.69 18.70 4 √ √ √ 0.916 24.42 15.32 表 3 指标为 SRD 训练集上,20 000 次训练后, 随机选取一幅图像 (MG_4699) 进行测试的结果, 逐步改进实验视觉效果如图 9 所示。 (a) 带阴影的 原图片 (b) 编码加空洞 卷积 (c) 加多重注意力 (d) 特征为空洞 卷积 (e) 本文算法 (f) 真实无阴影图 图 9 逐步改进实验视觉效果图 Fig. 9 Gradual improve ment of the visual effect of the experiment 通过图 9 这组实验可以看出:在判别网络中 嵌入多重注意力,可以提高阴影去除的效果。空 洞残差块使特征提取阶段具有更大的感受野,但 同时也破坏了信息的连续性。由表 3 可知,在加 入空洞残差块后,客观测量指标有所下降。但从 图 9 的图像的视觉效果来看,图像的主观视觉效 果比较好。因此,把两者结合进行实验,发现实 验无论在视觉效果,还是在图像测试指标上,都 比其他效果要好。 为了证明该算法的有效性,用该算法与参考 文献 [5, 14, 21] 进行对比。文献 [5] 为依靠图像自 身特性进行的阴影去除的方法,按文献 [5] 的思 路与参数进行对比实验。文献 [14] 与文献 [21], 均在 ISTD(训练集 1 330 对,测试集 540 对) 与 SRD(训练集 2 680 对,测试集 408 对) 数据集上进 行训练与测试,参数配置参考各自原文献。对比 实验的方法,均与本文算法在同实验条件下进行, 视觉效果如图 10、11 所示。图像在 ISTD 数据集 ·1086· 智 能 系 统 学 报 第 16 卷
第6期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1087· 测试指标对比见表4。 (m)阴影图4(n)文献[14](o)文献211(p)本文算法4 4组 4组 (a)阴影图1 (b)原图1 (c)文献[5](d本文算法1 1组 (q)阴影图5(①文献[14(s)文献[21]()本文算法5 5组 5组 (e)阴影图2 (①原图2(g)文献[5](h)本文算法2 2组 (u阴影图6(w)文献[14](w)文献[21](x)本文算法6 (①阴影图3 G原图3(k文献[)山)本文算法3 6组 6组 3组 图11算法对比视觉效果图2 Fig.11 Algorithm comparison visual effect chart 2 表4算法测量指标对比 Table 4 Comparison of algorithm measurement indexes (m)阴影图4(n)原图4 (o)文献[5](p)本文算法4 4组 实验 SSIM PSNR RMSE Guot51 0.934 23.49 14.31 Huliq 0.961 27.98 8.17 (q)阴影图5①)原图5(S)文献[)(①本文算法5 Wang1 0.949 29.86 7.47 5组 本文算法 0.967 30.12 6.72 4结束语 (四阴影图6(N)原图6(w)文献[)(x本文算法6 本文针对图片阴影去除过程中出现的阴影遗 6组 漏现象及半影部分去除不全面的问题,提出空洞 图10算法对比视觉效果图1 卷积与注意力融合的对抗式图像阴影去除算法。 Fig.10 Algorithm comparison visual effect chart 1 该算法用新型的空洞残差块进行特征提取,加大 感受野的同时减少了计算量,加强了特征感知的 强度。编码阶段,空洞卷积层增加了特征表达的 充分性,具有更为全局的语义信息,减少计算复 (a)阴影图1(b)文献[14](c)文献[21](d本文算法1 杂度。注意力机制的引入加强了网络对全局与部 1组 1组 分的把控。本算法的阴影去除效果,无论从测量 指标还是视觉感受,都达到了比较理想的效果。 该算法也可以迁移到其他同类型的监督学习的应 用中。 (e)阴影图2(日文献[14(g)文献21](h)本文算法2 本文提出的算法也存在一些不足之处,算法 2组 2组 对于小规模数据集的效果不够明显,且生成的图 像与原图可能会存在一些细微误差。 参考文献: (①阴影图3G)文献[14(k)文献[21])本文算法3 3组 3组 [1]HUANG Xiang,HUA Gang,TUMBLIN J,et al.What
测试指标对比见表 4。 (a) 阴影图 1 (b) 原图 1 (c) 文献 [5] 1 组 (d) 本文算法 1 (e) 阴影图 2 (f) 原图 2 (g) 文献 [5] 2 组 (h) 本文算法 2 (i) 阴影图 3 (j) 原图 3 (k) 文献 [5] 3 组 (l) 本文算法 3 (m) 阴影图 4 (n) 原图 4 (o) 文献 [5] 4 组 (p) 本文算法 4 (q) 阴影图 5 (r) 原图 5 (s) 文献 [5] 5 组 (t) 本文算法 5 (u) 阴影图 6 (v) 原图 6 (w) 文献 [5] 6 组 (x) 本文算法 6 图 10 算法对比视觉效果图 1 Fig. 10 Algorithm comparison visual effect chart 1 (a) 阴影图 1 (b) 文献 [14] 1 组 (c) 文献 [21] 1 组 (d) 本文算法 1 (e) 阴影图 2 (f) 文献 [14] 2 组 (g) 文献 [21] 2 组 (h) 本文算法 2 (i) 阴影图 3 (j) 文献 [14] 3 组 (k) 文献 [21] 3 组 (l) 本文算法 3 (q) 阴影图 5 (r) 文献 [14] 5 组 (s) 文献 [21] 5 组 (t) 本文算法 5 (u) 阴影图 6 (v) 文献 [14] 6 组 (w) 文献 [21] 6 组 (x) 本文算法 6 (m) 阴影图 4 (n) 文献 [14] 4 组 (o) 文献 [21] 4 组 (p) 本文算法 4 图 11 算法对比视觉效果图 2 Fig. 11 Algorithm comparison visual effect chart 2 表 4 算法测量指标对比 Table 4 Comparison of algorithm measurement indexes 实验 SSIM PSNR RMSE Guo[5] 0.934 23.49 14.31 Hu[14] 0.961 27.98 8.17 Wang[21] 0.949 29.86 7.47 本文算法 0.967 30.12 6.72 4 结束语 本文针对图片阴影去除过程中出现的阴影遗 漏现象及半影部分去除不全面的问题,提出空洞 卷积与注意力融合的对抗式图像阴影去除算法。 该算法用新型的空洞残差块进行特征提取,加大 感受野的同时减少了计算量,加强了特征感知的 强度。编码阶段,空洞卷积层增加了特征表达的 充分性,具有更为全局的语义信息,减少计算复 杂度。注意力机制的引入加强了网络对全局与部 分的把控。本算法的阴影去除效果,无论从测量 指标还是视觉感受,都达到了比较理想的效果。 该算法也可以迁移到其他同类型的监督学习的应 用中。 本文提出的算法也存在一些不足之处,算法 对于小规模数据集的效果不够明显,且生成的图 像与原图可能会存在一些细微误差。 参考文献: [1] HUANG Xiang, HUA Gang, TUMBLIN J, et al. What 第 6 期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1087·
·1088· 智能系统学报 第16卷 characterizes a shadow boundary under the sun and 标阴影检测新方法[.光电子·激光,2018,29(12): sky?[C]//Proceedings of the 2011 International Confer- 1317-1324. ence on Computer Vision.Barcelona,Spain,2011: ZHANG Degan,CHEN Chen,DONG Yue,et al.A new 898-905 method of moving object shadow detection based on ma- [2]FINLAYSON G D,HORDLEY S D,LU Cheng,et al.On chine learning[J].Journal of optoelectronicslaser,2018. the removal of shadows from images[J].IEEE transac- 2912):1317-1324 tions on pattern analysis and machine intelligence,2006, [11]HOSSEINZADEH S.SHAKERI M.ZHANG H.Fast 28(1):59-68. shadow detection from a single image using a patched [3]YU Xiaoming,LI Ge,YING Zhenqiang,et al.A new convolutional neural network[C]//2018 IEEE/RSJ Inter- shadow removal method using color-lines[C]//Interna- national Conference on Intelligent Robots and Systems tional Conference on Computer Analysis of Images and (IROS).Madrid.Spain.2018:1-5. Patterns.Ystad,Sweden,2017:307-319. [12]HU Xiaowei,JIANG Yitong,FU C W,et al.Mask- [4]林雨准,张保明,郭海涛,等.结合多尺度分割和形态学 ShadowGAN:learning to remove shadows from un- 运算的高分辨率遥感影像阴影检测).中国图象图形 paired data[C]//2019 IEEE/CVF International Confer- 学报,2018,23(8):1263-1272 ence on Computer Vision (ICCV).Seoul,Korea(South). LIN Yuzhun,ZHANG Baoming,GUO Haitao,et al. 2019:2472-2481. Shadow detection from high resolution remote sensing [13]FAN Hui,HAN Meng,LI Jinjiang.Image shadow re- imagery based on multi-scale segmentation and morpho- moval using end-to-end deep convolutional neural networks logy operation[J].Journal of image and graphics,2018, [J].Applied sciences,2019,9(5):1009-1026. 23(8):1263-1272. [14]HU Xiaowei,FU C W.ZHU Lei,et al.Direction-aware [5]GUO Ruiqi,DAI Qieyun,HOIEM D.Single-image shad- spatial context features for shadow detection and removal ow detection and removal using paired regions[C]//CV- [J].IEEE transactions on pattern analysis and machine PR 2011.Colorado Springs,USA,2011:2033-2040. intelligence,2020,42(11):2795-2808 [6]FAN Xinyun,WU Wenjun,ZHANG Ling,et al.Shading- [15]GOODFELLOW I POUGET-ABADIE J,MIRZA M.etal. aware shadow detection and removal from a single im- Generative adversarial nets[C]//Proceedings of the 27th age[J].The visual computer,2020,36(10/11/12): International Conference on Neural Information Pro- 2175-2188. cessing Systems.Montreal,Canada,2014:2672- [7]焦俊男,石静.田庆久,等.多光谱影像的NDVI阴影影 2680. 响去除模型[.遥感学报,2020,241):53-66 [16]张瑞倩,邵振峰,PORTNOV A,等.多尺度空洞卷积的 JIAO Junnan,SHI Jing,TIAN Qingjiu,et al.Researchon 无人机影像目标检测方法.武汉大学学报(信息科 multispectral-image-based NDVI shadow-effect-eliminat- 学版).2020.45(6):895-903 ing model[J].Journal of remote sensing,2020,24(1): ZHANG Ruiqian,SHAO Zhenfeng,PORTNOV A,et al. 53-66. Multi-scale dilated convolutional neural network for ob- [8]ZHANG Yindan,CHEN Gang,Vukomanovi J,et al.Re- ject detection in UAV images[J].Journal of Wuhan Uni- current Shadow Attention Model(RSAM)for shadow re- versity (information science edition),2020,45(6): moval in high-resolution urban land-cover mapping[J]. 895-903. Remote sensing of environment,2020,247:111945 [17]颜铭靖,苏喜友.基于三维空洞卷积残差神经网络的 [9]吴文,万毅.基于低尺度细节恢复的单幅图像阴影去除 高光谱影像分类方法J].光学学报,2020,40(16) 方法U.电子学报,2020,48(7):1293-1302. 1628002. WU Wen,WAN Yi.Single image shadow removal using YAN Mingjing,SU Xiyou.Hyperspectral image classi- low-scale detail recovering[J].Acta electronica sinica, fication based on three-dimensional dilated convolution- 2020,48(7):1293-1302. al residual neural network[J].Acta optica sinica,2020 [10]张德干,陈晨,董悦,等.一种基于机器学习的运动目 40(16):1628002
characterizes a shadow boundary under the sun and sky?[C]//Proceedings of the 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 898−905. FINLAYSON G D, HORDLEY S D, LU Cheng, et al. On the removal of shadows from images[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(1): 59–68. [2] YU Xiaoming, LI Ge, YING Zhenqiang, et al. A new shadow removal method using color-lines[C]//International Conference on Computer Analysis of Images and Patterns. Ystad, Sweden, 2017: 307−319. [3] 林雨准, 张保明, 郭海涛, 等. 结合多尺度分割和形态学 运算的高分辨率遥感影像阴影检测 [J]. 中国图象图形 学报, 2018, 23(8): 1263–1272. LIN Yuzhun, ZHANG Baoming, GUO Haitao, et al. Shadow detection from high resolution remote sensing imagery based on multi-scale segmentation and morphology operation[J]. Journal of image and graphics, 2018, 23(8): 1263–1272. [4] GUO Ruiqi, DAI Qieyun, HOIEM D. Single-image shadow detection and removal using paired regions[C]//CVPR 2011. Colorado Springs, USA, 2011: 2033−2040. [5] FAN Xinyun, WU Wenjun, ZHANG Ling, et al. Shadingaware shadow detection and removal from a single image[J]. The visual computer, 2020, 36(10/11/12): 2175–2188. [6] 焦俊男, 石静, 田庆久, 等. 多光谱影像的 NDVI 阴影影 响去除模型 [J]. 遥感学报, 2020, 24(1): 53–66. JIAO Junnan, SHI Jing, TIAN Qingjiu, et al. Researchon multispectral-image-based NDVI shadow-effect-eliminating model[J]. Journal of remote sensing, 2020, 24(1): 53–66. [7] ZHANG Yindan, CHEN Gang, Vukomanovi J, et al. Recurrent Shadow Attention Model (RSAM) for shadow removal in high-resolution urban land-cover mapping[J]. Remote sensing of environment, 2020, 247: 111945. [8] 吴文, 万毅. 基于低尺度细节恢复的单幅图像阴影去除 方法 [J]. 电子学报, 2020, 48(7): 1293–1302. WU Wen, WAN Yi. Single image shadow removal using low-scale detail recovering[J]. Acta electronica sinica, 2020, 48(7): 1293–1302. [9] [10] 张德干, 陈晨, 董悦, 等. 一种基于机器学习的运动目 标阴影检测新方法 [J]. 光电子·激光, 2018, 29(12): 1317–1324. ZHANG Degan, CHEN Chen, DONG Yue, et al. A new method of moving object shadow detection based on machine learning[J]. Journal of optoelectronics·laser, 2018, 29(12): 1317–1324. HOSSEINZADEH S, SHAKERI M, ZHANG H. Fast shadow detection from a single image using a patched convolutional neural network[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain, 2018: 1−5. [11] HU Xiaowei, JIANG Yitong, FU C W, et al. MaskShadowGAN: learning to remove shadows from unpaired data[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South), 2019: 2472−2481. [12] FAN Hui, HAN Meng, LI Jinjiang. Image shadow removal using end-to-end deep convolutional neural networks [J]. Applied sciences, 2019, 9(5): 1009–1026. [13] HU Xiaowei, FU C W, ZHU Lei, et al. Direction-aware spatial context features for shadow detection and removal [J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 42(11): 2795–2808. [14] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 2672− 2680. [15] 张瑞倩, 邵振峰, PORTNOV A, 等. 多尺度空洞卷积的 无人机影像目标检测方法 [J]. 武汉大学学报(信息科 学版), 2020, 45(6): 895–903. ZHANG Ruiqian, SHAO Zhenfeng, PORTNOV A, et al. Multi-scale dilated convolutional neural network for object detection in UAV images[J]. Journal of Wuhan University (information science edition), 2020, 45(6): 895–903. [16] 颜铭靖, 苏喜友. 基于三维空洞卷积残差神经网络的 高光谱影像分类方法 [J]. 光学学报, 2020, 40(16): 1628002. YAN Mingjing, SU Xiyou. Hyperspectral image classification based on three-dimensional dilated convolutional residual neural network[J]. Acta optica sinica, 2020, 40(16): 1628002. [17] ·1088· 智 能 系 统 学 报 第 16 卷
第6期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1089· [18]贾字峰,马力.条件约束下的自我注意生成对抗网络 USA,2017:2308-2316. [)西安电子科技大学学报,2019,46(6):163-170. [23]DING Bin,LONG Chengjiang,ZHANG Ling,et al.AR- JIA Yufeng,MA Li.Self-attention generative adversari- GAN:attentive recurrent generative adversarial network al network with the conditional constraint[J].Journal of for shadow detection and removal[C]//Proceedings of Xidian University,2019,46(6):163-170. the 2019 IEEE/CVF International Conference on Com- [19]QIAN Rui,TAN R T,YANG Wenhan,et al.Attentive puter Vision (ICCV).Seoul,Korea (South).2019:10212- generative adversarial network for raindrop removal 10221 from a single image[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake 作者简介: City,USA,2018:2482-2491 刘万军,教授,博士生导师,主要 研究方向为图像与智能信息处理。获 [20]刘烨,黄金筱,马于涛.基于混合神经网络和注意力机 国家发明专利5项,出版专著教材 制的软件缺陷自动分派方法).计算机研究与发展, 6部,发表学术论文130余篇。 2020,57(3):459-473 LIU Ye,HUANG Jinxiao,MA Yutao.An automatic method using hybrid neural networks and attention mechanism for software bug triaging[J].Journal of Com- 佟畅,硕士土研究生,主要研究方向 为图像与智能信息处理。 puter research and development,2020,57(3):459-473. [21]WANG Jifeng,LI Xiang,YANG Jian.Stacked condi- tional generative adversarial networks for jointly learn- ing shadow detection and shadow removal[Cl//2018 IEEE/ CVF Conference on Computer Vision and Pattern Re- 曲海成,副教授,博士,主要研究 cognition.Salt Lake City,USA,2018:1788-1797. 方向为图像与智能信息处理。 [22]QU Liangqiong,TIAN Jiandong,HE Shengfeng,et al. DeshadowNet:a multi-context embedding deep network for shadow removal[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu
贾宇峰, 马力. 条件约束下的自我注意生成对抗网络 [J]. 西安电子科技大学学报, 2019, 46(6): 163–170. JIA Yufeng, MA Li. Self-attention generative adversarial network with the conditional constraint[J]. Journal of Xidian University, 2019, 46(6): 163–170. [18] QIAN Rui, TAN R T, YANG Wenhan, et al. Attentive generative adversarial network for raindrop removal from a single image[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 2482−2491. [19] 刘烨, 黄金筱, 马于涛. 基于混合神经网络和注意力机 制的软件缺陷自动分派方法 [J]. 计算机研究与发展, 2020, 57(3): 459–473. LIU Ye, HUANG Jinxiao, MA Yutao. An automatic method using hybrid neural networks and attention mechanism for software bug triaging[J]. Journal of Computer research and development, 2020, 57(3): 459–473. [20] WANG Jifeng, LI Xiang, YANG Jian. Stacked conditional generative adversarial networks for jointly learning shadow detection and shadow removal[C]//2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 1788−1797. [21] QU Liangqiong, TIAN Jiandong, HE Shengfeng, et al. DeshadowNet: a multi-context embedding deep network for shadow removal[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, [22] USA, 2017: 2308−2316. DING Bin, LONG Chengjiang, ZHANG Ling, et al. ARGAN: attentive recurrent generative adversarial network for shadow detection and removal[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South), 2019: 10212− 10221. [23] 作者简介: 刘万军,教授,博士生导师,主要 研究方向为图像与智能信息处理。获 国家发明专利 5 项,出版专著教材 6 部,发表学术论文 130 余篇。 佟畅,硕士研究生,主要研究方向 为图像与智能信息处理。 曲海成,副教授,博士,主要研究 方向为图像与智能信息处理。 第 6 期 刘万军,等:空洞卷积与注意力融合的对抗式图像阴影去除算法 ·1089·