第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0L:10.11992tis.201903041 基于生成式对抗网络的道路交通模糊图像增强 曹锦纲,李金华,郑顾平 (华北电力大学控制与计算机工程学院,河北保定071003) 摘要:为了提高道路交通模糊图像增强的质量,进一步促进道路交通管理,针对道路交通场景下的运动模糊 图像增强问题,提出了一种基于生成式对抗网络的多尺度多路径学习的模型。首先,选用具有多尺度卷积核的 神经网络,对输入的图像进行更细致地特征值提取;其次,将局部残差学习和全局残差学习相结合,采用多路 径多权重共享的递归学习,并利用判别网络和生成网络间的对抗训练优化网络参数:最后,实现端到端直接生 成图像。实验结果表明:提出的模型可以有效地增强道路交通场景下的运动模糊图像,生成的图像细节更加丰 富,具有较好的图像视觉效果。 关键词:图像增强:道路交通;运动模糊;多尺度:多权重:残差网络;神经网络:生成式对抗网络 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2020)03-0491-08 中文引用格式:曹锦纲,李金华,郑顾平.基于生成式对抗网络的道路交通模糊图像增强.智能系统学报,2020,15(3): 491-498. 英文引用格式:CAO Jin'gang,LIJinhua,ZHENG Guping.Enhancement of blurred road--traffic images based on generative ad- versarial network(J.CAAI transactions on intelligent systems,2020,15(3):491-498. Enhancement of blurred road-traffic images based on generative adversarial network CAO Jin'gang,LI Jinhua,ZHENG Guping (School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China) Abstract:To improve the quality of blurred road-traffic images and facilitate road traffic management,we propose a multi-scale multi-path learning model based on a generative adversarial network,which solves the problem of enhan- cing motion-blur images in road traffic scenarios.First,the model selects a neural network with a multi-scale convolu- tion kernel to extract the eigenvalues of the input image in more detail.Then,by combining local and global residual learning techniques and applying recursive learning with multi-path and multi-weight sharing,the model performs ad- versarial training between discriminant and generating networks to optimize the network parameters.Lastly,an image is generated directly end to end.The experimental results show that the proposed model can effectively enhance motion- blur images in road traffic scenarios,and the details of the generated image are richer and have better visual effects. Keywords:enhancement;road traffic;motion blur;multi-scale;multi-weight;residual network;neural network;gener- ated adversarial network 随着科技的飞速发展,当今社会已迎来新的 料动或是车辆在行驶的过程中采集到的图像会有 智能时代,智能交通系统为智能城市的发展创造 不同程度的运动模糊,这给道路交通管理带来了 了重要条件,智能交通系统的道路交通信息来源 极大的不便。同时,在自动驾驶中,控制中心是 于拍摄设备上传的道路交通图片。由于拍摄设备 根据车载摄像头拍摄到的道路交通图像来规划行 收稿日期:2019-03-29 驶路线,以减轻驾驶员的操作疲劳程度。由于道 基金项目:中央高校基本科研业务费专项资金资助项目 路中的物体运动,会造成所拍摄到的图像模糊。 (2018MS072). 通信作者:李金华.E-mail:1844623784@qq.com 将增强的图像应用在自动驾驶感知模块,可以增
DOI: 10.11992/tis.201903041 基于生成式对抗网络的道路交通模糊图像增强 曹锦纲,李金华,郑顾平 (华北电力大学 控制与计算机工程学院,河北 保定 071003) 摘 要:为了提高道路交通模糊图像增强的质量,进一步促进道路交通管理,针对道路交通场景下的运动模糊 图像增强问题,提出了一种基于生成式对抗网络的多尺度多路径学习的模型。首先,选用具有多尺度卷积核的 神经网络,对输入的图像进行更细致地特征值提取;其次,将局部残差学习和全局残差学习相结合,采用多路 径多权重共享的递归学习,并利用判别网络和生成网络间的对抗训练优化网络参数;最后,实现端到端直接生 成图像。实验结果表明:提出的模型可以有效地增强道路交通场景下的运动模糊图像,生成的图像细节更加丰 富,具有较好的图像视觉效果。 关键词:图像增强;道路交通;运动模糊;多尺度;多权重;残差网络;神经网络;生成式对抗网络 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)03−0491−08 中文引用格式:曹锦纲, 李金华, 郑顾平. 基于生成式对抗网络的道路交通模糊图像增强 [J]. 智能系统学报, 2020, 15(3): 491–498. 英文引用格式:CAO Jin’ gang, LI Jinhua, ZHENG Guping. Enhancement of blurred road-traffic images based on generative adversarial network[J]. CAAI transactions on intelligent systems, 2020, 15(3): 491–498. Enhancement of blurred road-traffic images based on generative adversarial network CAO Jin’ gang,LI Jinhua,ZHENG Guping (School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China) Abstract: To improve the quality of blurred road-traffic images and facilitate road traffic management, we propose a multi-scale multi-path learning model based on a generative adversarial network, which solves the problem of enhancing motion-blur images in road traffic scenarios. First, the model selects a neural network with a multi-scale convolution kernel to extract the eigenvalues of the input image in more detail. Then, by combining local and global residual learning techniques and applying recursive learning with multi-path and multi-weight sharing, the model performs adversarial training between discriminant and generating networks to optimize the network parameters. Lastly, an image is generated directly end to end. The experimental results show that the proposed model can effectively enhance motionblur images in road traffic scenarios, and the details of the generated image are richer and have better visual effects. Keywords: enhancement; road traffic; motion blur; multi-scale; multi-weight; residual network; neural network; generated adversarial network 随着科技的飞速发展,当今社会已迎来新的 智能时代,智能交通系统为智能城市的发展创造 了重要条件,智能交通系统的道路交通信息来源 于拍摄设备上传的道路交通图片。由于拍摄设备 抖动或是车辆在行驶的过程中采集到的图像会有 不同程度的运动模糊,这给道路交通管理带来了 极大的不便。同时,在自动驾驶中,控制中心是 根据车载摄像头拍摄到的道路交通图像来规划行 驶路线,以减轻驾驶员的操作疲劳程度。由于道 路中的物体运动,会造成所拍摄到的图像模糊。 将增强的图像应用在自动驾驶感知模块,可以增 收稿日期:2019−03−29. 基金项目:中央高校基本科研业务费专项资金资助项 目 (2018MS072). 通信作者:李金华. E-mail:1844623784@qq.com. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020
·492· 智能系统学报 第15卷 强自动驾驶的容错力。因此,研究道路交通运动 增强的质量,本文提出了一种基于生成式对抗网 模糊图像的增强对智能城市的进步与发展有着重 络的多尺度提取图像特征值多路径学习的模型。 要的现实意义。 模型通过多尺度卷积核神经网络来进行特征值提 运动模糊图像I通常可以理解为清晰图像 取,采用多路径模式下的局部残差学习与全局残 和某个模糊核K的卷积加上噪声N作用的结果四, 差学习相结合,进行多权重的递归学习,判别网 用数学模型可以表达为Is=Is×K+N。对于由于 络和生成网络间的对抗训练,最后利用生成网络 物体运动或摄像设备抖动拍摄出来的运动模糊图 生成清晰图像。 片,去除这类图片的模糊的目标:一方面是恢复 物体原有的边缘结构;另一方面是增强图像的细 1生成式对抗网络 节,使图片具有较好的图像视觉效果。根据模糊 生成式对抗网络(generative adversarial net- 核是否已知,图像去模糊研究可以分为两种,即 work,GAN是由Goodfellow等I于2014年设计 盲去模糊和非盲去模糊。盲去模糊是利用模糊图 的一种生成式模型,其核心思想是二人零和博 像估计出模糊核,同时估计出清晰图像,非盲去 弈,生成式对抗网络模型是由一个生成网络G和 模糊是在能获知模糊核的情况下使用。传统去 一个判别网络D组成。生成网络G通过不断学 模糊方法是以图像成像过程的物理模型为基础, 习真实数据的概率分布,利用学习到的分布模型 应用各种约束来模拟模糊特征,利用基于内部图 生成新的数据。判别网络D的作用是将真实数 像特定的补丁重现先验)、稀疏梯度先验B、空间 据与生成网络G生成的数据区别开。判别网络 先验)、最大后验向等其他不同的自然图像先验 能使生成网络在没有较多的图像先验知识的情况 信息对解空间进行正则化,利用数学方法,如 下仍然可以很好地去学习真实数据,生成网络与 概率论、最优化方法等,通过数学建模来实现图 判别网络进行对抗训练相互进行参数优化,提高 像去模糊。传统方法涉及启发式参数调整和复杂 各自的生成和判别能力,最终使通过生成网络生 计算,而且真实情况下的模糊要比建模复杂得 成的数据可以与真实数据十分相近。生成式对抗 多,因而基于神经网络学习的去模糊方法被提 网络原始模型框架如图1所示。 出。早期的方法c是通过网络训练学到的参数 替换传统框架中的一些步骤,文献[10]使用深层 其实数据X 分层结构,采用包含了特定图像的反卷积计算 判别网络D 其/假 随机变量Z 来去除图像模糊;文献[11]使用卷积神经网络 →生成网路GG阳 (CNN)预测运动模糊的概率分布,并使用马尔科 图1GAN结构 夫随机场来推断密集非均匀运动模糊场,将图像 Fig.1 GAN structure 先验与非均匀去模糊模型相结合以去图像模糊; 随机噪声向量Z输入生成网络G,输出G(), 文献[12]采用一种多尺度交错的收缩场级联模 当输入判别网络D的数据为真实数据X时,D输 型,其中包含一系列高阶滤波器,以促进模糊内 出1,当输入判别网络D的数据为G(z)时,D输 核和潜像的联合恢复,但该模型运动离焦模糊处 出0。生成网络和判别网络利用损失函数进行对 理效果不是很好。模糊图像增强一直以来都是计 抗训练,网络对抗训练的目的是使G()接近真实 算机视觉领域内的重要研究课题,在深度学习大 数据分布Pe。经过不断对抗训练且迭代优化, 热的背景下,深度学习模型被应用到计算机视觉 当D最终无法判别数据来源时,认为生成网络已 与图像处理当中,使用可训练网络端到端来实现 学到真实数据分布。 模糊图像增强。文献[13]利用多尺度卷积神经网 生成网络G的损失函数为 络(CNN)将模糊图像逐步恢复高分辨率的潜像, min(D.G)=Ezp.([log(1-D(G(2)))] (1) 直到达到图像较好的分辨率;文献[14使用基于 判别网络D的损失函数为 条件生成对抗网络和多分量损失函数的方法, mgx V(D.G)=Eollog(D(x))+ (2) 进行对抗网络训练,端到端直接生成清晰图片。 EF.[(1-D(G(2)))]] 目前针对道路交通场景下的运动模糊图像增 模型的总体损失函数为 强的深度学习研究较少,而道路交通运动模糊图 min max V(D.G)=Eolog(D(x)]J+ (3) 像的增强有重要价值。为提高道路交通模糊图像 E2p.(o[1-D(G(2))]
强自动驾驶的容错力。因此,研究道路交通运动 模糊图像的增强对智能城市的进步与发展有着重 要的现实意义。 IB = IS ×K +N 运动模糊图像 IB 通常可以理解为清晰图像 IS 和某个模糊核 K 的卷积加上噪声 N 作用的结果[1] , 用数学模型可以表达为 。对于由于 物体运动或摄像设备抖动拍摄出来的运动模糊图 片,去除这类图片的模糊的目标:一方面是恢复 物体原有的边缘结构;另一方面是增强图像的细 节,使图片具有较好的图像视觉效果。根据模糊 核是否已知,图像去模糊研究可以分为两种,即 盲去模糊和非盲去模糊。盲去模糊是利用模糊图 像估计出模糊核,同时估计出清晰图像,非盲去 模糊是在能获知模糊核的情况下使用[1]。传统去 模糊方法是以图像成像过程的物理模型为基础, 应用各种约束来模拟模糊特征,利用基于内部图 像特定的补丁重现先验[2] 、稀疏梯度先验 [3-4] 、空间 先验[5] 、最大后验[6] 等其他不同的自然图像先验 信息[7-9] 对解空间进行正则化,利用数学方法,如 概率论、最优化方法等,通过数学建模来实现图 像去模糊。传统方法涉及启发式参数调整和复杂 计算,而且真实情况下的模糊要比建模复杂得 多,因而基于神经网络学习的去模糊方法被提 出。早期的方法[10-12] 是通过网络训练学到的参数 替换传统框架中的一些步骤,文献 [10] 使用深层 分层结构,采用包含了特定图像的反卷积计算 来去除图像模糊;文献 [11] 使用卷积神经网络 (CNN) 预测运动模糊的概率分布,并使用马尔科 夫随机场来推断密集非均匀运动模糊场,将图像 先验与非均匀去模糊模型相结合以去图像模糊; 文献 [12] 采用一种多尺度交错的收缩场级联模 型,其中包含一系列高阶滤波器,以促进模糊内 核和潜像的联合恢复,但该模型运动离焦模糊处 理效果不是很好。模糊图像增强一直以来都是计 算机视觉领域内的重要研究课题,在深度学习大 热的背景下,深度学习模型被应用到计算机视觉 与图像处理当中,使用可训练网络端到端来实现 模糊图像增强。文献 [13] 利用多尺度卷积神经网 络 (CNN) 将模糊图像逐步恢复高分辨率的潜像, 直到达到图像较好的分辨率;文献 [14] 使用基于 条件生成对抗网络[15] 和多分量损失函数的方法, 进行对抗网络训练,端到端直接生成清晰图片。 目前针对道路交通场景下的运动模糊图像增 强的深度学习研究较少,而道路交通运动模糊图 像的增强有重要价值。为提高道路交通模糊图像 增强的质量,本文提出了一种基于生成式对抗网 络的多尺度提取图像特征值多路径学习的模型。 模型通过多尺度卷积核神经网络来进行特征值提 取,采用多路径模式下的局部残差学习与全局残 差学习相结合,进行多权重的递归学习,判别网 络和生成网络间的对抗训练,最后利用生成网络 生成清晰图像。 1 生成式对抗网络 生成式对抗网络 (generative adversarial network, GAN) 是由 Goodfellow 等 [16] 于 2014 年设计 的一种生成式模型,其核心思想是二人零和博 弈,生成式对抗网络模型是由一个生成网络 G 和 一个判别网络 D 组成。生成网络 G 通过不断学 习真实数据的概率分布,利用学习到的分布模型 生成新的数据。判别网络 D 的作用是将真实数 据与生成网络 G 生成的数据区别开。判别网络 能使生成网络在没有较多的图像先验知识的情况 下仍然可以很好地去学习真实数据,生成网络与 判别网络进行对抗训练相互进行参数优化,提高 各自的生成和判别能力,最终使通过生成网络生 成的数据可以与真实数据十分相近。生成式对抗 网络原始模型框架如图 1 所示。 随机变量 Z 生成网络 G 真实数据 X 判别网络 D 真/假 x G(z) 图 1 GAN 结构 Fig. 1 GAN structure Z X Pdate 随机噪声向量 输入生成网络 G,输出 G(z), 当输入判别网络 D 的数据为真实数据 时,D 输 出 1,当输入判别网络 D 的数据为 G(z) 时,D 输 出 0。生成网络和判别网络利用损失函数进行对 抗训练,网络对抗训练的目的是使 G(z) 接近真实 数据分布 。经过不断对抗训练且迭代优化, 当 D 最终无法判别数据来源时,认为生成网络已 学到真实数据分布。 生成网络 G 的损失函数为 min G (D,G) = Ez∼ pz (z)[log(1− D(G(z)))] (1) 判别网络 D 的损失函数为 max D V (D,G) = Ex∼ pdata (x)[log(D(x))+ Ez∼ Pz (z)[(1− D(G(z)))]] (2) 模型的总体损失函数为 min G max D V (D,G) = Ex∼ pdata (x)[log(D(x)]J+ Ez∼ pz (z)[1− D(G(z))] (3) ·492· 智 能 系 统 学 报 第 15 卷
第3期 曹锦纲,等:基于生成式对抗网络的道路交通模糊图像增强 ·493· 式中:E代表分布函数的期望;Pe代表的是真实 作,从而获得图像在不同尺度下采集到的不同类 数据分布;P:代表的是噪声分布。 型的特征信息,因而能提取到更加丰富和细腻的 在最开始的生成式对抗网络研究中,输入的 特征信息。多路径模式下的局部与全局学习相结 是随机噪声,经生成网络映射成图像,随着生成 合,采用多权重的递归学习,实现各卷积层的参 式对抗网络的发展,后来越来越多的研究采用图 数共享,深浅层特征融合,采用残差学习,提高了 像3471或者视频920输入代替噪声输入,这使 网络的性能。这些都有利于使模糊增强图像更加 得生成网络的生成质量和效率得到了进一步提升。 清晰和细节更加丰富。本文生成网络框架如图3 所示。 2基于生成式对抗网络的多尺度多 生成的清晰图像 路径模型 2.1网络结构设计 本文提出的模型整体框架图如图2所示。为 模糊图像 0-1 了更好地提取出图像数据信息,本文在设计生成 网络中,主要有2个创新点:1)采用多尺度卷积 核神经网络进行特征值提取:2)使多路径模式的 局部残差学习与全局残差学习相结合,进行多权 原清晰图像 重的递归学习。利用多尺度卷积核提取特征值的 图2本文提出模型的整体框架 本质是使用不同尺寸的卷积核对图像进行卷积操 Fig.2 Overall framework of the proposed model n64 n61 n18gn256s n6432 n64 5×5 5个循环 n64 3×3 n64 1×1 输出 n256 n256 B 256 n256 图3本文提出的生成网络框架 Fig.3 Diagram of the framework of the generated network 图3中:A部分为多尺度神经网络;B部分为 积跟随instanceNorm和relu处理,经过循环学习 l个多路径模式下的学习;instanceNorm和conv- 5次后,进行两次步长为2、卷积核为3×3×128和 Transpose分别代表归一化和反卷积层;n为通道 3×3×64的反卷积操作,每步反卷积跟随instan- 数;s为步长;tanh和relu是激活函数。本文提 ceNorm和relu处理,最后进行一次卷积核为 出的生成网络框架图包含一个卷积核尺寸为 7×7×64的卷积和tanh操作。 7×7×64的卷积,步长为1,多尺度卷积的卷积核尺 为充分考虑到像素间的联系,选用了Path 寸分别为5×5×64、3×3×64、1×1×64,步长为1,卷 cGAN2作为判别网络,其每次只输入N×N个像 积融合后进行instanceNorm和relu处理,之后进 素点,然后让判别器对这N×N个像素点判断其是 行卷积核尺寸为3×3×128、3×3×256的卷积处理, 否为真,采用类似CNN滑窗的方法得到每个N×W 步长为2,每步卷积跟随instanceNorm和relu处 框的判别器输出值,将这些输出值进行平均得到 理,随后进入步长为1、卷积核为3×3×256的多路 最后判别器的输出结果。本文采用的判别网络框 径模式的局部残差学习与全局残差学习,每步卷 架结构如图4所示
E Pdate Pz 式中: 代表分布函数的期望; 代表的是真实 数据分布; 代表的是噪声分布。 在最开始的生成式对抗网络研究中,输入的 是随机噪声,经生成网络映射成图像,随着生成 式对抗网络的发展,后来越来越多的研究采用图 像 [13-14,17-18] 或者视频[19-20] 输入代替噪声输入,这使 得生成网络的生成质量和效率得到了进一步提升。 2 基于生成式对抗网络的多尺度多 路径模型 2.1 网络结构设计 本文提出的模型整体框架图如图 2 所示。为 了更好地提取出图像数据信息,本文在设计生成 网络中,主要有 2 个创新点:1) 采用多尺度卷积 核神经网络进行特征值提取;2) 使多路径模式的 局部残差学习与全局残差学习相结合,进行多权 重的递归学习。利用多尺度卷积核提取特征值的 本质是使用不同尺寸的卷积核对图像进行卷积操 作,从而获得图像在不同尺度下采集到的不同类 型的特征信息,因而能提取到更加丰富和细腻的 特征信息。多路径模式下的局部与全局学习相结 合,采用多权重的递归学习,实现各卷积层的参 数共享,深浅层特征融合,采用残差学习,提高了 网络的性能。这些都有利于使模糊增强图像更加 清晰和细节更加丰富。本文生成网络框架如图 3 所示。 模糊图像 0~1 原清晰图像 生成的清晰图像 判别网络 D 生成网络 G 图 2 本文提出模型的整体框架 Fig. 2 Overall framework of the proposed model + + 7×7 卷积 instanceNorm 3×3 卷积 3×3 卷积 7×7 relu 卷积 convTranspose tanh A n64 n64 n128s2 n128s2 n256s2 n64s2 n64 n256 n256 n256 n256 5×5 5个循环 n64 n64 3×3 1×1 输入 输出 B + 3×3 3×3 3×3 3×3 图 3 本文提出的生成网络框架 Fig. 3 Diagram of the framework of the generated network 图 3 中:A 部分为多尺度神经网络;B 部分为 1 个多路径模式下的学习;instanceNorm 和 convTranspose 分别代表归一化和反卷积层;n 为通道 数 ;s 为步长;tanh 和 relu 是激活函数。本文提 出的生成网络框架图包含一个卷积核尺寸为 7×7×64 的卷积,步长为 1,多尺度卷积的卷积核尺 寸分别为 5×5×64、3×3×64、1×1×64,步长为 1,卷 积融合后进行 instanceNorm 和 relu 处理,之后进 行卷积核尺寸为 3×3×128、3×3×256 的卷积处理, 步长为 2,每步卷积跟随 instanceNorm 和 relu 处 理,随后进入步长为 1、卷积核为 3×3×256 的多路 径模式的局部残差学习与全局残差学习,每步卷 积跟随 instanceNorm 和 relu 处理,经过循环学习 5 次后,进行两次步长为 2、卷积核为 3×3×128 和 3×3×64 的反卷积操作,每步反卷积跟随 instanceNorm 和 relu 处理,最后进行一次卷积核为 7×7×64 的卷积和 tanh 操作。 为充分考虑到像素间的联系,选用了 PathcGAN[21] 作为判别网络,其每次只输入 N×N 个像 素点,然后让判别器对这 N×N 个像素点判断其是 否为真,采用类似 CNN 滑窗的方法得到每个 N×N 框的判别器输出值,将这些输出值进行平均得到 最后判别器的输出结果。本文采用的判别网络框 架结构如图 4 所示。 第 3 期 曹锦纲,等:基于生成式对抗网络的道路交通模糊图像增强 ·493·
·494· 智能系统学报 第15卷 n28s2 1256s) n384s2 n384s nlsl 二m 0】 输 输出 图4判别网络框架 Fig.4 Framework of the discriminant network sigmoid是激活函数。生成网络生成的清晰 集,每一对图像包含一张模糊图和与之对应的清 图像和原清晰图像输入判别网络,先进行步长为 晰图像。所有数据集图像都是道路交通场景下的 2、卷积核为4×4×64的卷积,跟随relu处理,之后 图像,图像中包含道路、行人、车辆等,其中的 依次经过步长为2、卷积核为4×4×128、4×4×256、 2000对模糊清晰图像对作为模型的训练集,剩下的 4×4×384的卷积,再进行一个步长为1、卷积核为 1000对作为测试集。在输入神经网络模型之前, 4×4×384的卷积,每步卷积跟随instanceNorm和 将图像对的分辨率大小设置为256×256。 relu处理,接着经过步长为1、卷积核为4×4×1的 3.2质量评价 一次卷积,经flatten、全连接1、tanh、全连接2、 图像的质量评价方法主要分为两种:一种是 sigmoid操作后产生0~l之间的值。 主观评价,另一种是客观评价。主观评价依靠的 2.2损失函数 是观察者的视觉效果来反映图像的质量,客观评 本文的损失函数由两部分构成,即对抗网络 价是通过数学模型定性地评价图像质量。本文采 损失Lv和感知损失Lc。 用的是客观评价中常用的2种图像质量评价方 为使训练过程更好地收敛,采用的是WGAN- GP7中的对抗网络损失,对每个样本独立地施加 法,即峰值信噪比(PSNR)和结构相似度(SSIM), 实验结果数据取的是全部测试图像的平均值。蜂 梯度惩罚,损失函数为 值信噪比是通过计算对应像素点间的误差来判断 Ldv=E.pD(G(z))-EP((D(x))+ (4) 图像质量的好坏,其值越高表示失真越小,说明 REa.[(lIVa D(a)ll2-1)2] 图像与原图越接近。结构相似度是将感知误差的 式中:6为在Z和x之间随机插值取样;A取值为10。 度量转移到对感知结构失真的度量,其值越大越好。 采用感知损失来帮助恢复图像内容,感知 3.3网络训练 损失是基于生成和目标图像特征映射的差异。它 本文的模型是建立在pycharm平台上,采用 定义为 深度学习Keras框架实现,选用自适应矩估计 Lo= W:.H: ..c. (5) (ADAM)算法来优化损失函数。通过训练数据不 断更新神经网络权重,经过多次训练调优,学习 先使用ImageNet进行预训练VGGl9,其中 率a定为0.0001,B,=0,B2=0.9。采用道路交通模 ,是在VGG19网络中第i个最大池化层之前的 糊图像作为直接输入,每50对图像为一次训练, 第广个卷积(激活之后)获得的特征图,W和H 设置的最大迭代次数为1000,实验步骤如下: 是特征值,Ig是模糊图像,【、是清晰图像。 1)先固定生成网络G,不使生成网络G的参 模型的总体损失函数为 数更新,使用原清晰图像训练判别网络D,5次迭 Lios Ladv +BLe (6) 代训练保存1次参数。 3实验结果与分析 2)用生成网络G生成的清晰图像,使用生成 得到的清晰图像训练判别网络D,5次迭代训练 3.1数据集 保存1次参数。 现有公开的道路交通模糊图像数据库较少, 3)固定判别网络D,不使判别网络D的参数 为了更好地训练本文的模型,我们从网络图像 更新,使用损失训练生成网络G,5次迭代训练保 库、GoPro数据集搜集了3000对图像组成了数据 存1次参数
4×4 卷积 relu instanceNorm relu 4×4 卷积 4×4 卷积 4×4 卷积 4×4 卷积 4×4 卷积 全连接(1024) 全连接(1) sigmoid tanh 0~1 Flatten 输入 n64s2 n128s2 n256s2 n384s2 n384s1 n1s1 输出 图 4 判别网络框架 Fig. 4 Framework of the discriminant network sigmoid 是激活函数。生成网络生成的清晰 图像和原清晰图像输入判别网络,先进行步长为 2、卷积核为 4×4×64 的卷积,跟随 relu 处理,之后 依次经过步长为 2、卷积核为 4×4×128、4×4×256、 4×4×384 的卷积,再进行一个步长为 1、卷积核为 4×4×384 的卷积,每步卷积跟随 instanceNorm 和 relu 处理,接着经过步长为 1、卷积核为 4×4×1 的 一次卷积,经 flatten、全连接 1、tanh、全连接 2、 sigmoid 操作后产生 0~1 之间的值。 2.2 损失函数 Ladv Lc 本文的损失函数由两部分构成,即对抗网络 损失 和感知损失 。 为使训练过程更好地收敛,采用的是 WGANGP[17] 中的对抗网络损失,对每个样本独立地施加 梯度惩罚,损失函数为 Ladv = Ez∼ pz (z)D(G(z))−Ex∼ Pdata (x)(D(x))+ λE∂∼ p∂ [(||∇∂D(∂)||2 −1)2 ] (4) 式中: ∂ 为在 Z 和 x之间随机插值取样; λ 取值为 10。 采用感知损失[18] 来帮助恢复图像内容,感知 损失是基于生成和目标图像特征映射的差异。它 定义为 Lc = 1 Wi, jHi, j ∑Wi, j x=1 ∑Hi, j y=1 ( φi, j(IS )x,y−φi, j(G(IB))x,y )2 (5) φi, j Wi, j Hi, j 先使用 ImageNet 进行预训练 VGG19,其中 是在 VGG19 网络中第 i 个最大池化层之前的 第 j 个卷积 (激活之后) 获得的特征图, 和 是特征值,IB 是模糊图像,IS 是清晰图像。 模型的总体损失函数为 Lloss = Ladv +βLc (6) 3 实验结果与分析 3.1 数据集 现有公开的道路交通模糊图像数据库较少, 为了更好地训练本文的模型,我们从网络图像 库、GoPro 数据集搜集了 3 000 对图像组成了数据 集,每一对图像包含一张模糊图和与之对应的清 晰图像。所有数据集图像都是道路交通场景下的 图像,图像中包含道路、行人、车辆等,其中的 2 000 对模糊清晰图像对作为模型的训练集,剩下的 1 000 对作为测试集。在输入神经网络模型之前, 将图像对的分辨率大小设置为 256×256。 3.2 质量评价 图像的质量评价方法主要分为两种:一种是 主观评价,另一种是客观评价。主观评价依靠的 是观察者的视觉效果来反映图像的质量,客观评 价是通过数学模型定性地评价图像质量。本文采 用的是客观评价中常用的 2 种图像质量评价方 法,即峰值信噪比 (PSNR) 和结构相似度 (SSIM), 实验结果数据取的是全部测试图像的平均值。峰 值信噪比是通过计算对应像素点间的误差来判断 图像质量的好坏,其值越高表示失真越小,说明 图像与原图越接近。结构相似度是将感知误差的 度量转移到对感知结构失真的度量,其值越大越好。 3.3 网络训练 本文的模型是建立在 pycharm 平台上,采用 深度学习 Keras 框架实现,选用自适应矩估计 (ADAM) 算法来优化损失函数。通过训练数据不 断更新神经网络权重,经过多次训练调优,学习 率 α 定为 0.000 1,β1=0,β2=0.9。采用道路交通模 糊图像作为直接输入,每 50 对图像为一次训练, 设置的最大迭代次数为 1000,实验步骤如下: 1) 先固定生成网络 G,不使生成网络 G 的参 数更新,使用原清晰图像训练判别网络 D,5 次迭 代训练保存 1 次参数。 2) 用生成网络 G 生成的清晰图像,使用生成 得到的清晰图像训练判别网络 D,5 次迭代训练 保存 1 次参数。 3) 固定判别网络 D,不使判别网络 D 的参数 更新,使用损失训练生成网络 G,5 次迭代训练保 存 1 次参数。 ·494· 智 能 系 统 学 报 第 15 卷
第3期 曹锦纲,等:基于生成式对抗网络的道路交通模糊图像增强 ·495· 4)重复1)3),直到生成网络G可以生成判别 n64 n64 n64 网络D分辨不出的图像。 10个循环 为证明本文提出的多尺度多路径模型的优越 性,设置了3个对照模型,命名为模型b、模型 c和模型d,模型主要区别在图3生成网络的A 和B两部分,A部分网络分为多尺度和非多尺度 n256 卷积,B部分网络分为多路径和链模式学习,用 “√表示模型中含此部分,模型分类如表1所示。 n256 表1模型分类 Table 1 Model classification 圆256 n256 多尺度卷积非多尺度卷积多路径模式链模式算法模型 提出模型 模型b 图6模型c生成网络框架 模型c Fig.6 Framework of model c generation network 模型d n64 5×5 模型b与本文提出的网络模型的不同点是: 10个循环 n64 模型b的A部分网络结构使用卷积核为5×5、 3×3 3×3、1×1的卷积依次卷积,B部分网络结构采用 链模式的局部残差学习,具体模型结构如图5 1×1 所示。 m64 256 10个循环 B 图7模型d生成网络框架 图n256 Fig.7 Framework of model d generation network n256 3.4结果讨论 首先使用本文自建的数据集分别对本文提出 的模型、模型b、模型c、模型d进行了对照实验, 实验结果如表2所示,图8是选取了测试集中的 图5模型b生成网络框架 Fig.5 Framework of model b generation network 4幅图像的实验效果图。 模型c与本文提出的网络模型的不同点是: 表2图像质量评价结果 模型c的A部分网络结构使用卷积核为5×5、 Table 2 Results of image quality evaluations 3×3、1×1的卷积依次卷积,B部分网络结构采用 模型 PSNR/dB SSIM 多路径模式的局部残差学习与全局残差学习相结 本文算法 27.27 0.8991 合,进行多权重的递归学习,具体不同点的模型 模型b 25.39 0.7253 结构如图6所示。 模型c 26.62 0.7483 模型d与本文提出的网络模型的不同点是: 模型d 25.45 0.7304 模型d的A部分网络结构使用卷积核为5×5、 3×3、1×1的多尺度卷积,B部分网络结构采用链 从图8中可以看到本文算法模型处理后的图 模式的局部残差学习,具体不同点的模型结构如 像更加细腻,边缘的细节较清晰。由表2的图像 图7所示。 质量评价结果的数据可以看出,本文算法模型的
4) 重复 1)~3),直到生成网络 G 可以生成判别 网络 D 分辨不出的图像。 为证明本文提出的多尺度多路径模型的优越 性,设置了 3 个对照模型,命名为模型 b、模型 c 和模型 d,模型主要区别在图 3 生成网络的 A 和 B 两部分,A 部分网络分为多尺度和非多尺度 卷积,B 部分网络分为多路径和链模式学习,用 “√”表示模型中含此部分,模型分类如表 1 所示。 表 1 模型分类 Table 1 Model classification 多尺度卷积 非多尺度卷积 多路径模式 链模式 算法模型 √ √ 提出模型 √ √ 模型b √ √ 模型c √ √ 模型d 模型 b 与本文提出的网络模型的不同点是: 模型 b 的 A 部分网络结构使用卷积核为 5×5、 3×3、1×1 的卷积依次卷积,B 部分网络结构采用 链模式的局部残差学习,具体模型结构如图 5 所示。 5×5 卷积 3×3 卷积 1×1 卷积 + … … … A n64 n64 n64 n256 10个循环 n256 B3×3 3×3 图 5 模型 b 生成网络框架 Fig. 5 Framework of model b generation network 模型 c 与本文提出的网络模型的不同点是: 模型 c 的 A 部分网络结构使用卷积核为 5×5、 3×3、1×1 的卷积依次卷积,B 部分网络结构采用 多路径模式的局部残差学习与全局残差学习相结 合,进行多权重的递归学习,具体不同点的模型 结构如图 6 所示。 模型 d 与本文提出的网络模型的不同点是: 模型 d 的 A 部分网络结构使用卷积核为 5×5、 3×3、1×1 的多尺度卷积,B 部分网络结构采用链 模式的局部残差学习,具体不同点的模型结构如 图 7 所示。 3.4 结果讨论 首先使用本文自建的数据集分别对本文提出 的模型、模型 b、模型 c、模型 d 进行了对照实验, 实验结果如表 2 所示,图 8 是选取了测试集中的 4 幅图像的实验效果图。 表 2 图像质量评价结果 Table 2 Results of image quality evaluations 模型 PSNR/dB SSIM 本文算法 27.27 0.899 1 模型b 25.39 0.725 3 模型c 26.62 0.748 3 模型d 25.45 0.730 4 从图 8 中可以看到本文算法模型处理后的图 像更加细腻,边缘的细节较清晰。由表 2 的图像 质量评价结果的数据可以看出,本文算法模型的 5×5 卷积 3×3 卷积 1×1 … 卷积 … … A B n64 n64 n64 n256 n256 n256 n256 10个循环 + + 3×3 3×3 3×3 3×3 图 6 模型 c 生成网络框架 Fig. 6 Framework of model c generation network … A 10个循环 B + … … 3×3 n256 n256 n64 n64 3×3 1×1 3×3 5×5 图 7 模型 d 生成网络框架 Fig. 7 Framework of model d generation network 第 3 期 曹锦纲,等:基于生成式对抗网络的道路交通模糊图像增强 ·495·
·496· 智能系统学报 第15卷 峰值信噪比(PSNR)是27.27,结构相似度(SSIM) 为说明本文提出模型的优越性,我们对Sun 是0.8991,PSNR和SSIM皆高于模型b、模型c和 等及Kupyn等提出的模型进行了对比实验,使 模型d的峰值信噪比和结构相似度,证明了本文 用上述本文自建的数据集,实验结果如表3所示, 提出网络结构的有效性。 图9是选取了测试集中4幅图像的实验效果图。 品O受福 (a)清晰图 (b)模糊 (c)本文提出 (d)模型b (e)模型c (f)模型d 的模型 图8实验结果对比图 Fig.8 Comparison of experimental results 表3图像质量评价结果 Table 3 Results of image quality evaluations 模型 PSNR/dB SSIM 本文算法模型 27.27 0.8991 Sunuin 24.81 0.8125 Kupyn4 26.31 0.8503 (a)本文提出的模型 (b)Sun模型 (c)Kupyn!4模型 图9与其他模型对比结果 Fig.9 Comparison with other models
峰值信噪比 (PSNR) 是 27.27,结构相似度 (SSIM) 是 0.899 1,PSNR 和 SSIM 皆高于模型 b、模型 c 和 模型 d 的峰值信噪比和结构相似度,证明了本文 提出网络结构的有效性。 为说明本文提出模型的优越性,我们对 Sun 等 [11] 及 Kupyn 等 [14] 提出的模型进行了对比实验,使 用上述本文自建的数据集,实验结果如表 3 所示, 图 9 是选取了测试集中 4 幅图像的实验效果图。 表 3 图像质量评价结果 Table 3 Results of image quality evaluations 模型 PSNR/dB SSIM 本文算法模型 27.27 0.8991 Sun[11] 24.81 0.8125 Kupyn[14] 26.31 0.8503 (a) 清晰图 (b) 模糊 (c) 本文提出 的模型 (d) 模型 b (e) 模型 c (f) 模型 d 图 8 实验结果对比图 Fig. 8 Comparison of experimental results (a) 本文提出的模型 (b) Sun[11] 模型 (c) Kupyn[14] 模型 图 9 与其他模型对比结果 Fig. 9 Comparison with other models ·496· 智 能 系 统 学 报 第 15 卷
第3期 曹锦纲,等:基于生成式对抗网络的道路交通模糊图像增强 ·497· 从图9中可以看到,Sun等的方法在处理 representation for natural image deblurring[C]//Proceed- 图像边缘模糊增强时,效果不是很好,细节不够 ings of 2013 IEEE Conference on Computer Vision and 丰富,文献[11]和文献[14]的方法都会出现失 Pattern Recognition.Portland,USA.2013:1107-1114 真,而经本文模型处理后的图像在主观的视觉感 [7]GOLDSTEIN A.FATTAL R.Blur-kernel estimation from 受方面取得了较好的效果。从表3中可以看到, spectral irregularities[C]//Proceedings of the 12th Sun等四提出的模型峰值信噪比为24.8L,Kpym等 European Conference on Computer Vision.Florence,Italy, 提出的模型峰值信噪比为26.31,而本文提出的模 2012:622-635 型的峰值信噪比达到了27.27,同时本文提出的模 [8]PAN Jinshan,HU Zhe,SU Zhixun,et al.Deblurring text 型的结构相似度达到了0.8991,皆高于另外两个 images via 10-regularized intensity and gradient 模型的结构相似度。因此,本文算法模型无论是 prior[C]//Proceedings of 2014 IEEE Conference on Com- 从峰值信噪比还是从结构相似度上来看都要优于 puter Vision and Pattern Recognition.Columbus,USA, 其他的算法。 2014:2901-2908. [9]PAN Jinshan,SUN Deging,PFISTER H,et al.Blind im- 4结束语 age deblurring using dark channel prior[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern 针对道路交通场景下的模糊图像,基于生成 Recognition.Las Vegas,USA,2016:1628-1636 式对抗网络,本文提出了一个利用多尺度提取图 [10]SCHULER C J.HIRSCH M.HARMELING S,et al. 像特征值多路径学习的模型,通过判别网络和生 Learning to deblur[J].IEEE transactions on pattern ana- 成网络间的对抗训练,端到端生成清晰图像。经 lysis and machine intelligence,2016,38(7):1439-1451. 过实验表明,生成图像的细节更加丰富,无论是 [11]SUN Jian,CAO Wenfei,XU Zongben,et al.Learning a 主观还是客观,本文提出的模型针对道路交通场 convolutional neural network for non-uniform motion 景下的模糊图像增强,都取得了较好的效果。虽 blur removal[C]//Proceedings of 2015 IEEE Conference 然实验证明了该算法的优越性,但是生成图像与 on Computer Vision and Pattern Recognition.Boston, 原始图像相比还存在差距,仍需要进一步优化网 USA,2015:769-777. 络结构和调整参数。 [12]XIAO Lei,WANG Jue,HEIDRICH W,et al.Learning 参考文献 high-order filters for efficient blind deconvolution of doc- ument photographs[C]//Proceedings of the 14th European [1]陈春雷,叶东毅,陈昭炯.多局部模糊核融合的图像盲去 Conference on Computer Vision.Amsterdam,The Neth- 模糊算法U.光子学报,2018,47(10:205-215. erlands.2016:734-749. CHEN Chunlei,YE Dongyi,CHEN Zhaojiong.Blind im- [13]NAH S.KIM T H,LEE K M.Deep multi-scale convolutiona age deblurring via multi-local kernels'fusion[J].Acta I neural network for dynamic scene deblurring[C]//Pro- photonica sinica,2018,47(10):205-215 ceedings of 2017 IEEE Conference on Computer Vision [2]BAHAT Y,EFRAT N.IRANI M.Non-uniform blind and Pattern Recognition.Honolulu,USA,2017:257-265. deblurring by reblurring[Cl/Proceedings of 2017 IEEE In- [14]KUPYN O,BUDZAN V,MYKHAILYCH M,et al. ternational Conference on Computer Vision.Venice,Italy, DeblurGAN:blind motion deblurring using conditional 2017:3306-3314 adversarial networks[Cl//Proceedings of 2018 IEEE/CVF [3]CHAN T F.WONG C K.Total variation blind deconvolu- Conference on Computer Vision and Pattern Recognition tion[J].IEEE transactions on image processing,1998,7(3): Salt Lake City,USA,2018:8183-8192 370-375. [15]MIRZA M.OSINDERO S.Conditional generative ad- [4]CHO S,LEE S.Fast motion deblurring[J].ACM transac- versarial nets[J/OL].[2019-03-29].https://arxiv.org/ tions on graphics,2009,28(5):1-8. abs/1411.1784 [5]XU Li,JIA Jiaya.Two-phase kernel estimation for robust [16]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M. motion deblurring[C]//Proceedings of the 11th European et al.Generative adversarial nets[Cl//Proceedings of the Conference on Computer Vision.Crete,Greece,2010: 27th International Conference on Neural Information Pro- 157-170. cessing Systems.Cambridge,USA,2014:2672-2680. [6]XU Li,ZHENG Shicheng,JIA Jiaya.Unnatural 10 sparse [17]GULRAJANI I.AHMED F,ARJOVSKY M,et al.Improved
从图 9 中可以看到,Sun 等 [11] 的方法在处理 图像边缘模糊增强时,效果不是很好,细节不够 丰富,文献 [11] 和文献 [14] 的方法都会出现失 真,而经本文模型处理后的图像在主观的视觉感 受方面取得了较好的效果。从表 3 中可以看到, Sun 等 [11] 提出的模型峰值信噪比为 24.81,Kupyn 等 [14] 提出的模型峰值信噪比为 26.31,而本文提出的模 型的峰值信噪比达到了 27.27,同时本文提出的模 型的结构相似度达到了 0.899 1,皆高于另外两个 模型的结构相似度。因此,本文算法模型无论是 从峰值信噪比还是从结构相似度上来看都要优于 其他的算法。 4 结束语 针对道路交通场景下的模糊图像,基于生成 式对抗网络,本文提出了一个利用多尺度提取图 像特征值多路径学习的模型,通过判别网络和生 成网络间的对抗训练,端到端生成清晰图像。经 过实验表明,生成图像的细节更加丰富,无论是 主观还是客观,本文提出的模型针对道路交通场 景下的模糊图像增强,都取得了较好的效果。虽 然实验证明了该算法的优越性,但是生成图像与 原始图像相比还存在差距,仍需要进一步优化网 络结构和调整参数。 参考文献: 陈春雷, 叶东毅, 陈昭炯. 多局部模糊核融合的图像盲去 模糊算法 [J]. 光子学报, 2018, 47(10): 205–215. CHEN Chunlei, YE Dongyi, CHEN Zhaojiong. Blind image deblurring via multi-local kernels’ fusion[J]. Acta photonica sinica, 2018, 47(10): 205–215. [1] BAHAT Y, EFRAT N, IRANI M. Non-uniform blind deblurring by reblurring[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 3306−3314. [2] CHAN T F, WONG C K. Total variation blind deconvolution[J]. IEEE transactions on image processing, 1998, 7(3): 370–375. [3] CHO S, LEE S. Fast motion deblurring[J]. ACM transactions on graphics, 2009, 28(5): 1–8. [4] XU Li, JIA Jiaya. Two-phase kernel estimation for robust motion deblurring[C]//Proceedings of the 11th European Conference on Computer Vision. Crete, Greece, 2010: 157−170. [5] [6] XU Li, ZHENG Shicheng, JIA Jiaya. Unnatural l0 sparse representation for natural image deblurring[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 1107−1114. GOLDSTEIN A, FATTAL R. Blur-kernel estimation from spectral irregularities[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012: 622−635. [7] PAN Jinshan, HU Zhe, SU Zhixun, et al. Deblurring text images via l0-regularized intensity and gradient prior[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 2901−2908. [8] PAN Jinshan, SUN Deqing, PFISTER H, et al. Blind image deblurring using dark channel prior[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 1628−1636. [9] SCHULER C J, HIRSCH M, HARMELING S, et al. Learning to deblur[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(7): 1439–1451. [10] SUN Jian, CAO Wenfei, XU Zongben, et al. Learning a convolutional neural network for non-uniform motion blur removal[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 769−777. [11] XIAO Lei, WANG Jue, HEIDRICH W, et al. Learning high-order filters for efficient blind deconvolution of document photographs[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 734−749. [12] NAH S, KIM T H, LEE K M. Deep multi-scale convolutiona l neural network for dynamic scene deblurring[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 257−265. [13] KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeblurGAN: blind motion deblurring using conditional adversarial networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8183−8192. [14] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J/OL]. [2019 –03 –29].https: //arxiv.org/ abs/1411.1784. [15] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA, 2014: 2672−2680. [16] [17] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved 第 3 期 曹锦纲,等:基于生成式对抗网络的道路交通模糊图像增强 ·497·
·498· 智能系统学报 第15卷 training of Wasserstein GANs[C]//Proceedings of 31st 作者简介: Annual Conference on Neural Information Processing 曹锦纲,博士研究生,主要研究方 Systems.Long Beach,USA,2017:5769-5779 向为图像处理和模式识别。发表学术 [18]JOHNSON J,ALAHI A,LI Feifei.Perceptual losses for 论文10余篇。 real-time style transfer and super-resolution[C]//Proceed- ings of the 14th European Conference on Computer Vis- ion.Amsterdam.The Netherlands,2016:694-711 [19]KIMT H,LEEK M.SCHOLKOPF B,et al.Online video debl- urring via dynamic temporal blending network[C]//Pro- 李金华,硕士研究生,主要研究方 向为图像处理和人工智能。 ceedings of 2017 IEEE International Conference on Com- puter Vision.Venice,Italy,2017:4058-4067 [20]SU Shuochen,DELBRACIO M,WANG Jue,et al.Deep video deblurring for hand-held cameras[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pat- tern Recognition.Honolulu,USA,2017:237-246. 郑顾平,教授,博士,主要研究方 [21]ISOLA P,ZHU Junyan,ZHOU Tinghui,et al.Image-to- 向为图像处理、人工智能、大数据分 析。发表学术论文50余篇。 image translation with conditional adversarial networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, USA,2017:5967-5976 新书介绍:联邦学习 在当前大数据驱动的社会环境下,数据隐私安全成为了全民探讨的重要议题。信息技术的发展,离不开 由我们在智能终端(手机及其他设备等)上产生或推断出的个人数据,如浏览习惯、点击频次等,来推动个性 化应用和服务的发展。尤其在AI领域,这一情况更为明显,依赖于持续的数据感知、收集,并上传至服务端 进行深度分析与训练,AI才能迎来蓬勃发展。但底层未经审查、不透明的数据收集和聚合协议,很可能造成 严重的数据安全威胁和隐私风险。 要解决这样的困境,仅仅靠传统的机器学习方法已经出现瓶颈。我们需要一个既满足隐私保护和数据 安全,又可实施的解决方案一一联邦学习。联邦学习希望做到各个企业的自有数据不出本地,而联邦系统 可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个 虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移 动,也不泄露隐私和影响数据合规,也就是“数据不动,模型动”。这样,建好的模型在各自的区域仅为本地 的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富 裕”的策略,也就是“风险不增,效益增”。这就是为什么这个体系叫做“联邦学习”。 首部全面、系统论述联邦学习的中文著作《联邦学习》可以作为广大学习者入门和探究联邦学习的第 一本书。本书由杨强教授及其团队撰写,详细描述了联邦学习如何将分布式机器学习、密码学、基于金融规 则的激励机制和博弈论结合起来,以解决分散数据的使用问题。介绍不同种类的面向隐私保护的机器学习 解决方案以及技术背景,并描述一些典型的实际问题解决案例
training of Wasserstein GANs[C]//Proceedings of 31st Annual Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5769−5779. JOHNSON J, ALAHI A, LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 694−711. [18] KIM T H, LEE K M, SCHÖLKOPF B, et al. Online video deblurring via dynamic temporal blending network[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 4058−4067. [19] SU Shuochen, DELBRACIO M, WANG Jue, et al. Deep video deblurring for hand-held cameras[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 237−246. [20] ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-toimage translation with conditional adversarial networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5967−5976. [21] 作者简介: 曹锦纲,博士研究生,主要研究方 向为图像处理和模式识别。发表学术 论文 10 余篇。 李金华,硕士研究生,主要研究方 向为图像处理和人工智能。 郑顾平,教授,博士,主要研究方 向为图像处理、人工智能、大数据分 析。发表学术论文 50 余篇。 新书介绍:联邦学习 在当前大数据驱动的社会环境下,数据隐私安全成为了全民探讨的重要议题。信息技术的发展,离不开 由我们在智能终端(手机及其他设备等)上产生或推断出的个人数据,如浏览习惯、点击频次等,来推动个性 化应用和服务的发展。尤其在 AI 领域,这一情况更为明显,依赖于持续的数据感知、收集,并上传至服务端 进行深度分析与训练,AI 才能迎来蓬勃发展。但底层未经审查、不透明的数据收集和聚合协议,很可能造成 严重的数据安全威胁和隐私风险。 要解决这样的困境,仅仅靠传统的机器学习方法已经出现瓶颈。我们需要一个既满足隐私保护和数据 安全,又可实施的解决方案——联邦学习。联邦学习希望做到各个企业的自有数据不出本地,而联邦系统 可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个 虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移 动,也不泄露隐私和影响数据合规,也就是“数据不动,模型动”。这样,建好的模型在各自的区域仅为本地 的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富 裕”的策略,也就是“风险不增,效益增”。这就是为什么这个体系叫做“联邦学习”。 首部全面、系统论述联邦学习的中文著作《联邦学习》可以作为广大学习者入门和探究联邦学习的第 一本书。本书由杨强教授及其团队撰写,详细描述了联邦学习如何将分布式机器学习、密码学、基于金融规 则的激励机制和博弈论结合起来,以解决分散数据的使用问题。介绍不同种类的面向隐私保护的机器学习 解决方案以及技术背景,并描述一些典型的实际问题解决案例。 ·498· 智 能 系 统 学 报 第 15 卷