工程科学学报 Chinese Journal of Engineering 面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 印象马博渊班晓娟黄海友王宇李松岩 Defocus spread effect elimination method in multiple multi-focus image fusion for microscopic images YIN Xiang.MA Bo-yuan,BAN Xiao-juan,HUANG Hai-you,WANG Yu,LI Song-yan 引用本文: 印象,马博渊,班晓娟,黄海友,王宇,李松岩.面向显微影像的多聚焦多图融合中失焦扩散效应消除方法工程科学学报, 2021,43(9y:1174-1181.doi:10.13374j.issn2095-9389.2021.01.12.002 YIN Xiang.MA Bo-yuan,BAN Xiao-juan,HUANG Hai-you,WANG Yu,LI Song-yan.Defocus spread effect elimination method in multiple multi-focus image fusion for microscopic images[J].Chinese Journal of Engineering,2021,43(9):1174-1181.doi: 10.13374/i.issn2095-9389.2021.01.12.002 在线阅读View online:https::/doi.org10.13374.issn2095-9389.2021.01.12.002 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报.2020,42(5):557 https:1doi.org/10.13374.issn2095-9389.2019.03.21.003 复杂环境下一种基于Siam Mask的时空预测移动目标跟踪算法 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on Siam Mask 工程科学学报.2020,423:381 https::/1doi.org/10.13374斩.issn2095-9389.2019.06.06.005 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020.42(11):1525 https:/1doi.org/10.13374斩.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6):817 https:/1doi.org10.13374j.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10):1229 https:/1doi.org10.13374.issn2095-9389.2019.03.27.002 卷积神经网络在矿区预测中的研究与应用 Research and application of convolutional neural network in mining area prediction 工程科学学报.2020,42(12:1597 https:/doi.org10.13374.issn2095-9389.2020.01.02.001
面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 印象 马博渊 班晓娟 黄海友 王宇 李松岩 Defocus spread effect elimination method in multiple multi-focus image fusion for microscopic images YIN Xiang, MA Bo-yuan, BAN Xiao-juan, HUANG Hai-you, WANG Yu, LI Song-yan 引用本文: 印象, 马博渊, 班晓娟, 黄海友, 王宇, 李松岩. 面向显微影像的多聚焦多图融合中失焦扩散效应消除方法[J]. 工程科学学报, 2021, 43(9): 1174-1181. doi: 10.13374/j.issn2095-9389.2021.01.12.002 YIN Xiang, MA Bo-yuan, BAN Xiao-juan, HUANG Hai-you, WANG Yu, LI Song-yan. Defocus spread effect elimination method in multiple multi-focus image fusion for microscopic images[J]. Chinese Journal of Engineering, 2021, 43(9): 1174-1181. doi: 10.13374/j.issn2095-9389.2021.01.12.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2021.01.12.002 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报. 2020, 42(5): 557 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask 工程科学学报. 2020, 42(3): 381 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 卷积神经网络在矿区预测中的研究与应用 Research and application of convolutional neural network in mining area prediction 工程科学学报. 2020, 42(12): 1597 https://doi.org/10.13374/j.issn2095-9389.2020.01.02.001
工程科学学报.第43卷.第9期:1174-1181.2021年9月 Chinese Journal of Engineering,Vol.43,No.9:1174-1181,September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.12.002;http://cje.ustb.edu.cn 面向显微影像的多聚焦多图融合中失焦扩散效应消除 方法 印 象12,3),马博渊2,34,班晓娟2,34,黄海友14,),王宇6四,李松岩刀 1)北京科技大学北京材料基因工程高精尖创新中心,北京1000832)北京科技大学材料领域知识工程北京市重点实验室.北京100083 3)北京科技大学人工智能研究院,北京1000834)北京科技大学顺德研究生院,佛山5283005)北京科技大学新材料技术研究院,北京 1000836)北京理工大学网络空间安全学院,北京1000817)郑州大学医学院临床医学系,郑州450052 ☒通信作者,E-mail:hejohejo@126.com 摘要多聚焦图像融合是计算机视觉领域中的一个重要分支,旨在使用图像处理技术将同一场景下的聚焦不同目标的多 张图像中各自的清晰区域进行融合,最终获得全清晰图像.随着以深度学习为代表的机器学习理论的突破,卷积神经网络被 广泛应用于多聚焦图像融合领域,但大多数方法仅关注网络结构的改进,而使用简单的两两串行融合方式,降低了多图融合 的效率,并且在融合过程中存在的失焦扩散效应也严重影响了融合结果的质量.针对上述问题,在显微成像分析的应用场景 下,提出了一种最大特征图空间频率融合策略,通过在基于无监督学习的卷积神经网络中增加后处理模块,规避了两两串行 融合中冗余的特征提取过程,实验证明该策略显著提高了多张图像的多聚焦图像融合效率.并且提出了一种矫正策略,在保 证融合效率的情况下可有效缓解失焦扩散效应对融合图像质量的影响. 关键词多聚焦图像融合;失焦扩散效应:深度学习:卷积神经网路;多图融合 分类号TP391 Defocus spread effect elimination method in multiple multi-focus image fusion for microscopic images YIN Xiang23),MA Bo-yuan 23),BAN Xiao-juan 234),HUANG Hai-you 45),WANG Yu LI Song-yan 1)Beijing Advanced Innovation Center for Materials Genome Engineering.University of Science and Technology Beijing.Beijing 100083,China 2)Beijing Key Laboratory of Knowledge Engineering for Materials Science,University of Science and Technology Beijing,Beijing 00083,China 3)Institute of Artificial Intelligence,University of Science and Technology Beijing,Beijing 100083,China 4)Shunde Graduate School,University of Science and Technology Beijing,Foshan 528300,China 5)Institute for Advanced Materials and Technology,University of Science and Technology Beijing,Beijing 100083,China 6)School of Cyberspace Science and Technology,Beijing Institute of Technology,Beijing 100081,China 7)Clinical Medicine,Zhengzhou University,Zhengzhou 450052,China Corresponding author,E-mail:hejohejo@126.com ABSTRACT For a microscopic imaging scene,an all-in-focus image of the observation object is needed.Because of the limitation of the depth of field of the camera and the typically uneven surface of the observation object,an all-in-focus image is obtained through one shot with relative difficulty.In this case,an alternative method for obtaining the all-in-focus image is usually used,which is to fuse several images focusing on different depths with the help of multi-focus image fusion technology.Multi-focus image fusion is an 收稿日期:2021-01-12 基金项目:海南省财政科技计划资助项目(ZDYF2019009):国家自然科学基金资助项目(6210020684.61873299):中央高校基本科研业务 费资助项目(00007467):佛山市科技创新专项资金项目(BK21BF002,BK19AE034,BK20AF001)
面向显微影像的多聚焦多图融合中失焦扩散效应消除 方法 印 象1,2,3),马博渊1,2,3,4),班晓娟1,2,3,4),黄海友1,4,5),王 宇6) 苣,李松岩7) 1) 北京科技大学北京材料基因工程高精尖创新中心,北京 100083 2) 北京科技大学材料领域知识工程北京市重点实验室,北京 100083 3) 北京科技大学人工智能研究院,北京 100083 4) 北京科技大学顺德研究生院,佛山 528300 5) 北京科技大学新材料技术研究院,北京 100083 6) 北京理工大学网络空间安全学院,北京 100081 7) 郑州大学医学院临床医学系,郑州 450052 苣通信作者,E-mail:hejohejo@126.com 摘 要 多聚焦图像融合是计算机视觉领域中的一个重要分支,旨在使用图像处理技术将同一场景下的聚焦不同目标的多 张图像中各自的清晰区域进行融合,最终获得全清晰图像. 随着以深度学习为代表的机器学习理论的突破,卷积神经网络被 广泛应用于多聚焦图像融合领域,但大多数方法仅关注网络结构的改进,而使用简单的两两串行融合方式,降低了多图融合 的效率,并且在融合过程中存在的失焦扩散效应也严重影响了融合结果的质量. 针对上述问题,在显微成像分析的应用场景 下,提出了一种最大特征图空间频率融合策略,通过在基于无监督学习的卷积神经网络中增加后处理模块,规避了两两串行 融合中冗余的特征提取过程,实验证明该策略显著提高了多张图像的多聚焦图像融合效率. 并且提出了一种矫正策略,在保 证融合效率的情况下可有效缓解失焦扩散效应对融合图像质量的影响. 关键词 多聚焦图像融合;失焦扩散效应;深度学习;卷积神经网路;多图融合 分类号 TP391 Defocus spread effect elimination method in multiple multi-focus image fusion for microscopic images YIN Xiang1,2,3) ,MA Bo-yuan1,2,3,4) ,BAN Xiao-juan1,2,3,4) ,HUANG Hai-you1,4,5) ,WANG Yu6) 苣 ,LI Song-yan7) 1) Beijing Advanced Innovation Center for Materials Genome Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Beijing Key Laboratory of Knowledge Engineering for Materials Science, University of Science and Technology Beijing, Beijing 100083, China 3) Institute of Artificial Intelligence, University of Science and Technology Beijing, Beijing 100083, China 4) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528300, China 5) Institute for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China 6) School of Cyberspace Science and Technology, Beijing Institute of Technology, Beijing 100081, China 7) Clinical Medicine, Zhengzhou University, Zhengzhou 450052, China 苣 Corresponding author, E-mail: hejohejo@126.com ABSTRACT For a microscopic imaging scene, an all-in-focus image of the observation object is needed. Because of the limitation of the depth of field of the camera and the typically uneven surface of the observation object, an all-in-focus image is obtained through one shot with relative difficulty. In this case, an alternative method for obtaining the all-in-focus image is usually used, which is to fuse several images focusing on different depths with the help of multi-focus image fusion technology. Multi-focus image fusion is an 收稿日期: 2021−01−12 基金项目: 海南省财政科技计划资助项目(ZDYF2019009);国家自然科学基金资助项目(6210020684,61873299);中央高校基本科研业务 费资助项目(00007467);佛山市科技创新专项资金项目(BK21BF002,BK19AE034,BK20AF001) 工程科学学报,第 43 卷,第 9 期:1174−1181,2021 年 9 月 Chinese Journal of Engineering, Vol. 43, No. 9: 1174−1181, September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.12.002; http://cje.ustb.edu.cn
印象等:面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 ·1175 important branch in the field of computer vision.It aims to use image processing technology to fuse the clear regions of multiple images, focusing on different objects in the same scene,and finally to obtain an all-in-focus fusion result.With the breakthrough of machine learning theory represented by deep learning,the convolutional neural network is widely adopted in the field of multi-focus image fusion.However,most methods only focus on improving network structure and use the simple one-by-one serial fusion method,which reduces the efficiency of multiple image fusion.In addition,the defocus spread effect in the fusion process,which causes blurred artifacts in the areas near focus map boundaries,can severely affect the quality of fusion results.In the application of microscopic imaging analysis,we proposed a maximum spatial frequency in the feature map(MSFIFM)fusion strategy.By adding a post-processing module in the convolution neural network based on unsupervised learning,the redundant feature extraction process in the one-by-one serial fusion is avoided.Experiments demonstrate that this strategy can significantly improve the efficiency of multi-focus image fusion with multiple images.In addition,we presented a correction strategy that can effectively alleviate the effect of defocus spread on the fusion result under the condition of ensuring the efficiency of the algorithm fusion. KEY WORDS multi-focus image fusion:defocusing diffusion;deep learning;convolutional neural network;multiple image fusion 由于光学镜头自由度的限制,在成像过程中 性进展,但是大多数图像融合方法仅针对两张图 很难在一个镜头内将深度距离相差很大的物体全 像融合任务设计网络结构剧因此在多张图像 部聚焦山.因此,通常采用基于图像处理技术的多 融合应用中仅能使用两两串行融合策略.并且由 聚焦图像融合方法四,将同一场景下聚焦不同目标 于失焦扩散效应在自然场景中图像融合应用较为 的多张图像中各自的清晰区域进行融合,最终获 少见,因此极少有相关工作对该效应带来的融合 得全清晰图像) 质量退化现象进行处理 随着计算机硬件以及图像处理技术的进步, 1 多聚焦图像融合方法在显微成像分析中 多种基于不同理论的多聚焦图像融合方法如雨后 的应用 春笋般涌现,通常多聚焦图像融合方法可分为三 大类:基于变换域的融合方法、基于空间域的融合 多聚焦图像融合方法常应用于显微成像场景 方法、以及基于深度学习的融合方法 下的图像处理与分析任务中,图1所示为集成电 基于变换域的融合方法通过多尺度变换理论 路的微观多聚焦图像融合任务,由于观测物体表 设计清晰度评价标准,如拉普拉斯金字塔、低通 面高低不平,需通过调节显微镜焦距,以拍摄多张 金字塔)、离散小波变换等.基于空间域的融合 图像获得不同目标的聚焦图像,因此需要多聚焦 方法使用梯度信息测量清晰度水平,如空间频率)、 图像融合方法融合多张图像中各自的清晰区域, 导向滤波⑧、多尺度加权梯度网和密集尺度不变特 最终获得清晰的显微场景下的融合结果,以便于 征变换算子o等 研究人员清楚地观测微观结构 近年来,随着以深度学习叫为代表的机器学 当前,基于深度学习的多聚焦图像融合方法, 习理论取得了革命性突破,深度学习方法开始被 依托强大的特征表示能力,使其在融合质量和速 应用于多聚焦图像融合领域.Lu等首次将卷积神 度上超过了以往的传统融合方法,成为多聚焦图 经网络(Convolutional neural network,CNN)引入到 像融合领域的主流选择吻.但是,在实际应用中依 多聚焦图像融合领域中,并提出了一种基于深度 然存在多种挑战亟待解决: 卷积网络的图像融合方法(CNN-Fuse),通过有监 (1)多张多聚焦图像融合效率低.当前,大多 督的深度学习模型识别图像的聚焦区域)Ma等 数图像融合方法在模型设计时仅考虑了两张图像 提出一种基于挤压-激励与空间频率的无监督融 的融合情况,并简单地采用两两串行融合方法融 合方法(SESF-Fuse),通过无监督的训练策略获得 合多张图像,即当图像数目为N时,需要执行 图像的高维空间特征,并依托空间频率方法提取 2(N-1)次特征提取过程,在实际的显微成像分析 高维空间特征的梯度表征清晰度,以此进行图像 应用中,通常拍摄数十张融合图像,使用简单的两 融合],该方法避免了复杂且繁重的图像标注工 两串行融合方法严重降低了多图融合速度 作,可方便应用于工程实践 (2)失焦扩散效应严重降低融合质量.在实际 尽管基于深度学习的多聚焦图像融合方法在 应用中,如果观测目标区域内存在高度/深度差过 自然场景中的多聚焦图像融合任务中取得了突破 大的凸起或凹陷,这些位置将会由于深度距离超
important branch in the field of computer vision. It aims to use image processing technology to fuse the clear regions of multiple images, focusing on different objects in the same scene, and finally to obtain an all-in-focus fusion result. With the breakthrough of machine learning theory represented by deep learning, the convolutional neural network is widely adopted in the field of multi-focus image fusion. However, most methods only focus on improving network structure and use the simple one-by-one serial fusion method, which reduces the efficiency of multiple image fusion. In addition, the defocus spread effect in the fusion process, which causes blurred artifacts in the areas near focus map boundaries, can severely affect the quality of fusion results. In the application of microscopic imaging analysis, we proposed a maximum spatial frequency in the feature map (MSFIFM) fusion strategy. By adding a post-processing module in the convolution neural network based on unsupervised learning, the redundant feature extraction process in the one-by-one serial fusion is avoided. Experiments demonstrate that this strategy can significantly improve the efficiency of multi-focus image fusion with multiple images. In addition, we presented a correction strategy that can effectively alleviate the effect of defocus spread on the fusion result under the condition of ensuring the efficiency of the algorithm fusion. KEY WORDS multi-focus image fusion;defocusing diffusion;deep learning;convolutional neural network;multiple image fusion 由于光学镜头自由度的限制,在成像过程中 很难在一个镜头内将深度距离相差很大的物体全 部聚焦[1] . 因此,通常采用基于图像处理技术的多 聚焦图像融合方法[2] ,将同一场景下聚焦不同目标 的多张图像中各自的清晰区域进行融合,最终获 得全清晰图像[3] . 随着计算机硬件以及图像处理技术的进步, 多种基于不同理论的多聚焦图像融合方法如雨后 春笋般涌现,通常多聚焦图像融合方法可分为三 大类:基于变换域的融合方法、基于空间域的融合 方法、以及基于深度学习的融合方法. 基于变换域的融合方法通过多尺度变换理论 设计清晰度评价标准,如拉普拉斯金字塔[4]、低通 金字塔[5]、离散小波变换[6] 等. 基于空间域的融合 方法使用梯度信息测量清晰度水平,如空间频率[7]、 导向滤波[8]、多尺度加权梯度[9] 和密集尺度不变特 征变换算子[10] 等. 近年来,随着以深度学习[11] 为代表的机器学 习理论取得了革命性突破,深度学习方法开始被 应用于多聚焦图像融合领域. Liu 等首次将卷积神 经网络(Convolutional neural network, CNN)引入到 多聚焦图像融合领域中,并提出了一种基于深度 卷积网络的图像融合方法(CNN−Fuse),通过有监 督的深度学习模型识别图像的聚焦区域[12] . Ma 等 提出一种基于挤压−激励与空间频率的无监督融 合方法(SESF−Fuse),通过无监督的训练策略获得 图像的高维空间特征,并依托空间频率方法提取 高维空间特征的梯度表征清晰度,以此进行图像 融合[13] ,该方法避免了复杂且繁重的图像标注工 作,可方便应用于工程实践. 尽管基于深度学习的多聚焦图像融合方法在 自然场景中的多聚焦图像融合任务中取得了突破 性进展,但是大多数图像融合方法仅针对两张图 像融合任务设计网络结构[14−18] ,因此在多张图像 融合应用中仅能使用两两串行融合策略. 并且由 于失焦扩散效应在自然场景中图像融合应用较为 少见,因此极少有相关工作对该效应带来的融合 质量退化现象进行处理. 1 多聚焦图像融合方法在显微成像分析中 的应用 多聚焦图像融合方法常应用于显微成像场景 下的图像处理与分析任务中,图 1 所示为集成电 路的微观多聚焦图像融合任务,由于观测物体表 面高低不平,需通过调节显微镜焦距,以拍摄多张 图像获得不同目标的聚焦图像,因此需要多聚焦 图像融合方法融合多张图像中各自的清晰区域, 最终获得清晰的显微场景下的融合结果,以便于 研究人员清楚地观测微观结构. 当前,基于深度学习的多聚焦图像融合方法, 依托强大的特征表示能力,使其在融合质量和速 度上超过了以往的传统融合方法,成为多聚焦图 像融合领域的主流选择[19] . 但是,在实际应用中依 然存在多种挑战亟待解决: (1)多张多聚焦图像融合效率低. 当前,大多 数图像融合方法在模型设计时仅考虑了两张图像 的融合情况,并简单地采用两两串行融合方法融 合多张图像 ,即当图像数目 为 N 时 ,需要执 行 2(N−1)次特征提取过程. 在实际的显微成像分析 应用中,通常拍摄数十张融合图像,使用简单的两 两串行融合方法严重降低了多图融合速度. (2)失焦扩散效应严重降低融合质量. 在实际 应用中,如果观测目标区域内存在高度/深度差过 大的凸起或凹陷,这些位置将会由于深度距离超 印 象等: 面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 · 1175 ·
.1176 工程科学学报,第43卷,第9期 Multiple multi-focus images Feature extraction feature map, Maximum spatial Fusion result with defocus spread MSFIFM frequency in Rectification strategy Image fusion method Fusion result without defocus spread 图1显微成像场景中多张多聚焦图像融合技术路线(图中红色箭头为失焦扩散效应.融合结果中的黄色虚线框为放大后的局部区域,以方便读 者查看) Fig.I Flow chart of multiple multi-focus image fusion in a microscopic imaging scene(The red arrow in the figure shows the defocus spread effect.The yellow dotted line box in the fusion result is the enlarged local area,which is convenient for readers to view) 过成像装置景深,造成在调焦范围内无法聚焦全 线框所示 部位置,必然在该区域内呈现持续的失焦状态.以 2方法 图1中红色箭头所指的深凹情况为例,失焦成像 状态下产生前景失焦扩散效应将影响到深凹区域 2.1基于深度学习和最大特征图空间频率的融合 的像素值分布,最终在融合结果中的背景深凹区 策略 域处产生失真的伪影效果20,如图1中的黄色虚 在对所有待融合图像进行图像配准后1-四采 线框示意.针对上述问题,通常采用基于硬件或软 用传统两两串行融合方法融合多张图像时,当待 件的解决方法,基于硬件的优化方法主要有以下 融合的图像数目为N时,需要执行2(N-1)次特征 两种:第一是通过扩大聚焦拍摄区间,即通过拍摄 提取过程,而采用本文提出的最大特征图空间频 更多的不同焦距的图像,以期找到背景深凹处的 率融合策略,仅需要执行N次特征提取过程即可 聚焦结果,最终形成清晰的融合结果.这种方法会 进行多图融合,因此提高了多张图像融合效率 造成拍摄时间的延长、电耗的增加和硬件运作的 本文在图像特征提取时使用编码器-解码器 磨损,最终降低成像效率甚至降低精密镜头的使 结构),如图2(a)所示.编码器中C1包含了一个 用寿命.第二是通过抑制成像中的光强以减弱深 3x3卷积层.DC1、DC2以及DC3为密集链接模 凹区域以外物体的失焦扩散效应.这种方法虽然 块,分别包含一个3×3的卷积层,同时每个模块的 可以减弱失焦扩散效应,但会造成整体上的亮度 输出与其他模块跨层级联.SE为挤压-激发模块2, 降低,最终导致整体成像质量较差.并且基于硬件 可以通过自适应的特征通道维度校准来增强有用 的解决方法除上述缺陷外,还存在硬件改造成本 的特征.为了保证图像重建的准确性,在编码器与 高、技术升级难度大的问题.因此,如何通过基于 解码器中并没有加入池化层.解码器中C2、C3、 图像处理的软件方法缓解多聚焦图像融合中的失 C4以及C5结构与C1相同,用以重建输入图像 焦扩散效应是本领域中研究的难点. 在训练过程中利用文献[13)]中的像素损失以 针对以上显微成像场景中多张多聚焦图像融 及结构相似性损失同时训练编码器与解码器.像 合问题,本文提出如下的相应解决方案: 素损失与结构相似性损失为图像融合领域常用的 (1)本文提出一种最大特征图空间频率融合 损失函数.像素损失衡量了两张图像的距离,通过 策略(Maximum spatial frequency in feature map, 优化像素损失可以使输入输出图像在欧氏空间上 MSFIFM),在基于无监督学习的卷积神经网络中 具有更近的距离.结构相似性衡量了两张图像在 增加后处理模块,如图1所示,实验证明该策略显 亮度、对比度以及结构相关性三个方面的相似程 著提高了多张图像的多聚焦图像融合速度 度,通过优化结构相似性损失可以降低输出图像 (2)本文提出了一种矫正策略,可缓解失焦扩 视觉效果上的失真.当网络训练完成后,在推理时 散效应对融合图像质量的影响,如图1中黄色虚 仅利用编码器部分实现图像特征提取,并进行多
过成像装置景深,造成在调焦范围内无法聚焦全 部位置,必然在该区域内呈现持续的失焦状态. 以 图 1 中红色箭头所指的深凹情况为例,失焦成像 状态下产生前景失焦扩散效应将影响到深凹区域 的像素值分布,最终在融合结果中的背景深凹区 域处产生失真的伪影效果[20] ,如图 1 中的黄色虚 线框示意. 针对上述问题,通常采用基于硬件或软 件的解决方法. 基于硬件的优化方法主要有以下 两种:第一是通过扩大聚焦拍摄区间,即通过拍摄 更多的不同焦距的图像,以期找到背景深凹处的 聚焦结果,最终形成清晰的融合结果. 这种方法会 造成拍摄时间的延长、电耗的增加和硬件运作的 磨损,最终降低成像效率甚至降低精密镜头的使 用寿命. 第二是通过抑制成像中的光强以减弱深 凹区域以外物体的失焦扩散效应. 这种方法虽然 可以减弱失焦扩散效应,但会造成整体上的亮度 降低,最终导致整体成像质量较差. 并且基于硬件 的解决方法除上述缺陷外,还存在硬件改造成本 高、技术升级难度大的问题. 因此,如何通过基于 图像处理的软件方法缓解多聚焦图像融合中的失 焦扩散效应是本领域中研究的难点. 针对以上显微成像场景中多张多聚焦图像融 合问题,本文提出如下的相应解决方案: (1)本文提出一种最大特征图空间频率融合 策 略 ( Maximum spatial frequency in feature map, MSFIFM),在基于无监督学习的卷积神经网络中 增加后处理模块,如图 1 所示,实验证明该策略显 著提高了多张图像的多聚焦图像融合速度. (2)本文提出了一种矫正策略,可缓解失焦扩 散效应对融合图像质量的影响,如图 1 中黄色虚 线框所示. 2 方法 2.1 基于深度学习和最大特征图空间频率的融合 策略 在对所有待融合图像进行图像配准后[21−22] ,采 用传统两两串行融合方法融合多张图像时,当待 融合的图像数目为 N 时,需要执行 2(N−1)次特征 提取过程,而采用本文提出的最大特征图空间频 率融合策略,仅需要执行 N 次特征提取过程即可 进行多图融合,因此提高了多张图像融合效率. 本文在图像特征提取时使用编码器−解码器 结构[13] ,如图 2(a)所示. 编码器中 C1 包含了一个 3×3 卷积层. DC1、DC2 以及 DC3 为密集链接模 块,分别包含一个 3×3 的卷积层,同时每个模块的 输出与其他模块跨层级联. SE 为挤压−激发模块[23] , 可以通过自适应的特征通道维度校准来增强有用 的特征. 为了保证图像重建的准确性,在编码器与 解码器中并没有加入池化层. 解码器中 C2、C3、 C4 以及 C5 结构与 C1 相同,用以重建输入图像. 在训练过程中利用文献 [13] 中的像素损失以 及结构相似性损失同时训练编码器与解码器. 像 素损失与结构相似性损失为图像融合领域常用的 损失函数. 像素损失衡量了两张图像的距离,通过 优化像素损失可以使输入输出图像在欧氏空间上 具有更近的距离. 结构相似性衡量了两张图像在 亮度、对比度以及结构相关性三个方面的相似程 度,通过优化结构相似性损失可以降低输出图像 视觉效果上的失真. 当网络训练完成后,在推理时 仅利用编码器部分实现图像特征提取,并进行多 Multiple multi-focus images Image fusion method Rectification strategy Fusion result with defocus spread Fusion result without defocus spread Maximum spatial frequency in feature map, MSFIFM Feature extraction 图 1 显微成像场景中多张多聚焦图像融合技术路线(图中红色箭头为失焦扩散效应. 融合结果中的黄色虚线框为放大后的局部区域,以方便读 者查看) Fig.1 Flow chart of multiple multi-focus image fusion in a microscopic imaging scene (The red arrow in the figure shows the defocus spread effect. The yellow dotted line box in the fusion result is the enlarged local area, which is convenient for readers to view) · 1176 · 工程科学学报,第 43 卷,第 9 期
印象等:面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 .1177 (a) i(b) One by one serial; MSFIFM Legend fusion strategy strategy Encoder Spatial frequency fusion Spatial frequency calculation Channel wise concatenation Channel wise maximum L,=0-L2 LSSIM=1-SSIM(O,/ Image Fusion result 图2本文方法的网络结构和执行流程.()为网络结构:(b)为两种多图融合策路对比(左侧为两两串行融合策略,右侧为最大特征图空间颜率融 合策略) Fig.2 Network structure and implementation process of this method:(a)Network structure:(b)two fusion strategies(the left side is the one-by-one serial fusion strategy,and the right side is the MSFIFM strategy) 张图像融合 够有效提高多图融合的效率 传统的两两串行融合策略的流程如图2(b)左 2.2面向显微成像场景失焦扩散效应的矫正策略 侧所示,其中图像特征提取操作以及融合操作会 失焦扩散效应具有以下主要特点2o1:(1)当拍 因为不同的算法设计而略有差异,以利用编码器 摄前景失焦,背景聚焦时会出现失焦扩散效应; 进行特征提取操作,并利用空间频率融合1进行 (2)失焦扩散效应往往出现在聚焦边界处,导致前 融合操作为例,在融合多张图像时首先选取图像 景的伪影侵入背景区域造成边界处背景模糊. 1与图像2作为待融合图像,分别利用编码器提取 在进行显微成像场景下多张多聚焦图像融合 特征后利用空间频率融合得到融合图像1,然后再 任务时,由于观测目标区域内往往会存在高度深 将融合图像1与图像3作为待融合图像,分别利用 度差过大的凸起或凹陷,这些位置将会由于深度 编码器提取特征并利用空间频率融合得到融合图 距离超过成像装置景深,造成在调焦范围内无法 像2.重复上述步骤直到所有待融合图像都融合完 聚焦全部位置,因此必然会出现前景区域持续不 毕,得到最终的融合结果图像.这种方式当图像数 同程度失焦状态.因此在进行多图融合时不管是 目为N时,需要执行2(N-1)次特征提取过程 利用两两串行融合策略还是本文提出的最大特征 本文提出的最大特征图空间频率融合策略的 图空间频率融合策略都会在聚焦边界处出现不同 流程图如图2(b)右侧所示.在融合多张图像时首 程度的失焦扩散效应,严重影响了融合结果图像 先对每张待融合图像分别提取特征并计算特征的 的质量 空间频率.由于特征的空间频率反映了待融合图 由于显微成像场景背景深凹处往往具有较深 像的聚焦信息,因此我们先将待融合图像中尺寸 的颜色,如图1中红色箭头所示,因此失焦扩散现 为(w,h)的特征空间频率图在通道维度拼接得到 象在显微成像场景中往往表现为在融合图像中原 尺寸为(m,h,n)的拼接图.之后通过获取拼接图通 本失焦边界处的深色背景区域中出现较亮的前景 道维度n个像素最大值的索引的方式得到最终的 伪影,如图1中放大区域所示.针对这个特点本文 尺寸为(,)的融合决策图,融合决策图中不同位 提出了一种矫正策略,能够有效去除显微成像场 置像素值代表了待融合图像中不同位置聚焦程度 景下的失焦扩散效应 最高的图像编号,最后利用融合决策图对待融合 本文提出的面向显微成像场景失焦扩散效应 图像进行加权求和,得到融合图像.这种方式当图 的矫正策略流程如图3所示.首先利用待融合图 像数目为N时,仅需要执行N次特征提取过程,能 像的特征空间频率图(Spatial frequency of feature)
张图像融合. 传统的两两串行融合策略的流程如图 2(b)左 侧所示,其中图像特征提取操作以及融合操作会 因为不同的算法设计而略有差异. 以利用编码器 进行特征提取操作,并利用空间频率融合[13] 进行 融合操作为例,在融合多张图像时首先选取图像 1 与图像 2 作为待融合图像,分别利用编码器提取 特征后利用空间频率融合得到融合图像 1,然后再 将融合图像 1 与图像 3 作为待融合图像,分别利用 编码器提取特征并利用空间频率融合得到融合图 像 2. 重复上述步骤直到所有待融合图像都融合完 毕,得到最终的融合结果图像. 这种方式当图像数 目为 N 时,需要执行 2(N−1)次特征提取过程. 本文提出的最大特征图空间频率融合策略的 流程图如图 2(b)右侧所示. 在融合多张图像时首 先对每张待融合图像分别提取特征并计算特征的 空间频率. 由于特征的空间频率反映了待融合图 像的聚焦信息,因此我们先将待融合图像中尺寸 为 (w,h) 的特征空间频率图在通道维度拼接得到 尺寸为 (w,h,n) 的拼接图. 之后通过获取拼接图通 道维度 n 个像素最大值的索引的方式得到最终的 尺寸为 (w,h) 的融合决策图,融合决策图中不同位 置像素值代表了待融合图像中不同位置聚焦程度 最高的图像编号. 最后利用融合决策图对待融合 图像进行加权求和,得到融合图像. 这种方式当图 像数目为 N 时,仅需要执行 N 次特征提取过程,能 够有效提高多图融合的效率. 2.2 面向显微成像场景失焦扩散效应的矫正策略 失焦扩散效应具有以下主要特点[20] :(1)当拍 摄前景失焦,背景聚焦时会出现失焦扩散效应; (2)失焦扩散效应往往出现在聚焦边界处,导致前 景的伪影侵入背景区域造成边界处背景模糊. 在进行显微成像场景下多张多聚焦图像融合 任务时,由于观测目标区域内往往会存在高度/深 度差过大的凸起或凹陷,这些位置将会由于深度 距离超过成像装置景深,造成在调焦范围内无法 聚焦全部位置,因此必然会出现前景区域持续不 同程度失焦状态. 因此在进行多图融合时不管是 利用两两串行融合策略还是本文提出的最大特征 图空间频率融合策略都会在聚焦边界处出现不同 程度的失焦扩散效应,严重影响了融合结果图像 的质量. 由于显微成像场景背景深凹处往往具有较深 的颜色,如图 1 中红色箭头所示,因此失焦扩散现 象在显微成像场景中往往表现为在融合图像中原 本失焦边界处的深色背景区域中出现较亮的前景 伪影,如图 1 中放大区域所示. 针对这个特点本文 提出了一种矫正策略,能够有效去除显微成像场 景下的失焦扩散效应. 本文提出的面向显微成像场景失焦扩散效应 的矫正策略流程如图 3 所示. 首先利用待融合图 像的特征空间频率图(Spatial frequency of feature) (a) (b) L=λLSSIM+Lp LSSIM=1−SSIM(O, I) Lp=||O−I||2 Input Output Encoder SEDense Block Decoder Image 1 Image 2 Image 3 Image N Fusion result SE SE SE SE C1 3×3×1×16 DC1 3×3×16×16 DC2 3×3×32×16 DC3 3×3×48×16 C2 3×3×64×64 C3 3×3×64×32 C4 3×3×32×16 C5 3×3×16×1 One by one serial fusion strategy MSFIFM strategy Legend Channel wise concatenation Channel wise maximum Encoder Spatial frequency fusion Spatial frequency calculation 图 2 本文方法的网络结构和执行流程. (a)为网络结构;(b)为两种多图融合策略对比(左侧为两两串行融合策略,右侧为最大特征图空间频率融 合策略) Fig.2 Network structure and implementation process of this method: (a) Network structure; (b) two fusion strategies (the left side is the one-by-one serial fusion strategy, and the right side is the MSFIFM strategy) 印 象等: 面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 · 1177 ·
1178 工程科学学报,第43卷,第9期 在通道维度的最大值索引得到融合决策图,由于 找到对应的候选区域.图3中白色部分为该决策 决策图反映出了不同待融合图像的聚焦区域,而 图对应待融合图像的聚焦区域,黑色部分对应失 失焦扩散现象往往发生在聚焦区域边界,因此需 焦区域,橙色部分对应候选区域.利用公式(1)得 要获取每张待融合图像的聚焦区域边界作为候选 到待融合图像背景候选区域, 区域以进行进一步矫正.为此采用形态学的膨胀 255 DM:(x,y)庄C BM(x.y)= (1) 算法,对不同待融合图像的决策图进行膨胀从而 I(,y)DM(x,y)ECi Channel wise maximum acquisition Candidate region 驻cgy R Spatial frequency Decision volume with focused Fusion result without of feature map region and candidate region defocus spread 图3面向显微成像场景失焦扩散效应的矫正策略流程 Fig.3 Flow chart of rectification strategy for the defocus spread effect in the microscopic imaging scene 其中,BM,(xy)为第i张待融合图像的背景候选区 认为矫正融合背景区域中颜色越深的部分越有可 域(xy)位置处像素,Ixy)为第i张待融合图像 能是真正的背景区域.决策阈值T起到筛选融合 (x)位置处像素,DM,x)为第i张待融合图像的 背景区域的作用,T取值太小会导致矫正融合背景 决策图中(xy)位置处像素,C为第i张待融合图 区域面积过小,使算法不能够有效去除失焦扩散 像决策图的候选区域像素集合 现象;T取值太大则会导致,前背景边界处前景一 由于显微成像场景的失焦扩散效应往往表示 侧受矫正融合背景区域中的噪声影响产生伪影, 为在聚焦边界区域深色的背景一侧存在亮色的前 因此综合考虑决策阈值T取40. 景伪影,因此利用公式(2)对每张待融合图像的背 3实验 景候选区域BM进行矫正,得到矫正融合背景区域 RM(x,)=min(BM,(x,y》 (2) 本文以显微成像场景下多聚焦多图融合为应 其中,RMx)为矫正融合背景区域(xy)位置处像 用背景,定量地分析了本文提出的基于深度学习 素,D为待融合图像集合.之后利用矫正融合背景 和最大特征图空间频率融合策略所带来的算法效 区域根据公式(3)与(4)得到无失焦扩散的融合 率提升.由于当前并没有较合适的评估指标能够 结果 评估融合图像失焦扩散效应的程度,因此对于本 文提出的面向显微成像场景失焦扩散效应的矫正 F'Cx,)=sDxy×DNM(x,》 (3) 策略,主要采用主观评估的方式,定性地分析了其 RM(x,y),RMx,y)≤T 去除失焦扩散效果的性能 F(x,y)= (4) F'(x.y),RM(x,y)>T 31实验参数 其中,F(xy)为初始融合图像(xy)位置处像素, 本文利用MS-COC0数据集2训练图2(a)所 Fxy)为无失焦扩散的融合结果(xy)位置处像素, 示的编码器-解码器网络)其中训练集包含 其中T为决策阈值,由于矫正融合背景区域的计 82783张图像,验证集包含40504张图像,所有图 算存在一定的误差,同时在显微成像环境下图像 像均被统一缩放为256×256像素并被转换至灰度 的背景深凹区域往往具有较深的颜色,因此可以 域.学习率为1×10损失函数中超参数1=3,优化
在通道维度的最大值索引得到融合决策图,由于 决策图反映出了不同待融合图像的聚焦区域,而 失焦扩散现象往往发生在聚焦区域边界,因此需 要获取每张待融合图像的聚焦区域边界作为候选 区域以进行进一步矫正. 为此采用形态学的膨胀 算法,对不同待融合图像的决策图进行膨胀从而 找到对应的候选区域. 图 3 中白色部分为该决策 图对应待融合图像的聚焦区域,黑色部分对应失 焦区域,橙色部分对应候选区域. 利用公式 (1) 得 到待融合图像背景候选区域, BMi(x,y) = { 255 DMi(x, y) T (4) 其中,F′(x,y) 为初始融合图像 (x,y) 位置处像素, F(x,y) 为无失焦扩散的融合结果 (x,y) 位置处像素, 其中 T 为决策阈值,由于矫正融合背景区域的计 算存在一定的误差,同时在显微成像环境下图像 的背景深凹区域往往具有较深的颜色,因此可以 认为矫正融合背景区域中颜色越深的部分越有可 能是真正的背景区域. 决策阈值 T 起到筛选融合 背景区域的作用,T 取值太小会导致矫正融合背景 区域面积过小,使算法不能够有效去除失焦扩散 现象;T 取值太大则会导致,前背景边界处前景一 侧受矫正融合背景区域中的噪声影响产生伪影, 因此综合考虑决策阈值 T 取 40. 3 实验 本文以显微成像场景下多聚焦多图融合为应 用背景,定量地分析了本文提出的基于深度学习 和最大特征图空间频率融合策略所带来的算法效 率提升. 由于当前并没有较合适的评估指标能够 评估融合图像失焦扩散效应的程度,因此对于本 文提出的面向显微成像场景失焦扩散效应的矫正 策略,主要采用主观评估的方式,定性地分析了其 去除失焦扩散效果的性能. 3.1 实验参数 本文利用 MS−COCO 数据集[24] 训练图 2(a)所 示的编码器 −解码器网络 [25] . 其中训练集包 含 82783 张图像,验证集包含 40504 张图像,所有图 像均被统一缩放为 256×256 像素并被转换至灰度 域. 学习率为 1×10−4 . 损失函数中超参数 λ=3,优化 · 1178 · 工程科学学报,第 43 卷,第 9 期
印象等:面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 .1179. 器选用Adam2,批尺寸与训练轮数分别设置为 随着图像尺寸的增加,图像特征提取的时间也会 48与30 随之增加,当图像数目为N时,两两串行融合策略 本文的算法实现基于PyTorch框架27和 需要执行2(WN-1)次特征提取过程,而MSFIFM策 OpenCV代码包2,并使用显存共计44GB的4块 略有效降低了算法特征提取网络的运行次数仅需 NVIDIA1O80 Ti GPU来训练网络 要执行N次特征提取就能得到最终的融合结果, 3.2最大特征图空间频率融合策略性能分析 因此随着待融合图像尺寸的增大MSFIFM算法的 本文利用65张不同聚焦深度下的显微场景下 融合效率提升也会越明显 的微观芯片图像进行实验.通过改变图像的尺寸对 MSFIFM策略与两两串行融合策略得到的融 比不同尺寸下多图像融合时MSFIFM策略与两两 合图像如图4所示.在“芯片1”对比图的放大区 串行融合策略的平均耗时.实验结果如表1所示. 域中可以看出,两两串行融合策略得到的融合结 果相比于MSFIFM策略在前景部分存在带状模糊 表1 MSFIFM策略与两两串行融合策略平均耗时对比 噪声;在“芯片2”对比图的放大区域中可以看出 Table 1 Average time comparison between the MSFIFM and one-by- 两两串行融合策略得到的融合结果相比于 one fusion strategies Average time of one- Execution MSFIFM策略在前景区域存在较大面积的模糊; Image size Average time of by-one fusion efficiency MSFIFM strategy/s 在“芯片3”对比图中两两串行融合策略相比于 strategy/s increase/% MSFIFM策略在前背景聚焦边界处存在更少的失 900×600 01397 0.2645 47.18 600×400 0.0732 0.1351 45.83 焦扩散伪影,但是并没有很好地捕捉到整体前景 300×200 0.0265 0.0391 32.08 的聚焦信息;这说明采用两两串行融合的方式不 能很好的捕捉到待融合图像中的清晰区域,这主 从表1的实验结果可以看出,MSFIFM策略相 要是因为算法中的特征提取网络在训练时不可避 比于两两串行融合策略在执行效率上提高了 免地会存在一定的噪声,而两两串行融合策略在 30%以上,证明了MSFIFM策略在多图融合时能 融合N张图像的时候相比于MSFIFM策略需要多 够充分降低算法运行时间.随着图像尺寸的增加, 运行N-2次特征提取网络,这就造成了决策图的 MSFIFM策略融合效率的提高也越加明显,这主 预测过程积累了更多的误差,从而降低了最终的 要是因为图像特征提取占据了大部分的耗时,而 融合结果的可视化效果 Chip3 Multiple multi-focus images One by one MSFIFM MSFIFM+ CNN Fuse MS-Lap serial rectification strategy 图4不同融合方式下芯片1、芯片2和芯片3的融合结果对比 Fig.4 Visualization of fusion results of chipl,chip2,and chip3 with different fusion algorithms 3.3面向显微成像场景失焦扩散效应的矫正策略 习的多聚焦图像融合算法,包括CNN Fuse!四以及 性能分析 考虑了失焦扩散效应的MS-Lap9其中MS-Lap 本节主要从主观评估以及算法运行效率两方 采用了基于优化策略的方法,对比时每次融合最 面,对本文提出的面向显微成像场景失焦扩散效 大迭代轮数取200,学习率取0.001 应的矫正策略进行分析.主要对比了两两串行融 图4展示了两两串行融合策略、MSFIFM策 合策略、MSFIFM策略以及另外两种基于深度学 略、MSFIFM策略+失焦扩散效应的矫正策略
器选用 Adam[26] ,批尺寸与训练轮数分别设置为 48 与 30. 本 文 的 算 法 实 现 基 于 PyTorch 框 架 [27] 和 OpenCV 代码包[28] ,并使用显存共计 44 GB 的 4 块 NVIDIA 1080Ti GPU 来训练网络. 3.2 最大特征图空间频率融合策略性能分析 本文利用 65 张不同聚焦深度下的显微场景下 的微观芯片图像进行实验. 通过改变图像的尺寸对 比不同尺寸下多图像融合时 MSFIFM 策略与两两 串行融合策略的平均耗时. 实验结果如表 1 所示. 表 1 MSFIFM 策略与两两串行融合策略平均耗时对比 Table 1 Average time comparison between the MSFIFM and one-byone fusion strategies Image size Average time of MSFIFM strategy/s Average time of oneby-one fusion strategy/s Execution efficiency increase/% 900×600 0.1397 0.2645 47.18 600×400 0.0732 0.1351 45.83 300×200 0.0265 0.0391 32.08 从表 1 的实验结果可以看出,MSFIFM 策略相 比于两两串行融合策略在执行效率上提高 了 30% 以上,证明了 MSFIFM 策略在多图融合时能 够充分降低算法运行时间. 随着图像尺寸的增加, MSFIFM 策略融合效率的提高也越加明显,这主 要是因为图像特征提取占据了大部分的耗时,而 随着图像尺寸的增加,图像特征提取的时间也会 随之增加,当图像数目为 N 时,两两串行融合策略 需要执行 2(N−1)次特征提取过程,而 MSFIFM 策 略有效降低了算法特征提取网络的运行次数仅需 要执行 N 次特征提取就能得到最终的融合结果, 因此随着待融合图像尺寸的增大 MSFIFM 算法的 融合效率提升也会越明显. MSFIFM 策略与两两串行融合策略得到的融 合图像如图 4 所示. 在“芯片 1”对比图的放大区 域中可以看出,两两串行融合策略得到的融合结 果相比于 MSFIFM 策略在前景部分存在带状模糊 噪声;在“芯片 2”对比图的放大区域中可以看出 两 两 串 行 融 合 策 略 得 到 的 融 合 结 果 相 比 于 MSFIFM 策略在前景区域存在较大面积的模糊; 在“芯片 3”对比图中两两串行融合策略相比于 MSFIFM 策略在前背景聚焦边界处存在更少的失 焦扩散伪影,但是并没有很好地捕捉到整体前景 的聚焦信息;这说明采用两两串行融合的方式不 能很好的捕捉到待融合图像中的清晰区域,这主 要是因为算法中的特征提取网络在训练时不可避 免地会存在一定的噪声,而两两串行融合策略在 融合 N 张图像的时候相比于 MSFIFM 策略需要多 运行 N−2 次特征提取网络,这就造成了决策图的 预测过程积累了更多的误差,从而降低了最终的 融合结果的可视化效果. Chip1 Chip2 Chip3 Multiple multi-focus images One by one serial MSFIFM MSFIFM+ rectification strategy CNN Fuse MS-Lap 图 4 不同融合方式下芯片 1、芯片 2 和芯片 3 的融合结果对比 Fig.4 Visualization of fusion results of chip1, chip2, and chip3 with different fusion algorithms 3.3 面向显微成像场景失焦扩散效应的矫正策略 性能分析 本节主要从主观评估以及算法运行效率两方 面,对本文提出的面向显微成像场景失焦扩散效 应的矫正策略进行分析. 主要对比了两两串行融 合策略、MSFIFM 策略以及另外两种基于深度学 习的多聚焦图像融合算法,包括 CNN Fuse[12] 以及 考虑了失焦扩散效应的 MS-Lap[29] . 其中 MS-Lap 采用了基于优化策略的方法,对比时每次融合最 大迭代轮数取 200,学习率取 0.001. 图 4 展示了两两串行融合策略、MSFIFM 策 略 、 MSFIFM 策 略 +失焦扩散效应的矫正策略 、 印 象等: 面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 · 1179 ·
·1180 工程科学学报,第43卷,第9期 CNN Fuse以及MS-La即下“芯片1”、“芯片2”和 下相对于另外两种算法在融合速度上有较为明显 “芯片3”的融合结果对比. 的优势,更加适用于实际应用环境 由图4主观对比可以看出,利用MSFIFM策 略+失焦扩散效应的矫正策略得到的融合结果相 表2 CNN Fuse、MS-La即以及本文算法平均融合时间对比 比于仅利用MSFIFM策略得到的融合结果具有 Table 2 Average time comparison among CNN Fuse,MS-Lap and our method 更好的视觉效果,在“芯片1”的对比图中利用 Image Average time of MSFIFM+ Average time of Average time of MSFIFM策略得到的融合结果虽然效果要优于两 name rectification strategy CNN Fuse MS-Lap 两串行融合策略,但是在放大区域中还是会存在 Chipl 3.9248 336.3321 96.2325 较为明显的失焦扩散效应,MSFIFM策略+失焦扩 Chip2 0.4126 72.4707 1.7137 散效应矫正策略、CNN Fuse以及MS-Lap算法均 Chip3 1.5518 347.4140 95.9874 取得了较为不错的效果.在“芯片2”的对比图中 MS-Lap算法取得了较好的效果,CNN Fuse算法 4 结论与展望 的融合结果在针脚根部存在一定的失焦扩散现 象,利用MSFIFM策略+失焦扩散效应的矫正策 本文针对现有多聚焦图像融合算法在进行多 略得到的融合图像相比于两两融合、仅利用 图融合时效率较低,以及在显微成像场景下图像 MSFIFM策略以及CNN Fuse算法在失焦扩散效应 融合时存在较严重失焦扩散效应的问题,提出了 上有很大的改善,但值得注意的是在右上角的针 一种最大特征图空间频率融合策略(MSFIFM).实 脚处出现了较为明显的前景图像预测错误的问 验证明,MSFIFM策略在多图融合场景下能够有 题,这主要是由于“芯片2”这一组图像在拍摄时不 效提高融合算法的效率.同时提出了一种面向显 但进行了焦距的调节,还进行了前景的缩放,这 微成像场景下失焦扩散效应的矫正策略,能够在 导致了背景区域计算时对应的像素在前背景区域 保证融合图像质量的情况下,有效地降低融合结 边界处是非对齐的,进而最后进行矫正时一部分 果中的失焦扩散效应 背景区域的像素覆盖了前景区域造成了前景图像 由于现实生活中存在很多自然场景的图像, 的缺失,可以通过在融合之前加入图像对齐操作 在利用多聚焦图像融合算法融合后也会存在不同 来缓解这种现象.在“芯片3”的对比图中,两两 程度的失焦扩散效应,而当前的算法中存在膨胀 串行融合策略、MSFIFM策略以及CNN Fuse在放 大小和判断阈值两个超参数,影响了算法在自然 大区域中均出现了不同程度的失焦扩散效应, 场景下的泛用性能.因此在未来的研究中,本团队 MSFIFM策略+失焦扩散效应矫正策略以及MS- 会进一步研究自然场景下的失焦扩散效应的特点 Lap算法取得了较好的融合效果.由以上对比可 以及相应的无参数优化算法 以看出,本文提出的MSFIFM策略+失焦扩散效应 矫正策略能够有效地去除显微成像场景下的失焦 致谢 扩散效应,MS-Lap算法在设计时考虑了针对失焦 本文的计算工作得到了北京材料基因工程高 扩散效应进行优化,也取得了不错的效果 精尖创新中心材料计算平台的支持,同时感谢珠 表2为CNN Fuse、.MS-Lap以及MSFIFM策 海博明视觉科技有限公司提供的实验数据 略+失焦扩散效应矫正策略在“芯片1”、“芯片2” 和“芯片3”三张图像上的平均融合时间对比.其 利益冲突 中,MSFIFM策略+失焦扩散效应矫正策略以及 本文中部分工作已申请发明专利“一种显微 MS-Lap方法运行环境为NVIDIA 1080 Ti GPU, 成像场景下失焦扩散效应消除方法及装置”,专利 CNN Fuse运行环境为Intel(R)Core(TM)i7-670oHQ 公开号:CN111861915A CPU.由于MS-Lap为基于优化策略的算法其融合 速度主要受其迭代次数的影响,因此融合速度较 参考文献 慢.CNN Fuse仅提供了MATLAB代码,因此只能 [1]Liu Y,Wang L,Cheng J,et al.Multi-focus image fusion:A 在CPU上运行,导致其相比于其他两种算法而言 Survey of the state of the art.Inf Fusion,2020,64:71 速度相对较慢.而本文提出的MSFIFM策略+失焦 [2]Szeliski R.Computer vision:Algorithms and Applications. 扩散效应矫正策略在保证了融合图像质量的前提 London:Springer,2011
CNN Fuse 以及 MS−Lap 下“芯片 1”、“芯片 2”和 “芯片 3”的融合结果对比. 由图 4 主观对比可以看出,利用 MSFIFM 策 略+失焦扩散效应的矫正策略得到的融合结果相 比于仅利用 MSFIFM 策略得到的融合结果具有 更好的视觉效果 ,在“芯片 1”的对比图中利用 MSFIFM 策略得到的融合结果虽然效果要优于两 两串行融合策略,但是在放大区域中还是会存在 较为明显的失焦扩散效应,MSFIFM 策略+失焦扩 散效应矫正策略、CNN Fuse 以及 MS−Lap 算法均 取得了较为不错的效果. 在“芯片 2”的对比图中 MS−Lap 算法取得了较好的效果,CNN Fuse 算法 的融合结果在针脚根部存在一定的失焦扩散现 象,利用 MSFIFM 策略+失焦扩散效应的矫正策 略得到的融合图像相比于两两融合 、仅利 用 MSFIFM 策略以及 CNN Fuse 算法在失焦扩散效应 上有很大的改善,但值得注意的是在右上角的针 脚处出现了较为明显的前景图像预测错误的问 题,这主要是由于“芯片 2”这一组图像在拍摄时不 但进行了焦距的调节,还进行了前景的缩放,这 导致了背景区域计算时对应的像素在前背景区域 边界处是非对齐的,进而最后进行矫正时一部分 背景区域的像素覆盖了前景区域造成了前景图像 的缺失. 可以通过在融合之前加入图像对齐操作 来缓解这种现象. 在“芯片 3”的对比图中,两两 串行融合策略、MSFIFM 策略以及 CNN Fuse 在放 大区域中均出现了不同程度的失焦扩散效应 , MSFIFM 策略+失焦扩散效应矫正策略以及 MSLap 算法取得了较好的融合效果. 由以上对比可 以看出,本文提出的 MSFIFM 策略+失焦扩散效应 矫正策略能够有效地去除显微成像场景下的失焦 扩散效应,MS-Lap 算法在设计时考虑了针对失焦 扩散效应进行优化,也取得了不错的效果. 表 2 为 CNN Fuse、 MS-Lap 以 及 MSFIFM 策 略+失焦扩散效应矫正策略在“芯片 1”、“芯片 2” 和“芯片 3”三张图像上的平均融合时间对比. 其 中 , MSFIFM 策略+失焦扩散效应矫正策略以及 MS-Lap 方 法 运 行 环 境 为 NVIDIA 1080Ti GPU, CNN Fuse 运行环境为 Intel(R) Core(TM) i7-6700HQ CPU. 由于 MS-Lap 为基于优化策略的算法其融合 速度主要受其迭代次数的影响,因此融合速度较 慢. CNN Fuse 仅提供了 MATLAB 代码,因此只能 在 CPU 上运行,导致其相比于其他两种算法而言 速度相对较慢. 而本文提出的 MSFIFM 策略+失焦 扩散效应矫正策略在保证了融合图像质量的前提 下相对于另外两种算法在融合速度上有较为明显 的优势,更加适用于实际应用环境. 表 2 CNN Fuse、MS-Lap 以及本文算法平均融合时间对比 Table 2 Average time comparison among CNN Fuse,MS-Lap and our method s Image name Average time of MSFIFM + rectification strategy Average time of CNN Fuse Average time of MS−Lap Chip1 3.9248 336.3321 96.2325 Chip2 0.4126 72.4707 1.7137 Chip3 1.5518 347.4140 95.9874 4 结论与展望 本文针对现有多聚焦图像融合算法在进行多 图融合时效率较低,以及在显微成像场景下图像 融合时存在较严重失焦扩散效应的问题,提出了 一种最大特征图空间频率融合策略(MSFIFM). 实 验证明,MSFIFM 策略在多图融合场景下能够有 效提高融合算法的效率. 同时提出了一种面向显 微成像场景下失焦扩散效应的矫正策略,能够在 保证融合图像质量的情况下,有效地降低融合结 果中的失焦扩散效应. 由于现实生活中存在很多自然场景的图像, 在利用多聚焦图像融合算法融合后也会存在不同 程度的失焦扩散效应,而当前的算法中存在膨胀 大小和判断阈值两个超参数,影响了算法在自然 场景下的泛用性能. 因此在未来的研究中,本团队 会进一步研究自然场景下的失焦扩散效应的特点 以及相应的无参数优化算法. 致谢 本文的计算工作得到了北京材料基因工程高 精尖创新中心材料计算平台的支持,同时感谢珠 海博明视觉科技有限公司提供的实验数据. 利益冲突 本文中部分工作已申请发明专利“一种显微 成像场景下失焦扩散效应消除方法及装置”,专利 公开号:CN111861915A. 参 考 文 献 Liu Y, Wang L, Cheng J, et al. Multi-focus image fusion: A Survey of the state of the art. Inf Fusion, 2020, 64: 71 [1] Szeliski R. Computer vision: Algorithms and Applications. London: Springer, 2011 [2] · 1180 · 工程科学学报,第 43 卷,第 9 期
印象等:面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 ·1181 [3]Zhang Y J.Image Engineering.4th ed.Beijing:Tsinghua Based on Deep Learning [Dissertation].Kunming:Yunnan University Press,2018 University,2018 (章毓晋.图像工程.4版.北京:清华大学出版社,2018) (王镖堡.基于深度学习的多聚焦图像算法研究学位论文1.昆 [4]Burt P,Adelson E.The Laplacian pyramid as a compact image 明:云南大学,2018) code.IEEE Trans Commun,1983,31(4大:532 [20]Ma H,Liao Q,Zhang J,et al.An a-Matte Boundary Defocus [5]Toet A.Image fusion by a ratio of low-pass pyramid.Partern Model Based Cascaded Network for Multi-focus Image Recognit Lett,1989,9(4):245 Fusion[J/OL].ArXiv Preprint (2019-10-30)[2021-01-12] [6]Li H,Manjunath B S,Mitra S K.Multisensor image fusion using https://arxiv.org/abs/1910.13136 the wavelet transform.Graph Models Image Process,1995,57(3): [21]He K,Wei Y,Wang Y,et al.An improved non-rigid image 235 registration approach.Chin J Eng,2019,41(7):955 [7]Li S T,Kwok J T,Wang Y N.Combination of images with diverse (何凯,魏颖,王阳,等.一种改进的非刚性图像配准算法.工程 focuses using the spatial frequency.InfFusion,001,2(3):169 科学学报,2019,41(7):955) [8]Li S T,Kang X D,Hu J W.Image fusion with guided filtering [22]Chen S W,Zhang S X,Yang X G,et al.Registration of visual- IEEE Trans Image Process,2013,22(7):2864 infrared images based on ellipse symmetrical orientation moment [9]Zhou Z Q,Li S,Wang B.Multi-scale weighted gradient-based Chin J Eng,2017,39(7):1107 fusion for multi-focus images.Inf Fusion,2014,20:60 (陈世伟,张胜修,杨小冈,等.基于椭圆对称方向矩的可见光与 [10]Liu Y,Liu S P,Wang Z F.Multi-focus image fusion with dense 红外图像配准算法.工程科学学报,2017,39(7):1107) SIFT.Inf Fusion,2015,23:139 [23]Hu J,Shen L.Sun G.Squeeze-and-excitation networks//2018 [11]LeCun Y,Bengio Y,Hinton G.Deep learning.Namre,2015, IEEEICVF Conference on Computer Vision and Pattern 521(7553):436 Recognition.Salt Lake City,2018:7132 [12]Liu Y,Chen X,Peng H,et al.Multi-focus image fusion with a [24]Lin T Y,Maire M,Belongie S,et al.Microsofi COCO:Common deep convolutional neural network.InfFusion,2017,36:191 Objects in Context.Computer Vision ECCV 2014.Cham: [13]Ma,B Y,Zhu Y,Yin X,et al.SESF-Fuse:An unsupervised deep Springer International Publishing,2014 model for multi-focus image fusion.Neural Comput Appl,2021. 33:5793 [25]Ma B Y,Yin X.The Code of SESF-Fuse for multi-focus image [14]Xu H,MaJY,Jiang JJ,et al.U2Fusion:A unified unsupervised fusion [J/OL].Github (2019-08-21)[2021-01-12].https://github. com/Keep-Passion/SESF-Fuse image fusion network.IEEE Trans Pattern Anal Mach Intell, 10.1109/TPAM1.2020.3012548 (马博渊,印象.SESF-Fuse的多聚焦图像融合开源代码卩/OL]. [15]Prabhakar K R,Srikar V S,Babu R V.DeepFuse:A deep Github (2019-08-21)[2021-01-121.https://github.com/Keep- Passion/SESF-Fuse) unsupervised approach for exposure fusion with extreme exposure image pairs//IEEE International Conference on Computer Vision [26]Kingma D,Ba J.Adam:A method for stochastic Venice,2017:4724 optimization[J/OL].ArXiv Preprint (2017-01-30)[2021-01-121. [16]Ma B Y,Yin X.Wu D,et al.Gradient Aware Cascade Network for https://arxiv.org/abs/1412.6980 Multi-Focus Image Fusion[J/OLl.ArXiv Preprint (2020-10-01) [27]Paszke A,Gross S,Massa F,et al.Py Torch:An imperative style. [2021-01-12].https://arxiv..org/abs/2010.08751 high-performance deep learning library[J/OL].ArXiv Preprint [17]Xu H,Fan F,Zhang H,et al.A deep model for multi-focus image (2019-12-3)[2021-01-12].https:/axiv.org/abs/1912.01703 fusion based on gradients and connected regions.IEEE Access, [28]Mao X Y.Introduction to OpenCV3 Programming.Beijing 2020,8:26316 Electronics industry publishing house,2015 [18]Huang J,Le Z L,Ma Y,et al.A generative adversarial network (毛星云.0 penCV3编程入门.北京:电子工业出版社,2015) with adaptive constraints for multi-focus image fusion.Neural [29]Xu S,Ji L Z,Wang Z,et al.Towards reducing severe defocus Comput4pl,2020,32(18):15119 spread effects for multi-focus image fusion via an optimization [19]Wang BB.Research on Multi-Focus Image Fusion Algorithm based strategy.IEEE Trans Comput Imaging,2020,6:1561
Zhang Y J. Image Engineering. 4th ed. Beijing: Tsinghua University Press, 2018 ( 章毓晋. 图像工程. 4版. 北京: 清华大学出版社, 2018) [3] Burt P, Adelson E. The Laplacian pyramid as a compact image code. IEEE Trans Commun, 1983, 31(4): 532 [4] Toet A. Image fusion by a ratio of low-pass pyramid. Pattern Recognit Lett, 1989, 9(4): 245 [5] Li H, Manjunath B S, Mitra S K. Multisensor image fusion using the wavelet transform. Graph Models Image Process, 1995, 57(3): 235 [6] Li S T, Kwok J T, Wang Y N. Combination of images with diverse focuses using the spatial frequency. Inf Fusion, 2001, 2(3): 169 [7] Li S T, Kang X D, Hu J W. Image fusion with guided filtering. IEEE Trans Image Process, 2013, 22(7): 2864 [8] Zhou Z Q, Li S, Wang B. Multi-scale weighted gradient-based fusion for multi-focus images. Inf Fusion, 2014, 20: 60 [9] Liu Y, Liu S P, Wang Z F. Multi-focus image fusion with dense SIFT. Inf Fusion, 2015, 23: 139 [10] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436 [11] Liu Y, Chen X, Peng H, et al. Multi-focus image fusion with a deep convolutional neural network. Inf Fusion, 2017, 36: 191 [12] Ma, B Y, Zhu Y, Yin X, et al. SESF−Fuse: An unsupervised deep model for multi-focus image fusion. Neural Comput Appl, 2021, 33: 5793 [13] Xu H, Ma J Y, Jiang J J, et al. U2Fusion: A unified unsupervised image fusion network. IEEE Trans Pattern Anal Mach Intell, 10.1109/TPAMI.2020.3012548 [14] Prabhakar K R, Srikar V S, Babu R V. DeepFuse: A deep unsupervised approach for exposure fusion with extreme exposure image pairs// IEEE International Conference on Computer Vision. Venice, 2017: 4724 [15] Ma B Y, Yin X, Wu D, et al. Gradient Aware Cascade Network for Multi-Focus Image Fusion[J/OL]. ArXiv Preprint (2020-10-01) [2021-01-12]. https://arxiv.org/abs/2010.08751 [16] Xu H, Fan F, Zhang H, et al. A deep model for multi-focus image fusion based on gradients and connected regions. IEEE Access, 2020, 8: 26316 [17] Huang J, Le Z L, Ma Y, et al. A generative adversarial network with adaptive constraints for multi-focus image fusion. Neural Comput Appl, 2020, 32(18): 15119 [18] [19] Wang B B. Research on Multi-Focus Image Fusion Algorithm Based on Deep Learning [Dissertation]. Kunming: Yunnan University, 2018 ( 王镖堡. 基于深度学习的多聚焦图像算法研究[学位论文]. 昆 明: 云南大学, 2018) Ma H, Liao Q, Zhang J, et al. An α-Matte Boundary Defocus Model Based Cascaded Network for Multi-focus Image Fusion[J/OL]. ArXiv Preprint (2019-10-30) [2021-01-12]. https://arxiv.org/abs/1910.13136 [20] He K, Wei Y, Wang Y, et al. An improved non-rigid image registration approach. Chin J Eng, 2019, 41(7): 955 (何凯, 魏颖, 王阳, 等. 一种改进的非刚性图像配准算法. 工程 科学学报, 2019, 41(7):955) [21] Chen S W, Zhang S X, Yang X G, et al. Registration of visualinfrared images based on ellipse symmetrical orientation moment. Chin J Eng, 2017, 39(7): 1107 (陈世伟, 张胜修, 杨小冈, 等. 基于椭圆对称方向矩的可见光与 红外图像配准算法. 工程科学学报, 2017, 39(7):1107) [22] Hu J, Shen L, Sun G. Squeeze-and-excitation networks//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 7132 [23] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common Objects in Context. Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014 [24] Ma B Y, Yin X. The Code of SESF−Fuse for multi-focus image fusion [J/OL]. Github (2019-08-21) [2021-01-12]. https://github. com/Keep-Passion/SESF-Fuse ( 马博渊, 印象. SESF−Fuse的多聚焦图像融合开源代码[J/OL]. Github (2019-08-21) [2021-01-12]. https://github.com/KeepPassion/SESF-Fuse) [25] Kingma D, Ba J. Adam: A method for stochastic optimization[J/OL]. ArXiv Preprint (2017-01-30) [2021-01-12]. https://arxiv.org/abs/1412.6980 [26] Paszke A, Gross S, Massa F, et al. Py Torch: An imperative style, high-performance deep learning library[J/OL]. ArXiv Preprint (2019-12-3) [2021-01-12]. https://arxiv.org/abs/1912.01703 [27] Mao X Y. Introduction to OpenCV3 Programming. Beijing: Electronics industry publishing house, 2015 ( 毛星云. OpenCV3编程入门. 北京: 电子工业出版社, 2015) [28] Xu S, Ji L Z, Wang Z, et al. Towards reducing severe defocus spread effects for multi-focus image fusion via an optimization based strategy. IEEE Trans Comput Imaging, 2020, 6: 1561 [29] 印 象等: 面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 · 1181 ·