工程科学学报 Chinese Journal of Engineering 图像分割评估方法在显微图像分析中的应用 马博渊姜淑芳尹豆中昊锴班晓娟黄海友王浩薛维华封华 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan,JIANG Shu-fang.YIN Dou,SHEN Hao-kai,BAN Xiao-juan,HUANG Hai-you,WANG Hao,XUE Wei-hua,FENG Hua 引用本文: 马博渊,姜淑芳,尹豆,申吴锆,班晓娟,黄海友,王浩,薛维华,封华.图像分割评估方法在显微图像分析中的应用.工程科 学学报,2021,431:137-149.doi:10.13374.issn2095-9389.2020.05.28.002 MA Bo-yuan,JIANG Shu-fang.YIN Dou,SHEN Hao-kai,BAN Xiao-juan,HUANG Hai-you,WANG Hao,XUE Wei-hua,FENG Hua.Image segmentation metric and its application in the analysis of microscopic image[J.Chinese Journal of Engineering,2021, 43(1):137-149.doi:10.13374j.issn2095-9389.2020.05.28.002 在线阅读View online:https::/doi.org10.13374j.issn2095-9389.2020.05.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于监督学习的前列腺MR/TRUS图像分割和配准方法 Prostate MR/TRUS image segmentation and registration methods based on supervised learning 工程科学学报.2020,42(10:1362htps:/doi.org/10.13374.issn2095-9389.2019.10.10.006 基于自动多种子区域生长的遥感影像面向对象分割方法 Object-oriented remote sensing image segmentation based on automatic multiseed region growing algorithm 工程科学学报.2017,3911):1735htps:1doi.org/10.13374.issn2095-9389.2017.11.017 基于改进CV模型的金相图像分割 Segmentation of metallographic images based on improved CV model 工程科学学报.2017,3912:1866 https:/1doi.org10.13374.issn2095-9389.2017.12.013 一种改进的非刚性图像配准算法 An improved non-rigid image registration approach 工程科学学报.2019,41(7):955 https::/1oi.org/10.13374.issn2095-9389.2019.07.015 一种提高图像对比度和视觉质量的新型区域背光算法 A novel local dimming algorithm to improve image contrast and visual quality 工程科学学报.2017,39(12头:1888 https:/loi.org/10.13374j.issn2095-9389.2017.12.016 序列图像运动自适应V1-MT光流估计算法 Bio-inspired motion-adaptive estimation algorithm of sequence image 工程科学学报.2017,398:1238 https:1doi.org10.13374.issn2095-9389.2017.08.014
图像分割评估方法在显微图像分析中的应用 马博渊 姜淑芳 尹豆 申昊锴 班晓娟 黄海友 王浩 薛维华 封华 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan, JIANG Shu-fang, YIN Dou, SHEN Hao-kai, BAN Xiao-juan, HUANG Hai-you, WANG Hao, XUE Wei-hua, FENG Hua 引用本文: 马博渊, 姜淑芳, 尹豆, 申昊锴, 班晓娟, 黄海友, 王浩, 薛维华, 封华. 图像分割评估方法在显微图像分析中的应用[J]. 工程科 学学报, 2021, 43(1): 137-149. doi: 10.13374/j.issn2095-9389.2020.05.28.002 MA Bo-yuan, JIANG Shu-fang, YIN Dou, SHEN Hao-kai, BAN Xiao-juan, HUANG Hai-you, WANG Hao, XUE Wei-hua, FENG Hua. Image segmentation metric and its application in the analysis of microscopic image[J]. Chinese Journal of Engineering, 2021, 43(1): 137-149. doi: 10.13374/j.issn2095-9389.2020.05.28.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.05.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于监督学习的前列腺MR/TRUS图像分割和配准方法 Prostate MR/TRUS image segmentation and registration methods based on supervised learning 工程科学学报. 2020, 42(10): 1362 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.006 基于自动多种子区域生长的遥感影像面向对象分割方法 Object-oriented remote sensing image segmentation based on automatic multiseed region growing algorithm 工程科学学报. 2017, 39(11): 1735 https://doi.org/10.13374/j.issn2095-9389.2017.11.017 基于改进CV模型的金相图像分割 Segmentation of metallographic images based on improved CV model 工程科学学报. 2017, 39(12): 1866 https://doi.org/10.13374/j.issn2095-9389.2017.12.013 一种改进的非刚性图像配准算法 An improved non-rigid image registration approach 工程科学学报. 2019, 41(7): 955 https://doi.org/10.13374/j.issn2095-9389.2019.07.015 一种提高图像对比度和视觉质量的新型区域背光算法 A novel local dimming algorithm to improve image contrast and visual quality 工程科学学报. 2017, 39(12): 1888 https://doi.org/10.13374/j.issn2095-9389.2017.12.016 序列图像运动自适应V1-MT光流估计算法 Bio-inspired motion-adaptive estimation algorithm of sequence image 工程科学学报. 2017, 39(8): 1238 https://doi.org/10.13374/j.issn2095-9389.2017.08.014
工程科学学报.第43卷,第1期:137-149.2021年1月 Chinese Journal of Engineering,Vol.43,No.1:137-149,January 2021 https://doi.org/10.13374/j.issn2095-9389.2020.05.28.002;http://cje.ustb.edu.cn 图像分割评估方法在显微图像分析中的应用 马博渊123,,姜淑芳),尹豆》,中吴锘,班晓娟2,3,,黄海友7,8区 王浩1,9),薛维华9,10,封 华3) 1)北京科技大学北京材料基因工程高精尖创新中心.北京1000832)北京科技大学材料领域知识工程北京市重点实验室.北京100083 3)北京科技大学计算机与通信工程学院,北京1000834)北京科技大学人工智能研究院,北京1000835)解放军总医院第一医学中心 妇产科,北京1008536)中国石油大学(北京)信息科学与工程学院.北京1022497)北京科技大学新材料技术研究院.北京100083 8)北京科技大学顺德研究生院,佛山5283009)北京科技大学材料科学与工程学院.北京10008310)辽宁工程技术大学材料科学与工 程学院.阜新123099 区通信作者,E-mail:huanghy(@mater..ustb.edu.cn 摘要图像分割是计算机视觉领域中的重要分支,旨在将图像分成若干个特定的、具有独特性质的区域.随着计算机硬件 计算能力的提高和计算方法的进步,大量基于不同理论的图像分割算法获得了长足的发展.因而选择合适的评估方法对分 割结果的准确性和适用性进行综合评估,从而选择最优分割算法,成为图像分割研究中的必要环节,在综述14种图像分割评 估指标的基础上,将其分成基于像素的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法 和基于实例的评估方法五大类.在材料显微图像分析的应用背景下,通过实验讨论了不同分割方法和不同典型噪声在不同 评估方法中的表现.最终,讨论了各种评估方法的优势和适用性. 关键词计算机视觉:图像分割:图像处理:评估方法:材料显微图像 分类号TP3 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan2)JIANG Shu-fang.YIN Dou,SHEN Hao-kai,BAN Xiao-juan 2),HUANG Hai-you WANG Hao) XUE Wei-hua FENG Hua) 1)Beijing Advanced Innovation Center for Materials Genome Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Knowledge Engineering for Materials Science,University of Science and Technology Beijing,Beijing 100083,China 3)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 4)Institute of Artificial Intelligence,University of Science and Technology Beijing.Beijing 100083.China 5)Department of Obstetrics and Gynecology,General Hospital of PLA,Beijing 100853,China 6)College of Information Science and Engineering.China University of Petroleum Beijing.Beijing 102249,China 7)Institute for Advanced Materials and Technology,University of Science and Technology Beijing,Beijing 100083,China 8)Shunde Graduate School,University of Science and Technology Beijing,Foshan 528300,China 9)School of Materials Science and Engineering,University of Science and Technology Beijing,Beijing 100083,China 10)School of Materials Science and Engineering,Liaoning Technical University,Fuxin 123099,China Corresponding author,E-mail:huanghy@mater.ustb.edu.cn ABSTRACT Material microstructure data are an important type of data in building intrinsic relationships between compositions, structures,processes,and properties,which are fundamental to material design.Therefore,the quantitative analysis of microstructures is 收稿日期:2020-05-28 基金项目:海南省财政科技计划资助项目(ZDYF2019009):北京科技大学顺德研究生院科技创新专项资金资助项目(BK19BE030)
图像分割评估方法在显微图像分析中的应用 马博渊1,2,3,4),姜淑芳5),尹 豆3),申昊锴6),班晓娟1,2,3,4),黄海友1,7,8) 苣, 王 浩1,9),薛维华9,10),封 华3) 1) 北京科技大学北京材料基因工程高精尖创新中心,北京 100083 2) 北京科技大学材料领域知识工程北京市重点实验室,北京 100083 3) 北京科技大学计算机与通信工程学院,北京 100083 4) 北京科技大学人工智能研究院,北京 100083 5) 解放军总医院第一医学中心 妇产科,北京 100853 6) 中国石油大学(北京)信息科学与工程学院,北京 102249 7) 北京科技大学新材料技术研究院,北京 100083 8) 北京科技大学顺德研究生院,佛山 528300 9) 北京科技大学材料科学与工程学院,北京 100083 10) 辽宁工程技术大学材料科学与工 程学院,阜新 123099 苣通信作者,E-mail:huanghy@mater.ustb.edu.cn 摘 要 图像分割是计算机视觉领域中的重要分支,旨在将图像分成若干个特定的、具有独特性质的区域. 随着计算机硬件 计算能力的提高和计算方法的进步,大量基于不同理论的图像分割算法获得了长足的发展. 因而选择合适的评估方法对分 割结果的准确性和适用性进行综合评估,从而选择最优分割算法,成为图像分割研究中的必要环节. 在综述 14 种图像分割评 估指标的基础上,将其分成基于像素的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法 和基于实例的评估方法五大类. 在材料显微图像分析的应用背景下,通过实验讨论了不同分割方法和不同典型噪声在不同 评估方法中的表现. 最终,讨论了各种评估方法的优势和适用性. 关键词 计算机视觉;图像分割;图像处理;评估方法;材料显微图像 分类号 TP3 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan1,2,3,4) ,JIANG Shu-fang5) ,YIN Dou3) ,SHEN Hao-kai6) ,BAN Xiao-juan1,2,3,4) ,HUANG Hai-you1,7,8) 苣 ,WANG Hao1,9) , XUE Wei-hua9,10) ,FENG Hua3) 1) Beijing Advanced Innovation Center for Materials Genome Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Beijing Key Laboratory of Knowledge Engineering for Materials Science, University of Science and Technology Beijing, Beijing 100083, China 3) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 4) Institute of Artificial Intelligence, University of Science and Technology Beijing, Beijing 100083, China 5) Department of Obstetrics and Gynecology, General Hospital of PLA, Beijing 100853, China 6) College of Information Science and Engineering, China University of Petroleum Beijing, Beijing 102249, China 7) Institute for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China 8) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528300, China 9) School of Materials Science and Engineering, University of Science and Technology Beijing, Beijing 100083, China 10) School of Materials Science and Engineering, Liaoning Technical University, Fuxin 123099, China 苣 Corresponding author, E-mail: huanghy@mater.ustb.edu.cn ABSTRACT Material microstructure data are an important type of data in building intrinsic relationships between compositions, structures, processes, and properties, which are fundamental to material design. Therefore, the quantitative analysis of microstructures is 收稿日期: 2020−05−28 基金项目: 海南省财政科技计划资助项目(ZDYF2019009);北京科技大学顺德研究生院科技创新专项资金资助项目(BK19BE030) 工程科学学报,第 43 卷,第 1 期:137−149,2021 年 1 月 Chinese Journal of Engineering, Vol. 43, No. 1: 137−149, January 2021 https://doi.org/10.13374/j.issn2095-9389.2020.05.28.002; http://cje.ustb.edu.cn
·138 工程科学学报,第43卷,第1期 essential for effective control of the material properties and performances of metals or alloys in various industrial applications. Microscopic images are often used to understand the important structures of a material,which are related to certain properties of interest. One of the key steps during material design process is the extraction of useful information from images through microscopic image processing using computational algorithms and tools.For example,image segmentation,which is a task that divides the image into several specific and unique regions,can detect and separate each microstructure to quantitatively analyze its size and shape distribution. This technique is commonly used in extracting significant information from microscopic images in material structure characterization field.With great improvement in computing power and methods,a large number of image segmentation methods based on different theories have made great progress,especially deep learning-based image segmentation method.Therefore selecting an appropriate evaluation method to assess the accuracy and applicability of segmentation results to properly select the optimal segmentation methods and their indications on the direction of future improvement is necessary.In this work,14 evaluation metrics of image segmentation were summarized and discussed.The metrics were divided into five categories:pixel,intra class coincidence,edge,clustering,and instance based.In the application of material microscopic image analysis,we collected two classical datasets (Al-La alloy and polycrystalline images)to conduct quantitative experiment.The performance of different segmentation methods and different typical noises in different evaluation metrics were then compared and discussed.Finally,we discussed the advantages and applicability of various evaluation metrics in the field of microscopic image processing. KEY WORDS computer vision:image segmentation;image processing;segmentation evaluation metrics;material microscopic image 计算机视觉是一门“教”会计算机如何去“看” 点综述了图像分割的评估方法,并讨论了不同评 世界的科学,旨在使用计算机及相关设备对生物 估方法的适用性 视觉进行模拟,进而代替眼睛对数字图像中的目 1 图像分割的定义及其在材料显微图像分 标进行处理、识别、分析和理解四图像分割是从 析中的应用 图像中提取感兴趣区域的方法,是计算机视觉的 重要组成部分四在实际应用中,对图像分割结果 图像分割是将图像分成若干个特定的、具有 的正确评估是分割方法完善的重要研究手段) 独特性质区域的技术,是计算机视觉的重要分 在材料科学领域,随着材料信息学的发展,大 支.分割结果可进一步为图像识别和图像描述等 量先进的信息学技术在材料领域获得应用,并展 图像理解相关任务提供信息支撑 现出蓬勃的生机和快速发展的态势.材料图像,特 目前,随着多学科间的深入交叉和融合,科学 别是材料显微图像,是材料组织信息的重要载体 工作者开始尝试将以图像分割为代表的计算机视 使用图像分割等计算机视觉方法可提取材料图像 觉技术运用到表面缺陷检测、金相组织分析、神 中的组织信息,是高效建立材料成分-工艺-组织- 经细胞拓扑分析等材料和生物医学领域5-如图1 性能关系的重要环节 所示为材料显微图像分割流程图,针对原始的材 本文在材料显微图像分析的应用背景下,重 料显微图像,采用图像分割方法(Image segmenta- Original Image Prediction Segmentation Target result image segmentation result evaluation (ground truth) Threshold based segmentation methods Pivel hased Gradient hased evaluation methods segmentation method水 Morphology based Microscopic images segmentation methods of al-la alloy Edge based evaluation method segmentation methods Clustering based ealu31onme山hous on methods Instance based Deep leaming based evaluation methods segmentation methods Microscopic images of polycrystalline iron 图1材料显微图像分割流程示意 Fig.I Flow chart of material microscopic image segmentation
essential for effective control of the material properties and performances of metals or alloys in various industrial applications. Microscopic images are often used to understand the important structures of a material, which are related to certain properties of interest. One of the key steps during material design process is the extraction of useful information from images through microscopic image processing using computational algorithms and tools. For example, image segmentation, which is a task that divides the image into several specific and unique regions, can detect and separate each microstructure to quantitatively analyze its size and shape distribution. This technique is commonly used in extracting significant information from microscopic images in material structure characterization field. With great improvement in computing power and methods, a large number of image segmentation methods based on different theories have made great progress, especially deep learning-based image segmentation method. Therefore selecting an appropriate evaluation method to assess the accuracy and applicability of segmentation results to properly select the optimal segmentation methods and their indications on the direction of future improvement is necessary. In this work, 14 evaluation metrics of image segmentation were summarized and discussed. The metrics were divided into five categories: pixel, intra class coincidence, edge, clustering, and instance based. In the application of material microscopic image analysis, we collected two classical datasets (Al–La alloy and polycrystalline images) to conduct quantitative experiment. The performance of different segmentation methods and different typical noises in different evaluation metrics were then compared and discussed. Finally, we discussed the advantages and applicability of various evaluation metrics in the field of microscopic image processing. KEY WORDS computer vision;image segmentation;image processing;segmentation evaluation metrics;material microscopic image 计算机视觉是一门“教”会计算机如何去“看” 世界的科学,旨在使用计算机及相关设备对生物 视觉进行模拟,进而代替眼睛对数字图像中的目 标进行处理、识别、分析和理解[1] . 图像分割是从 图像中提取感兴趣区域的方法,是计算机视觉的 重要组成部分[2] . 在实际应用中,对图像分割结果 的正确评估是分割方法完善的重要研究手段[3] . 在材料科学领域,随着材料信息学的发展,大 量先进的信息学技术在材料领域获得应用,并展 现出蓬勃的生机和快速发展的态势. 材料图像,特 别是材料显微图像,是材料组织信息的重要载体. 使用图像分割等计算机视觉方法可提取材料图像 中的组织信息,是高效建立材料成分–工艺–组织– 性能关系的重要环节. 本文在材料显微图像分析的应用背景下,重 点综述了图像分割的评估方法,并讨论了不同评 估方法的适用性. 1 图像分割的定义及其在材料显微图像分 析中的应用 图像分割是将图像分成若干个特定的、具有 独特性质区域的技术[4] ,是计算机视觉的重要分 支. 分割结果可进一步为图像识别和图像描述等 图像理解相关任务提供信息支撑. 目前,随着多学科间的深入交叉和融合,科学 工作者开始尝试将以图像分割为代表的计算机视 觉技术运用到表面缺陷检测、金相组织分析、神 经细胞拓扑分析等材料和生物医学领域[5−6] . 如图 1 所示为材料显微图像分割流程图,针对原始的材 料显微图像,采用图像分割方法(Image segmentaOriginal image Image segmentation Prediction result Segmentation evaluation Target result (ground truth) Image segmentation methods Threshold based segmentation methods Gradient based segmentation methods Morphology based segmentation methods Graph based segmentation methods Region growing based segmentation methods Deep learning based segmentation methods Segmentation evaluation methods Pixel based evaluation methods Intra class coincidence based evaluation methods Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Microscopic images of al−la alloy Microscopic images of polycrystalline iron 图 1 材料显微图像分割流程示意 Fig.1 Flow chart of material microscopic image segmentation · 138 · 工程科学学报,第 43 卷,第 1 期
马博渊等:图像分割评估方法在显微图像分析中的应用 139· tion methods)提取图像中科研人员感兴趣的组织 评估指标分为基于像素的评估方法、基于类内重合 结构区域m,如图1中的白色区域对应的材料组织 度的评估方法、基于边缘的评估方法、基于聚类 (枝晶和晶粒).通过定量分析材料内部的微观组 的评估方法和基于实例的评估方法等五个类别 织特征(如尺寸和形状分布等),可进一步解构材 2.1基于像素的评估方法 料微观组织特征与材料成分、制备工艺、宏观性 基于像素的评估方法主要包括像素准确率 能之间的内禀关系⑧,进而辅助材料性能的优化和 (Pixel accuracy)和平均准确率(Mean accuracy)7 新材料的研发 两个评估指标 随着计算机硬件以及以深度学习©为代表的 像素准确率统计了预测正确的像素占总像素 机器学习技术的进步,多种基于不同理论的图像分 的比例四,其定义为: 割方法如雨后春笋般涌现,如图1中基于阈值的 分割方法(Threshold based segmentation methods)u, 基于梯度的分割方法(Gradient based segmentation Pixelaccuracy (1) methods)2I、基于形态学的分割方法(Morphology based segmentation methods)l)、基于区域生长的分割 i=0j=0 方法(Region growing based segmentation methods)、 在图像分割任务中,假定有+1个类别(“+1” 基于聚类的分割方法(Clustering based segmentation 指包括背景类),通常使用P表示真值结果为类而 methods)I吲,基于图论的分割方法(Graph based 预测结果为类的像素点总数,同理,P表示真值 segmentation methods)l和基于深度学习的分割方 结果和预测结果均为类的像素点总数,即预测正 Deep learning-based segmentation methods)7-1s 确的像素点数目 等,上述方法被广泛应用于材料显微图像分析任 平均准确率(Mean accuracy):是对像素准确率 务92训为了进一步理解各种图像分割方法的适 的改进,分别计算每个类内被正确分类像素数的 用性以及改进分割质量,本文对不同方法的分割 比例,进而对所有类求平均值.该方法可缓解当分 结果进行了系统地评估.虽然人的视觉判断是最 割任务中不同类别包含像素数目差异较大时,准 直接的判断方法,但是人的主观不确定性会导致 确率被包含像素数目较多的类别所主导的问题, 算法评估难以量化.因此,采用自动的客观的评估 其定义为: 方法成为图像分割结果评估的主流方式.当前存 在多种基于不同理论的图像分割客观评估方法 Mean accuracy (2) =0 (Segmentation evaluation methods),每种方法均从 Pij 特定的角度评估分割结果的优劣,可应用于不同 =0 目标的图像分割任务中 2.2基于类内重合度的评估方法 本文综述了14种基于不同理论的图像分割客 基于类内重合度的评估方法主要包括平均交 观评估指标,将其分成五大类方法分别展开叙述 并比(Mean intersection over union,MIoU)lm,频权 (图l):基于像素的评估方法(Pixel based evaluation 交并比(Frequency weighted intersection over union, methods)、基于类内重合度的评估方法(Intra class FWIoU)I和Dice系数(Dice score)I三个评估 coincidence based evaluation methods)、基于边界的 指标 评估方法(Edge based evaluation methods)、基于聚 平均交并比MIoU在计算每个类的交并比的 类的评估方法(Clustering based evaluation methods) 基础上求均值,可反映预测结果和真值结果的重 和基于实例的评估方法(Instance based evaluation 合度.IoU(或称为Jacarrd index)的计算方式如 methods).并在材料显微图像分析应用中,选择两种 图2(a)所示,其中P代表预测结果(Predicted 典型材料显微图像分割任务作为分析目标,对比 segmentation),T代表真值结果(也称目标结果, 采用不同分割方法和不同典型噪声下各种评估指 Target truth),其思路是计算真值结果和预测结果 标的性能,进而对不同评估方法的适用性展开讨论. 区域集合的交集和并集之比,即公式(3)所示 POTI 2图像分割评估方法 IoU= PUTI (3) 通过现有文献整理和研究,本文将图像分割 具体地,采用上述描述方法,MoU可定义为:
tion methods)提取图像中科研人员感兴趣的组织 结构区域[7] ,如图 1 中的白色区域对应的材料组织 (枝晶和晶粒). 通过定量分析材料内部的微观组 织特征(如尺寸和形状分布等),可进一步解构材 料微观组织特征与材料成分、制备工艺、宏观性 能之间的内禀关系[8] ,进而辅助材料性能的优化和 新材料的研发[9] . 随着计算机硬件以及以深度学习[10] 为代表的 机器学习技术的进步,多种基于不同理论的图像分 割方法如雨后春笋般涌现,如图 1 中基于阈值的 分割方法(Threshold based segmentation methods) [11]、 基于梯度的分割方法(Gradient based segmentation methods) [12]、基于形态学的分割方法(Morphology based segmentation methods) [13]、基于区域生长的分割 方法(Region growing based segmentation methods) [14]、 基于聚类的分割方法(Clustering based segmentation methods) [15] ,基于图论的分割方法 ( Graph based segmentation methods) [16] 和基于深度学习的分割方 法 ( Deep learning-based segmentation methods) [17−18] 等,上述方法被广泛应用于材料显微图像分析任 务[19−21] . 为了进一步理解各种图像分割方法的适 用性以及改进分割质量,本文对不同方法的分割 结果进行了系统地评估. 虽然人的视觉判断是最 直接的判断方法,但是人的主观不确定性会导致 算法评估难以量化. 因此,采用自动的客观的评估 方法成为图像分割结果评估的主流方式. 当前存 在多种基于不同理论的图像分割客观评估方法 (Segmentation evaluation methods),每种方法均从 特定的角度评估分割结果的优劣,可应用于不同 目标的图像分割任务中. 本文综述了 14 种基于不同理论的图像分割客 观评估指标,将其分成五大类方法分别展开叙述 (图 1):基于像素的评估方法(Pixel based evaluation methods)、基于类内重合度的评估方法(Intra class coincidence based evaluation methods)、基于边界的 评估方法(Edge based evaluation methods)、基于聚 类的评估方法(Clustering based evaluation methods) 和基于实例的评估方法( Instance based evaluation methods). 并在材料显微图像分析应用中,选择两种 典型材料显微图像分割任务作为分析目标,对比 采用不同分割方法和不同典型噪声下各种评估指 标的性能,进而对不同评估方法的适用性展开讨论. 2 图像分割评估方法 通过现有文献整理和研究,本文将图像分割 评估指标分为基于像素的评估方法、基于类内重合 度的评估方法、基于边缘的评估方法、基于聚类 的评估方法和基于实例的评估方法等五个类别. 2.1 基于像素的评估方法 基于像素的评估方法主要包括像素准确率 (Pixel accuracy)和平均准确率(Mean accuracy) [17] 两个评估指标. 像素准确率统计了预测正确的像素占总像素 的比例[22] ,其定义为: Pixelaccuracy = ∑ k i=0 pii ∑ k i=0 ∑ k j=0 pi j (1) pi j i j pii i 在图像分割任务中,假定有 k+1 个类别(“+1” 指包括背景类),通常使用 表示真值结果为类 而 预测结果为类 的像素点总数,同理, 表示真值 结果和预测结果均为类 的像素点总数,即预测正 确的像素点数目. 平均准确率(Mean accuracy):是对像素准确率 的改进,分别计算每个类内被正确分类像素数的 比例,进而对所有类求平均值. 该方法可缓解当分 割任务中不同类别包含像素数目差异较大时,准 确率被包含像素数目较多的类别所主导的问题, 其定义为: Mean accuracy = 1 k+1 ∑ k i=0 pii ∑ k j=0 pi j (2) 2.2 基于类内重合度的评估方法 基于类内重合度的评估方法主要包括平均交 并比(Mean intersection over union, MIoU) [17] ,频权 交并比( Frequency weighted intersection over union, FWIoU) [17] 和 Dice 系数 ( Dice score) [23] 三个评估 指标. 平均交并比 MIoU 在计算每个类的交并比的 基础上求均值,可反映预测结果和真值结果的重 合 度 . IoU(或称 为 Jacarrd index)的计算方式如 图 2( a) 所 示 , 其 中 P 代 表 预 测 结 果 ( Predicted segmentation) , T 代表真值结果(也称目标结果 , Target truth),其思路是计算真值结果和预测结果 区域集合的交集和并集之比,即公式(3)所示. IoU = |P∩T| |P∪T| (3) 具体地,采用上述描述方法,MIoU 可定义为[17] : 马博渊等: 图像分割评估方法在显微图像分析中的应用 · 139 ·
140 工程科学学报,第43卷,第1期 (a) P (b) 距离来反映边缘检测效果 H(T) H(P) 基于边界的评估方法主要包括FoM(Figure of POT merit)2、Completenesst2、Correctness2和Quality] T H(P/DKTIP) H(TIP) 4个评估指标 loU= FoM(Figure of merit)计算公式为: 1 FoM= 51 (7) PUT maxT,lPD台d VI(P,T) 其中,通过人工检视标注得到的真值边缘像素点 Note:VI(P,T)means variation of information;/(T.P)denotes mutual 个数为T:通过检测算法检测的边缘像素点个数 information;H(P/T)and H(T/P)denote conditional entropy. 为P所:检测算法得到的第个边缘像素点和离它最 图2评估指标示意图.(a)IoU指标示意图:(b)V1指标示意图 近的真值边缘像素点间的欧氏距离为d:常量系数 Fig.2 Schematics of evaluation metrics:(a)IoU metric diagram;(b)VI 一般为0.1,表示错位边缘惩罚项.FoM值越大表 metric diagram 明检测出的边缘越靠近人工标注的真值边缘,即 MIoU (4) 该边缘检测算法的检测精度越高. Completeness、Correctness和Quality评估方法 Pii-Pi 0 i=0 在基于欧氏距离的基础上重新定义了匹配的概 其中,P表示真值结果为类j而预测结果为类的像 念.其匹配的计算公式为: 素点总数 B(A)={a∈A3b∈B,da,b)< (8) 频权交并比FWIoU是对原始的MIoU的改进, 设两个像素集合A和B,其中a和b分别为两个 即根据每一类出现的频率对各个类的1oU进行加 集合中的两个元素,d(a,b)表示两个元素之间的欧 权求和,定义为: 氏距离.B(A)指集合A中满足与距集合B某一元素 的距离小于阈值的元素的子集.根据上述定义, 分别计算预测边缘像素集合P和真值边缘像素集 =0 FWIoU= (5) 合T的T(P)和p(T),T(P)代表预测结果中与真值 P时+ Pii-Pi 结果相匹配的元素的子集,仰(T)代表真值结果中 =0=0 j=0 与预测结果相匹配的元素的子集.如图3所示 Dice系数(Dice score)是图像分割结果衡量的 (a) B(P) (b) 4(T) 常用指标,其计算公式为: -P 2POTI Dice= (6) IPI+ITI 其中,PnT代表预测结果P和真值结果T之间的重 Pred boundary -Target boundary 合像素数量,P表示预测结果P中的像素数量,同 图3边缘检测匹配示意图.()令预测边界与真值边界进行匹配: 理T表示真值结果T中的像素数量,通常P、T集合 (b)令真值边界与预测边界进行匹配 仅统计前景区域的像素.Dice score实质上是两个 Fig.3 Matching schematics of edge detection:(a)matching ground truth with prediction skeleton;(b)matching prediction with ground truth 样本间的重叠度量(0~1),其中该指标为1代表 skeleton 完全重叠,表示预测结果较好.Dice score相比于 在此基础上,Completeness的计算公式为: IoU的区别在于分子和分母间均增加PnT的数目 2.3基于边界的评估方法 Completeness=(P (9) IPI 边界检测也称边缘检测,是指将图像分成边 其中,P为预测边缘像素集合P中的边缘像素个 缘区域和非边缘区域.由于在边缘检测任务中,边 数.同理,uT(P,up(T)和T份别代表各自集合中 缘区域往往仅占据少量像素区域,并且绘制真值 的边缘像素个数 边缘时容易产生误差,致使预测边缘和真实边缘 Correctness的计算公式为: 在像素上通常无法一一对应,因此该类评估方法 主要通过计算预测边缘像素和真实边缘像素间的 Correctness=(T) (10) ITI
MIoU = 1 k+1 ∑ k i=0 pii ∑ k j=0 pi j + ∑ k j=0 pji − pii (4) pji 其中, 表示真值结果为类 j 而预测结果为类 i 的像 素点总数. 频权交并比 FWIoU 是对原始的 MIoU 的改进, 即根据每一类出现的频率对各个类的 IoU 进行加 权求和,定义为[17] : FWIoU = 1 ∑ k i=0 ∑ k j=0 pi j ∑ k i=0 ∑ k j=0 pi j pii ∑ k j=0 pi j + ∑ k j=0 pji − pii (5) Dice 系数(Dice score)是图像分割结果衡量的 常用指标,其计算公式为[23] : Dice = 2|P∩T| |P|+|T| (6) |P∩T| P T |P| P |T| T P T |P∩T| 其中, 代表预测结果 和真值结果 之间的重 合像素数量, 表示预测结果 中的像素数量,同 理 表示真值结果 中的像素数量,通常 、 集合 仅统计前景区域的像素. Dice score 实质上是两个 样本间的重叠度量(0~1),其中该指标为 1 代表 完全重叠,表示预测结果较好. Dice score 相比于 IoU 的区别在于分子和分母间均增加 的数目. 2.3 基于边界的评估方法 边界检测也称边缘检测,是指将图像分成边 缘区域和非边缘区域. 由于在边缘检测任务中,边 缘区域往往仅占据少量像素区域,并且绘制真值 边缘时容易产生误差,致使预测边缘和真实边缘 在像素上通常无法一一对应,因此该类评估方法 主要通过计算预测边缘像素和真实边缘像素间的 距离来反映边缘检测效果. 基于边界的评估方法主要包括 FoM(Figure of merit) [24]、Completeness[25]、Correctness[25] 和Quality[25] 4 个评估指标. FoM(Figure of merit)计算公式为: FoM = 1 max(|T|,|P|) ∑ |P| i=1 1 ξd 2 i (7) |T| |P| i di ξ 其中,通过人工检视标注得到的真值边缘像素点 个数为 ;通过检测算法检测的边缘像素点个数 为 ;检测算法得到的第 个边缘像素点和离它最 近的真值边缘像素点间的欧氏距离为 ;常量系数 一般为 0.1,表示错位边缘惩罚项. FoM 值越大表 明检测出的边缘越靠近人工标注的真值边缘, 即 该边缘检测算法的检测精度越高. Completeness、Correctness 和 Quality 评估方法 在基于欧氏距离的基础上重新定义了匹配的概 念. 其匹配的计算公式为: µB(A) = {a ∈ A|∃b ∈ B,d(a,b) < θ} (8) A B a b d(a,b) µB(A) A B θ P T µT(P) µP(T) µT(P) µP(T) 设两个像素集合 和 ,其中 和 分别为两个 集合中的两个元素, 表示两个元素之间的欧 氏距离. 指集合 中满足与距集合 某一元素 的距离小于阈值 的元素的子集. 根据上述定义, 分别计算预测边缘像素集合 和真值边缘像素集 合 的 和 , 代表预测结果中与真值 结果相匹配的元素的子集, 代表真值结果中 与预测结果相匹配的元素的子集. 如图 3 所示. μT (a) (P) P T θ Pred boundary μP (T) (b) P T θ Target boundary 图 3 边缘检测匹配示意图. (a)令预测边界与真值边界进行匹配; (b)令真值边界与预测边界进行匹配 Fig.3 Matching schematics of edge detection:(a) matching ground truth with prediction skeleton; (b) matching prediction with ground truth skeleton 在此基础上,Completeness 的计算公式为: Completeness = |µT(P)| |P| (9) |P| P |µT(P)| |µP(T)| |T| 其中, 为预测边缘像素集合 中的边缘像素个 数. 同理, , 和 分别代表各自集合中 的边缘像素个数. Correctness 的计算公式为: Correctness = |µP(T)| |T| (10) (a) P P∩T P ∩ T T IoU= (b) H(P) H(P/T) I(T/P) H(T/P) H(T) VI(P, T) Note: VI(P,T) means variation of information; I(T,P) denotes mutual information; H(P/T) and H(T/P) denote conditional entropy. 图 2 评估指标示意图. (a)IoU 指标示意图;(b)VI 指标示意图 Fig.2 Schematics of evaluation metrics: (a) IoU metric diagram; (b) VI metric diagram · 140 · 工程科学学报,第 43 卷,第 1 期
马博渊等:图像分割评估方法在显微图像分析中的应用 141 Quality的计算公式为: 表1基于聚类任务的列联表 Quality lT(P) Table 1 Contingency table (11) IPI-lp(T)+ITI Union Pi P Ps Sums 2.4基于聚类的评估方法 T n11 n12 a 图像分割可以看作是一种聚类任务,将图像 T2 121 122 12e 2 中的所有像素分割成n个分区或段,通过对比真 值图和预测图中的分区结果可对图像分割任务进 T. nr2 nrs 行评估.在基于聚类的评估方法中类的定义和图 Sums b 像类别中类的定义不同,聚类中每个类具体指图 ARI= 像中得到每个分区,在图像分割任务中,某个图像 类别可以有多个分区 22(空)2()2(水) 基于聚类的评估方法主要包括:兰德系数 (Rand index,RI)6-27、调整兰德系数(Adjusted rand 2 index,.ARI)2和信息变化量(Variation of information, 2()+92(9) VI)23个评估指标 (13) 给定一个含有n个元素的集合S的两种划分, ARI的取值范围为-1,1),值越大,代表预测结 S划分为r个子集:T={T1,T2,…,T,和S划分为s个 果中的分区结果更接近与真值结果中的分区结果 子集:P={P1,P2,,P.在图像分割任务中,S代 VI公式如(14)所示,将预测结果P和真值结 表像素集合,T代表真值分割结果,P代表预测分割 果T看成两种数据分布,利用信息嫡计算两者之 结果.通常,采用联通区域方法(Connected compo- 间的分布变化.核心是计算预测和真实标注图之 nent)分别将T和P划分成不同的分区(子集) 间的条件嫡,如图2(b)所示 进一步,定义: VI(P.T)=H(PIT)+H(TIP) (14) a为S集合中在T中属于同一子集,在P中也属 其中,H(PIT)代表过分割错误,过分割即错误地将 于同一子集的元素对数;b为S集合中在T中属于不 一个区域分割成两个区域,也被称为拆分错误 同子集,在P中也属于不同子集的元素对数;c为 (Split error,.SE).H(TP)代表欠分割错误,即将两 S集合中在T中属于同一子集,但在P中属于不同 个区域错误地合并成一个区域,也被称为合并错 子集的元素对数;d为S集合中在T中属于不同子 误(Merge error,.ME).VI代表总错误指标,为 集,但在P中属于同一子集的元素对数: ME和$E的和,值越小,代表分割结果中存在的错 则RI定义为: 误越少,即分割结果越准确.并且,随着误差的变 a+b a+b a+b 化,VI呈现线性变化,而R呈现二次方的变化,因 RI= (12) a+b+c+d n n(n-1)/2 此,VⅥ1更适用于作为距离指标反映误差的变化0] 2 2.5基于实例的评估方法 直观地,a+b可被认为是T和P之间一致的元 基于实例的评估方法主要包括平均均值精确 素对个数,c+d可被认为是T和P之间不一致的元 率(Mean average precision,MAP)BI-划和基数差 素对个数 (Cardinality difference,CD)B两个评估指标 虽然RI的取值范围为[O,1],但该指标不能保 MAP是图像分割和物体检测任务中的经典评 证在类别标签是随机分配的情况下其值接近0.由 估指标,与基于聚类的评估方法类似,该方法首先 于RI基于像素点对数目进行评估,而在材料显微 使用联通区域方法分别将真值分割结果和预测分 图像分割应用中,大多数像素点对不相连,即公式 割结果分成多个分区,进而在每个预测分区上逐 (12)中的b非常高,导致不同分割方法的评估结果 个与所有的真值分割结果的分区计算IoU,IoU的 均接近1,造成区分度较低.因此,ARI在RI的基 阈值范围从0.5到0.95,步长为0.05,即在阈值t为 础上进行了修正,令=T:nP来表示T与P之间 (0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95) 交集的元素,基于聚类任务的列联表如表1所示 情形下分别统计匹配的数目.在MAP计算过程 其计算公式如式(13)所示. 中,匹配指某一预测结果中的分区与真值结果中
Quality 的计算公式为: Quality = |µT(P)| |P|−|µP(T)|+|T| (11) 2.4 基于聚类的评估方法 图像分割可以看作是一种聚类任务,将图像 中的所有像素分割成 n 个分区或段,通过对比真 值图和预测图中的分区结果可对图像分割任务进 行评估. 在基于聚类的评估方法中类的定义和图 像类别中类的定义不同,聚类中每个类具体指图 像中得到每个分区,在图像分割任务中,某个图像 类别可以有多个分区. 基于聚类的评估方法主要包括 :兰德系数 (Rand index, RI) [26−27]、调整兰德系数(Adjusted rand index,ARI) [28] 和信息变化量(Variation of information, VI) [29] 3 个评估指标. n S S r T = {T1,T2,··· ,Tr} S s P = {P1,P2,··· ,Ps} S T P T P 给定一个含有 个元素的集合 的两种划分, 划分为 个子集: 和 划分为 个 子集: . 在图像分割任务中, 代 表像素集合, 代表真值分割结果, 代表预测分割 结果. 通常,采用联通区域方法(Connected component)分别将 和 划分成不同的分区(子集). 进一步,定义: a S T P b S T P c S T P d S T P 为 集合中在 中属于同一子集,在 中也属 于同一子集的元素对数; 为 集合中在 中属于不 同子集,在 中也属于不同子集的元素对数; 为 集合中在 中属于同一子集,但在 中属于不同 子集的元素对数; 为 集合中在 中属于不同子 集,但在 中属于同一子集的元素对数; 则 RI 定义为: RI = a+b a+b+c+d = a+b ( n 2 ) = a+b n(n−1)/2 (12) a+b c+d 直观地, 可被认为是 T 和 P 之间一致的元 素对个数, 可被认为是 T 和 P 之间不一致的元 素对个数. b ni j = Ti ∩ Pj Ti Pj 虽然 RI 的取值范围为 [0,1],但该指标不能保 证在类别标签是随机分配的情况下其值接近 0. 由 于 RI 基于像素点对数目进行评估,而在材料显微 图像分割应用中,大多数像素点对不相连,即公式 (12)中的 非常高,导致不同分割方法的评估结果 均接近 1,造成区分度较低. 因此,ARI 在 RI 的基 础上进行了修正,令 来表示 与 之间 交集的元素,基于聚类任务的列联表如表 1 所示. 其计算公式如式(13)所示. ARI = ∑r i=1 ∑s j=1 ( ni j 2 ) − ∑r i=1 ( ai 2 )∑s j=1 ( bj 2 ) / ( n 2 ) 1 2 ∑r i=1 ( ai 2 ) + ∑s j=1 ( bj 2 ) − ∑r i=1 ( ai 2 )∑s j=1 ( bj 2 ) / ( n 2 ) (13) ARI 的取值范围为 [−1,1],值越大,代表预测结 果中的分区结果更接近与真值结果中的分区结果. VI 公式如(14)所示,将预测结果 P 和真值结 果 T 看成两种数据分布,利用信息熵计算两者之 间的分布变化. 核心是计算预测和真实标注图之 间的条件熵,如图 2(b)所示. VI(P,T) = H (P|T)+ H (T|P) (14) H (P|T) H (T|P) 其中, 代表过分割错误,过分割即错误地将 一个区域分割成两个区域,也被称为拆分错误 (Split error,SE). 代表欠分割错误,即将两 个区域错误地合并成一个区域,也被称为合并错 误 ( Merge error, ME) . VI 代 表 总 错 误 指 标 , 为 ME 和 SE 的和,值越小,代表分割结果中存在的错 误越少,即分割结果越准确. 并且,随着误差的变 化,VI 呈现线性变化,而 RI 呈现二次方的变化,因 此,VI 更适用于作为距离指标反映误差的变化[30] . 2.5 基于实例的评估方法 基于实例的评估方法主要包括平均均值精确 率 ( Mean average precision, MAP) [31−32] 和基数差 (Cardinality difference,CD) [33] 两个评估指标. t MAP 是图像分割和物体检测任务中的经典评 估指标,与基于聚类的评估方法类似,该方法首先 使用联通区域方法分别将真值分割结果和预测分 割结果分成多个分区,进而在每个预测分区上逐 个与所有的真值分割结果的分区计算 IoU,IoU 的 阈值范围从 0.5 到 0.95,步长为 0.05,即在阈值 为 (0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95) 情形下分别统计匹配的数目. 在 MAP 计算过程 中,匹配指某一预测结果中的分区与真值结果中 表 1 基于聚类任务的列联表 Table 1 Contingency table Union P1 P2 … Ps Sums T1 n11 n12 … n1s a1 T2 n21 n22 … n2s a2 … … … … … … Tr nr1 nr2 … nrs ar Sums b1 b2 … bs 马博渊等: 图像分割评估方法在显微图像分析中的应用 · 141 ·
142 工程科学学报,第43卷,第1期 的分区的IoU大于特定的阈值.其中True positive 1 TP(t) MAP= (15) (TP)表示真实和预测结果中正确匹配的分区对数 nx TP(t)+FP(t)+FN(t) 量,False positive(FP)表示预测分割结果中未正确 CD是Waggoner等引入的一种比较分割结果 匹配的分区数量,False negative(FN)表示真值分割 中分区个数的评估指标其定义为: 结果中未正确匹配的分区数量 CD=NumT-NumP (16) 在每个阈值1上,根据预测分割的分区结果与 式中,NumT代表真实结果中的实例个数,NumP代 真值分割的分区结果比较产生的TP、FN、和 表预测结果中的实例个数,如果CD是正数,表示欠 FP的数量计算出一个精度值,并除以阈值个数获 分割,如果CD是负数,表示过分割 得均值精确率.在此基础上,对所有图像计算各 综上,各评估指标的简要信息如表2所示,其 自均值精确率再求平均,获得最终平均均值精确 中↑代表值越大性能越高,代表值越低性能越高, 率,公式如下所示: N代表图像中像素个数 表2各指标的简要概括 Table 2 Brief description of different evaluation methods Pixel based evaluation methods Intra class coincidence based Edge based evaluation methods Properties evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score Figure of merit Completeness Correctness Value range [0,1] [0,1] [0,1 0 [0,1] [0,1] 0,1] [0,1] tendency 产 ↑ ↑ ↑ ↑ ↑ Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Properties VI Quality RI ARI CD MAP ME SE 乡 Value range 0.1] 0,1]-1,1] [0,log2] [0,log2N] [0,log2N] (-n,tD) [0,1] tendency ↑ ↑ ↑ Closer to 0,the better 3 图像分割评估方法对比实验 晶图像的前景组织区域像素个数与背景区域的像 素个数相当,属于类别平衡的图像分割任务.在实 本章以两种典型材料显微图像分割任务为应 践过程中,类别不平衡的图像分割任务更加困难 用背景,定量地衡量图像分割评估方法在不同分 割算法和不同噪声下的性能.本文所有代码及示 表3材料显微图像数据集参数 例图像可开源获取,详见如下网址:https://github.com/ Table 3 Description of two material micrographic image datasets Keep-Passion/ImageSegMetrics. D Microstructure Image size Image number 3.1不同图像分割算法下的评估结果 Polycrystalline iron 1024×1024 296 为了降低图像分割算法对评估方法的影响, 2 Al-La alloy 1024×1024 50 本文选择了6种最为经典的图像分割算法进行比 较:基于阈值的图像分割算法OTSU山,基于梯度 由于本文选择基于深度学习的图像分割模型 的边缘提取算法Cannyl34,基于形态学的图像分 Unet作为不同评估指标的基线模型,而Unet需要 割算法Watershed!,基于聚类的图像分割方法K- 样本训练模型才可进一步使用.因此将数据集按 meanst36,基于图论的图像分割算法Random Walker7 照7:1:2的方式划分为训练集、验证集和测试 和基于深度学习的图像分割算法Unetls 集.为保证实验的公平性,所有图像分割算法均在 本文选择多晶纯铁(Polycrystalline iron)晶粒 测试集上进行评估.对于Unet模型,模型在训练 组织图像和铝镧合金(Al-La alloy)枝晶组织图像 集上训练,并在每轮迭代中使用验证集验证,选择 作为目标数据集,数据集参数如表3所示.两数据 验证集损失最低的网络参数在测试集上进行评 集示例如图1所示,其中多晶纯铁晶粒的前景品 估.其中,Unet网络训练参数为:Batch size为l0. 粒区域像素个数远高于背景边界区域的像素个 初始学习率为1×10,在Adam优化器下训练50轮 数,属于类别不平衡的图像分割任务,铝镧合金枝 所有实验均在装备一台Nvidia Tesla V100显卡的
的分区的 IoU 大于特定的阈值. 其中 True positive (TP)表示真实和预测结果中正确匹配的分区对数 量,False positive(FP) 表示预测分割结果中未正确 匹配的分区数量,False negative(FN)表示真值分割 结果中未正确匹配的分区数量. t n 在每个阈值 上,根据预测分割的分区结果与 真值分割的分区结果比较产生 的 TP、 FN、 和 FP 的数量计算出一个精度值,并除以阈值个数获 得均值精确率. 在此基础上,对所有图像 计算各 自均值精确率再求平均,获得最终平均均值精确 率,公式如下所示: MAP = 1 n×|t| ∑ t TP(t) TP(t)+FP(t)+FN(t) (15) CD 是 Waggoner 等引入的一种比较分割结果 中分区个数的评估指标[33] ,其定义为: CD = NumT−NumP (16) NumT NumP CD CD 式中, 代表真实结果中的实例个数, 代 表预测结果中的实例个数,如果 是正数,表示欠 分割,如果 是负数,表示过分割. ↑ ↓ N 综上,各评估指标的简要信息如表 2 所示,其 中 代表值越大性能越高, 代表值越低性能越高, 代表图像中像素个数. 表 2 各指标的简要概括 Table 2 Brief description of different evaluation methods Properties Pixel based evaluation methods Intra class coincidence based evaluation methods Edge based evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score Figure of merit Completeness Correctness Value range [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] tendency ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ 3 图像分割评估方法对比实验 本章以两种典型材料显微图像分割任务为应 用背景,定量地衡量图像分割评估方法在不同分 割算法和不同噪声下的性能. 本文所有代码及示 例图像可开源获取,详见如下网址:https://github.com/ Keep-Passion/ImageSegMetrics. 3.1 不同图像分割算法下的评估结果 为了降低图像分割算法对评估方法的影响, 本文选择了 6 种最为经典的图像分割算法进行比 较:基于阈值的图像分割算法 OTSU[11] ,基于梯度 的边缘提取算法 Canny[34] ,基于形态学的图像分 割算法 Watershed[35] ,基于聚类的图像分割方法 K– means[36] ,基于图论的图像分割算法 Random Walker[37] 和基于深度学习的图像分割算法 Unet[18] . 本文选择多晶纯铁(Polycrystalline iron)晶粒 组织图像和铝镧合金 (Al–La alloy) 枝晶组织图像 作为目标数据集,数据集参数如表 3 所示. 两数据 集示例如图 1 所示,其中多晶纯铁晶粒的前景晶 粒区域像素个数远高于背景边界区域的像素个 数,属于类别不平衡的图像分割任务. 铝镧合金枝 晶图像的前景组织区域像素个数与背景区域的像 素个数相当,属于类别平衡的图像分割任务. 在实 践过程中,类别不平衡的图像分割任务更加困难. 表 3 材料显微图像数据集参数 Table 3 Description of two material micrographic image datasets ID Microstructure Image size Image number 1 Polycrystalline iron 1024×1024 296 2 Al–La alloy 1024×1024 50 由于本文选择基于深度学习的图像分割模型 Unet 作为不同评估指标的基线模型,而 Unet 需要 样本训练模型才可进一步使用. 因此将数据集按 照 7∶1∶2 的方式划分为训练集、验证集和测试 集. 为保证实验的公平性,所有图像分割算法均在 测试集上进行评估. 对于 Unet 模型,模型在训练 集上训练,并在每轮迭代中使用验证集验证,选择 验证集损失最低的网络参数在测试集上进行评 估. 其中,Unet 网络训练参数为:Batch size 为 10, 初始学习率为 1×10−4 ,在 Adam 优化器下训练 50 轮. 所有实验均在装备一台 Nvidia Tesla V100 显卡的 Properties Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Quality RI ARI VI CD MAP ME SE VI Value range [0, 1] [0, 1] [−1, 1] [0, log2N] [0, log2N] [0, log2N] (−∞,+∞) [0, 1] tendency ↑ ↑ ↑ ↓ ↓ ↓ Closer to 0, the better ↑ · 142 · 工程科学学报,第 43 卷,第 1 期
马博渊等:图像分割评估方法在显微图像分析中的应用 143 工作站上测试 行所示.铝镧合金枝晶组织图像在不同分割算法 多晶纯铁品粒组织图像在不同分割算法下的 下的各评估结果如表5所示,其可视化示例如图4 各评估结果如表4所示,其可视化示例如图4上两 下两行所示 表4多品纯铁品粒组织图像不同分制算法下评估结果 Table 4 Evaluation results under different segmentation algorithms for polycrystalline iron image Pixel based evaluation methods Intra class coincidence based Edge based evaluation methods Segmentation algorithm evaluation methods Pixel accuracy Mean accuracy MloU FWIoU Dice score Figure of merit Completeness Correctness OTSU 0.9443 0.7800 0.7226 0.8979 0.9696 0.6593 0.8298 0.9146 Canny 0.9145 0.6364 0.5811 0.8468 0.9540 0.4085 0.7007 0.9156 Watershed 0.9017 0.5613 0.5109 0.8236 0.9476 0.2009 0.4516 0.6537 K-means 0.5739 0.5469 0.4331 0.5307 0.5771 0.4906 0.8598 0.5796 Random walker 0.9447 0.7925 0.7293 0.8994 0.9697 0.6963 0.8445 0.9059 Unet 0.9311 0.9423 0.7510 0.8898 0.9605 0.8933 0.9784 0.8562 Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Segmentation algorithm VI Quality RI ARI CD MAP ME SE VI OTSU 0.7361 0.7187 0.0582 4.3330 0.0218 4.3548 178.8333 0.1593 Canny 0.5482 0.1356 -0.0053 7.2893 0.0084 7.2978 199.0000 0.0333 Watershed 0.2164 0.9444 0.1552 1.7498 0.3439 2.0937 29.5667 0.1592 K-means 0.4751 0.4687 0.0273 3.8777 0.5202 4.3979 -234.8333 0.0932 Random walker 0.7477 0.7651 0.1087 3.8414 0.0262 3.8676 164.1667 0.1789 Unet 0.8450 0.9819 0.5917 0.0504 0.0722 0.1226 -33.1333 0.5465 由于多晶纯铁晶粒组织图像分割任务的目标 于目标为统计物相组成比例等的表征任务,但不 是提取并分离每个晶粒,因此,该任务可被解读为 适用于需要分析单个组织特征的尺寸或形状统计 晶粒分割或晶界提取两种不同的描述.因此,对于 等的表征任务 后者,可采用基于边界的评估方法对晶界提取的 基于边界的评估方法仅适用于基于边缘提取 准确性进行评估 的图像分割任务,其泛用性较低.同时晶界提取的 由于基于深度学习的机器学习算法可在训练 目标在于分离每个晶粒,基于边界的评估方法并 过程中自动学习到数据中适用于目标任务的强有 未考虑晶界不闭合的情况.因此,本文认为在材料 效特征,因此其分割性能远高于传统图像处理方 显微图像分析应用中,基于边界的评估方法可适 法.由图4直观比较,基于深度学习的图像分割模 用于缺陷(如裂纹)检测阿,但不适用组织结构定 型Unet在两种数据集上的可视化效果均显著超过 量表征任务 了其余经典算法.但在多晶纯铁晶粒组织图像的 基于聚类和基于实例的评估方法由于在执行 客观评估中(表4),Unet和传统方法(除Unet外的 过程中需要先使用联通区域方法对分割结果进行 其他方法)在基于像素和基于类内重合度的评估 分区操作,考虑了显微组织结构的拓扑特性,因此 方法的数值指标上相差较小.在铝镧合金枝晶组 本文认为这两类方法更适用于材料显微图像分析 织图像的客观评估中(表5),传统方法和Unet在 任务中统计尺寸和形状分布等微观组织定量表征 基于像素的评估方法的数值指标上相差较小.基 的目标. 于像素的评估方法逐像素地比较预测分割结果和 在基于聚类的评估方法中,I被证明在最差 真值分割结果的区别,而基于类内重合度的评估 情况下也难以达到最低值,造成各方法间差距过 方法逐类别的比较两者之前的差异,均未考虑材 小,如多晶纯铁晶粒图像分割结果(表4)中的 料显微组织的拓扑特性,因此,本文认为在材料显 Watershed(RI=0.9444)Unet(RI=0.9819).ARI 微图像分析及定量表征应用中,该评估方法适用 对I指标的改进,各方法间该指标的差距较大
工作站上测试. 多晶纯铁晶粒组织图像在不同分割算法下的 各评估结果如表 4 所示,其可视化示例如图 4 上两 行所示. 铝镧合金枝晶组织图像在不同分割算法 下的各评估结果如表 5 所示,其可视化示例如图 4 下两行所示. 表 4 多晶纯铁晶粒组织图像不同分割算法下评估结果 Table 4 Evaluation results under different segmentation algorithms for polycrystalline iron image Segmentation algorithm Pixel based evaluation methods Intra class coincidence based evaluation methods Edge based evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score Figure of merit Completeness Correctness OTSU 0.9443 0.7800 0.7226 0.8979 0.9696 0.6593 0.8298 0.9146 Canny 0.9145 0.6364 0.5811 0.8468 0.9540 0.4085 0.7007 0.9156 Watershed 0.9017 0.5613 0.5109 0.8236 0.9476 0.2009 0.4516 0.6537 K−means 0.5739 0.5469 0.4331 0.5307 0.5771 0.4906 0.8598 0.5796 Random walker 0.9447 0.7925 0.7293 0.8994 0.9697 0.6963 0.8445 0.9059 Unet 0.9311 0.9423 0.7510 0.8898 0.9605 0.8933 0.9784 0.8562 由于多晶纯铁晶粒组织图像分割任务的目标 是提取并分离每个晶粒,因此,该任务可被解读为 晶粒分割或晶界提取两种不同的描述. 因此,对于 后者,可采用基于边界的评估方法对晶界提取的 准确性进行评估. 由于基于深度学习的机器学习算法可在训练 过程中自动学习到数据中适用于目标任务的强有 效特征,因此其分割性能远高于传统图像处理方 法. 由图 4 直观比较,基于深度学习的图像分割模 型 Unet 在两种数据集上的可视化效果均显著超过 了其余经典算法. 但在多晶纯铁晶粒组织图像的 客观评估中(表 4),Unet 和传统方法(除 Unet 外的 其他方法)在基于像素和基于类内重合度的评估 方法的数值指标上相差较小. 在铝镧合金枝晶组 织图像的客观评估中(表 5),传统方法和 Unet 在 基于像素的评估方法的数值指标上相差较小. 基 于像素的评估方法逐像素地比较预测分割结果和 真值分割结果的区别,而基于类内重合度的评估 方法逐类别的比较两者之前的差异,均未考虑材 料显微组织的拓扑特性,因此,本文认为在材料显 微图像分析及定量表征应用中,该评估方法适用 于目标为统计物相组成比例等的表征任务,但不 适用于需要分析单个组织特征的尺寸或形状统计 等的表征任务. 基于边界的评估方法仅适用于基于边缘提取 的图像分割任务,其泛用性较低. 同时晶界提取的 目标在于分离每个晶粒,基于边界的评估方法并 未考虑晶界不闭合的情况. 因此,本文认为在材料 显微图像分析应用中,基于边界的评估方法可适 用于缺陷(如裂纹)检测[25] ,但不适用组织结构定 量表征任务. 基于聚类和基于实例的评估方法由于在执行 过程中需要先使用联通区域方法对分割结果进行 分区操作,考虑了显微组织结构的拓扑特性,因此 本文认为这两类方法更适用于材料显微图像分析 任务中统计尺寸和形状分布等微观组织定量表征 的目标. 在基于聚类的评估方法中,RI 被证明在最差 情况下也难以达到最低值,造成各方法间差距过 小 ,如多晶纯铁晶粒图像分割结果 ( 表 4) 中 的 Watershed(RI=0.9444) 和 Unet(RI=0.9819). ARI 是 对 RI 指标的改进,各方法间该指标的差距较大. Segmentation algorithm Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Quality RI ARI VI CD MAP ME SE VI OTSU 0.7361 0.7187 0.0582 4.3330 0.0218 4.3548 178.8333 0.1593 Canny 0.5482 0.1356 −0.0053 7.2893 0.0084 7.2978 199.0000 0.0333 Watershed 0.2164 0.9444 0.1552 1.7498 0.3439 2.0937 29.5667 0.1592 K−means 0.4751 0.4687 0.0273 3.8777 0.5202 4.3979 −234.8333 0.0932 Random walker 0.7477 0.7651 0.1087 3.8414 0.0262 3.8676 164.1667 0.1789 Unet 0.8450 0.9819 0.5917 0.0504 0.0722 0.1226 −33.1333 0.5465 马博渊等: 图像分割评估方法在显微图像分析中的应用 · 143 ·
144 工程科学学报,第43卷,第1期 Polycrystalline iron Watershed Al-La alloy Ground truth OTSU Canny Watershed K-means Random walker Unet 图4多品纯铁品粒组织及铝镧合金枝品组织图像在不同分割算法结果的可视化对比 Fig.4 Visualization results of different segmentation methods for polycrystalline iron and Al-La alloy microscopic image VI指标进一步分为合并错误(Merge Error,,ME)和 较为准确,但也同样容易受到微小噪声的影响 分离错误(Split Error,.SE),可更加全面的分析算法 3.2引入不同噪声下评估方法效果 的分割结果 为进一步加深对图像分割评估方法的理解, 在基于实例的评估算法中,CD指标易受到噪 本文在图像中增加固定数目的典型噪声,以展示 声影响,且该指标不存在上下限,造成各方法的评 各图像评估方法的鲁棒性 估结果差距过大,难以直观评估分割结果,如在铝 本文从多晶纯铁晶粒图像和铝镧合金枝晶图像 镧合金枝晶图像分割任务中,CD指标从-10到 中分别选择500×500像素尺寸的图像,并通过控制 -10918产生变化,因此本文认为该指标不适合材 变量,随机引入三种在材料显微图像分析任务中常 料显微图像分析任务.MAP的值域范围是[O,1, 见的噪声381,每种噪声各具有500像素的改变量: 且在不同交并比阈值下综合评估分割结果,性能 随机斑点噪声、划痕噪声和边界模糊或消失现象
VI 指标进一步分为合并错误(Merge Error,ME)和 分离错误(Split Error,SE),可更加全面的分析算法 的分割结果. 在基于实例的评估算法中,CD 指标易受到噪 声影响,且该指标不存在上下限,造成各方法的评 估结果差距过大,难以直观评估分割结果,如在铝 镧合金枝晶图像分割任务中 ,CD 指标从−10 到 −10918 产生变化,因此本文认为该指标不适合材 料显微图像分析任务. MAP 的值域范围是 [0,1], 且在不同交并比阈值下综合评估分割结果,性能 较为准确,但也同样容易受到微小噪声的影响. 3.2 引入不同噪声下评估方法效果 为进一步加深对图像分割评估方法的理解, 本文在图像中增加固定数目的典型噪声,以展示 各图像评估方法的鲁棒性. 本文从多晶纯铁晶粒图像和铝镧合金枝晶图像 中分别选择 500×500 像素尺寸的图像,并通过控制 变量,随机引入三种在材料显微图像分析任务中常 见的噪声[38] ,每种噪声各具有 500 像素的改变量: 随机斑点噪声、划痕噪声和边界模糊或消失现象. Polycrystalline iron Ground truth OTSU Canny Watershed K-means Random walker Unet Al−La alloy Ground truth OTSU Canny Watershed K-means Random walker Unet 图 4 多晶纯铁晶粒组织及铝镧合金枝晶组织图像在不同分割算法结果的可视化对比 Fig.4 Visualization results of different segmentation methods for polycrystalline iron and Al–La alloy microscopic image · 144 · 工程科学学报,第 43 卷,第 1 期
马博渊等:图像分割评估方法在显微图像分析中的应用 145. 表5铝獬合金枝品组织图像不同分割算法下评估结果 Table 5 Evaluation of different segmentation results for Al-La microscopic image Pixel based evaluation methods Intra class coincidence based evaluation methods Clustering based evaluation methods Segmentation algorithm Pixel accuracy Mean accuracy MloU FWIoU Dice score 色 OTSU 0.6263 0.7025 0.4538 0.4441 0.6573 0.6981 Canny 0.5259 0.6126 0.3497 0.3315 0.5890 0.4780 Watershed 0.4199 0.5426 0.2373 0.1974 0.5557 0.5902 K-means 0.5078 0.5098 0.3287 0.3482 0.3434 0.5210 Random walker 0.5110 0.4027 0.2559 0.3249 0.0024 0.3552 Unet 0.9850 0.9854 0.9684 0.9706 0.9796 0.9810 Clustering based evaluation methods Instance based evaluation methods Segmentation algorithm I ARI CD MAP ME SE VI OTSU 0.3000 0.3075 0.0135 0.3210 -1680.9000 0.2170 Canny -0.0237 6.0105 0.0054 6.0158 -1467.1000 0.0459 Watershed 0.0022 0.5689 0.2377 0.8066 -1014.4000 0.0131 K-means 0.0064 0.8567 0.2247 1.0814 -2216.2000 0.1102 Random walker -0.1720 0.0000 2.2680 2.2680 -10918.3000 0.0000 Unet 0.9604 0.0191 0.0182 0.0373 -10.7000 0.8453 (1)随机斑点噪声(Random noises):在制备过 (2)划痕噪声(Scratch noises):如前所述,在制 程中,需要在材料表面涂抹锈蚀剂,才可在抛光过 备过程中,需要对材料表面进行研磨.该制备方法 程中磨掉材料表面区域,进而获得材料的微观形 不可避免地将在显微组织表面留下划痕噪声.划 貌.若采用系列截面法逐层观察材料组织形貌,则 痕噪声通常为黑色直线.由于其与多晶纯铁晶粒 需要频繁的使用锈蚀剂,在抛光过程中,锈蚀剂不 图像中晶界区域在像素值上相似,容易被误认为是 可避免地残留在微观组织表面,形成随机斑点噪 晶界从而影响分割结果,如图5中红色箭头所示 声,如图5中黑色箭头所示 (3)边界模糊或消失现象(Blurred or missing boun- a (b) (d) (e) () 图5两种图像数据引入不同种类噪声的结果.(a)多品纯铁品粒图像:(b)图(a)的真值结果:(c)在(b)中随机引入500像素的噪声点:(d)在(b)中 引入500像素的划痕噪声:(e)在(b)中引入500像素的消失品界噪声:(f)铝镧合金枝品图像:(g)图(f)的真值结果:(h)在(g)中随机引入500像素 的噪声点:(i)在(g)中引入500像素的划痕噪声 Fig.5 Two microscopic images with different noises:(a)polycrystalline iron;(b)ground truth of (a);(c)random noises with 500 pixels in(b);(d)scratch noises with 500 pixels in (b);(e)missing boundaries with 500 pixels in (b);(f)Al la alloy;(g)ground truth of (f);(h)random noises with 500 pixels in (g); (i)scratch noises with 500 pixels in (g)
(1)随机斑点噪声(Random noises):在制备过 程中,需要在材料表面涂抹锈蚀剂,才可在抛光过 程中磨掉材料表面区域,进而获得材料的微观形 貌. 若采用系列截面法逐层观察材料组织形貌,则 需要频繁的使用锈蚀剂,在抛光过程中,锈蚀剂不 可避免地残留在微观组织表面,形成随机斑点噪 声,如图 5 中黑色箭头所示. (2)划痕噪声(Scratch noises):如前所述,在制 备过程中,需要对材料表面进行研磨. 该制备方法 不可避免地将在显微组织表面留下划痕噪声. 划 痕噪声通常为黑色直线. 由于其与多晶纯铁晶粒 图像中晶界区域在像素值上相似,容易被误认为是 晶界从而影响分割结果,如图 5 中红色箭头所示. (3)边界模糊或消失现象(Blurred or missing boun- (a) (b) (c) (d) (e) (f) (g) (h) (i) 图 5 两种图像数据引入不同种类噪声的结果. (a)多晶纯铁晶粒图像;(b)图(a)的真值结果;(c)在(b)中随机引入 500 像素的噪声点;(d)在(b)中 引入 500 像素的划痕噪声;(e)在(b)中引入 500 像素的消失晶界噪声;(f)铝镧合金枝晶图像;(g)图(f)的真值结果;(h)在(g)中随机引入 500 像素 的噪声点;(i)在(g)中引入 500 像素的划痕噪声 Fig.5 Two microscopic images with different noises: (a) polycrystalline iron; (b) ground truth of (a); (c) random noises with 500 pixels in (b); (d) scratch noises with 500 pixels in (b); (e) missing boundaries with 500 pixels in (b); (f) Al la alloy; (g) ground truth of (f); (h) random noises with 500 pixels in (g); (i) scratch noises with 500 pixels in (g) 表 5 铝镧合金枝晶组织图像不同分割算法下评估结果 Table 5 Evaluation of different segmentation results for Al–La microscopic image Segmentation algorithm Pixel based evaluation methods Intra class coincidence based evaluation methods Clustering based evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score RI OTSU 0.6263 0.7025 0.4538 0.4441 0.6573 0.6981 Canny 0.5259 0.6126 0.3497 0.3315 0.5890 0.4780 Watershed 0.4199 0.5426 0.2373 0.1974 0.5557 0.5902 K-means 0.5078 0.5098 0.3287 0.3482 0.3434 0.5210 Random walker 0.5110 0.4027 0.2559 0.3249 0.0024 0.3552 Unet 0.9850 0.9854 0.9684 0.9706 0.9796 0.9810 Segmentation algorithm Clustering based evaluation methods Instance based evaluation methods ARI VI CD MAP ME SE VI OTSU 0.3000 0.3075 0.0135 0.3210 −1680.9000 0.2170 Canny −0.0237 6.0105 0.0054 6.0158 −1467.1000 0.0459 Watershed 0.0022 0.5689 0.2377 0.8066 −1014.4000 0.0131 K-means 0.0064 0.8567 0.2247 1.0814 −2216.2000 0.1102 Random walker −0.1720 0.0000 2.2680 2.2680 −10918.3000 0.0000 Unet 0.9604 0.0191 0.0182 0.0373 −10.7000 0.8453 马博渊等: 图像分割评估方法在显微图像分析中的应用 · 145 ·