图像分割评估方法在显微图像分析中的应用

图像分割是计算机视觉领域中的重要分支，旨在将图像分成若干个特定的、具有独特性质的区域。随着计算机硬件计算能力的提高和计算方法的进步，大量基于不同理论的图像分割算法获得了长足的发展。因而选择合适的评估方法对分割结果的准确性和适用性进行综合评估，从而选择最优分割算法，成为图像分割研究中的必要环节。在综述14种图像分割评估指标的基础上，将其分成基于像素的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法和基于实例的评估方法五大类。在材料显微图像分析的应用背景下，通过实验讨论了不同分割方法和不同典型噪声在不同评估方法中的表现。最终，讨论了各种评估方法的优势和适用性。

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：2.44MB

工程科学学报 Chinese Journal of Engineering 图像分割评估方法在显微图像分析中的应用马博渊姜淑芳尹豆中昊锴班晓娟黄海友王浩薛维华封华 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan,JIANG Shu-fang.YIN Dou,SHEN Hao-kai,BAN Xiao-juan,HUANG Hai-you,WANG Hao,XUE Wei-hua,FENG Hua 引用本文：马博渊，姜淑芳，尹豆，申吴锆，班晓娟，黄海友，王浩，薛维华，封华.图像分割评估方法在显微图像分析中的应用.工程科学学报，2021,431：137-149.doi:10.13374.issn2095-9389.2020.05.28.002 MA Bo-yuan,JIANG Shu-fang.YIN Dou,SHEN Hao-kai,BAN Xiao-juan,HUANG Hai-you,WANG Hao,XUE Wei-hua,FENG Hua.Image segmentation metric and its application in the analysis of microscopic image[J.Chinese Journal of Engineering,2021, 43(1):137-149.doi:10.13374j.issn2095-9389.2020.05.28.002 在线阅读View online:https::/doi.org10.13374j.issn2095-9389.2020.05.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于监督学习的前列腺MR/TRUS图像分割和配准方法 Prostate MR/TRUS image segmentation and registration methods based on supervised learning 工程科学学报.2020,42(10：1362htps:/doi.org/10.13374.issn2095-9389.2019.10.10.006 基于自动多种子区域生长的遥感影像面向对象分割方法 Object-oriented remote sensing image segmentation based on automatic multiseed region growing algorithm 工程科学学报.2017,3911)：1735htps:1doi.org/10.13374.issn2095-9389.2017.11.017 基于改进CV模型的金相图像分割 Segmentation of metallographic images based on improved CV model 工程科学学报.2017,3912：1866 https:/1doi.org10.13374.issn2095-9389.2017.12.013 一种改进的非刚性图像配准算法 An improved non-rigid image registration approach 工程科学学报.2019,41(7)：955 https::/1oi.org/10.13374.issn2095-9389.2019.07.015 一种提高图像对比度和视觉质量的新型区域背光算法 A novel local dimming algorithm to improve image contrast and visual quality 工程科学学报.2017,39(12头：1888 https:/loi.org/10.13374j.issn2095-9389.2017.12.016 序列图像运动自适应V1-MT光流估计算法 Bio-inspired motion-adaptive estimation algorithm of sequence image 工程科学学报.2017,398：1238 https:1doi.org10.13374.issn2095-9389.2017.08.014

图像分割评估方法在显微图像分析中的应用马博渊姜淑芳尹豆申昊锴班晓娟黄海友王浩薛维华封华 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan, JIANG Shu-fang, YIN Dou, SHEN Hao-kai, BAN Xiao-juan, HUANG Hai-you, WANG Hao, XUE Wei-hua, FENG Hua 引用本文: 马博渊, 姜淑芳, 尹豆, 申昊锴, 班晓娟, 黄海友, 王浩, 薛维华, 封华. 图像分割评估方法在显微图像分析中的应用[J]. 工程科学学报, 2021, 43(1): 137-149. doi: 10.13374/j.issn2095-9389.2020.05.28.002 MA Bo-yuan, JIANG Shu-fang, YIN Dou, SHEN Hao-kai, BAN Xiao-juan, HUANG Hai-you, WANG Hao, XUE Wei-hua, FENG Hua. Image segmentation metric and its application in the analysis of microscopic image[J]. Chinese Journal of Engineering, 2021, 43(1): 137-149. doi: 10.13374/j.issn2095-9389.2020.05.28.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.05.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于监督学习的前列腺MR/TRUS图像分割和配准方法 Prostate MR/TRUS image segmentation and registration methods based on supervised learning 工程科学学报. 2020, 42(10): 1362 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.006 基于自动多种子区域生长的遥感影像面向对象分割方法 Object-oriented remote sensing image segmentation based on automatic multiseed region growing algorithm 工程科学学报. 2017, 39(11): 1735 https://doi.org/10.13374/j.issn2095-9389.2017.11.017 基于改进CV模型的金相图像分割 Segmentation of metallographic images based on improved CV model 工程科学学报. 2017, 39(12): 1866 https://doi.org/10.13374/j.issn2095-9389.2017.12.013 一种改进的非刚性图像配准算法 An improved non-rigid image registration approach 工程科学学报. 2019, 41(7): 955 https://doi.org/10.13374/j.issn2095-9389.2019.07.015 一种提高图像对比度和视觉质量的新型区域背光算法 A novel local dimming algorithm to improve image contrast and visual quality 工程科学学报. 2017, 39(12): 1888 https://doi.org/10.13374/j.issn2095-9389.2017.12.016 序列图像运动自适应V1-MT光流估计算法 Bio-inspired motion-adaptive estimation algorithm of sequence image 工程科学学报. 2017, 39(8): 1238 https://doi.org/10.13374/j.issn2095-9389.2017.08.014

工程科学学报.第43卷，第1期：137-149.2021年1月 Chinese Journal of Engineering,Vol.43,No.1:137-149,January 2021 https://doi.org/10.13374/j.issn2095-9389.2020.05.28.002;http://cje.ustb.edu.cn 图像分割评估方法在显微图像分析中的应用马博渊123，，姜淑芳)，尹豆》，中吴锘，班晓娟2,3，，黄海友7,8区王浩1,9)，薛维华9,10，封华3) 1)北京科技大学北京材料基因工程高精尖创新中心.北京1000832)北京科技大学材料领域知识工程北京市重点实验室.北京100083 3)北京科技大学计算机与通信工程学院，北京1000834)北京科技大学人工智能研究院，北京1000835)解放军总医院第一医学中心妇产科，北京1008536)中国石油大学（北京）信息科学与工程学院.北京1022497)北京科技大学新材料技术研究院.北京100083 8)北京科技大学顺德研究生院，佛山5283009)北京科技大学材料科学与工程学院.北京10008310)辽宁工程技术大学材料科学与工程学院.阜新123099 区通信作者，E-mail:huanghy(@mater..ustb.edu.cn 摘要图像分割是计算机视觉领域中的重要分支，旨在将图像分成若干个特定的、具有独特性质的区域.随着计算机硬件计算能力的提高和计算方法的进步，大量基于不同理论的图像分割算法获得了长足的发展.因而选择合适的评估方法对分割结果的准确性和适用性进行综合评估，从而选择最优分割算法，成为图像分割研究中的必要环节，在综述14种图像分割评估指标的基础上，将其分成基于像素的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法和基于实例的评估方法五大类.在材料显微图像分析的应用背景下，通过实验讨论了不同分割方法和不同典型噪声在不同评估方法中的表现.最终，讨论了各种评估方法的优势和适用性. 关键词计算机视觉：图像分割：图像处理：评估方法：材料显微图像分类号TP3 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan2)JIANG Shu-fang.YIN Dou,SHEN Hao-kai,BAN Xiao-juan 2),HUANG Hai-you WANG Hao) XUE Wei-hua FENG Hua) 1)Beijing Advanced Innovation Center for Materials Genome Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Knowledge Engineering for Materials Science,University of Science and Technology Beijing,Beijing 100083,China 3)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 4)Institute of Artificial Intelligence,University of Science and Technology Beijing.Beijing 100083.China 5)Department of Obstetrics and Gynecology,General Hospital of PLA,Beijing 100853,China 6)College of Information Science and Engineering.China University of Petroleum Beijing.Beijing 102249,China 7)Institute for Advanced Materials and Technology,University of Science and Technology Beijing,Beijing 100083,China 8)Shunde Graduate School,University of Science and Technology Beijing,Foshan 528300,China 9)School of Materials Science and Engineering,University of Science and Technology Beijing,Beijing 100083,China 10)School of Materials Science and Engineering,Liaoning Technical University,Fuxin 123099,China Corresponding author,E-mail:huanghy@mater.ustb.edu.cn ABSTRACT Material microstructure data are an important type of data in building intrinsic relationships between compositions, structures,processes,and properties,which are fundamental to material design.Therefore,the quantitative analysis of microstructures is 收稿日期：2020-05-28 基金项目：海南省财政科技计划资助项目(ZDYF2019009):北京科技大学顺德研究生院科技创新专项资金资助项目(BK19BE030)

图像分割评估方法在显微图像分析中的应用马博渊1,2,3,4)，姜淑芳5)，尹豆3)，申昊锴6)，班晓娟1,2,3,4)，黄海友1,7,8) 苣，王浩1,9)，薛维华9,10)，封华3) 1) 北京科技大学北京材料基因工程高精尖创新中心，北京 100083 2) 北京科技大学材料领域知识工程北京市重点实验室，北京 100083 3) 北京科技大学计算机与通信工程学院，北京 100083 4) 北京科技大学人工智能研究院，北京 100083 5) 解放军总医院第一医学中心妇产科，北京 100853 6) 中国石油大学（北京）信息科学与工程学院，北京 102249 7) 北京科技大学新材料技术研究院，北京 100083 8) 北京科技大学顺德研究生院，佛山 528300 9) 北京科技大学材料科学与工程学院，北京 100083 10) 辽宁工程技术大学材料科学与工程学院，阜新 123099 苣通信作者，E-mail：huanghy@mater.ustb.edu.cn 摘要图像分割是计算机视觉领域中的重要分支，旨在将图像分成若干个特定的、具有独特性质的区域. 随着计算机硬件计算能力的提高和计算方法的进步，大量基于不同理论的图像分割算法获得了长足的发展. 因而选择合适的评估方法对分割结果的准确性和适用性进行综合评估，从而选择最优分割算法，成为图像分割研究中的必要环节. 在综述 14 种图像分割评估指标的基础上，将其分成基于像素的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法和基于实例的评估方法五大类. 在材料显微图像分析的应用背景下，通过实验讨论了不同分割方法和不同典型噪声在不同评估方法中的表现. 最终，讨论了各种评估方法的优势和适用性. 关键词计算机视觉；图像分割；图像处理；评估方法；材料显微图像分类号 TP3 Image segmentation metric and its application in the analysis of microscopic image MA Bo-yuan1,2,3,4) ，JIANG Shu-fang5) ，YIN Dou3) ，SHEN Hao-kai6) ，BAN Xiao-juan1,2,3,4) ，HUANG Hai-you1,7,8) 苣，WANG Hao1,9) ， XUE Wei-hua9,10) ，FENG Hua3) 1) Beijing Advanced Innovation Center for Materials Genome Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Beijing Key Laboratory of Knowledge Engineering for Materials Science, University of Science and Technology Beijing, Beijing 100083, China 3) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 4) Institute of Artificial Intelligence, University of Science and Technology Beijing, Beijing 100083, China 5) Department of Obstetrics and Gynecology, General Hospital of PLA, Beijing 100853, China 6) College of Information Science and Engineering, China University of Petroleum Beijing, Beijing 102249, China 7) Institute for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China 8) Shunde Graduate School, University of Science and Technology Beijing, Foshan 528300, China 9) School of Materials Science and Engineering, University of Science and Technology Beijing, Beijing 100083, China 10) School of Materials Science and Engineering, Liaoning Technical University, Fuxin 123099, China 苣 Corresponding author, E-mail: huanghy@mater.ustb.edu.cn ABSTRACT Material microstructure data are an important type of data in building intrinsic relationships between compositions, structures, processes, and properties, which are fundamental to material design. Therefore, the quantitative analysis of microstructures is 收稿日期: 2020−05−28 基金项目: 海南省财政科技计划资助项目（ZDYF2019009）；北京科技大学顺德研究生院科技创新专项资金资助项目（BK19BE030）工程科学学报，第 43 卷，第 1 期：137−149，2021 年 1 月 Chinese Journal of Engineering, Vol. 43, No. 1: 137−149, January 2021 https://doi.org/10.13374/j.issn2095-9389.2020.05.28.002; http://cje.ustb.edu.cn

·138 工程科学学报，第43卷，第1期 essential for effective control of the material properties and performances of metals or alloys in various industrial applications. Microscopic images are often used to understand the important structures of a material,which are related to certain properties of interest. One of the key steps during material design process is the extraction of useful information from images through microscopic image processing using computational algorithms and tools.For example,image segmentation,which is a task that divides the image into several specific and unique regions,can detect and separate each microstructure to quantitatively analyze its size and shape distribution. This technique is commonly used in extracting significant information from microscopic images in material structure characterization field.With great improvement in computing power and methods,a large number of image segmentation methods based on different theories have made great progress,especially deep learning-based image segmentation method.Therefore selecting an appropriate evaluation method to assess the accuracy and applicability of segmentation results to properly select the optimal segmentation methods and their indications on the direction of future improvement is necessary.In this work,14 evaluation metrics of image segmentation were summarized and discussed.The metrics were divided into five categories:pixel,intra class coincidence,edge,clustering,and instance based.In the application of material microscopic image analysis,we collected two classical datasets (Al-La alloy and polycrystalline images)to conduct quantitative experiment.The performance of different segmentation methods and different typical noises in different evaluation metrics were then compared and discussed.Finally,we discussed the advantages and applicability of various evaluation metrics in the field of microscopic image processing. KEY WORDS computer vision:image segmentation;image processing;segmentation evaluation metrics;material microscopic image 计算机视觉是一门“教”会计算机如何去“看” 点综述了图像分割的评估方法，并讨论了不同评世界的科学，旨在使用计算机及相关设备对生物估方法的适用性视觉进行模拟，进而代替眼睛对数字图像中的目 1 图像分割的定义及其在材料显微图像分标进行处理、识别、分析和理解四图像分割是从析中的应用图像中提取感兴趣区域的方法，是计算机视觉的重要组成部分四在实际应用中，对图像分割结果图像分割是将图像分成若干个特定的、具有的正确评估是分割方法完善的重要研究手段) 独特性质区域的技术，是计算机视觉的重要分在材料科学领域，随着材料信息学的发展，大支.分割结果可进一步为图像识别和图像描述等量先进的信息学技术在材料领域获得应用，并展图像理解相关任务提供信息支撑现出蓬勃的生机和快速发展的态势.材料图像，特目前，随着多学科间的深入交叉和融合，科学别是材料显微图像，是材料组织信息的重要载体工作者开始尝试将以图像分割为代表的计算机视使用图像分割等计算机视觉方法可提取材料图像觉技术运用到表面缺陷检测、金相组织分析、神中的组织信息，是高效建立材料成分-工艺-组织- 经细胞拓扑分析等材料和生物医学领域5-如图1 性能关系的重要环节所示为材料显微图像分割流程图，针对原始的材本文在材料显微图像分析的应用背景下，重料显微图像，采用图像分割方法(Image segmenta- Original Image Prediction Segmentation Target result image segmentation result evaluation (ground truth) Threshold based segmentation methods Pivel hased Gradient hased evaluation methods segmentation method水 Morphology based Microscopic images segmentation methods of al-la alloy Edge based evaluation method segmentation methods Clustering based ealu31onme山hous on methods Instance based Deep leaming based evaluation methods segmentation methods Microscopic images of polycrystalline iron 图1材料显微图像分割流程示意 Fig.I Flow chart of material microscopic image segmentation

essential for effective control of the material properties and performances of metals or alloys in various industrial applications. Microscopic images are often used to understand the important structures of a material, which are related to certain properties of interest. One of the key steps during material design process is the extraction of useful information from images through microscopic image processing using computational algorithms and tools. For example, image segmentation, which is a task that divides the image into several specific and unique regions, can detect and separate each microstructure to quantitatively analyze its size and shape distribution. This technique is commonly used in extracting significant information from microscopic images in material structure characterization field. With great improvement in computing power and methods, a large number of image segmentation methods based on different theories have made great progress, especially deep learning-based image segmentation method. Therefore selecting an appropriate evaluation method to assess the accuracy and applicability of segmentation results to properly select the optimal segmentation methods and their indications on the direction of future improvement is necessary. In this work, 14 evaluation metrics of image segmentation were summarized and discussed. The metrics were divided into five categories: pixel, intra class coincidence, edge, clustering, and instance based. In the application of material microscopic image analysis, we collected two classical datasets (Al–La alloy and polycrystalline images) to conduct quantitative experiment. The performance of different segmentation methods and different typical noises in different evaluation metrics were then compared and discussed. Finally, we discussed the advantages and applicability of various evaluation metrics in the field of microscopic image processing. KEY WORDS computer vision；image segmentation；image processing；segmentation evaluation metrics；material microscopic image 计算机视觉是一门“教”会计算机如何去“看” 世界的科学，旨在使用计算机及相关设备对生物视觉进行模拟，进而代替眼睛对数字图像中的目标进行处理、识别、分析和理解[1] . 图像分割是从图像中提取感兴趣区域的方法，是计算机视觉的重要组成部分[2] . 在实际应用中，对图像分割结果的正确评估是分割方法完善的重要研究手段[3] . 在材料科学领域，随着材料信息学的发展，大量先进的信息学技术在材料领域获得应用，并展现出蓬勃的生机和快速发展的态势. 材料图像，特别是材料显微图像，是材料组织信息的重要载体. 使用图像分割等计算机视觉方法可提取材料图像中的组织信息，是高效建立材料成分–工艺–组织– 性能关系的重要环节. 本文在材料显微图像分析的应用背景下，重点综述了图像分割的评估方法，并讨论了不同评估方法的适用性. 1 图像分割的定义及其在材料显微图像分析中的应用图像分割是将图像分成若干个特定的、具有独特性质区域的技术[4] ，是计算机视觉的重要分支. 分割结果可进一步为图像识别和图像描述等图像理解相关任务提供信息支撑. 目前，随着多学科间的深入交叉和融合，科学工作者开始尝试将以图像分割为代表的计算机视觉技术运用到表面缺陷检测、金相组织分析、神经细胞拓扑分析等材料和生物医学领域[5−6] . 如图 1 所示为材料显微图像分割流程图，针对原始的材料显微图像，采用图像分割方法（Image segmentaOriginal image Image segmentation Prediction result Segmentation evaluation Target result (ground truth) Image segmentation methods Threshold based segmentation methods Gradient based segmentation methods Morphology based segmentation methods Graph based segmentation methods Region growing based segmentation methods Deep learning based segmentation methods Segmentation evaluation methods Pixel based evaluation methods Intra class coincidence based evaluation methods Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Microscopic images of al−la alloy Microscopic images of polycrystalline iron 图 1 材料显微图像分割流程示意 Fig.1 Flow chart of material microscopic image segmentation · 138 · 工程科学学报，第 43 卷，第 1 期

马博渊等：图像分割评估方法在显微图像分析中的应用 139· tion methods)提取图像中科研人员感兴趣的组织评估指标分为基于像素的评估方法、基于类内重合结构区域m,如图1中的白色区域对应的材料组织度的评估方法、基于边缘的评估方法、基于聚类 (枝晶和晶粒).通过定量分析材料内部的微观组的评估方法和基于实例的评估方法等五个类别织特征（如尺寸和形状分布等），可进一步解构材 2.1基于像素的评估方法料微观组织特征与材料成分、制备工艺、宏观性基于像素的评估方法主要包括像素准确率能之间的内禀关系⑧，进而辅助材料性能的优化和 (Pixel accuracy)和平均准确率(Mean accuracy)7 新材料的研发两个评估指标随着计算机硬件以及以深度学习©为代表的像素准确率统计了预测正确的像素占总像素机器学习技术的进步，多种基于不同理论的图像分的比例四，其定义为：割方法如雨后春笋般涌现，如图1中基于阈值的分割方法(Threshold based segmentation methods)u, 基于梯度的分割方法(Gradient based segmentation Pixelaccuracy (1) methods)2I、基于形态学的分割方法(Morphology based segmentation methods)l)、基于区域生长的分割 i=0j=0 方法(Region growing based segmentation methods)、在图像分割任务中，假定有+1个类别(“+1” 基于聚类的分割方法(Clustering based segmentation 指包括背景类)，通常使用P表示真值结果为类而 methods)I吲，基于图论的分割方法(Graph based 预测结果为类的像素点总数，同理，P表示真值 segmentation methods)l和基于深度学习的分割方结果和预测结果均为类的像素点总数，即预测正 Deep learning-based segmentation methods)7-1s 确的像素点数目等，上述方法被广泛应用于材料显微图像分析任平均准确率(Mean accuracy):是对像素准确率务92训为了进一步理解各种图像分割方法的适的改进，分别计算每个类内被正确分类像素数的用性以及改进分割质量，本文对不同方法的分割比例，进而对所有类求平均值.该方法可缓解当分结果进行了系统地评估.虽然人的视觉判断是最割任务中不同类别包含像素数目差异较大时，准直接的判断方法，但是人的主观不确定性会导致确率被包含像素数目较多的类别所主导的问题，算法评估难以量化.因此，采用自动的客观的评估其定义为：方法成为图像分割结果评估的主流方式.当前存在多种基于不同理论的图像分割客观评估方法 Mean accuracy (2) =0 (Segmentation evaluation methods),每种方法均从 Pij 特定的角度评估分割结果的优劣，可应用于不同 =0 目标的图像分割任务中 2.2基于类内重合度的评估方法本文综述了14种基于不同理论的图像分割客基于类内重合度的评估方法主要包括平均交观评估指标，将其分成五大类方法分别展开叙述并比(Mean intersection over union,MIoU)lm,频权 (图l):基于像素的评估方法(Pixel based evaluation 交并比(Frequency weighted intersection over union, methods)、基于类内重合度的评估方法(Intra class FWIoU)I和Dice系数(Dice score)I三个评估 coincidence based evaluation methods)、基于边界的指标评估方法(Edge based evaluation methods)、基于聚平均交并比MIoU在计算每个类的交并比的类的评估方法(Clustering based evaluation methods) 基础上求均值，可反映预测结果和真值结果的重和基于实例的评估方法(Instance based evaluation 合度.IoU(或称为Jacarrd index)的计算方式如 methods).并在材料显微图像分析应用中，选择两种图2(a)所示，其中P代表预测结果(Predicted 典型材料显微图像分割任务作为分析目标，对比 segmentation),T代表真值结果（也称目标结果，采用不同分割方法和不同典型噪声下各种评估指 Target truth),其思路是计算真值结果和预测结果标的性能，进而对不同评估方法的适用性展开讨论. 区域集合的交集和并集之比，即公式(3)所示 POTI 2图像分割评估方法 IoU= PUTI (3) 通过现有文献整理和研究，本文将图像分割具体地，采用上述描述方法，MoU可定义为：

tion methods）提取图像中科研人员感兴趣的组织结构区域[7] ，如图 1 中的白色区域对应的材料组织（枝晶和晶粒）. 通过定量分析材料内部的微观组织特征（如尺寸和形状分布等），可进一步解构材料微观组织特征与材料成分、制备工艺、宏观性能之间的内禀关系[8] ，进而辅助材料性能的优化和新材料的研发[9] . 随着计算机硬件以及以深度学习[10] 为代表的机器学习技术的进步，多种基于不同理论的图像分割方法如雨后春笋般涌现，如图 1 中基于阈值的分割方法（Threshold based segmentation methods） [11]、基于梯度的分割方法（Gradient based segmentation methods） [12]、基于形态学的分割方法（Morphology based segmentation methods） [13]、基于区域生长的分割方法（Region growing based segmentation methods） [14]、基于聚类的分割方法（Clustering based segmentation methods） [15] ，基于图论的分割方法（ Graph based segmentation methods） [16] 和基于深度学习的分割方法（ Deep learning-based segmentation methods） [17−18] 等，上述方法被广泛应用于材料显微图像分析任务[19−21] . 为了进一步理解各种图像分割方法的适用性以及改进分割质量，本文对不同方法的分割结果进行了系统地评估. 虽然人的视觉判断是最直接的判断方法，但是人的主观不确定性会导致算法评估难以量化. 因此，采用自动的客观的评估方法成为图像分割结果评估的主流方式. 当前存在多种基于不同理论的图像分割客观评估方法（Segmentation evaluation methods），每种方法均从特定的角度评估分割结果的优劣，可应用于不同目标的图像分割任务中. 本文综述了 14 种基于不同理论的图像分割客观评估指标，将其分成五大类方法分别展开叙述（图 1）：基于像素的评估方法（Pixel based evaluation methods）、基于类内重合度的评估方法（Intra class coincidence based evaluation methods）、基于边界的评估方法（Edge based evaluation methods）、基于聚类的评估方法（Clustering based evaluation methods）和基于实例的评估方法（ Instance based evaluation methods）. 并在材料显微图像分析应用中，选择两种典型材料显微图像分割任务作为分析目标，对比采用不同分割方法和不同典型噪声下各种评估指标的性能，进而对不同评估方法的适用性展开讨论. 2 图像分割评估方法通过现有文献整理和研究，本文将图像分割评估指标分为基于像素的评估方法、基于类内重合度的评估方法、基于边缘的评估方法、基于聚类的评估方法和基于实例的评估方法等五个类别. 2.1 基于像素的评估方法基于像素的评估方法主要包括像素准确率（Pixel accuracy）和平均准确率（Mean accuracy） [17] 两个评估指标. 像素准确率统计了预测正确的像素占总像素的比例[22] ，其定义为： Pixelaccuracy = ∑ k i=0 pii ∑ k i=0 ∑ k j=0 pi j （1） pi j i j pii i 在图像分割任务中，假定有 k+1 个类别（“+1” 指包括背景类），通常使用表示真值结果为类而预测结果为类的像素点总数，同理，表示真值结果和预测结果均为类的像素点总数，即预测正确的像素点数目. 平均准确率（Mean accuracy）：是对像素准确率的改进，分别计算每个类内被正确分类像素数的比例，进而对所有类求平均值. 该方法可缓解当分割任务中不同类别包含像素数目差异较大时，准确率被包含像素数目较多的类别所主导的问题，其定义为： Mean accuracy = 1 k+1 ∑ k i=0 pii ∑ k j=0 pi j （2） 2.2 基于类内重合度的评估方法基于类内重合度的评估方法主要包括平均交并比（Mean intersection over union, MIoU） [17] ，频权交并比（ Frequency weighted intersection over union, FWIoU） [17] 和 Dice 系数（ Dice score） [23] 三个评估指标. 平均交并比 MIoU 在计算每个类的交并比的基础上求均值，可反映预测结果和真值结果的重合度 . IoU（或称为 Jacarrd index）的计算方式如图 2（ a）所示，其中 P 代表预测结果（ Predicted segmentation）， T 代表真值结果（也称目标结果， Target truth），其思路是计算真值结果和预测结果区域集合的交集和并集之比，即公式（3）所示. IoU = |P∩T| |P∪T| （3）具体地，采用上述描述方法，MIoU 可定义为[17] ：马博渊等：图像分割评估方法在显微图像分析中的应用 · 139 ·

140 工程科学学报，第43卷，第1期 (a) P (b) 距离来反映边缘检测效果 H(T) H(P) 基于边界的评估方法主要包括FoM(Figure of POT merit)2、Completenesst2、Correctness2和Quality] T H(P/DKTIP) H(TIP) 4个评估指标 loU= FoM(Figure of merit)计算公式为： 1 FoM= 51 (7) PUT maxT,lPD台d VI(P,T) 其中，通过人工检视标注得到的真值边缘像素点 Note:VI(P,T)means variation of information;/(T.P)denotes mutual 个数为T:通过检测算法检测的边缘像素点个数 information;H(P/T)and H(T/P)denote conditional entropy. 为P所：检测算法得到的第个边缘像素点和离它最图2评估指标示意图.(a)IoU指标示意图：(b)V1指标示意图近的真值边缘像素点间的欧氏距离为d:常量系数 Fig.2 Schematics of evaluation metrics:(a)IoU metric diagram;(b)VI 一般为0.1，表示错位边缘惩罚项.FoM值越大表 metric diagram 明检测出的边缘越靠近人工标注的真值边缘，即 MIoU (4) 该边缘检测算法的检测精度越高. Completeness、Correctness和Quality评估方法 Pii-Pi 0 i=0 在基于欧氏距离的基础上重新定义了匹配的概其中，P表示真值结果为类j而预测结果为类的像念.其匹配的计算公式为：素点总数 B(A)={a∈A3b∈B,da,b)< (8) 频权交并比FWIoU是对原始的MIoU的改进，设两个像素集合A和B,其中a和b分别为两个即根据每一类出现的频率对各个类的1oU进行加集合中的两个元素，d(a,b)表示两个元素之间的欧权求和，定义为：氏距离.B(A)指集合A中满足与距集合B某一元素的距离小于阈值的元素的子集.根据上述定义，分别计算预测边缘像素集合P和真值边缘像素集 =0 FWIoU= (5) 合T的T(P)和p(T),T(P)代表预测结果中与真值 P时+ Pii-Pi 结果相匹配的元素的子集，仰(T)代表真值结果中 =0=0 j=0 与预测结果相匹配的元素的子集.如图3所示 Dice系数(Dice score)是图像分割结果衡量的 (a) B(P) (b) 4(T) 常用指标，其计算公式为： -P 2POTI Dice= (6) IPI+ITI 其中，PnT代表预测结果P和真值结果T之间的重 Pred boundary -Target boundary 合像素数量，P表示预测结果P中的像素数量，同图3边缘检测匹配示意图.()令预测边界与真值边界进行匹配：理T表示真值结果T中的像素数量，通常P、T集合 (b)令真值边界与预测边界进行匹配仅统计前景区域的像素.Dice score实质上是两个 Fig.3 Matching schematics of edge detection:(a)matching ground truth with prediction skeleton;(b)matching prediction with ground truth 样本间的重叠度量(0~1)，其中该指标为1代表 skeleton 完全重叠，表示预测结果较好.Dice score相比于在此基础上，Completeness的计算公式为： IoU的区别在于分子和分母间均增加PnT的数目 2.3基于边界的评估方法 Completeness=(P (9) IPI 边界检测也称边缘检测，是指将图像分成边其中，P为预测边缘像素集合P中的边缘像素个缘区域和非边缘区域.由于在边缘检测任务中，边数.同理，uT(P,up(T)和T份别代表各自集合中缘区域往往仅占据少量像素区域，并且绘制真值的边缘像素个数边缘时容易产生误差，致使预测边缘和真实边缘 Correctness的计算公式为：在像素上通常无法一一对应，因此该类评估方法主要通过计算预测边缘像素和真实边缘像素间的 Correctness=(T) (10) ITI

MIoU = 1 k+1 ∑ k i=0 pii ∑ k j=0 pi j + ∑ k j=0 pji − pii （4） pji 其中，表示真值结果为类 j 而预测结果为类 i 的像素点总数. 频权交并比 FWIoU 是对原始的 MIoU 的改进，即根据每一类出现的频率对各个类的 IoU 进行加权求和，定义为[17] ： FWIoU = 1 ∑ k i=0 ∑ k j=0 pi j ∑ k i=0 ∑ k j=0 pi j pii ∑ k j=0 pi j + ∑ k j=0 pji − pii （5） Dice 系数（Dice score）是图像分割结果衡量的常用指标，其计算公式为[23] : Dice = 2|P∩T| |P|+|T| （6） |P∩T| P T |P| P |T| T P T |P∩T| 其中，代表预测结果和真值结果之间的重合像素数量，表示预测结果中的像素数量，同理表示真值结果中的像素数量，通常、集合仅统计前景区域的像素. Dice score 实质上是两个样本间的重叠度量（0～1），其中该指标为 1 代表完全重叠，表示预测结果较好. Dice score 相比于 IoU 的区别在于分子和分母间均增加的数目. 2.3 基于边界的评估方法边界检测也称边缘检测，是指将图像分成边缘区域和非边缘区域. 由于在边缘检测任务中，边缘区域往往仅占据少量像素区域，并且绘制真值边缘时容易产生误差，致使预测边缘和真实边缘在像素上通常无法一一对应，因此该类评估方法主要通过计算预测边缘像素和真实边缘像素间的距离来反映边缘检测效果. 基于边界的评估方法主要包括 FoM（Figure of merit） [24]、Completeness[25]、Correctness[25] 和Quality[25] 4 个评估指标. FoM（Figure of merit）计算公式为： FoM = 1 max(|T|,|P|) ∑ |P| i=1 1 ξd 2 i （7） |T| |P| i di ξ 其中，通过人工检视标注得到的真值边缘像素点个数为；通过检测算法检测的边缘像素点个数为；检测算法得到的第个边缘像素点和离它最近的真值边缘像素点间的欧氏距离为；常量系数一般为 0.1，表示错位边缘惩罚项. FoM 值越大表明检测出的边缘越靠近人工标注的真值边缘, 即该边缘检测算法的检测精度越高. Completeness、Correctness 和 Quality 评估方法在基于欧氏距离的基础上重新定义了匹配的概念. 其匹配的计算公式为： µB(A) = {a ∈ A|∃b ∈ B,d(a,b) < θ} （8） A B a b d(a,b) µB(A) A B θ P T µT(P) µP(T) µT(P) µP(T) 设两个像素集合和，其中和分别为两个集合中的两个元素，表示两个元素之间的欧氏距离. 指集合中满足与距集合某一元素的距离小于阈值的元素的子集. 根据上述定义，分别计算预测边缘像素集合和真值边缘像素集合的和，代表预测结果中与真值结果相匹配的元素的子集，代表真值结果中与预测结果相匹配的元素的子集. 如图 3 所示. μT (a) (P) P T θ Pred boundary μP (T) (b) P T θ Target boundary 图 3 边缘检测匹配示意图. （a）令预测边界与真值边界进行匹配；（b）令真值边界与预测边界进行匹配 Fig.3 Matching schematics of edge detection：(a) matching ground truth with prediction skeleton; (b) matching prediction with ground truth skeleton 在此基础上，Completeness 的计算公式为： Completeness = |µT(P)| |P| （9） |P| P |µT(P)| |µP(T)| |T| 其中，为预测边缘像素集合中的边缘像素个数. 同理，，和分别代表各自集合中的边缘像素个数. Correctness 的计算公式为： Correctness = |µP(T)| |T| （10） (a) P P∩T P ∩ T T IoU= (b) H(P) H(P/T) I(T/P) H(T/P) H(T) VI(P, T) Note: VI(P,T) means variation of information; I(T,P) denotes mutual information; H(P/T) and H(T/P) denote conditional entropy. 图 2 评估指标示意图. （a）IoU 指标示意图；（b）VI 指标示意图 Fig.2 Schematics of evaluation metrics: (a) IoU metric diagram; (b) VI metric diagram · 140 · 工程科学学报，第 43 卷，第 1 期

马博渊等：图像分割评估方法在显微图像分析中的应用 141 Quality的计算公式为：表1基于聚类任务的列联表 Quality lT(P) Table 1 Contingency table (11) IPI-lp(T)+ITI Union Pi P Ps Sums 2.4基于聚类的评估方法 T n11 n12 a 图像分割可以看作是一种聚类任务，将图像 T2 121 122 12e 2 中的所有像素分割成n个分区或段，通过对比真值图和预测图中的分区结果可对图像分割任务进 T. nr2 nrs 行评估.在基于聚类的评估方法中类的定义和图 Sums b 像类别中类的定义不同，聚类中每个类具体指图 ARI= 像中得到每个分区，在图像分割任务中，某个图像类别可以有多个分区 22(空)2()2（水）基于聚类的评估方法主要包括：兰德系数 (Rand index,RI)6-27、调整兰德系数(Adjusted rand 2 index,.ARI)2和信息变化量(Variation of information, 2()+92(9) VI)23个评估指标 (13) 给定一个含有n个元素的集合S的两种划分， ARI的取值范围为-1,1)，值越大，代表预测结 S划分为r个子集：T={T1,T2,…,T,和S划分为s个果中的分区结果更接近与真值结果中的分区结果子集：P={P1,P2,,P.在图像分割任务中，S代 VI公式如(14)所示，将预测结果P和真值结表像素集合，T代表真值分割结果，P代表预测分割果T看成两种数据分布，利用信息嫡计算两者之结果.通常，采用联通区域方法(Connected compo- 间的分布变化.核心是计算预测和真实标注图之 nent)分别将T和P划分成不同的分区（子集）间的条件嫡，如图2(b)所示进一步，定义： VI(P.T)=H(PIT)+H(TIP) (14) a为S集合中在T中属于同一子集，在P中也属其中，H(PIT)代表过分割错误，过分割即错误地将于同一子集的元素对数；b为S集合中在T中属于不一个区域分割成两个区域，也被称为拆分错误同子集，在P中也属于不同子集的元素对数；c为 (Split error,.SE).H(TP)代表欠分割错误，即将两 S集合中在T中属于同一子集，但在P中属于不同个区域错误地合并成一个区域，也被称为合并错子集的元素对数；d为S集合中在T中属于不同子误(Merge error,.ME).VI代表总错误指标，为集，但在P中属于同一子集的元素对数： ME和$E的和，值越小，代表分割结果中存在的错则RI定义为：误越少，即分割结果越准确.并且，随着误差的变 a+b a+b a+b 化，VI呈现线性变化，而R呈现二次方的变化，因 RI= (12) a+b+c+d n n(n-1)/2 此，VⅥ1更适用于作为距离指标反映误差的变化0] 2 2.5基于实例的评估方法直观地，a+b可被认为是T和P之间一致的元基于实例的评估方法主要包括平均均值精确素对个数，c+d可被认为是T和P之间不一致的元率(Mean average precision,MAP)BI-划和基数差素对个数 (Cardinality difference,CD)B两个评估指标虽然RI的取值范围为[O,1],但该指标不能保 MAP是图像分割和物体检测任务中的经典评证在类别标签是随机分配的情况下其值接近0.由估指标，与基于聚类的评估方法类似，该方法首先于RI基于像素点对数目进行评估，而在材料显微使用联通区域方法分别将真值分割结果和预测分图像分割应用中，大多数像素点对不相连，即公式割结果分成多个分区，进而在每个预测分区上逐 (12)中的b非常高，导致不同分割方法的评估结果个与所有的真值分割结果的分区计算IoU,IoU的均接近1，造成区分度较低.因此，ARI在RI的基阈值范围从0.5到0.95，步长为0.05，即在阈值t为础上进行了修正，令=T:nP来表示T与P之间 (0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95) 交集的元素，基于聚类任务的列联表如表1所示情形下分别统计匹配的数目.在MAP计算过程其计算公式如式(13)所示. 中，匹配指某一预测结果中的分区与真值结果中

Quality 的计算公式为： Quality = |µT(P)| |P|−|µP(T)|+|T| （11） 2.4 基于聚类的评估方法图像分割可以看作是一种聚类任务，将图像中的所有像素分割成 n 个分区或段，通过对比真值图和预测图中的分区结果可对图像分割任务进行评估. 在基于聚类的评估方法中类的定义和图像类别中类的定义不同，聚类中每个类具体指图像中得到每个分区，在图像分割任务中，某个图像类别可以有多个分区. 基于聚类的评估方法主要包括：兰德系数（Rand index, RI） [26−27]、调整兰德系数（Adjusted rand index，ARI） [28] 和信息变化量（Variation of information, VI） [29] 3 个评估指标. n S S r T = {T1,T2,··· ,Tr} S s P = {P1,P2,··· ,Ps} S T P T P 给定一个含有个元素的集合的两种划分，划分为个子集：和划分为个子集： . 在图像分割任务中，代表像素集合，代表真值分割结果，代表预测分割结果. 通常，采用联通区域方法（Connected component）分别将和划分成不同的分区（子集）. 进一步，定义： a S T P b S T P c S T P d S T P 为集合中在中属于同一子集，在中也属于同一子集的元素对数；为集合中在中属于不同子集，在中也属于不同子集的元素对数；为集合中在中属于同一子集，但在中属于不同子集的元素对数；为集合中在中属于不同子集，但在中属于同一子集的元素对数；则 RI 定义为： RI = a+b a+b+c+d = a+b ( n 2 ) = a+b n(n−1)/2 （12） a+b c+d 直观地，可被认为是 T 和 P 之间一致的元素对个数，可被认为是 T 和 P 之间不一致的元素对个数. b ni j = Ti ∩ Pj Ti Pj 虽然 RI 的取值范围为 [0,1]，但该指标不能保证在类别标签是随机分配的情况下其值接近 0. 由于 RI 基于像素点对数目进行评估，而在材料显微图像分割应用中，大多数像素点对不相连，即公式（12）中的非常高，导致不同分割方法的评估结果均接近 1，造成区分度较低. 因此，ARI 在 RI 的基础上进行了修正，令来表示与之间交集的元素，基于聚类任务的列联表如表 1 所示. 其计算公式如式（13）所示. ARI = ∑r i=1 ∑s j=1 ( ni j 2 ) −   ∑r i=1 ( ai 2 )∑s j=1 ( bj 2 )   / ( n 2 ) 1 2   ∑r i=1 ( ai 2 ) + ∑s j=1 ( bj 2 )   −   ∑r i=1 ( ai 2 )∑s j=1 ( bj 2 )   / ( n 2 ) （13） ARI 的取值范围为 [−1,1]，值越大，代表预测结果中的分区结果更接近与真值结果中的分区结果. VI 公式如（14）所示，将预测结果 P 和真值结果 T 看成两种数据分布，利用信息熵计算两者之间的分布变化. 核心是计算预测和真实标注图之间的条件熵，如图 2（b）所示. VI(P,T) = H (P|T)+ H (T|P) （14） H (P|T) H (T|P) 其中，代表过分割错误，过分割即错误地将一个区域分割成两个区域，也被称为拆分错误（Split error，SE）. 代表欠分割错误，即将两个区域错误地合并成一个区域，也被称为合并错误（ Merge error， ME） . VI 代表总错误指标，为 ME 和 SE 的和，值越小，代表分割结果中存在的错误越少，即分割结果越准确. 并且，随着误差的变化，VI 呈现线性变化，而 RI 呈现二次方的变化，因此，VI 更适用于作为距离指标反映误差的变化[30] . 2.5 基于实例的评估方法基于实例的评估方法主要包括平均均值精确率（ Mean average precision， MAP） [31−32] 和基数差（Cardinality difference，CD） [33] 两个评估指标. t MAP 是图像分割和物体检测任务中的经典评估指标，与基于聚类的评估方法类似，该方法首先使用联通区域方法分别将真值分割结果和预测分割结果分成多个分区，进而在每个预测分区上逐个与所有的真值分割结果的分区计算 IoU，IoU 的阈值范围从 0.5 到 0.95，步长为 0.05，即在阈值为（0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95）情形下分别统计匹配的数目. 在 MAP 计算过程中，匹配指某一预测结果中的分区与真值结果中表 1 基于聚类任务的列联表 Table 1 Contingency table Union P1 P2 … Ps Sums T1 n11 n12 … n1s a1 T2 n21 n22 … n2s a2 … … … … … … Tr nr1 nr2 … nrs ar Sums b1 b2 … bs 马博渊等：图像分割评估方法在显微图像分析中的应用 · 141 ·

142 工程科学学报，第43卷，第1期的分区的IoU大于特定的阈值.其中True positive 1 TP(t) MAP= (15) (TP)表示真实和预测结果中正确匹配的分区对数 nx TP(t)+FP(t)+FN(t) 量，False positive(FP)表示预测分割结果中未正确 CD是Waggoner等引入的一种比较分割结果匹配的分区数量，False negative(FN)表示真值分割中分区个数的评估指标其定义为：结果中未正确匹配的分区数量 CD=NumT-NumP (16) 在每个阈值1上，根据预测分割的分区结果与式中，NumT代表真实结果中的实例个数，NumP代真值分割的分区结果比较产生的TP、FN、和表预测结果中的实例个数，如果CD是正数，表示欠 FP的数量计算出一个精度值，并除以阈值个数获分割，如果CD是负数，表示过分割得均值精确率.在此基础上，对所有图像计算各综上，各评估指标的简要信息如表2所示，其自均值精确率再求平均，获得最终平均均值精确中↑代表值越大性能越高，代表值越低性能越高，率，公式如下所示： N代表图像中像素个数表2各指标的简要概括 Table 2 Brief description of different evaluation methods Pixel based evaluation methods Intra class coincidence based Edge based evaluation methods Properties evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score Figure of merit Completeness Correctness Value range [0,1] [0,1] [0,1 0 [0,1] [0,1] 0,1] [0,1] tendency 产 ↑ ↑ ↑ ↑ ↑ Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Properties VI Quality RI ARI CD MAP ME SE 乡 Value range 0.1] 0,1]-1,1] [0,log2] [0,log2N] [0,log2N] (-n,tD） [0,1] tendency ↑ ↑ ↑ Closer to 0,the better 3 图像分割评估方法对比实验晶图像的前景组织区域像素个数与背景区域的像素个数相当，属于类别平衡的图像分割任务.在实本章以两种典型材料显微图像分割任务为应践过程中，类别不平衡的图像分割任务更加困难用背景，定量地衡量图像分割评估方法在不同分割算法和不同噪声下的性能.本文所有代码及示表3材料显微图像数据集参数例图像可开源获取，详见如下网址：https://github.com/ Table 3 Description of two material micrographic image datasets Keep-Passion/ImageSegMetrics. D Microstructure Image size Image number 3.1不同图像分割算法下的评估结果 Polycrystalline iron 1024×1024 296 为了降低图像分割算法对评估方法的影响， 2 Al-La alloy 1024×1024 50 本文选择了6种最为经典的图像分割算法进行比较：基于阈值的图像分割算法OTSU山，基于梯度由于本文选择基于深度学习的图像分割模型的边缘提取算法Cannyl34,基于形态学的图像分 Unet作为不同评估指标的基线模型，而Unet需要割算法Watershed!,基于聚类的图像分割方法K- 样本训练模型才可进一步使用.因此将数据集按 meanst36,基于图论的图像分割算法Random Walker7 照7：1：2的方式划分为训练集、验证集和测试和基于深度学习的图像分割算法Unetls 集.为保证实验的公平性，所有图像分割算法均在本文选择多晶纯铁(Polycrystalline iron)晶粒测试集上进行评估.对于Unet模型，模型在训练组织图像和铝镧合金(Al-La alloy)枝晶组织图像集上训练，并在每轮迭代中使用验证集验证，选择作为目标数据集，数据集参数如表3所示.两数据验证集损失最低的网络参数在测试集上进行评集示例如图1所示，其中多晶纯铁晶粒的前景品估.其中，Unet网络训练参数为：Batch size为l0. 粒区域像素个数远高于背景边界区域的像素个初始学习率为1×10，在Adam优化器下训练50轮数，属于类别不平衡的图像分割任务，铝镧合金枝所有实验均在装备一台Nvidia Tesla V100显卡的

的分区的 IoU 大于特定的阈值. 其中 True positive （TP）表示真实和预测结果中正确匹配的分区对数量，False positive(FP) 表示预测分割结果中未正确匹配的分区数量，False negative（FN）表示真值分割结果中未正确匹配的分区数量. t n 在每个阈值上，根据预测分割的分区结果与真值分割的分区结果比较产生的 TP、 FN、和 FP 的数量计算出一个精度值，并除以阈值个数获得均值精确率. 在此基础上，对所有图像计算各自均值精确率再求平均，获得最终平均均值精确率，公式如下所示： MAP = 1 n×|t| ∑ t TP(t) TP(t)+FP(t)+FN(t) （15） CD 是 Waggoner 等引入的一种比较分割结果中分区个数的评估指标[33] ，其定义为： CD = NumT−NumP （16） NumT NumP CD CD 式中，代表真实结果中的实例个数，代表预测结果中的实例个数，如果是正数，表示欠分割，如果是负数，表示过分割. ↑ ↓ N 综上，各评估指标的简要信息如表 2 所示，其中代表值越大性能越高，代表值越低性能越高，代表图像中像素个数. 表 2 各指标的简要概括 Table 2 Brief description of different evaluation methods Properties Pixel based evaluation methods Intra class coincidence based evaluation methods Edge based evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score Figure of merit Completeness Correctness Value range [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] [0, 1] tendency ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ 3 图像分割评估方法对比实验本章以两种典型材料显微图像分割任务为应用背景，定量地衡量图像分割评估方法在不同分割算法和不同噪声下的性能. 本文所有代码及示例图像可开源获取，详见如下网址：https://github.com/ Keep-Passion/ImageSegMetrics. 3.1 不同图像分割算法下的评估结果为了降低图像分割算法对评估方法的影响，本文选择了 6 种最为经典的图像分割算法进行比较：基于阈值的图像分割算法 OTSU[11] ，基于梯度的边缘提取算法 Canny[34] ，基于形态学的图像分割算法 Watershed[35] ，基于聚类的图像分割方法 K– means[36] ，基于图论的图像分割算法 Random Walker[37] 和基于深度学习的图像分割算法 Unet[18] . 本文选择多晶纯铁（Polycrystalline iron）晶粒组织图像和铝镧合金 (Al–La alloy) 枝晶组织图像作为目标数据集，数据集参数如表 3 所示. 两数据集示例如图 1 所示，其中多晶纯铁晶粒的前景晶粒区域像素个数远高于背景边界区域的像素个数，属于类别不平衡的图像分割任务. 铝镧合金枝晶图像的前景组织区域像素个数与背景区域的像素个数相当，属于类别平衡的图像分割任务. 在实践过程中，类别不平衡的图像分割任务更加困难. 表 3 材料显微图像数据集参数 Table 3 Description of two material micrographic image datasets ID Microstructure Image size Image number 1 Polycrystalline iron 1024×1024 296 2 Al–La alloy 1024×1024 50 由于本文选择基于深度学习的图像分割模型 Unet 作为不同评估指标的基线模型，而 Unet 需要样本训练模型才可进一步使用. 因此将数据集按照 7∶1∶2 的方式划分为训练集、验证集和测试集. 为保证实验的公平性，所有图像分割算法均在测试集上进行评估. 对于 Unet 模型，模型在训练集上训练，并在每轮迭代中使用验证集验证，选择验证集损失最低的网络参数在测试集上进行评估. 其中，Unet 网络训练参数为：Batch size 为 10，初始学习率为 1×10−4 ，在 Adam 优化器下训练 50 轮. 所有实验均在装备一台 Nvidia Tesla V100 显卡的 Properties Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Quality RI ARI VI CD MAP ME SE VI Value range [0, 1] [0, 1] [−1, 1] [0, log2N] [0, log2N] [0, log2N] (−∞,+∞) [0, 1] tendency ↑ ↑ ↑ ↓ ↓ ↓ Closer to 0, the better ↑ · 142 · 工程科学学报，第 43 卷，第 1 期

马博渊等：图像分割评估方法在显微图像分析中的应用 143 工作站上测试行所示.铝镧合金枝晶组织图像在不同分割算法多晶纯铁品粒组织图像在不同分割算法下的下的各评估结果如表5所示，其可视化示例如图4 各评估结果如表4所示，其可视化示例如图4上两下两行所示表4多品纯铁品粒组织图像不同分制算法下评估结果 Table 4 Evaluation results under different segmentation algorithms for polycrystalline iron image Pixel based evaluation methods Intra class coincidence based Edge based evaluation methods Segmentation algorithm evaluation methods Pixel accuracy Mean accuracy MloU FWIoU Dice score Figure of merit Completeness Correctness OTSU 0.9443 0.7800 0.7226 0.8979 0.9696 0.6593 0.8298 0.9146 Canny 0.9145 0.6364 0.5811 0.8468 0.9540 0.4085 0.7007 0.9156 Watershed 0.9017 0.5613 0.5109 0.8236 0.9476 0.2009 0.4516 0.6537 K-means 0.5739 0.5469 0.4331 0.5307 0.5771 0.4906 0.8598 0.5796 Random walker 0.9447 0.7925 0.7293 0.8994 0.9697 0.6963 0.8445 0.9059 Unet 0.9311 0.9423 0.7510 0.8898 0.9605 0.8933 0.9784 0.8562 Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Segmentation algorithm VI Quality RI ARI CD MAP ME SE VI OTSU 0.7361 0.7187 0.0582 4.3330 0.0218 4.3548 178.8333 0.1593 Canny 0.5482 0.1356 -0.0053 7.2893 0.0084 7.2978 199.0000 0.0333 Watershed 0.2164 0.9444 0.1552 1.7498 0.3439 2.0937 29.5667 0.1592 K-means 0.4751 0.4687 0.0273 3.8777 0.5202 4.3979 -234.8333 0.0932 Random walker 0.7477 0.7651 0.1087 3.8414 0.0262 3.8676 164.1667 0.1789 Unet 0.8450 0.9819 0.5917 0.0504 0.0722 0.1226 -33.1333 0.5465 由于多晶纯铁晶粒组织图像分割任务的目标于目标为统计物相组成比例等的表征任务，但不是提取并分离每个晶粒，因此，该任务可被解读为适用于需要分析单个组织特征的尺寸或形状统计晶粒分割或晶界提取两种不同的描述.因此，对于等的表征任务后者，可采用基于边界的评估方法对晶界提取的基于边界的评估方法仅适用于基于边缘提取准确性进行评估的图像分割任务，其泛用性较低.同时晶界提取的由于基于深度学习的机器学习算法可在训练目标在于分离每个晶粒，基于边界的评估方法并过程中自动学习到数据中适用于目标任务的强有未考虑晶界不闭合的情况.因此，本文认为在材料效特征，因此其分割性能远高于传统图像处理方显微图像分析应用中，基于边界的评估方法可适法.由图4直观比较，基于深度学习的图像分割模用于缺陷（如裂纹）检测阿，但不适用组织结构定型Unet在两种数据集上的可视化效果均显著超过量表征任务了其余经典算法.但在多晶纯铁晶粒组织图像的基于聚类和基于实例的评估方法由于在执行客观评估中（表4），Unet和传统方法（除Unet外的过程中需要先使用联通区域方法对分割结果进行其他方法)在基于像素和基于类内重合度的评估分区操作，考虑了显微组织结构的拓扑特性，因此方法的数值指标上相差较小.在铝镧合金枝晶组本文认为这两类方法更适用于材料显微图像分析织图像的客观评估中（表5），传统方法和Unet在任务中统计尺寸和形状分布等微观组织定量表征基于像素的评估方法的数值指标上相差较小.基的目标. 于像素的评估方法逐像素地比较预测分割结果和在基于聚类的评估方法中，I被证明在最差真值分割结果的区别，而基于类内重合度的评估情况下也难以达到最低值，造成各方法间差距过方法逐类别的比较两者之前的差异，均未考虑材小，如多晶纯铁晶粒图像分割结果（表4）中的料显微组织的拓扑特性，因此，本文认为在材料显 Watershed(RI=0.9444)Unet(RI=0.9819).ARI 微图像分析及定量表征应用中，该评估方法适用对I指标的改进，各方法间该指标的差距较大

工作站上测试. 多晶纯铁晶粒组织图像在不同分割算法下的各评估结果如表 4 所示，其可视化示例如图 4 上两行所示. 铝镧合金枝晶组织图像在不同分割算法下的各评估结果如表 5 所示，其可视化示例如图 4 下两行所示. 表 4 多晶纯铁晶粒组织图像不同分割算法下评估结果 Table 4 Evaluation results under different segmentation algorithms for polycrystalline iron image Segmentation algorithm Pixel based evaluation methods Intra class coincidence based evaluation methods Edge based evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score Figure of merit Completeness Correctness OTSU 0.9443 0.7800 0.7226 0.8979 0.9696 0.6593 0.8298 0.9146 Canny 0.9145 0.6364 0.5811 0.8468 0.9540 0.4085 0.7007 0.9156 Watershed 0.9017 0.5613 0.5109 0.8236 0.9476 0.2009 0.4516 0.6537 K−means 0.5739 0.5469 0.4331 0.5307 0.5771 0.4906 0.8598 0.5796 Random walker 0.9447 0.7925 0.7293 0.8994 0.9697 0.6963 0.8445 0.9059 Unet 0.9311 0.9423 0.7510 0.8898 0.9605 0.8933 0.9784 0.8562 由于多晶纯铁晶粒组织图像分割任务的目标是提取并分离每个晶粒，因此，该任务可被解读为晶粒分割或晶界提取两种不同的描述. 因此，对于后者，可采用基于边界的评估方法对晶界提取的准确性进行评估. 由于基于深度学习的机器学习算法可在训练过程中自动学习到数据中适用于目标任务的强有效特征，因此其分割性能远高于传统图像处理方法. 由图 4 直观比较，基于深度学习的图像分割模型 Unet 在两种数据集上的可视化效果均显著超过了其余经典算法. 但在多晶纯铁晶粒组织图像的客观评估中（表 4），Unet 和传统方法（除 Unet 外的其他方法）在基于像素和基于类内重合度的评估方法的数值指标上相差较小. 在铝镧合金枝晶组织图像的客观评估中（表 5），传统方法和 Unet 在基于像素的评估方法的数值指标上相差较小. 基于像素的评估方法逐像素地比较预测分割结果和真值分割结果的区别，而基于类内重合度的评估方法逐类别的比较两者之前的差异，均未考虑材料显微组织的拓扑特性，因此，本文认为在材料显微图像分析及定量表征应用中，该评估方法适用于目标为统计物相组成比例等的表征任务，但不适用于需要分析单个组织特征的尺寸或形状统计等的表征任务. 基于边界的评估方法仅适用于基于边缘提取的图像分割任务，其泛用性较低. 同时晶界提取的目标在于分离每个晶粒，基于边界的评估方法并未考虑晶界不闭合的情况. 因此，本文认为在材料显微图像分析应用中，基于边界的评估方法可适用于缺陷（如裂纹）检测[25] ，但不适用组织结构定量表征任务. 基于聚类和基于实例的评估方法由于在执行过程中需要先使用联通区域方法对分割结果进行分区操作，考虑了显微组织结构的拓扑特性，因此本文认为这两类方法更适用于材料显微图像分析任务中统计尺寸和形状分布等微观组织定量表征的目标. 在基于聚类的评估方法中，RI 被证明在最差情况下也难以达到最低值，造成各方法间差距过小，如多晶纯铁晶粒图像分割结果（表 4）中的 Watershed(RI=0.9444) 和 Unet(RI=0.9819). ARI 是对 RI 指标的改进，各方法间该指标的差距较大. Segmentation algorithm Edge based evaluation methods Clustering based evaluation methods Instance based evaluation methods Quality RI ARI VI CD MAP ME SE VI OTSU 0.7361 0.7187 0.0582 4.3330 0.0218 4.3548 178.8333 0.1593 Canny 0.5482 0.1356 −0.0053 7.2893 0.0084 7.2978 199.0000 0.0333 Watershed 0.2164 0.9444 0.1552 1.7498 0.3439 2.0937 29.5667 0.1592 K−means 0.4751 0.4687 0.0273 3.8777 0.5202 4.3979 −234.8333 0.0932 Random walker 0.7477 0.7651 0.1087 3.8414 0.0262 3.8676 164.1667 0.1789 Unet 0.8450 0.9819 0.5917 0.0504 0.0722 0.1226 −33.1333 0.5465 马博渊等：图像分割评估方法在显微图像分析中的应用 · 143 ·

马博渊等：图像分割评估方法在显微图像分析中的应用 145. 表5铝獬合金枝品组织图像不同分割算法下评估结果 Table 5 Evaluation of different segmentation results for Al-La microscopic image Pixel based evaluation methods Intra class coincidence based evaluation methods Clustering based evaluation methods Segmentation algorithm Pixel accuracy Mean accuracy MloU FWIoU Dice score 色 OTSU 0.6263 0.7025 0.4538 0.4441 0.6573 0.6981 Canny 0.5259 0.6126 0.3497 0.3315 0.5890 0.4780 Watershed 0.4199 0.5426 0.2373 0.1974 0.5557 0.5902 K-means 0.5078 0.5098 0.3287 0.3482 0.3434 0.5210 Random walker 0.5110 0.4027 0.2559 0.3249 0.0024 0.3552 Unet 0.9850 0.9854 0.9684 0.9706 0.9796 0.9810 Clustering based evaluation methods Instance based evaluation methods Segmentation algorithm I ARI CD MAP ME SE VI OTSU 0.3000 0.3075 0.0135 0.3210 -1680.9000 0.2170 Canny -0.0237 6.0105 0.0054 6.0158 -1467.1000 0.0459 Watershed 0.0022 0.5689 0.2377 0.8066 -1014.4000 0.0131 K-means 0.0064 0.8567 0.2247 1.0814 -2216.2000 0.1102 Random walker -0.1720 0.0000 2.2680 2.2680 -10918.3000 0.0000 Unet 0.9604 0.0191 0.0182 0.0373 -10.7000 0.8453 (1)随机斑点噪声(Random noises):在制备过 (2)划痕噪声(Scratch noises):如前所述，在制程中，需要在材料表面涂抹锈蚀剂，才可在抛光过备过程中，需要对材料表面进行研磨.该制备方法程中磨掉材料表面区域，进而获得材料的微观形不可避免地将在显微组织表面留下划痕噪声.划貌.若采用系列截面法逐层观察材料组织形貌，则痕噪声通常为黑色直线.由于其与多晶纯铁晶粒需要频繁的使用锈蚀剂，在抛光过程中，锈蚀剂不图像中晶界区域在像素值上相似，容易被误认为是可避免地残留在微观组织表面，形成随机斑点噪晶界从而影响分割结果，如图5中红色箭头所示声，如图5中黑色箭头所示 (3)边界模糊或消失现象(Blurred or missing boun- a (b) (d) (e) () 图5两种图像数据引入不同种类噪声的结果.(a)多品纯铁品粒图像：(b)图(a)的真值结果：(c)在(b)中随机引入500像素的噪声点：(d)在(b)中引入500像素的划痕噪声：(e)在(b)中引入500像素的消失品界噪声：(f)铝镧合金枝品图像：(g)图(f)的真值结果：(h)在(g)中随机引入500像素的噪声点：(i)在(g)中引入500像素的划痕噪声 Fig.5 Two microscopic images with different noises:(a)polycrystalline iron;(b)ground truth of (a);(c)random noises with 500 pixels in(b);(d)scratch noises with 500 pixels in (b);(e)missing boundaries with 500 pixels in (b);(f)Al la alloy;(g)ground truth of (f);(h)random noises with 500 pixels in (g); (i)scratch noises with 500 pixels in (g)

（1）随机斑点噪声（Random noises）：在制备过程中，需要在材料表面涂抹锈蚀剂，才可在抛光过程中磨掉材料表面区域，进而获得材料的微观形貌. 若采用系列截面法逐层观察材料组织形貌，则需要频繁的使用锈蚀剂，在抛光过程中，锈蚀剂不可避免地残留在微观组织表面，形成随机斑点噪声，如图 5 中黑色箭头所示. （2）划痕噪声（Scratch noises）：如前所述，在制备过程中，需要对材料表面进行研磨. 该制备方法不可避免地将在显微组织表面留下划痕噪声. 划痕噪声通常为黑色直线. 由于其与多晶纯铁晶粒图像中晶界区域在像素值上相似，容易被误认为是晶界从而影响分割结果，如图 5 中红色箭头所示. （3）边界模糊或消失现象（Blurred or missing boun- (a) (b) (c) (d) (e) (f) (g) (h) (i) 图 5 两种图像数据引入不同种类噪声的结果. （a）多晶纯铁晶粒图像；（b）图（a）的真值结果；（c）在（b）中随机引入 500 像素的噪声点；（d）在（b）中引入 500 像素的划痕噪声；（e）在（b）中引入 500 像素的消失晶界噪声；（f）铝镧合金枝晶图像；（g）图（f）的真值结果；（h）在（g）中随机引入 500 像素的噪声点；（i）在（g）中引入 500 像素的划痕噪声 Fig.5 Two microscopic images with different noises: (a) polycrystalline iron; (b) ground truth of (a); (c) random noises with 500 pixels in (b); (d) scratch noises with 500 pixels in (b); (e) missing boundaries with 500 pixels in (b); (f) Al la alloy; (g) ground truth of (f); (h) random noises with 500 pixels in (g); (i) scratch noises with 500 pixels in (g) 表 5 铝镧合金枝晶组织图像不同分割算法下评估结果 Table 5 Evaluation of different segmentation results for Al–La microscopic image Segmentation algorithm Pixel based evaluation methods Intra class coincidence based evaluation methods Clustering based evaluation methods Pixel accuracy Mean accuracy MIoU FWIoU Dice score RI OTSU 0.6263 0.7025 0.4538 0.4441 0.6573 0.6981 Canny 0.5259 0.6126 0.3497 0.3315 0.5890 0.4780 Watershed 0.4199 0.5426 0.2373 0.1974 0.5557 0.5902 K-means 0.5078 0.5098 0.3287 0.3482 0.3434 0.5210 Random walker 0.5110 0.4027 0.2559 0.3249 0.0024 0.3552 Unet 0.9850 0.9854 0.9684 0.9706 0.9796 0.9810 Segmentation algorithm Clustering based evaluation methods Instance based evaluation methods ARI VI CD MAP ME SE VI OTSU 0.3000 0.3075 0.0135 0.3210 −1680.9000 0.2170 Canny −0.0237 6.0105 0.0054 6.0158 −1467.1000 0.0459 Watershed 0.0022 0.5689 0.2377 0.8066 −1014.4000 0.0131 K-means 0.0064 0.8567 0.2247 1.0814 −2216.2000 0.1102 Random walker −0.1720 0.0000 2.2680 2.2680 −10918.3000 0.0000 Unet 0.9604 0.0191 0.0182 0.0373 −10.7000 0.8453 马博渊等：图像分割评估方法在显微图像分析中的应用 · 145 ·

点击进入文档下载页（PDF格式）

共14页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录

图像分割评估方法在显微图像分析中的应用