《工程科学学报》：基于改进YOLACT实例分割网络的人耳关键生理曲线提取

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：1.34MB

《工程科学学报》录用稿，htps:/doi.org/10.13374/i,issn2095-9389.2021.01.11.005©北京科技大学2020 工程科学学报DO: 基于改进YOLACT实例分割网络的人耳关键生理曲线提取袁立，夏桐，张晓爽北京科技大学自动化学院，北京100083 ☒通信作者，E-mail:yuan@ustb.edu.cn 版稿摘要在人耳形状聚类、3D人耳建模、个人定制耳机等相关工作中，获取耳的一些关键生理曲线和关键点的准确位置非常重要。传统的边缘提取方法对光照和姿势变化非常敏感。本文提出了一种基于ResNeSt和筛选模板策略的改进YOLACT实例分割网络，分别从定位和分割两方面对原始YOLACT 算法进行改进，通过标注人耳数据集，训练改进的YOLACT模型，并在预测阶段使用改进的筛选模板策略可以准确地分割人耳的不同区域并提取关键的生理曲线。相较于其他方法，本文方法在测试图像集上显示出更份割精度，且对人耳姿态变化时具有一定的鲁棒性。关键词人耳：生理曲线提取：实例分割：改进YO esNeSt 分类号TP391.41 Physiological Curves Extraction of Human Ear Based on Improved YOLACT YUAN Li,XIA Tong ZHANG Xiaoshuang School of Automation.University of Science and Technology Beijing,Beijing 100083,China Corresponding author,Email:lyuan@ustb.edu.cn ABSTRACT In related work such as human ear shape clustering.3D human ear modeling,and personal customized headphones,it is very important to obtain some key physiological curves of the human ear and the accurate positions of key points.Moreover,as an important biological feature,the morphological analysis and classification of the human ear is also of great value for medical work related to the human ear.However,due to the complex morphological structure of the human ear,it is difficult to generate a general standard for the morphological structure of the ear.This paper divides the morphological structure of the human ear into three regions:helix,antihelix and concha,for instance segmentation and key physiological curve extraction.Traditional edge extraction methods are very sensitive to illumination and posture variations. 收稿日期：基金项目：国家自然科学基金资助项目(61472031)

工程科学学报 DOI: 基于改进 YOLACT 实例分割网络的人耳关键生理曲线提取 袁立，夏桐，张晓爽北京科技大学自动化学院，北京 100083  通信作者，E-mail: lyuan@ustb.edu.cn 摘要在人耳形状聚类、3D 人耳建模、个人定制耳机等相关工作中，获取人耳的一些关键生理曲线和关键点的准确位置非常重要。传统的边缘提取方法对光照和姿势变化非常敏感。本文提出了一种基于 ResNeSt 和筛选模板策略的改进 YOLACT 实例分割网络，分别从定位和分割两方面对原始 YOLACT 算法进行改进，通过标注人耳数据集，训练改进的 YOLACT 模型，并在预测阶段使用改进的筛选模板策略，可以准确地分割人耳的不同区域并提取关键的生理曲线。相较于其他方法，本文方法在测试图像集上显示出更好的分割精度，且对人耳姿态变化时具有一定的鲁棒性。关键词人耳；生理曲线提取；实例分割；改进 YOLACT；ResNeSt 分类号 TP391.41 Physiological Curves Extraction of Human Ear Based on Improved YOLACT YUAN Li , XIA Tong, ZHANG Xiaoshuang School of Automation, University of Science and Technology Beijing, Beijing 100083, China  Corresponding author, E-mail: lyuan@ustb.edu.cn ABSTRACT In related work such as human ear shape clustering, 3D human ear modeling, and personal customized headphones, it is very important to obtain some key physiological curves of the human ear and the accurate positions of key points. Moreover, as an important biological feature, the morphological analysis and classification of the human ear is also of great value for medical work related to the human ear. However, due to the complex morphological structure of the human ear, it is difficult to generate a general standard for the morphological structure of the ear. This paper divides the morphological structure of the human ear into three regions: helix, antihelix and concha, for instance segmentation and key physiological curve extraction. Traditional edge extraction methods are very sensitive to illumination and posture variations. 收稿日期: 基金项目:国家自然科学基金资助项目(61472031) 《工程科学学报》录用稿，https://doi.org/10.13374/j.issn2095-9389.2021.01.11.005 ©北京科技大学 2020 录用稿件，非最终出版稿

Also,the color distribution of one human ear image is relatively consistent,so the transition among the three regions maybe not obvious,which will cause poor adaptability for traditional edge extraction methods when extracting key physiological curves of human ears.To address this problem,this paper proposes an improved YOLACT instance segmentation model based on ResNeSt backbone and "the screening mask"strategy,which improve the original YOLACT model from two aspects:localization and segmentation.Our ResNeSt based YOLACT model is trained with labeled ear images from the USTB-Helloear image set.In the prediction stage,the original cropping mask strategy is discarded and replaced with our proposed screening mask strategy to ensure the integrity of the edges of the segmentation area.These improvements enhance the accuracy of curve detection and extraction,and can accurately segment different regions of the human ear and extract key physiological curves.Compared with other methods,our proposed method in this paper shows better segmentation accuracy on the test image set,and shows robustness to posture variation of human ear KEY WORDS Human Ear;Physiological Curves Extraction;Instance Segmentation:Improved YOLACT;ResNeSt 人耳作为一种重要的生物特征，对人耳的形态分析和归类对与人耳相关的医疗等工作有着重要的价值。但是由于人耳形态结构复杂，外耳形态结构分型的研究至今难有个统一标准的分类方法。杨月如等山从医学角度提出外耳形态分型，依据外耳轮的形态特征以及耳轮结节的形态，将外耳分为六种形态。齐娜等四从声学角度分析，主要依据耳甲艇和耳甲腔的莲通状态把耳廓分为四大类。耳垂在整个外耳形态中具有非常重要的作用，耳垂形状的不同可以升起视觉上明显的差别感，Azaria 则根据耳垂与面颊交叉点角度对耳垂进行的归类)。上述研究者分别通过人耳的其中一块关键区域进行分类，这些区域都是人耳结构的重要组成部分，通过提取出耳轮、对耳轮和耳甲等关键区域的轮廓作为人耳的关键曲线，就能能够实现对这些关键区域的精细划分，并且描述出它们的形状特征。提取出高精度的人耳的关键曲线进而能够有效的帮助完成对人耳的形态分析和聚类工作，同时也有助于实现人耳外轮廓提取和重要区域的分割。但是，年图像在颜色分布上较为一致，部分人耳在重要区域之间的过渡不明显，采集图像时还能存在光照差异，这些因素都会导致传统边缘提取的方法在提取人耳关键曲线上话应性较差。在图像分割领域中，语义分割4任务旨在实现对图像中的每个像素都划分出对应的类别，而实例分割9不但要进行像素级别的分类，还需在具体的类别基础上区分该像素属于该类别中的具体实例。Daniel Bolya在2019年提出X实时实例分割网络YOLACTI,类比Mask R-CNNU31之于Faster R-CNN4,YOLACT是在目标检测分支上添加一个语义分割分支来达到实例分割的目的，但没有使用区域建议网络。驴语义分割会对像素属性相似的像素点划为同一类别，而人耳区域像素值很相似，部分人耳在重要区域之间的过渡不明显，故语义分割方法不适用于人耳上关键生理曲线区域的分割。因此，本文提母种改进YOLACT算法来进行人耳关键区域分割，并提取耳轮、对耳轮和耳甲的关键曲线。为了提高定位和分割精度，将主干网络由ResNet101更换为ResNeSt101us1,并在预测阶段摒弃原有的裁剪模板的处理，设计了新的筛选模板的结构，保证了分割区域边缘的完整性，提高了曲线检测提取精度。 1基于ResNeSt和筛选模板策略的改进YOLACT算法本文提出的改进YOLACT模型用来提取人耳的耳轮、对耳轮和耳甲区域的关键生理曲线，系统框图如图1所示。首先使用主干网络ResNeSt-.l0l结合特征金字塔网络(Feature Pyramid Networks,FPN)I获取不同尺寸下的特征图，接下来特征金字塔提取的特征图传输进两个并行分支。第一个分支接收特征金字塔生成的所有尺寸的特征图作为输入，用来完成目标检测任务预测目标位置、类别，同时也完成对模板叠加系数的预测：第二个分支接收特征金字塔获取的感受野为91 的特征图（对应图1中的P3)作为输入，用来生成一系列原型模板，实现对背景和前景的分离，对

Also, the color distribution of one human ear image is relatively consistent, so the transition among the three regions maybe not obvious, which will cause poor adaptability for traditional edge extraction methods when extracting key physiological curves of human ears. To address this problem, this paper proposes an improved YOLACT instance segmentation model based on ResNeSt backbone and “the screening mask” strategy, which improve the original YOLACT model from two aspects: localization and segmentation. Our ResNeSt based YOLACT model is trained with labeled ear images from the USTB-Helloear image set. In the prediction stage, the original cropping mask strategy is discarded and replaced with our proposed screening mask strategy to ensure the integrity of the edges of the segmentation area. These improvements enhance the accuracy of curve detection and extraction, and can accurately segment different regions of the human ear and extract key physiological curves. Compared with other methods, our proposed method in this paper shows better segmentation accuracy on the test image set, and shows robustness to posture variation of human ear. KEY WORDS Human Ear; Physiological Curves Extraction; Instance Segmentation; Improved YOLACT; ResNeSt 人耳作为一种重要的生物特征，对人耳的形态分析和归类对与人耳相关的医疗等工作有着重要的价值。但是由于人耳形态结构复杂，外耳形态结构分型的研究至今难有一个统一标准的分类方法。杨月如等[1]从医学角度提出外耳形态分型，依据外耳轮的形态特征以及耳轮结节的形态，将外耳分为六种形态。齐娜等[2]从声学角度分析，主要依据耳甲艇和耳甲腔的连通状态把耳廓分为四大类。耳垂在整个外耳形态中具有非常重要的作用，耳垂形状的不同可以引起视觉上明显的差别感， Azaria 则根据耳垂与面颊交叉点角度对耳垂进行的归类[3]。上述研究者分别通过人耳的其中一块关键区域进行分类，这些区域都是人耳结构的重要组成部分，通过提取出耳轮、对耳轮和耳甲等关键区域的轮廓作为人耳的关键曲线，就能能够实现对这些关键区域的精细划分，并且描述出它们的形状特征。提取出高精度的人耳的关键曲线进而能够有效的帮助完成对人耳的形态分析和聚类工作，同时也有助于实现人耳外轮廓提取和重要区域的分割。但是，人耳图像在颜色分布上较为一致，部分人耳在重要区域之间的过渡不明显，采集图像时还可能存在光照差异，这些因素都会导致传统边缘提取的方法在提取人耳关键曲线上适应性较差。在图像分割领域中，语义分割[4-8]任务旨在实现对图像中的每个像素都划分出对应的类别，而实例分割[9-11]不但要进行像素级别的分类，还需在具体的类别基础上区分该像素属于该类别中的具体实例。Daniel Bolya 在 2019 年提出了实时实例分割网络 YOLACT[12]，类比 Mask R-CNN[13]之于 Faster R-CNN[14]，YOLACT 是在目标检测分支上添加一个语义分割分支来达到实例分割的目的，但没有使用区域建议网络[15-16]。由于语义分割会对像素属性相似的像素点划为同一类别，而人耳区域像素值很相似，部分人耳在重要区域之间的过渡不明显，故语义分割方法不适用于人耳上关键生理曲线区域的分割。因此，本文提出一种改进 YOLACT 算法来进行人耳关键区域分割，并提取耳轮、对耳轮和耳甲的关键曲线。为了提高定位和分割精度，将主干网络由 ResNet101[17]更换为 ResNeSt101[18]，并在预测阶段摒弃原有的裁剪模板的处理，设计了新的筛选模板的结构，保证了分割区域边缘的完整性，提高了曲线检测提取精度。 1 基于 ResNeSt 和筛选模板策略的改进 YOLACT 算法本文提出的改进 YOLACT 模型用来提取人耳的耳轮、对耳轮和耳甲区域的关键生理曲线，系统框图如图 1 所示。首先使用主干网络 ResNeSt-101 结合特征金字塔网络（ Feature Pyramid Networks，FPN）[19]获取不同尺寸下的特征图，接下来特征金字塔提取的特征图传输进两个并行分支。第一个分支接收特征金字塔生成的所有尺寸的特征图作为输入，用来完成目标检测任务预测目标位置、类别，同时也完成对模板叠加系数的预测；第二个分支接收特征金字塔获取的感受野为 91 的特征图（对应图 1 中的 P3）作为输入，用来生成一系列原型模板，实现对背景和前景的分离，对录用稿件，非最终出版稿

应第一个分支里的模板系数。通过 YOLACT 提出的快速非极大值抑制去掉多余的目标后，对原型模板和模板系数进行线性组合，得到每个实例对应的分割模板。上述组合得到的实例模板的过程可描述为： Mask PC      （1）其中， P 是分支一产生的一系列模板，维度为 h*w*k，分别代表模板的高、宽和数量；C 是分支二产生的模板系数，维度为 n*k，n 为经过快速的非极大值和分数阈值后的实例数量。为了简化网络结构和加快检测过程，使用线性组合的方式得到实例模板。最终得到模板的尺寸为 h*w*n，也就是预测出的 n 个实例模板。在阈值化之后，使用本文提出的模板筛选策略排除实例模板中的误检。对得到的最终实例模板提取其外轮廓即可得到人耳的关键生理曲线，进而可以实现关键区域分割。以下针对系统中的关键模块 ResNeSt 主干网络、原型模板生成模块、目标检测模块、筛选模板策略等进行详细论述。 C1 C2 C3 C5 C4 P3 P5 P4 P6 P7 Object detection module NMS Prototype mask generation module + + Threshold Screening mask strategy Contour extraction ResNeSt101 Backbone Feature Pyramid 图 1 改进 YOLACT 模型提取人耳关键生理曲线系统框图 Fig.1 System block diagram of the improved YOLACT model for extracting the key physiological curve of human ear 1.1 ResNeSt 主干网络原始 YOLACT 中的主干网络是 ResNet，ResNet 是为了完成图像分类任务，缺少针对目标检测、语义分割和实例分割等计算机视觉任务的相应结构设计，为此 ResNeSt 在 ResNet 的基础上设计了拆分注意力模块，而利用 ResNeSt 作为主干网络的模型能够在图像分类、目标检测、语义分割以及实例分割等任务上达到更高的精度[18]。 (a) (b) 图 2 拆分注意力模块结构[18] . (a) 整体结构; (b) Cardinal 内部结构 Fig.2 Split attention module structure[18]: (a) the whole frame; (b) Cardinal internal structure 录用稿件，非最终出版稿

ResNeSt模块在外层设计上保留了ResNet的跳跃映射连接，延续ResNeXt!2o分组卷积的思想，使用了基数的概念，按照基数的设置，将ResNeSt模块输入按通道拆分成k份输送到k个相同的网络结构，每个网络结构被称作一个是Cardinal。分组卷积的显著优势就是使用少量的参数量和运算量生成更多的特征图，更多的特征图就可以编码更多的特征信息。所以ResNeSt模块外层设计使得 ResNeSt相比于其他ResNet变体22，能够在不明显增加参数量级的情况下提升了模型的准确率。每个Cardinal的内部结构如图2(b)所示，结构设计主要借鉴了SENetP2中的基于通道注意力机制的思想和SKNt2四中的基于特征图注意力机制思想，能够学习出不同特征图之间重要程度以及特征图不同通道之间的重要程度，利于获取更加有效的信息。ResNeSt模块每个Cardinal的大致结构类似于SKNt注意力机制模块，不同之处在于每个分支使用相同尺寸的卷积核，便于外层分组卷积的模块化。故本文利用ResNeSt对原始YOLCAT网络中的主干网络进行改进，使用ResNeSt101代替 ResNet11Ol嵌入到YOLACT网络，并与YOLACT的特征金字塔结构进行对援提取出ResNeSt101 每个阶段的最后一个ResNeSt模块的输出，选中感受野分别为91、811、97个般是特征图（分别对应图1中的C3、C4、C5)输送到特征金字塔结构参与后续运算。 1.2原型模板生成模块原型模板生成模块分支是YOLACT生成语义分割模板的分支，用来实现像素级别的分类任务，原型模板生成模块分支的作用并不是直接生成最终的像素分类模板而是生成一系列原型模板，在后续阶段用于组合生成整幅图最终的分割模板。原型模板生成模块的闷络结构基于FCN4设计，以 550*550的输入图像为例的原型模板生成模块网络结构如图所示，接收主干网络获取的感受野为 91的特征图作为输入，首先不改变特征图尺寸和通道数莲续使用了3个3*3步长为1的卷积层，然后利用双线性插值的方式进行了上采样，使得特征尺纣达到原图尺寸的1/4，这样做提高了后续生成原型模板的分辨率，也就提高了分割模板整体的质量以及对于小目标的分割精度，保持当前尺寸紧接着通过两个卷积层获得一个k通道的输出，输出中的每一个通道就是一个原型模板。用稿德图3原型模板生成模块 Fig.3 Prototype mask generation module 1.3 目标检测模块目标检测分支以主干网络生成的所有尺寸的特征图作为输入，每个尺寸的特征图都通过相同的网络结构进行处理，图4以感受野为91的特征图为例展示了目标检测分支的网络结构。首先通过一个公共的步长为1的3*3卷积层，公共卷积层的存在使得网络结构利用更高效，运算速度更快，接下来分成三个分支，分别通过一个卷积层预测目标的位置、类别和分割模板。网络在每个位置上设置 [0.5,1,2]三种比例的锚框来检测位置，并且针对特征金字塔生成的5种不同尺寸的特征图设置5 种不同的尺寸的锚框。最终目标检测分支针对特征金字塔生成的特征图上每个位置的锚框都预测4 个表示位置的参数，C个代表目标类别的参数以及与原型模板个数相对应的k个组合系数。在模板加权组合系数的分支上，补充了一个tanh激活函数，tanh的值域覆盖了正负值，保证在输出的加权系数中存在正负值

ResNeSt 模块在外层设计上保留了 ResNet 的跳跃映射连接，延续 ResNeXt[20]分组卷积的思想，使用了基数的概念，按照基数的设置，将 ResNeSt 模块输入按通道拆分成 k 份输送到 k 个相同的网络结构，每个网络结构被称作一个是 Cardinal。分组卷积的显著优势就是使用少量的参数量和运算量生成更多的特征图，更多的特征图就可以编码更多的特征信息。所以 ResNeSt 模块外层设计使得 ResNeSt 相比于其他 ResNet 变体[21-23]，能够在不明显增加参数量级的情况下提升了模型的准确率。每个 Cardinal 的内部结构如图 2(b)所示，结构设计主要借鉴了 SENet[21]中的基于通道注意力机制的思想和 SKNet[22]中的基于特征图注意力机制思想，能够学习出不同特征图之间重要程度以及特征图不同通道之间的重要程度，利于获取更加有效的信息。ResNeSt 模块每个 Cardinal 的大致结构类似于 SKNet 注意力机制模块，不同之处在于每个分支使用相同尺寸的卷积核，便于外层分组卷积的模块化。故本文利用 ResNeSt 对原始 YOLCAT 网络中的主干网络进行改进，使用 ResNeSt101 代替 ResNet101 嵌入到 YOLACT 网络，并与 YOLACT 的特征金字塔结构进行对接，提取出 ResNeSt101 每个阶段的最后一个 ResNeSt 模块的输出，选中感受野分别为 91、811、971 的三层特征图（分别对应图 1 中的 C3、C4、C5）输送到特征金字塔结构参与后续运算。 1.2 原型模板生成模块原型模板生成模块分支是 YOLACT 生成语义分割模板的分支，用来实现像素级别的分类任务，原型模板生成模块分支的作用并不是直接生成最终的像素分类模板，而是生成一系列原型模板，在后续阶段用于组合生成整幅图最终的分割模板。原型模板生成模块的网络结构基于 FCN[24]设计，以 550*550 的输入图像为例的原型模板生成模块网络结构如图 3 所示，接收主干网络获取的感受野为 91 的特征图作为输入，首先不改变特征图尺寸和通道数连续使用了 3 个 3*3 步长为 1 的卷积层，然后利用双线性插值的方式进行了上采样，使得特征图尺寸达到原图尺寸的 1/4，这样做提高了后续生成原型模板的分辨率，也就提高了分割模板整体的质量以及对于小目标的分割精度，保持当前尺寸紧接着通过两个卷积层获得一个 k 通道的输出，输出中的每一个通道就是一个原型模板。 69*69 *256 69*69 *256 69*69 *256 138*138 *256 69*69 *256 138*138 *256 138*138 *k 图 3 原型模板生成模块 Fig.3 Prototype mask generation module 1.3 目标检测模块目标检测分支以主干网络生成的所有尺寸的特征图作为输入，每个尺寸的特征图都通过相同的网络结构进行处理，图 4 以感受野为 91 的特征图为例展示了目标检测分支的网络结构。首先通过一个公共的步长为 1 的 3*3 卷积层，公共卷积层的存在使得网络结构利用更高效，运算速度更快，接下来分成三个分支，分别通过一个卷积层预测目标的位置、类别和分割模板。网络在每个位置上设置 [0.5，1，2]三种比例的锚框来检测位置，并且针对特征金字塔生成的 5 种不同尺寸的特征图设置 5 种不同的尺寸的锚框。最终目标检测分支针对特征金字塔生成的特征图上每个位置的锚框都预测 4 个表示位置的参数，c 个代表目标类别的参数以及与原型模板个数相对应的 k 个组合系数。在模板加权组合系数的分支上，补充了一个 tanh 激活函数，tanh 的值域覆盖了正负值，保证在输出的加权系数中存在正负值。录用稿件，非最终出版稿

63对图4目标检测模块 Fig.4 Object detection module 1.4“筛选模板”策略 YOLACT为了改善小目标的分割效果，在预测时使用目标预测框对加权组合产生的模板进行裁剪，在训练时对真实的边界框进行裁剪，仅保留目标预测框内的份割结果，且并未对输出的结果进行去噪。这样一来，当目标预测框准确的时候，没有什么影响，但是当目标预测框不准确的时候，噪声将会被带入实例模板，造成一些“泄露”（意即目标预测框内含洧其他实例的一部分，但这部分被识别为当前实例的情况)。当两个目标离得很远的时候也会发生“泄露”的情况，因为裁剪的过程会将当前实例模板的学习内容限定在预测边界框内，裁剪相当于告诉网络远处的目标已经被排除在外了，不用网络去学习。但是假如目标预测框很么那么该预测模板将包括那些离得很远的实例的一部分模板，这部分模板对于网络来讲就是噪网路并不知道应该将这部分模板与当前实例预测模板分开，就造成了“泄露”。在目标预测框比实际边界框偏小的情况下，使用目标预测框对合成模板裁剪就会破坏原有合成模板边缘的完整性部分分割区域被切割掉之后分割出的模板会出现直线边缘，使模板的质量下降，如图5(c)所示。针对这一问题，本文在使用YOLACT进行推理时，去掉了原网络中的“裁剪模板”结构，但是去掉裁剪模板结构后，在推理分割模板中会出现多余的误检区域。YOLACT预测的检测框和模板是一一对应的，并且在检测框检测准确的情况下，模板中对应该实例的分割区域应该在检测框内，基于这一特点，为去掉误检区域，本文提出了“筛选模板”策略，表达式为： mask area, (2) IOU(pred box area_box)=max(IOU(pred_box,area_box))Vi (3) 其中，aea,表示预测模板中第)个独立分割区域，area_box,表示第j个独立分割区域形成的外接矩形框。筛选模板策略中首先对于预测模板中的每个独立区域i都生成外接矩形如图5()所示，然后依次计算预测模板对应的预测边界框与每个独立区域外接矩形amea_box之间的交并比值，利用算出的最大的交并此对应的独立区域生成一个新的模板代替原来的模板如图5()所示，这样得到的模板边缘完整精确、并且没有误检区域。 (a)b)(c)(d(e) 图5模板处理.()原图：(b)边框和模板预测结果：(c)裁剪模板结果：(d)各区域外接矩形，(e)筛选模板结果

69*69 *256 69*69 *256 69*69 *3*4 69*69 *3*c 69*69 *3*k (69*69*3, 4) (69*69*3, c) (69*69*3, k) Change shape Class Mask Change shape Change shape Box (69*69*3, k) tanh 图 4 目标检测模块 Fig.4 Object detection module 1.4 “筛选模板”策略 YOLACT 为了改善小目标的分割效果，在预测时使用目标预测框对加权组合产生的模板进行裁剪，在训练时对真实的边界框进行裁剪，仅保留目标预测框内的分割结果，且并未对输出的结果进行去噪。这样一来，当目标预测框准确的时候，没有什么影响，但是当目标预测框不准确的时候，噪声将会被带入实例模板，造成一些“泄露”（意即目标预测框内含有其他实例的一部分，但这部分被识别为当前实例的情况）。当两个目标离得很远的时候也会发生“泄露”的情况，因为裁剪的过程会将当前实例模板的学习内容限定在预测边界框内，裁剪相当于告诉网络远处的目标已经被排除在外了，不用网络去学习。但是假如目标预测框很大，那么该预测模板将包括那些离得很远的实例的一部分模板，这部分模板对于网络来讲就是噪声，网络并不知道应该将这部分模板与当前实例预测模板分开，就造成了“泄露”。在目标预测框比实际边界框偏小的情况下，使用目标预测框对合成模板裁剪就会破坏原有合成模板边缘的完整性，部分分割区域被切割掉之后分割出的模板会出现直线边缘，使模板的质量下降，如图 5(c)所示。针对这一问题，本文在使用 YOLACT 进行推理时，去掉了原网络中的“裁剪模板”结构，但是去掉裁剪模板结构后，在推理分割模板中会出现多余的误检区域。YOLACT 预测的检测框和模板是一一对应的，并且在检测框检测准确的情况下，模板中对应该实例的分割区域应该在检测框内，基于这一特点，为去掉误检区域，本文提出了“筛选模板”策略，表达式为： mask area  j （2） IOU( _ , _ ) max(IOU( _ , _ )) j i pred box area box pred box area box i   （3）其中， j area 表示预测模板中第 j 个独立分割区域， area box _ j 表示第 j 个独立分割区域形成的外接矩形框。筛选模板策略中首先对于预测模板中的每个独立区域i 都生成外接矩形如图 5(d)所示，然后依次计算预测模板对应的预测边界框与每个独立区域外接矩形 _ i area box 之间的交并比值，利用算出的最大的交并比对应的独立区域生成一个新的模板代替原来的模板如图 5(e)所示，这样得到的模板边缘完整精确，并且没有误检区域。 (a) (b) (c) (d) (e) 图 5 模板处理. (a) 原图; (b) 边框和模板预测结果; (c) 裁剪模板结果; (d) 各区域外接矩形; (e) 筛选模板结果录用稿件，非最终出版稿

Fig.5 Mask processing:(a)original image;(b)prediction of boxes and masks;(c)segmentation result with the cropping mask strategy:(d)bounding boxes of different regions;(e)segmentation result with the screening mask strategy 1.5损失函数和评价指标在网络训练时使用了四种损失函数训练模型，分别是类别置信度损失L.、目标预测框损失L、模板损失Lt以及语义分割损失Lm。总损失公式如下： Loss=adLos+abes Lbas+mLmsk+segmL (4) 其中，a代表各自损失在叠加时的权重。在YOLACT网络中，权重的预设值为a4=1,am=1.5, at=6.125,am=1。其中类别置信度损失和目标框损失采用和SSD2算法中一样的计算方式。类别置信度的损失计算公式为： L(x,c=-∑xg1og()-∑1og(e9) explcp where c= ie Po p (5) 类别置信度损失是多类别的softmax损失，其中，i表示预测框的编号表示真实目标框的编号， P表示类别序号，其中背景的序号为0，岁是一个指示参数，取值贝或者1，取值为1时表示预测框和类别号为P的真实目标框匹配， C是通过softmax计算得到的类别置信度。目标预测框损失的计算公式为： Lclg)=之 ∑ (6) ePos metcr,cy,w,h) 预测框损失采用的是Smooth1损失，其中，i表示预测框的序号，j表示目标框的序号，1表示边界框的预测值，8表示目标边界框的真值，的含义和类别置信度相同，所以预测框损失仅针对正样本进行计算。其中Smooth,函数的计算公式为： Smooth(x 0,5x2 xkl (7) 7x1-0.5|x21 Smooth,损失在预测值和目标值偏差较大的时候使用了绝对值进行计算，梯度值为1，可以防止梯度爆炸，对离群值和异常值不敏感，更加鲁棒。在偏差较小时，损失使用了平方进行计算，保证模型收敛的精度。模板损失是通过计算加权组合后的模板与真实模板之间的二分类交叉熵，计算公式为： Lna (y,p)=-ylog p-(1-y)log(1-p) (8) 其中，y表示网络的预树模板中类别的真值，P表示预测模板中预测正确的概率。语义分割损失项是为了弥补茯速非极大值抑制算法带来的精度下降，在训练时添加额外损失可以在不影响速度的情流下提高特征的丰富性。具体做法是在特征金字塔的感受野为91的特征图后增加一个c通道1*1的卷积层，在输出的c通道的特征图上再计算二分类交叉熵损失。在计算完损失后，采用带动量的SGD优化算法，弥补梯度下降的缺陷，加快训练速度。对于YOLACT的模型性能，本文使用平均准确率(mean Average Precision,mAP)来进行评估。 AP是基于PR(Precision-Recal)曲线计算得来的，PR曲线是以准确率为纵轴，召回率为横轴画出的曲线，AP值就是PR曲线下的面积。在实际应用中，并不直接对该PR曲线进行计算，而是对PR 曲线进行平滑处理。即对P℉曲线上的每个采样点的准确率值取该点右侧最大的准确率的值。本文采用了COCO2数据集的评估方式，为了提高精度，在PR曲线上采样了100个点进行计算。而且IOU 的阈值从固定的0.5调整为在0.5-0.95的区间上每隔0.05计算一次AP的值，取所有结果的平均值作为最终的结果。通常来说AP是在单个类别下的，mAP是AP值在所有类别下的均值。 2实验与分析 2.1实验环境采用Pytorch1.2.0开源深度学习框架进行实验，操作系统为Windows 10,Python版本为 3.7.4,实验采用的GPU型号为GeForce RTX2080TiS。 2.2实验图像集

Fig.5 Mask processing: (a) original image; (b) prediction of boxes and masks; (c) segmentation result with the cropping mask strategy; (d) bounding boxes of different regions; (e) segmentation result with the screening mask strategy 1.5 损失函数和评价指标在网络训练时使用了四种损失函数训练模型，分别是类别置信度损失 Lcls 、目标预测框损失 Lbox 、模板损失 Lmask 以及语义分割损失 Lsegm 。总损失公式如下： Loss L L L L         cls cls box box mask mask segm segm （4）其中， 代表各自损失在叠加时的权重。在 YOLACT 网络中，权重的预设值为 1 cls  ， 1.5 box  ， 6.125  mask  ，segm  1。其中类别置信度损失和目标框损失采用和 SSD[25]算法中一样的计算方式。类别置信度的损失计算公式为：           0 exp ˆ , log log where ˆ ˆ ˆ exp ˆ p N p p p i cls ij i i i p i Pos i Neg i p L c x c x c c c   c        （5）类别置信度损失是多类别的 softmax 损失，其中，i 表示预测框的编号， j 表示真实目标框的编号， p 表示类别序号，其中背景的序号为 0， p ij x 是一个指示参数，取值只有 0 或者 1，取值为 1 时表示预测框和类别号为 p 的真实目标框匹配， cˆ 是通过 softmax 计算得到的类别置信度。目标预测框损失的计算公式为： 1   Pos { , , , } ( , , ) Smooth ˆ N k m m box ij L i j i m cx cy w h L x l g x l g       （6）预测框损失采用的是Smooth L1损失，其中，i 表示预测框的序号， j 表示目标框的序号，l 表示边界框的预测值， gˆ 表示目标边界框的真值， k ij x 的含义和类别置信度相同，所以预测框损失仅针对正样本进行计算。其中Smooth L1函数的计算公式为： 2 1 0.5 | | 1 Smooth ( ) | | 0.5 | | 1 L x x x x x        （7） Smooth L1损失在预测值和目标值偏差较大的时候使用了绝对值进行计算，梯度值为 1，可以防止梯度爆炸，对离群值和异常值不敏感，更加鲁棒。在偏差较小时，损失使用了平方进行计算，保证模型收敛的精度。模板损失是通过计算加权组合后的模板与真实模板之间的二分类交叉熵，计算公式为： ( , ) log (1 ) log(1 ) L y p y p y p mask      （8）其中， y 表示网络的预测模板中类别的真值， p 表示预测模板中预测正确的概率。语义分割损失项是为了弥补快速非极大值抑制算法带来的精度下降，在训练时添加额外损失可以在不影响速度的情况下提高特征的丰富性。具体做法是在特征金字塔的感受野为 91 的特征图后增加一个 c 通道 1*1 的卷积层，在输出的 c 通道的特征图上再计算二分类交叉熵损失。在计算完损失后，采用带动量的 SGD 优化算法，弥补梯度下降的缺陷，加快训练速度。对于 YOLACT 的模型性能，本文使用平均准确率（mean Average Precision，mAP）来进行评估。 AP 是基于 PR（Precision-Recall）曲线计算得来的，PR 曲线是以准确率为纵轴，召回率为横轴画出的曲线，AP 值就是 PR 曲线下的面积。在实际应用中，并不直接对该 PR 曲线进行计算，而是对 PR 曲线进行平滑处理。即对 PR 曲线上的每个采样点的准确率值取该点右侧最大的准确率的值。本文采用了 COCO[26]数据集的评估方式，为了提高精度，在 PR 曲线上采样了 100 个点进行计算。而且 IOU 的阈值从固定的 0.5 调整为在 0.5-0.95 的区间上每隔 0.05 计算一次 AP 的值，取所有结果的平均值作为最终的结果。通常来说 AP 是在单个类别下的，mAP 是 AP 值在所有类别下的均值。 2 实验与分析 2.1 实验环境采用 Pytorch 1.2.0 开源深度学习框架进行实验，操作系统为 Windows 10，Python 版本为 3.7.4，实验采用的 GPU 型号为 GeForce RTX 2080Ti S。 2.2 实验图像集录用稿件，非最终出版稿

本文实验中使用的图像集来自于USTB-Helloear图像库27。该库采集于户外条件，采集了1570 个体的视频，包括姿态、光照、遮挡等变化情况，每个被采集者可获得平均约400幅的左右耳图像，共约61万幅二维图像。由于同一个体的左右耳结构基本相同，本文实验中随机选取1050个体，每人选取一幅左耳图像，不同个体间存在光照和姿态变化，如图6()所示。为提取人耳关键曲线，每幅图像共标注耳轮、对耳轮和耳甲三类，拟提取的关键人耳关键曲线和标注示例如图6(b)-6()所示。 a erlunerlun● duierlun_duierlun● erjiaerjia● (b) (c) (d) 图6图像集示例：(a)不同个体间的光照、姿态变化(b)原图：(c)关键曲线：(d)标注示例：(e)标签 Fig.6 Image dataset:(a)illumination and pose variations among different subjects(b)original image (c)key curves(d) annotation examples;(e)labels 2.3训练和测试结果分析以下从模型精度和实时性两个方面将本文所述对YOLACT的两点改进与原始YOLACT模型进行比较，以此说明ResNeSt主卡路和“筛选模板”策略这两点改进的有效性。 2.3.1模型精度的比较实验中将所选1050幅图像分成5份，每份210幅，采用5折交叉验证进行网络训练。本文所述改进YOLACT模型的练超参数如表1所示，其中“max size”表示输入网络的图像尺寸，默认输入图像尺寸为550×550 “Ir steps'”表示训练过程中下学习率进行衰减的迭代轮数， max iter”表示训练的最太迭代轮数， “batch size”表示同一批次处理的图像数量。表1训练超参数 Table 1 Training hyperparameter Parameter Value 550 (30000,60000,90000) max iter 120000 batch size 8 本文所述改进YOLACT模型训练中的损失曲线如图7所示，横坐标使用训练次数epoch,纵坐标分别是位置损失、分类损失和模板损失，从图中可以看出三种损失都呈现收敛的趋势

本文实验中使用的图像集来自于 USTB-Helloear 图像库[27]。该库采集于户外条件，采集了 1570 个体的视频，包括姿态、光照、遮挡等变化情况，每个被采集者可获得平均约 400 幅的左右耳图像，共约 61 万幅二维图像。由于同一个体的左右耳结构基本相同，本文实验中随机选取 1050 个体，每人选取一幅左耳图像，不同个体间存在光照和姿态变化，如图 6(a)所示。为提取人耳关键曲线，每幅图像共标注耳轮、对耳轮和耳甲三类，拟提取的关键人耳关键曲线和标注示例如图 6(b)-6(e)所示。 (a) (b) (c) (d) (e) 图 6 图像集示例：(a)不同个体间的光照、姿态变化 (b) 原图; (c) 关键曲线; (d) 标注示例; (e) 标签 Fig.6 Image dataset: (a) illumination and pose variations among different subjects (b) original image (c) key curves (d) annotation examples; (e) labels 2.3 训练和测试结果分析以下从模型精度和实时性两个方面将本文所述对 YOLACT 的两点改进与原始 YOLACT 模型进行比较，以此说明 ResNeSt 主干网络和“筛选模板”策略这两点改进的有效性。 2.3.1 模型精度的比较实验中将所选 1050 幅左耳图像分成 5 份，每份 210 幅，采用 5 折交叉验证进行网络训练。本文所述改进 YOLACT 模型的训练超参数如表 1 所示，其中“max_size”表示输入网络的图像尺寸，默认输入图像尺寸为 550×550，“lr_steps”表示训练过程中下学习率进行衰减的迭代轮数， “max_iter”表示训练的最大迭代轮数，“batch_size”表示同一批次处理的图像数量。表 1 训练超参数 Table 1 Training hyperparameter Parameter Value max_size 550 lr_steps (30000, 60000, 90000) max_iter 120000 batch_size 8 本文所述改进 YOLACT 模型训练中的损失曲线如图 7 所示，横坐标使用训练次数 epoch，纵坐标分别是位置损失、分类损失和模板损失，从图中可以看出三种损失都呈现收敛的趋势。录用稿件，非最终出版稿

(a) (b) (c) 图7损失曲线.(a)位置损失；b)分类损失；(c)模板损失 Fig.7 Loss curves:(a)box loss;(b)class loss;(c)mask loss 在验证集上分别使用YOLACT-ResNet101-crop(主干网络ResNet101+裁剪模板策略)、 YOLACT-ResNet1O1-select(主干网络ResNet101+筛选模板策略)、YOLACT-ResNest101-crop (主干网络ResNest101+裁剪模板策略)、YOLACT-ResNest101-select(主干网路ResNest101+筛选模板策略)四种方法得到的mlOU和Dice coefficient如表2所示。改进YOLAC模型在验证集上的模型精度如表3所示，其中“box”代表目标检测的精度，“mask”代表语义分割的精度。实验中设置不同10U阈值为0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95，将不同阈值对应的mAP 值进行平均得到模型的mAPl,如表3第二列所示，表3第三列至第五列分别为IOU阈值为 0.50、0.70、0.90的mAP值。综合表2、表3可以看出本文所述改进YQLACT模型的精度有所提高。表2不同YOLACT模型的分割精度 Table 2 Segmentation accuracy of different YOLC models Model mlou Dice coefficient YOLACT-ResNet101-crop 0.9943 YOLACT-ResNet101-select 0.9943 YOLACT-ResNeSt101-crop 0.9950 YOLACT-ResNeSt101-select 0.9950 表3 YOLACT-ResNeSt101模型精度 Table 3 The accuracy of YOLACT-ResNeSt101 model YOLACT-ResNeSt101 mAP all(%)mAP50(%)mAP70(%)mAP90(%) box 95.14 100 100 96.63 mask 98.13 100 100 97.98 使用YOLACT-ResNeSt101在410张未参与训练的图像上进行测试，分别使用原始YOLACT 的裁剪模板和本文提出的筛选模板策略进行测试实验，在测试结果中分割的曲线基本贴合真实曲线的比例如表4所示通过对比，可以看出：(1)将YOLACT主干网络由ResNet101更换为 ResNeSt1O1后网络性能更佳：(2)筛选模板策略能够比原始的裁剪模板策略获得更高的准确率。表4模型改进前后提取关键曲线的准确率对比 Comparison of curve extraction accuracy before and after model improvement Model Accuracy YOLACT-ResNet101-crop 308/410 YOLACT-ResNet101-select 381/410 YOLACT-ResNeSt101-crop 344/410 YOLACT-ResNeSt101-select 395/410 本文在测试结果中使用不同颜色将不同实例模板中连通域的边缘标识在原图中，以此来判断连通域外轮廓是否贴合真实的曲线，选取具有代表性的测试结果图展示在图8中

(a) (b) (c) 图 7 损失曲线. (a) 位置损失; (b) 分类损失; (c) 模板损失 Fig.7 Loss curves: (a) box loss; (b) class loss; (c) mask loss 在验证集上分别使用 YOLACT- ResNet101- crop（主干网络 ResNet101+裁剪模板策略）、 YOLACT- ResNet101- select（主干网络 ResNet101+筛选模板策略）、YOLACT- ResNest101- crop （主干网络 ResNest101+裁剪模板策略）、YOLACT- ResNest101- select（主干网络 ResNest101+筛选模板策略）四种方法得到的 mIOU 和 Dice coefficient 如表 2 所示。改进 YOLACT 模型在验证集上的模型精度如表 3 所示，其中“box”代表目标检测的精度，“mask”代表语义分割的精度。实验中设置不同 IOU 阈值为 0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95，将不同阈值对应的 mAP 值进行平均得到模型的 mAP_all，如表 3 第二列所示，表 3 第三列至第五列分别为 IOU 阈值为 0.50、0.70、0.90 的 mAP 值。综合表 2、表 3 可以看出本文所述改进 YOLACT 模型的精度有所提高。表 2 不同 YOLACT 模型的分割精度 Table 2 Segmentation accuracy of different YOLACT models Model mIOU Dice coefficient YOLACT- ResNet101- crop 0.9514 0.9943 YOLACT- ResNet101- select YOLACT- ResNeSt101- crop YOLACT- ResNeSt101- select 0.9518 0.9539 0.9544 0.9943 0.9950 0.9950 表 3 YOLACT-ResNeSt101 模型精度 Table 3 The accuracy of YOLACT-ResNeSt101 model YOLACT- ResNeSt101 mAP_all(%) mAP50(%) mAP70(%) mAP90(%) box 95.14 100 100 96.63 mask 98.13 100 100 97.98 使用 YOLACT- ResNeSt101 在 410 张未参与训练的图像上进行测试，分别使用原始 YOLACT 的裁剪模板和本文提出的筛选模板策略进行测试实验，在测试结果中分割的曲线基本贴合真实曲线的比例如表 4 所示。通过对比，可以看出：（1）将 YOLACT 主干网络由 ResNet101 更换为 ResNeSt101 后网络性能更佳；（2）筛选模板策略能够比原始的裁剪模板策略获得更高的准确率。表 4 模型改进前后提取关键曲线的准确率对比 Table 4 Comparison of curve extraction accuracy before and after model improvement Model Accuracy YOLACT- ResNet101- crop 308/410 YOLACT- ResNet101- select 381/410 YOLACT- ResNeSt101- crop 344/410 YOLACT- ResNeSt101- select 395/410 本文在测试结果中使用不同颜色将不同实例模板中连通域的边缘标识在原图中，以此来判断连通域外轮廓是否贴合真实的曲线，选取具有代表性的测试结果图展示在图 8 中。录用稿件，非最终出版稿

(a)(b)(c)(d)1 图8分割结果.(a)(c)裁剪模板的结果，bd/筛选模板的结果 Fig.8 Segmentation results:(a)(c)cropping mask results;(b)(d)screening mask results 从图8()、(c)中可以看出裁剪模板结果中出现多直线边缘，这是由于预测的边界框偏小，将正确的分割区域裁剪去除了，从表2可以看出分割的模板的准确率相比于边界框的准确率更高，所以使用边界框裁剪反而会破坏准确率更高的模板的完整性。从图8(b)、()中可以看出，本文使用的筛选模板策略能够保证模板的完整性，准确率更高。 2.3.2算法实时性比较为判断本文所述两点改进是否影响YOLACT本身的实时性，本文使用410张未参与训练的图像进行测试，结果如表5所示，笔三列表示410幅图像总共处理时长。通过对比，可以看出：将 YOLACT主干网络由ResNet101更换为ResNeSt101后YOLACT本身的实时性稍有降低：将原始的裁剪模板策略更换为筛选模板策略对YOLACT本身的实时特性几乎没有影响。本文所述方法对于实时性要求不高或者仅处理图像的应用场合是没有影响的。表5模型改进前后实时性对比 Table 5 Real-time performance before and after model improvement Model FPS Time(s) YOVACT ResNet101-crop 24.6 16.6 YOLACT-ResNet101-select 24.8 16.5 YOLACT-ResNeSt101-crop 16.6 24.6 YOLACT-ResNeSt101-select 16.8 24.4 2.4本文方法与其他方法的比较为了证明改进YOLACT模型在提取人耳关键曲线时与其他分割算法相比的优越性，选取上述图像集对DeepLabV3+模型进行五折交叉训练。两种模型的模型分割精度比较见表6。结果表明，改进的YOLACT模型比DeepLabV3+模型具有更高的分割精度。图9展示了本文所述改进YOLACT模型、DeepLabV3+模型和使用传统轮廓估计的检测效果。可以看出，用改进的YOLACT分割出的模板边缘更接近于人耳的关键曲线，而用DeepLabV3+模型分割出的模板边缘与实际曲线有一定的偏离，使用传统轮廓估计检测的边缘很粗糙，无法将耳轮、对耳轮和耳甲三类分割出来

(a) (b) (c) (d) 图 8 分割结果. (a)(c) 裁剪模板的结果; (b)(d) 筛选模板的结果 Fig.8 Segmentation results: (a)(c) cropping mask results; (b)(d) screening mask results 从图 8(a)、(c)中可以看出裁剪模板结果中出现多出直线边缘，这是由于预测的边界框偏小，将正确的分割区域裁剪去除了，从表 2 可以看出分割的模板的准确率相比于边界框的准确率更高，所以使用边界框裁剪反而会破坏准确率更高的模板的完整性。从图 8(b)、(d)中可以看出，本文使用的筛选模板策略能够保证模板的完整性，准确率更高。 2.3.2 算法实时性比较为判断本文所述两点改进是否影响 YOLACT 本身的实时性，本文使用 410 张未参与训练的图像进行测试，结果如表 5 所示，第三列表示 410 幅图像总共处理时长。通过对比，可以看出：将 YOLACT 主干网络由 ResNet101 更换为 ResNeSt101 后 YOLACT 本身的实时性稍有降低；将原始的裁剪模板策略更换为筛选模板策略对 YOLACT 本身的实时特性几乎没有影响。本文所述方法对于实时性要求不高或者仅处理图像的应用场合是没有影响的。表 5 模型改进前后实时性对比 Table 5 Real-time performance before and after model improvement Model FPS Time(s) YOLACT- ResNet101- crop 24.6 16.6 YOLACT- ResNet101- select 24.8 16.5 YOLACT- ResNeSt101- crop 16.6 24.6 YOLACT- ResNeSt101- select 16.8 24.4 2.4 本文方法与其他方法的比较为了证明改进 YOLACT 模型在提取人耳关键曲线时与其他分割算法相比的优越性，选取上述图像集对 DeepLabV3+ 模型进行五折交叉训练。两种模型的模型分割精度比较见表 6。结果表明，改进的 YOLACT 模型比 DeepLabV3+ 模型具有更高的分割精度。图 9 展示了本文所述改进 YOLACT 模型、DeepLabV3+ 模型和使用传统轮廓估计的检测效果。可以看出，用改进的 YOLACT 分割出的模板边缘更接近于人耳的关键曲线，而用 DeepLabV3+ 模型分割出的模板边缘与实际曲线有一定的偏离，使用传统轮廓估计检测的边缘很粗糙，无法将耳轮、对耳轮和耳甲三类分割出来。录用稿件，非最终出版稿

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录