第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992tis.202010004 基于改进的YOLO3算法的乳腺超声肿瘤识别 徐立芳,傅智杰2,莫宏伟 (1.哈尔滨工程大学工程训练中心,黑龙江哈尔滨150001,2.哈尔滨工程大学自动化学院,黑龙江哈尔滨 150001) 摘要:为了提高乳腺癌诊断的效率以及准确性,本文提出一种基于改进的YOLO3算法来构建一个乳腺超声 肿瘤识别算法,辅助医生进行乳腺癌的诊断。首先在Res2Net网络上融入SE模块构建SE-Res2Net网络来取代 原始YOLOv23中的特征提取网络,以此提升模型特征提取的能力。然后通过搭建一个新型下采样模块(dowm sample block)来解决原始模型中下采样操作容易出现信息丢失的不足。最后为了进一步提升模型特征提取的 能力,结合残差连接网络以及密集连接网络的优点构建Res-DenseNet网络来替换原始模型的残差连接方式。 实验结果表明:改进后的YOLOv3算法比原始YOLOv3算法的mAP提高了4.56%,取得较好的检测结果。 关键词:乳腺癌;超声影像;YOLOv3;SE-Res2Net;下采样模块;残差连接;密集连接 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)01-0021-09 中文引用格式:徐立芳,傅智杰,莫宏伟.基于改进的Y0L0v3算法的乳腺超声肿瘤识别川.智能系统学报,2021,16(1): 21-29. 英文引用格式:XU Lifang,,FU Zhijie,,MO Hongwei..Tumor recognition in breast ultrasound images based on an improved YOLOv3 algorithm[J].CAAI transactions on intelligent systems,2021,16(1):21-29. Tumor recognition in breast ultrasound images based on an improved YOLOv3 algorithm XU Lifang',FU Zhijie',MO Hongwei (1.Engineering Training Center,Harbin Engineering University,Harbin 150001,China;2.Automation College,Harbin Engineering University,Harbin 150001,China) Abstract:To improve the efficiency and accuracy of breast cancer diagnoses,a breast ultrasound tumor recognition al- gorithm based on an improved YOLOV3 algorithm is proposed to assist doctors in breast cancer diagnosis.First,the SE module is integrated into Res2Net to construct Se-Res2Net to replace the original feature extraction network in YOLOv3 to improve the ability of model feature extraction.Then,a new Downsample Block is built to solve the prob- lem of information loss in the downsampling operation of the original model.Finally,to further improve the ability of feature extraction,the residual connection network and dense connection network are combined to construct Res- DenseNet to replace the residual connection mode of the original model.The experimental results show that the above improvements are effective,and the mAP of the improved algorithm is 4.56%higher than that of the original algorithm. Keywords:breast cancer;ultrasonography;YOLOv3;SE-Res2Net;downsample block:residual connection;dense con- nection 乳腺癌是女性中最常见的癌症,也是全世界 乳腺癌死亡的病例,乳腺癌已经影响了约12%美 癌症死亡的主要原因之一,其死亡率仅低于肺 国女性日常生活),早期发现可以增加患者治疗 癌),根据美国癌症协会(american cancer 的机会进而提高患者的生存率,因此,乳腺癌 society)对2019年癌症患者的统计,在美国经确 的筛查及早期诊断尤为重要,现阶段,乳腺癌诊 诊的浸润性乳腺癌有约268600例新病例和非浸 断的方法主要有:磁共振成像(magnetic resonance 润性乳腺癌约62930例新病例以及41760例因 imaging,MRI)、正电子发射型计算机断层显像 收稿日期:2020-10-09. (positron emission computed tomography,PET)、超声 通信作者:莫宏伟.E-mail:honwei2004@126.com 成像和X线摄影等,其中MRI和PET价格较为昂
DOI: 10.11992/tis.202010004 基于改进的 YOLOv3 算法的乳腺超声肿瘤识别 徐立芳1 ,傅智杰2 ,莫宏伟2 (1. 哈尔滨工程大学 工程训练中心,黑龙江 哈尔滨 150001; 2. 哈尔滨工程大学 自动化学院,黑龙江 哈尔滨 150001) 摘 要:为了提高乳腺癌诊断的效率以及准确性,本文提出一种基于改进的 YOLOv3 算法来构建一个乳腺超声 肿瘤识别算法,辅助医生进行乳腺癌的诊断。首先在 Res2Net 网络上融入 SE 模块构建 SE-Res2Net 网络来取代 原始 YOLOv3 中的特征提取网络,以此提升模型特征提取的能力。然后通过搭建一个新型下采样模块(downsample block)来解决原始模型中下采样操作容易出现信息丢失的不足。最后为了进一步提升模型特征提取的 能力,结合残差连接网络以及密集连接网络的优点构建 Res-DenseNet 网络来替换原始模型的残差连接方式。 实验结果表明:改进后的 YOLOv3 算法比原始 YOLOv3 算法的 mAP 提高了 4.56%,取得较好的检测结果。 关键词:乳腺癌;超声影像;YOLOv3;SE-Res2Net;下采样模块;残差连接;密集连接 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)01−0021−09 中文引用格式:徐立芳, 傅智杰, 莫宏伟. 基于改进的 YOLOv3 算法的乳腺超声肿瘤识别 [J]. 智能系统学报, 2021, 16(1): 21–29. 英文引用格式:XU Lifang, FU Zhijie, MO Hongwei. Tumor recognition in breast ultrasound images based on an improved YOLOv3 algorithm[J]. CAAI transactions on intelligent systems, 2021, 16(1): 21–29. Tumor recognition in breast ultrasound images based on an improved YOLOv3 algorithm XU Lifang1 ,FU Zhijie2 ,MO Hongwei2 (1. Engineering Training Center, Harbin Engineering University, Harbin 150001, China; 2. Automation College, Harbin Engineering University, Harbin 150001, China) Abstract: To improve the efficiency and accuracy of breast cancer diagnoses, a breast ultrasound tumor recognition algorithm based on an improved YOLOV3 algorithm is proposed to assist doctors in breast cancer diagnosis. First, the SE module is integrated into Res2Net to construct Se-Res2Net to replace the original feature extraction network in YOLOv3 to improve the ability of model feature extraction. Then, a new Downsample Block is built to solve the problem of information loss in the downsampling operation of the original model. Finally, to further improve the ability of feature extraction, the residual connection network and dense connection network are combined to construct ResDenseNet to replace the residual connection mode of the original model. The experimental results show that the above improvements are effective, and the mAP of the improved algorithm is 4.56% higher than that of the original algorithm. Keywords: breast cancer; ultrasonography; YOLOv3; SE-Res2Net; downsample block; residual connection; dense connection 乳腺癌是女性中最常见的癌症,也是全世界 癌症死亡的主要原因之一,其死亡率仅低于肺 癌 [ 1 ] ,根据美国癌症协 会 (american cancer society) 对 2019 年癌症患者的统计,在美国经确 诊的浸润性乳腺癌有约 268 600 例新病例和非浸 润性乳腺癌约 62 930 例新病例以及 41 760 例因 乳腺癌死亡的病例,乳腺癌已经影响了约 12% 美 国女性日常生活[2] ,早期发现可以增加患者治疗 的机会进而提高患者的生存率[3-4] ,因此,乳腺癌 的筛查及早期诊断尤为重要,现阶段,乳腺癌诊 断的方法主要有:磁共振成像 (magnetic resonance imaging, MRI)、正电子发射型计算机断层显像 (positron emission computed tomography, PET)、超声 成像和 X 线摄影等,其中 MRI 和 PET 价格较为昂 收稿日期:2020−10−09. 通信作者:莫宏伟. E-mail:honwei2004@126.com. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
·22· 智能系统学 报 第16卷 贵且具有辐射性:X线摄影只能对特定的断面 的ROI区域。 进行诊断,灵敏度低,相比于MRI、PET和X线, Cai等9首先提取出138个病例的乳腺超声 超声成像技术不仅价格低廉、不具有放射性,而 图像的ROI区域,之后提出了一种结合相位一致 且可以将各个断面的绝大部分的病变区域显示出 性和局部二值模式(local binary pattern,LBP)特征 来,尤其针对亚洲年轻女性较为紧密的乳腺组 的局部纹理描述符特征,最后采用支持向量机 织,超声成像技术有着更好的检测效果,更适合 (support vector machine,.SVM)分类器来区分乳腺 于对乳腺肿瘤进行大规模的检查-。 超声图像中的良恶性肿瘤;Huang等o1首先利用 虽然超声成像已成为早期诊断的最受欢迎的 分水岭算法来获取乳腺超声图像初始轮廓,然后 检测方式,但超声检测在实际应用中仍然存在较 采用最小化能量函数进一步得到精确的肿瘤边 多的困难: 界,最后采用支持向量机对乳腺肿瘤超声图像做 1)超声成像过程较为复杂容易造成严重的噪 良恶性识别:Shahriar等将得到的超声图像先 声,同时鉴于乳腺肿瘤的浸润性,其对比度和分 寻找轮廓,之后提取纹理和统计特征,最后采用 辨率比较低,边界模糊: 神经网络来分类;Menon等首先采用基于局部 2)由于超声波频率较高、缠头能力强,对于 区域的主动轮廓法对预处理后的乳腺超声图像精 较多的小于10mm的小肿瘤很难进行准确的鉴别; 确地确定ROI区域,接着提取纹理及形态等特 3)超声波束具有反射、折射等特点,而不同 征,最后采用SVM对其进行分类。 人体的组织器官的声阻抗具有较大差异,而极易 这些传统的识别方法虽然在一定程度上实现 导致超声图像生成伪像。 了超声肿瘤识别,但都基本需要进行人工的特征 然而,影像科医生往往都是根据自己的工作 提取,往往识别精度较低、鲁棒性较差、通用性不 经验来分析超声图像,借助肿瘤的形状、大小、能 强,故很难应用到实际的诊断中。 量、密度等相关的特征来分辨肿瘤良恶性,对于 近几年,随着深度学习的兴起,部分研究人员 相同的一幅图像,不同医生的分析可能会有一定 又提出基于深度学习的方法来进行肿瘤识别,例 差异,不同时期图像的属性也有所不同,因此判 如:Xiao Ting等1提出采用深度迁移融合的方法 读结果也会不同,除此之外,乳腺超声图像的诊 来实现乳腺超声肿瘤识别,其采用Resnet:50、 断工作较为复杂,特别对于中型和大型医院病人 Xception和Inception V3这3种卷积神经网络提 较多、工作量较大的情况,单纯依赖医生诊断容 取的不同的特征进行迁移融合,接着采用前向神 易发生错误诊断,这将大大影响病人的有效治疗 经网络来分类。Han等首先对获取的5151例 时间,给病人的生命财产造成严重的影响,基于 患者的7408张超声图像进行了ROI区域人工提 以上原因,完全依赖医生的人工处理容易由于疲 取,之后将其输入到改进后的GoogLeNet网络中 劳而造成误诊率上升的现象,随着人工智能相 进行特征提取和分类,结果显示,AUC大于0.9, 关理论的发展,基于深度学习的乳腺超声肿瘤识 准确性为90%,灵敏度为86%,特异度为96%。 别技术有着重要的研究价值和意义。 梁舒和王恒立等s-161分别采用优化后的U-net和 1相关工作 全卷积网络进行超声乳腺肿瘤ROI区域的分割, 最终在数据集上分别实现了82.5%、83.48%的准 目前乳腺肿瘤的识别方法主要可分为2类: 确率。 乳腺肿瘤传统识别方法以及基于深度学习的乳腺 目前基于深度学习乳腺肿瘤识别方法,基本 肿瘤识别方法。 都是仅限于采用图像分割的方法定位ROI区域 乳腺肿瘤传统识别方法包含了乳腺超声肿瘤 或将给定的ROI区域分类为良性或恶性,而并不 图像预处理、区域分割、特征提取和分类4步。 能同时实现对ROI区域的定位和对肿瘤的分类, 由于先前的过程会影响后续过程,因此这些方法 给医护人员的诊断带了极大的不变,最近,Osman 都需要非常精确地处理每一个步骤,按照是否强 提出采用基于改进的FCN-AlexNet和基于改进的 调分类和强调目标感兴趣区域(region of interest,. Mask R-CNN语义分割模型实现端到端的超声肿 RO)提取将传统方法分成2类,其中强调分类的 瘤识别,同时执行定位和分类,目前这种采用图 方法通常需要人工手动或半自动获取ROI区域! 像分割的乳腺超声肿瘤识别的方法,虽然较为精 更加侧重于开发区分良性恶性肿瘤的有效特征和 确地定位超声肿瘤的边界且实现了良恶性识别, 分类器的选择;而强调ROI区域提取的方法都是 但这种图像语义分割的方法需要手动标注大量肿 侧重于开发更优的图像分割方法定位超声肿瘤 瘤分割的数据集,而制作分割数据集的过程非常
贵且具有辐射性[5] ;X 线摄影只能对特定的断面 进行诊断,灵敏度低[6] ;相比于 MRI、PET 和 X 线, 超声成像技术不仅价格低廉、不具有放射性,而 且可以将各个断面的绝大部分的病变区域显示出 来,尤其针对亚洲年轻女性较为紧密的乳腺组 织,超声成像技术有着更好的检测效果,更适合 于对乳腺肿瘤进行大规模的检查[7-8]。 虽然超声成像已成为早期诊断的最受欢迎的 检测方式,但超声检测在实际应用中仍然存在较 多的困难: 1) 超声成像过程较为复杂容易造成严重的噪 声,同时鉴于乳腺肿瘤的浸润性,其对比度和分 辨率比较低,边界模糊; 2) 由于超声波频率较高、缠头能力强,对于 较多的小于 10 mm 的小肿瘤很难进行准确的鉴别; 3) 超声波束具有反射、折射等特点,而不同 人体的组织器官的声阻抗具有较大差异,而极易 导致超声图像生成伪像。 然而,影像科医生往往都是根据自己的工作 经验来分析超声图像,借助肿瘤的形状、大小、能 量、密度等相关的特征来分辨肿瘤良恶性,对于 相同的一幅图像,不同医生的分析可能会有一定 差异,不同时期图像的属性也有所不同,因此判 读结果也会不同,除此之外,乳腺超声图像的诊 断工作较为复杂,特别对于中型和大型医院病人 较多、工作量较大的情况,单纯依赖医生诊断容 易发生错误诊断,这将大大影响病人的有效治疗 时间,给病人的生命财产造成严重的影响,基于 以上原因,完全依赖医生的人工处理容易由于疲 劳而造成误诊率上升的现象[8] ,随着人工智能相 关理论的发展,基于深度学习的乳腺超声肿瘤识 别技术有着重要的研究价值和意义。 1 相关工作 目前乳腺肿瘤的识别方法主要可分为 2 类: 乳腺肿瘤传统识别方法以及基于深度学习的乳腺 肿瘤识别方法。 乳腺肿瘤传统识别方法包含了乳腺超声肿瘤 图像预处理、区域分割、特征提取和分类 4 步。 由于先前的过程会影响后续过程,因此这些方法 都需要非常精确地处理每一个步骤,按照是否强 调分类和强调目标感兴趣区域 (region of interest, ROI) 提取将传统方法分成 2 类,其中强调分类的 方法通常需要人工手动或半自动获取 ROI 区域, 更加侧重于开发区分良性恶性肿瘤的有效特征和 分类器的选择;而强调 ROI 区域提取的方法都是 侧重于开发更优的图像分割方法定位超声肿瘤 的 ROI 区域。 Cai 等 [9] 首先提取出 138 个病例的乳腺超声 图像的 ROI 区域,之后提出了一种结合相位一致 性和局部二值模式 (local binary pattern, LBP) 特征 的局部纹理描述符特征,最后采用 支持向量机 (support vector machine, SVM)分类器来区分乳腺 超声图像中的良恶性肿瘤;Huang 等 [10] 首先利用 分水岭算法来获取乳腺超声图像初始轮廓,然后 采用最小化能量函数进一步得到精确的肿瘤边 界,最后采用支持向量机对乳腺肿瘤超声图像做 良恶性识别;Shahriar 等 [11] 将得到的超声图像先 寻找轮廓,之后提取纹理和统计特征,最后采用 神经网络来分类;Menon 等 [12] 首先采用基于局部 区域的主动轮廓法对预处理后的乳腺超声图像精 确地确定 ROI 区域,接着提取纹理及形态等特 征,最后采用 SVM 对其进行分类。 这些传统的识别方法虽然在一定程度上实现 了超声肿瘤识别,但都基本需要进行人工的特征 提取,往往识别精度较低、鲁棒性较差、通用性不 强,故很难应用到实际的诊断中。 近几年,随着深度学习的兴起,部分研究人员 又提出基于深度学习的方法来进行肿瘤识别,例 如:Xiao Ting 等 [13] 提出采用深度迁移融合的方法 来实现乳腺超声肿瘤识别,其采用 Resnet50、 Xception 和 Inception V3 这 3 种卷积神经网络提 取的不同的特征进行迁移融合,接着采用前向神 经网络来分类。Han 等 [14] 首先对获取的 5 151 例 患者的 7 408 张超声图像进行了 ROI 区域人工提 取,之后将其输入到改进后的 GoogLeNet 网络中 进行特征提取和分类,结果显示,AUC 大于 0.9, 准确性为 90%,灵敏度为 86%,特异度为 96%。 梁舒和王恒立等[15-16]分别采用优化后的 U-net 和 全卷积网络进行超声乳腺肿瘤 ROI 区域的分割, 最终在数据集上分别实现了 82.5% 、 83.48% 的准 确率。 目前基于深度学习乳腺肿瘤识别方法,基本 都是仅限于采用图像分割的方法定位 ROI 区域 或将给定的 ROI 区域分类为良性或恶性,而并不 能同时实现对 ROI 区域的定位和对肿瘤的分类, 给医护人员的诊断带了极大的不变,最近,Osman [17-18] 提出采用基于改进的 FCN-AlexNet 和基于改进的 Mask R-CNN 语义分割模型实现端到端的超声肿 瘤识别,同时执行定位和分类,目前这种采用图 像分割的乳腺超声肿瘤识别的方法,虽然较为精 确地定位超声肿瘤的边界且实现了良恶性识别, 但这种图像语义分割的方法需要手动标注大量肿 瘤分割的数据集,而制作分割数据集的过程非常 ·22· 智 能 系 统 学 报 第 16 卷
第1期 徐立芳,等:基于改进的YOLOv3算法的乳腺超声肿瘤识别 ·23· 繁琐,极大地增加了专业医生标注的负担,因此 其中Darknet-53层由1个卷积块DBL和5个 并不适合大规模的应用。 残差块Res.(n=1,2,4,8)组成,DBL是卷积(conv)、 2019年5月Shin等u在IEEE Transac-.tions 批规范化(BN)和激活函数(leaky relu)的集合,这 on Medical Imaging首次提出采用基于深度学习中 也是YOLOv3中的最小组件,Resn中的n表示残 的目标检测算法来同时实现乳腺超声肿瘤的定位 差网络Res的个数,而Res是2个DBL加上短连 和分类,其采用Faster R-CNN算法并借助合作医 接(shortcut)组成,经过Darknet-53网络特征提取 院所提供的数据集对模型进行训练和测试,但由 后,输出大小为13×13×1024特征图,经过上采样 于Faster R-CNN算法检测速率和检测精度较低, 与浅层特征图拼接(见图1中的concat),输出3个 无法直接应用到实际中,因此本文仍沿着这一思 尺度的特征图用于YOLO层的检测结果的预测, 路,首先使用检测速率和精度均较高的YOLOv3 也就是每个box负责对3个Anchor box进行回 算法进行肿瘤识别,然后针对乳腺超声肿瘤识别 归,其预测结果包括目标的中心位置x和y、宽高 中的相关问题对算法进行改进。 w和h、置信度以及类别,在YOLOv1版本中,x、 2传统YOLOv23算法 八、w、h是直接预测物体实际值,预测值的微小变 化都会被放大到整个图像的范围,导致坐标波动 YOLO3算法将目标检测问题转化为回归问题, 较大,预测不准确,YOLOv3采用改进后的算法 合并分类和定位任务到一个步骤,直接预测物体的 求解预测值,之后通过对置信度设定阈值过滤掉 位置及类别,其包含了新特征提取网络Darknet-53 低分的预测框,然后对剩下的预测框执行非极大 以及3种尺度的YOLO层,分别用于特征提取和 值抑制算法(non-maximum suppression,NMS)处 与多尺度预测,网络结构如图1所示。 理,得到网络最终的预测结果。 Darknet-53 1卷积块×5 YOLO 卷积块resres,ress 卷积块 卷积块卷积层 13×13×256 416×416×3 卷积块上采样 卷积块× 拼接 积块 橙积块卷积层 26×26×256 卷积块上采样 卷积块×5 积块-卷积层批微活函数 拼接 卷积块 卷积块卷积层 52×52×256 「残差网络单元 卷积块卷积块 相加 Res 补零爸积典 Res Res 残差网络单元×n 图1 YOLOv.3网络结构 Fig.1 YOLOv3 network structure 3改进的YOLOv3算法 大每个网络层的感受野,提取更加有效的特征,充 分利用单层内的特征,考虑通过改进ResNet网络 尽管YOLOV3在目标识别算法中表现优异, 多样性角度来改进网络结构,提出将SE(sequeze 但乳腺超声肿瘤图像相对其他图像而言,边界更 加模糊、噪声更大、对比度更低,导致特征更难提 and excitation)模块和Res2Net2种网络进行融合 取,更容易出现错误识别和遗漏目标的问题,本 组成SE-Res2Net以改进原始的ResNet结构。 节针对乳腺超声图像特征难提取的问题,从3个 SE模块是2017年由胡杰提出的,SE模块 角度对YOLOv:3的特征提取网络DarkNet-.53进行 则是从卷积的通道特征角度通过局部的感受野 改进并进行实验验证,以提高网络图像特征的提 将深度信息和空间信息进行融合,其结构如图2 取能力。 所示。SE模块可分为Squeeze和Excitation2个部 3.1残差模块设计 分,其中X为输入,F。为卷积操作,U为卷积输出, YOLOv3中的Residual残差模块结构在特征 其特征图大小为W×H×C,其首先将卷积后的特 提取过程中参考了ResNet结构,ResNet克服了梯 征图U送到Squeeze中,对其沿着通道方向采用 度消失问题,增强了特征表达力,本节中,为了扩 一个全局平均池化操作对特征图进行压缩,将整
繁琐,极大地增加了专业医生标注的负担,因此 并不适合大规模的应用。 2019 年 5 月 Shin 等 [19] 在 IEEE Transac-tions on Medical Imaging 首次提出采用基于深度学习中 的目标检测算法来同时实现乳腺超声肿瘤的定位 和分类,其采用 Faster R-CNN 算法并借助合作医 院所提供的数据集对模型进行训练和测试,但由 于 Faster R-CNN 算法检测速率和检测精度较低, 无法直接应用到实际中,因此本文仍沿着这一思 路,首先使用检测速率和精度均较高的 YOLOv3 算法进行肿瘤识别,然后针对乳腺超声肿瘤识别 中的相关问题对算法进行改进。 2 传统 YOLOv3 算法 YOLOv3 算法将目标检测问题转化为回归问题, 合并分类和定位任务到一个步骤,直接预测物体的 位置及类别,其包含了新特征提取网络 Darknet-53 以及 3 种尺度的 YOLO 层,分别用于特征提取和 与多尺度预测,网络结构如图 1 所示[20]。 其中 Darknet-53 层由 1 个卷积块 DBL 和 5 个 残差块 Resn (n=1,2,4,8) 组成,DBL 是卷积 (conv)、 批规范化 (BN) 和激活函数 (leaky relu) 的集合,这 也是 YOLOv3 中的最小组件,Resn 中的 n 表示残 差网络 Res 的个数,而 Res 是 2 个 DBL 加上短连 接 (shortcut) 组成,经过 Darknet-53 网络特征提取 后,输出大小为 13×13×1 024 特征图,经过上采样 与浅层特征图拼接 (见图 1 中的 concat),输出 3 个 尺度的特征图用于 YOLO 层的检测结果的预测, 也就是每个 box 负责对 3 个 Anchor box 进行回 归,其预测结果包括目标的中心位置 x 和 y、宽高 w 和 h、置信度以及类别,在 YOLOv1 版本中, x、 y、w、h 是直接预测物体实际值,预测值的微小变 化都会被放大到整个图像的范围, 导致坐标波动 较大, 预测不准确,YOLOv3 采用改进后的算法 求解预测值,之后通过对置信度设定阈值过滤掉 低分的预测框,然后对剩下的预测框执行非极大 值抑制算法(non-maximum suppression, NMS)处 理,得到网络最终的预测结果。 Darknet-53 416×416×3 13×13×256 y1 26×26×256 y2 52×52×256 y3 卷积块×5 YOLO 卷积块×5 卷积块×5 Resn Res Res 卷积块 卷积块 卷积块 卷积块 卷积块 卷积块 卷积层 批归 一化 激活函数 卷积块 相加 卷积块 残差网络单元×n 补零 卷积块 卷积块 卷积块 卷积块卷积层 卷积层 上采样 上采样 拼接 拼接 res1 res2 res8 res8 res4 卷积块卷积层 残差网络单元 图 1 YOLOv3 网络结构 Fig. 1 YOLOv3 network structure 3 改进的 YOLOv3 算法 尽管 YOLOV3 在目标识别算法中表现优异, 但乳腺超声肿瘤图像相对其他图像而言,边界更 加模糊、噪声更大、对比度更低,导致特征更难提 取,更容易出现错误识别和遗漏目标的问题,本 节针对乳腺超声图像特征难提取的问题,从 3 个 角度对 YOLOv3 的特征提取网络 DarkNet-53 进行 改进并进行实验验证,以提高网络图像特征的提 取能力。 3.1 残差模块设计 YOLOv3 中的 Residual 残差模块结构在特征 提取过程中参考了 ResNet 结构,ResNet 克服了梯 度消失问题,增强了特征表达力,本节中,为了扩 大每个网络层的感受野,提取更加有效的特征,充 分利用单层内的特征,考虑通过改进 ResNet 网络 多样性角度来改进网络结构,提出将 SE (sequeze and excitation) 模块和 Res2Net 2 种网络进行融合 组成 SE-Res2Net 以改进原始的 ResNet 结构。 X Ftr U W × H ×C U SE 模块是 2017 年由胡杰[21] 提出的,SE 模块 则是从卷积的通道特征角度通过局部的感受野 将深度信息和空间信息进行融合,其结构如图 2 所示。SE 模块可分为 Squeeze 和 Excitation 2 个部 分,其中 为输入, 为卷积操作, 为卷积输出, 其特征图大小为 ,其首先将卷积后的特 征图 送到 Squeeze 中,对其沿着通道方向采用 一个全局平均池化操作对特征图进行压缩,将整 第 1 期 徐立芳,等:基于改进的 YOLOv3 算法的乳腺超声肿瘤识别 ·23·
·24· 智能系统学报 第16卷 个输入的二维平面变成一个实数,采用这个实数来 数,第2个全连接网络将通道数变成C,2个全连 表示整个二维平面的特征信息,输出1×1×C的 接网络不仅增加了网络非线性,而且通过缩放倍 特征图,之后将其送入Excitation中,用于增强卷 数也实现了降低参数量的效果,接着将Excita- 积层通道间的相互依赖性,Excitation模块在2个 tion的输出经过一个激活函数将权值缩放到0~ 全连接网络中采用了通道的压缩,第1个全连接 1,最后将权值乘以最初输入的特征图U的各个 网络通道数变成原来的C/r,其中r为压缩的倍 通道中,实现对特征的重新分配。 F(.W) F←IIIm -mmm 1×1×C 1×1×C 图2SE模块网络结构 Fig.2 Network structure of SE block SE模块具有迁移性强的特点,可以嵌入到任 3×3卷积的输入,然后将4个通道的特征图进行 何的网络结构中,为最大化利用提取到的超声影 融合,显然Res2Net中每个特征子图下的3×3卷 像中的乳腺肿瘤特征,本节将其与Res2Net2) 积均可利用之前的特征,并且它的输出可以获得 结合组成SE-Res2Net,Res2Net是2019年的 更大的感受野,其在单层内增加了尺度,扩大了 EEE国际计算机视觉与模式识别会议提出的新 感受野范围,更好地利用了上下文信息,充分结 网络,网络结构如图3(b)所示,Res2Net结构采用 合上下文信息可以令分类器更容易检测出具体目 新的卷积方式来代替ResNet中3×3卷积,首先采 标,同时使用多尺度的方法来提取特征使得网络 用一个1×1卷积核将输入的特征图分成4个特征 的整体语义表征能力更加出色,特征表现力更 子图,每个特征子图均对应一个3×3卷积(第1个 强,最后在1×1卷积之后融合SE模块,能进一步 特征子图除外),将每个特征子图与上一个特征子 结合SE模块的优点:对通道特征进行重新加权, 图对应的卷积的输出的和作为该子图对应的 抑制无用的特征,充分利用了单层中的特征。 1×1卷积 1×1卷积 X X 1×1卷积 3×3 3×3 K 3×3 3×3 K: 3×3 Y Y2 Y Y 3×3卷积 Y 1×1卷积 SE模块 1×1卷积 (a)ResNet (b)Res2Net (c)SE-Res2Net 图3残差网络和SE-Res2Net网络 Fig.3 Residual network and SE-Res2Net network 3.2下采样模块设计 丢失,会在一定程度上影响识别的性能,因此本节 DarkNet-53在每个残差模块前均会有一个步长 综合考虑各种因素,引人类似Inception的结构 为2,大小为3×3的卷积核做下采样,DarkNet-53中 Downsample下采样模块来改进DarkNet-53的下采 一共有5个这样的卷积操作,该模块容易造成特征 样结构,其首先采用多个1×1的卷积核将特征图扩
1×1×C C/r r 个输入的二维平面变成一个实数,采用这个实数来 表示整个二维平面的特征信息,输出 的 特征图,之后将其送入 Excitation 中,用于增强卷 积层通道间的相互依赖性,Excitation 模块在 2 个 全连接网络中采用了通道的压缩,第 1 个全连接 网络通道数变成原来的 ,其中 为压缩的倍 C U 数,第 2 个全连接网络将通道数变成 ,2 个全连 接网络不仅增加了网络非线性,而且通过缩放倍 数也实现了降低参数量的效果,接着将 Excitation 的输出经过一个激活函数将权值缩放到 0 ~ 1,最后将权值乘以最初输入的特征图 的各个 通道中,实现对特征的重新分配。 C′ C W′ H′ H W X U Ftr C W H Fsq (·) Fex (·, W) X Fscale (·, ·) 1×1×C 1×1×C ~ 图 2 SE 模块网络结构 Fig. 2 Network structure of SE block SE 模块具有迁移性强的特点,可以嵌入到任 何的网络结构中,为最大化利用提取到的超声影 像中的乳腺肿瘤特征,本节将其与 Res2Net[ 2 2 ] 结合组成 SE-Res2Net,Res2Net 是 2019 年的 IEEE 国际计算机视觉与模式识别会议提出的新 网络,网络结构如图 3(b) 所示,Res2Net结构采用 新的卷积方式来代替 ResNet 中 3×3 卷积,首先采 用一个 1×1 卷积核将输入的特征图分成 4 个特征 子图,每个特征子图均对应一个 3×3卷积 (第 1 个 特征子图除外),将每个特征子图与上一个特征子 图对应的卷积的输出的和作为该子图对应的 3×3 卷积的输入,然后将 4 个通道的特征图进行 融合,显然 Res2Net 中每个特征子图下的 3×3 卷 积均可利用之前的特征,并且它的输出可以获得 更大的感受野,其在单层内增加了尺度,扩大了 感受野范围,更好地利用了上下文信息,充分结 合上下文信息可以令分类器更容易检测出具体目 标,同时使用多尺度的方法来提取特征使得网络 的整体语义表征能力更加出色,特征表现力更 强,最后在 1×1 卷积之后融合 SE 模块,能进一步 结合 SE 模块的优点:对通道特征进行重新加权, 抑制无用的特征,充分利用了单层中的特征。 1×1卷积 1×1卷积 X1 X2 X3 X4 3×3 3×3 3×3 Y1 Y2 Y3 Y4 K2 K3 K4 (a) ResNet (b) Res2Net 1×1卷积 3×3卷积 1×1卷积 1×1卷积 X1 X2 X3 X4 3×3 3×3 3×3 Y1 Y2 Y3 Y4 K2 K3 K4 SE 模块 (c) SE-Res2Net 图 3 残差网络和 SE-Res2Net 网络 Fig. 3 Residual network and SE-Res2Net network 3.2 下采样模块设计 DarkNet-53 在每个残差模块前均会有一个步长 为 2,大小为 3×3 的卷积核做下采样,DarkNet-53 中 一共有 5 个这样的卷积操作,该模块容易造成特征 丢失,会在一定程度上影响识别的性能,因此本节 综合考虑各种因素,引入类似 Inception 的结构 Downsample 下采样模块来改进 DarkNet-53 的下采 样结构,其首先采用多个 1×1的卷积核将特征图扩 ·24· 智 能 系 统 学 报 第 16 卷
第1期 徐立芳,等:基于改进的YOLO3算法的乳腺超声肿瘤识别 ·25· 展,之后采用池化层和几个不同大小的卷积核来做 的融合,特征图的尺寸不会发生改变,最后使用 下采样,接着将下采样后的特征图进行融合,这种 1×1滤波器来降低尺寸,将其尺寸变成整个Down- 融合与ResNet残差网络的融合不一样,其只是通道 sample下采样模块输入模块的一半,如图4所示。 1×1卷积 5×5卷积 步长为1 步长为2 残差 1×1卷积 3×3卷积 融合 1×1卷积 残差 模块 步长为1 步长为2 模块 1×1卷积 2×2最大 步长为1 池化 图4 Downsample下采样模块 Fig.4 Downsample network 3.3残差密集网络Res-DenseNet 冗余,为了消除冗余,提取更加高效的特征,在 DarkNet-.53每次下采样输出特征图后,均会 最后一个模块后加入1×1卷积进行降维,随着网 进入一个Residual的残差模块,3.1节将网络中的 络深度的增加,特征的增多,会造成网络难以训 ResNet替换为SE-Res2Net,3.2节将3×3的下采样 练,因此借鉴残差连接的思想,将残差密集网络 模块替换为Downsample模块,为进一步提高网络 中的所有模块均当作ResNet中的卷积层,将 的特征提取能力,在前文基础上,本节引入残差 Downsample下采样的输出与当前模块的输出进 网络ResNet和密集连接网络DenseNet并将其合 行像素相加,这样不仅实现了内部特征上的融 并为残差密集连接网络Res-DenseNet,为了方便 合,而且还会加快网络的收敛速度,除此之外,就 描述改进后的网络,本节以第5个Residual的残 参数上讲,添加1×1卷积层,对网络总参数量几乎 差模块为例解释这一过程,如图5所示,其由一 没有影响。 个Downsample下采样模块和4个残差网络 显然,整个网络输入特征图尺寸是26×26×512, Res2Net组成,输入特征图尺寸是26×26×512,先 在经过下采样模块后,特征图是13×13×1024,先 经过一个Downsample进行下采样特征图变成 将所有SE-Res2Net模块的输出都两两进行了连 13×13×1024,连续经过4个SE-Res2Net后输出。 接,使得网络中每一层输出都接受它前面所有层 的特征作为输入,则每个SE-Res2Net输出后,经 一下采样网络一Ra-5Ra-Raa网5Raa 过特征拼接,输出特征图大小分别为13× 26×26×51213×13×102413×13×102413×13×102413×13×102413×13×1024 13×1280、13×13×1536、13×13×1792、13×13× 图5原始残差模块网络结构 2048,考虑到最后一个残差网络SE-Res2Net输出 Fig.5 Network structure of original residual module 后,经过特征拼接,特征图维度是经过下采样后 在引入密集连接网络DensetNet和ResNet 特征图维度的2倍,采用一个conv1进行特征降 后,改进后的Res-DenseNet网络如图6所示,残差 维输出13×13×1024的特征图,之后借鉴残差网 密集网络Res-DenseNet在DenseNet网络基础上 络ResNet对应通道像素相加的思想,将第一个 引入ResNet,.以充分利用图像的特征,前面所有 conv3下采样输出的特征图与经过conv1特征降 模块的输出均作为下一个模块的输入,这样越靠 维后的特征图进行对应通道像素的相加,最后输 后的模块,特征数量就会越多,容易造成特征的 出大小为13×13×1024的特征图。 密集连接 残差连接 降维 下采样网络 ISF-Res7 SE-Res2 SE-Res2 SE-Res2 1×1卷积 →气相加)· 26×26×512 13×13×102413×13×128013×13×153613×13×179213×13×204813×13×102413×13×1024 图6Res-DenseNet网络 Fig.6 Res-DenseNet Network
展,之后采用池化层和几个不同大小的卷积核来做 下采样,接着将下采样后的特征图进行融合,这种 融合与 ResNet 残差网络的融合不一样,其只是通道 的融合,特征图的尺寸不会发生改变,最后使用 1×1 滤波器来降低尺寸,将其尺寸变成整个 Downsample 下采样模块输入模块的一半,如图 4 所示。 残差 模块 1×1卷积 步长为1 1×1卷积 步长为1 1×1卷积 步长为1 5×5卷积 步长为2 3×3卷积 步长为2 2×2最大 池化 融合 1×1卷积 残差 模块 图 4 Downsample 下采样模块 Fig. 4 Downsample network 3.3 残差密集网络 Res-DenseNet DarkNet-53 每次下采样输出特征图后,均会 进入一个 Residual 的残差模块,3.1 节将网络中的 ResNet 替换为 SE-Res2Net,3.2 节将 3×3 的下采样 模块替换为 Downsample 模块,为进一步提高网络 的特征提取能力,在前文基础上,本节引入残差 网络 ResNet 和密集连接网络 DenseNet 并将其合 并为残差密集连接网络 Res-DenseNet,为了方便 描述改进后的网络,本节以第 5 个 Residual 的残 差模块为例解释这一过程,如图 5 所示,其由一 个 Downsampl e 下采样模块 和 4 个残差网 络 Res2Net 组成,输入特征图尺寸是 26×26×512,先 经过一个 Downsample 进行下采样特征图变成 13×13×1024,连续经过 4 个 SE-Res2Net 后输出。 下采样网络 SE-Res2Net SE-Res2Net SE-Res2Net SE-Res2Net 26×26×512 13×13×1 024 13×13×1 024 13×13×1 024 13×13×1 024 13×13×1 024 图 5 原始残差模块网络结构 Fig. 5 Network structure of original residual module 在引入密集连接网络 DensetNet 和 ResNet 后,改进后的 Res-DenseNet 网络如图 6 所示,残差 密集网络 Res-DenseNet 在 DenseNet 网络基础上 引入 ResNet,以充分利用图像的特征,前面所有 模块的输出均作为下一个模块的输入,这样越靠 后的模块,特征数量就会越多,容易造成特征的 冗余,为了消除冗余,提取更加高效的特征,在 最后一个模块后加入 1×1 卷积进行降维,随着网 络深度的增加,特征的增多,会造成网络难以训 练,因此借鉴残差连接的思想,将残差密集网络 中的所有模块均当作 ResNet 中的卷积层,将 Downsample 下采样的输出与当前模块的输出进 行像素相加,这样不仅实现了内部特征上的融 合,而且还会加快网络的收敛速度,除此之外,就 参数上讲,添加 1×1 卷积层,对网络总参数量几乎 没有影响。 显然,整个网络输入特征图尺寸是 26×26×512, 在经过下采样模块后,特征图是 13×13×1 024,先 将所有 SE-Res2Net 模块的输出都两两进行了连 接,使得网络中每一层输出都接受它前面所有层 的特征作为输入,则每个 SE-Res2Net 输出后,经 过特征拼接,输出特征图大小分别 为 13× 13×1 280、13×13×1 536、13×13×1 792、13×13× 2 048,考虑到最后一个残差网络 SE-Res2Net 输出 后,经过特征拼接,特征图维度是经过下采样后 特征图维度的 2 倍,采用一个 conv1 进行特征降 维输出 13×13×1 024 的特征图,之后借鉴残差网 络 ResNet 对应通道像素相加的思想,将第一个 conv3 下采样输出的特征图与经过 conv1 特征降 维后的特征图进行对应通道像素的相加,最后输 出大小为 13×13×1024 的特征图。 降维 密集连接 残差连接 下采样网络 SE-Res2 SE-Res2 SE-Res2 SE-Res2 26×26×512 13×13×1 024 13×13×1 280 13×13×1 536 13×13×1 792 13×13×2 048 1×1卷积 相加 13×13×1 024 13×13×1 024 图 6 Res-DenseNet 网络 Fig. 6 Res-DenseNet Network 第 1 期 徐立芳,等:基于改进的 YOLOv3 算法的乳腺超声肿瘤识别 ·25·
·26 智能系统学报 第16卷 4实验与分析 4.2实验结果及分析 本文采用了与YOLOv:32o1相同的损失函数, 本文在Ubuntu16.04操作系统下完成软件环 整体的损失函数由3部分组成:类别误差、置信 境平台的搭建和实验,GPU选用NVIDIA Ge- 度误差以及目标框误差。为了加快网络的训练速 Force1080Ti,软件:Python(3.6);keras≥2.1.5; 度和防止过拟合,本文采用Adma算法来做梯度 tensorflow-gpu(1.4.1). 优化,其中设置初始学习率为0.001,每100次迭 4.1数据集 本文实验采用的乳腺超声数据是由专业医生 代后学习率衰减为原来的1/10,冲量为0.9,衰减 从相关医院的数据库选取从2015-2019年不同年 系数为0.0002,epoch设置为25,batch size设置 龄层次、地区和人种的2011例原始病例,共计有 为8,之后对原始的YOLOv3和不同配置的YOLOv3 13586张原始图像,图像大小为768×576,如图7 算法在预训练模型上进行训练,不同配置的YOLO3 所示,经过专业医生筛选剔除后,得到含有肿瘤 算法见表2所示,其中YOLOV31)表示在原YOLOv3 的有效图片共计3259例,其中良性患者共计1199 算法上引入SE-Res2Net网络,YOLOv3(2)表示在 例,恶性患者共计2060例,考虑到虽然原始图像 原YOLOv3上引入SE-ResNet和Downsample下 边框中含有较多的标注信息,如影像保存时间、 采样模块,YOLOv3(3)表示在YOLOv3上引入 超声探头发射频率、探测深度和部位,同时标注 SE-Res2Net、Downsample下采样模块和残差密集 位置不固定,但为了提高算法的鲁棒性,方便实 网络,最后通过查准率-查全率(precision-recall,. 际应用,本实验不再进行人工的区域裁剪,而是 PR)曲线、精度均值(average precision,.AP)和平均 直接使用经过筛选的原始图片作为目标图片。 精度均值(mean average precision,mAP)评价模型 的性能。 表2不同配置的YOLOv3算法 Table 2 YOLOV3 algorithm with different configurations 引入SE-Res2Net引入Downsample引入残差 算法 的残差网络 下采样模块 密集网络 YOLOv3 YOLOv3(1) 图7超声乳腺肿瘤原始图像 Fig.7 Original ultrasound images of breast tumor YOLOv3(2) 该数据库中除了包含有图像信息外,还提供 YOLOv3(3) 了所有病例的病理诊断结果,其良恶性均经过活 检证实,经过专业医生借助ImageLab软件结合病 1)AP和mAP 例信息对进行肿瘤位置和类别标注,生成的PAS 待训练完成后将模型分别在测试集测试,得 CAL VOC格式的文件构建了本实验所需的乳腺 到良性样本的PR曲线和恶性样本的PR曲线如 肿瘤数据集,考虑到数据集较小,直接将数据集 图8、9所示,之后通过计算PR曲线下的面积可 按照3:1:1分成训练集、验证集和测试集,其中训 得到良恶性样本的AP,YOLOV31)良恶性AP相 练集1955张,良性719张、恶性1236张:测试集 对YOLOV3算法提高1.59%和1.73%,其mAP提 652张,良性240张、恶性412;验证集652张,良 高1.66%,这是因为Res2Net在单层内增加了尺 性240张、恶性412,如表1所示。 度,充分利用了单层内的特征;YOLOv3(2)良恶 表1乳腺超声数据集划分 性AP相对于YOLOv3(1)提高了1.18%和3.08%, Table 1 Dividing breast ultrasound data sets mAP提高2.13%,这是由于DownSample模块在 数据集 良性 恶性 共计 定程度上克服了3×3下采样容易丢失特征的缺 训练 719 1236 1955 陷;YOLOV3(3)良恶性AP相对于YOLOv3(2)提 验证 240 412 652 高了0.99%和0.56%,mAP提高0.775%,这是由 测试 于残差密集网络充分利用了前面所有层特征; 240 412 652 合计 YOLOv3(3)相对YOLOv3良恶性AP提高了 1199 2060 3259 3.76%和5.37%,mAP提高了4.56%,证实了本文
4 实验与分析 本文在 Ubuntu 16.04 操作系统下完成软件环 境平台的搭建和实验,GPU 选用 NVIDIA GeForce 1080Ti,软件:Python (3.6);keras ≥ 2.1.5; tensorflow-gpu (≥ 1.4.1)。 4.1 数据集 本文实验采用的乳腺超声数据是由专业医生 从相关医院的数据库选取从 2015-2019 年不同年 龄层次、地区和人种的 2 011 例原始病例,共计有 13 586 张原始图像,图像大小为 768×576,如图 7 所示,经过专业医生筛选剔除后,得到含有肿瘤 的有效图片共计 3 259 例,其中良性患者共计 1 199 例,恶性患者共计 2 060 例,考虑到虽然原始图像 边框中含有较多的标注信息,如影像保存时间、 超声探头发射频率、探测深度和部位,同时标注 位置不固定,但为了提高算法的鲁棒性,方便实 际应用,本实验不再进行人工的区域裁剪,而是 直接使用经过筛选的原始图片作为目标图片。 图 7 超声乳腺肿瘤原始图像 Fig. 7 Original ultrasound images of breast tumor 该数据库中除了包含有图像信息外,还提供 了所有病例的病理诊断结果,其良恶性均经过活 检证实,经过专业医生借助 ImageLab 软件结合病 例信息对进行肿瘤位置和类别标注,生成的 PASCAL VOC 格式的文件构建了本实验所需的乳腺 肿瘤数据集,考虑到数据集较小,直接将数据集 按照 3∶1∶1 分成训练集、验证集和测试集,其中训 练集 1 955 张,良性 719 张、恶性 1 236 张;测试集 652 张,良性 240 张、恶性 412;验证集 652 张,良 性 240 张、恶性 412,如表 1 所示。 表 1 乳腺超声数据集划分 Table 1 Dividing breast ultrasound data sets 数据集 良性 恶性 共计 训练 719 1 236 1955 验证 240 412 652 测试 240 412 652 合计 1199 2 060 3259 4.2 实验结果及分析 本文采用了与 YOLOv3[20] 相同的损失函数, 整体的损失函数由 3 部分组成:类别误差、置信 度误差以及目标框误差。为了加快网络的训练速 度和防止过拟合,本文采用 Adma 算法来做梯度 优化,其中设置初始学习率为 0.001,每 100 次迭 代后学习率衰减为原来的 1/10,冲量为 0.9,衰减 系数为 0.0 002,epoch 设置为 25,batch size 设置 为 8,之后对原始的 YOLOv3 和不同配置的 YOLOv3 算法在预训练模型上进行训练,不同配置的 YOLOv3 算法见表 2 所示,其中 YOLOv3(1) 表示在原 YOLOv3 算法上引入 SE-Res2Net 网络,YOLOv3(2) 表示在 原 YOLOv3 上引入 SE-ResNet 和 Downsample 下 采样模块,YOLOv3(3) 表示在 YOLOv3 上引入 SE-Res2Net、Downsample 下采样模块和残差密集 网络,最后通过查准率−查全率 (precision-recall, PR) 曲线、精度均值 (average precision, AP) 和平均 精度均值 (mean average precision, mAP) 评价模型 的性能。 表 2 不同配置的 YOLOv3 算法 Table 2 YOLOV3 algorithm with different configurations 算法 引入SE-Res2Net 的残差网络 引入Downsample 下采样模块 引入残差 密集网络 YOLOv3 × × × YOLOv3(1) √ × × YOLOv3(2) √ √ × YOLOv3(3) √ √ √ 1) AP 和 mAP 待训练完成后将模型分别在测试集测试,得 到良性样本的 PR 曲线和恶性样本的 PR 曲线如 图 8、9 所示,之后通过计算 PR 曲线下的面积可 得到良恶性样本的 AP,YOLOv3(1) 良恶性 AP 相 对 YOLOV3 算法提高 1.59% 和 1.73%,其 mAP 提 高 1.66%,这是因为 Res2Net 在单层内增加了尺 度,充分利用了单层内的特征;YOLOv3(2) 良恶 性 AP 相对于 YOLOv3(1) 提高了 1.18% 和 3.08%, mAP 提高 2.13%,这是由于 DownSample 模块在一 定程度上克服了 3×3 下采样容易丢失特征的缺 陷;YOLOV3(3) 良恶性 AP 相对于 YOLOv3(2) 提 高了 0.99% 和 0.56%,mAP 提高 0.775%,这是由 于残差密集网络充分利用了前面所有层特征; YOLOv3(3) 相对 YOLOv3 良恶性 AP 提高了 3.76% 和 5.37%,mAP 提高了 4.56%,证实了本文 ·26· 智 能 系 统 学 报 第 16 卷
第1期 徐立芳,等:基于改进的YOLOv:3算法的乳腺超声肿瘤识别 ·27· 在引入Res2Net、DownSample模块和残差密集网 YOLOV3(3)算法均将其识别为恶性,识别的置信 络后,YOLOv3模型的整体性能得到较大的提升。 度分别为95.39%、97.652%、99.31%和99.97%:从 1.0 数据库中随机抽取一个良性样本,如图12所示, YOLOV3、YOLOV3(1)、YOLOV3(2)和 0.8 YOLOV3(3)算法均将其识别为恶性,识别的置信 解06 度分别为97.28%、98.48%、98.89%和99.97%,显 -Faster R-CNN-良性 -YOLOV3-良性 然本文在引入Res2Net、DownSample模块和残差 一YOLOV3(1)-良性 0.2 密集网络后,YOLOV3特征提取能力更强。 YOLOV3 86.88 00.10.20.30.40.50.60.70.80.91.0 86. 查全率 86 85.21 84 83.01 图8测试集上良性样本的PR曲线 82.5182.59 Fig.8 PR curves of benign samples on test set 82 81.2 80.24 0 1.02e 78 0.8 76 训练集 测试集 ■YOLOV3■YOLOV3(I)■YOLOV3(2)■YOLOV3(3) 知0.4 -YOLOV3-恶性 一YOLOV3(I)-恶性 图10训练集和测试集上的平均IOU YOLOV3(3-恶性 Fig.10 Average IOU on training set and test set 0.2 -YOLOV3(2)-恶性 00.10.20.30.40.50.60.70.80.91.0 查全率 图9测试集上恶性样本的PR曲线 Fig.9 PR curves of malignant samples on test set 表3乳腺超声数据集划分 Table 3 Dividing breast ultrasound data sets % (a)原始图像 (b)标注后的图像 算法 良性AP 恶性AP mAP YOLOv3 0.7434 0.7571 0.75030 YOLOv3(1) 0.7593 0.7744 0.76685 YOLOV3(2) 0.7711 0.8052 0.78815 YOLOv3(3) 0.781 0.8108 0.7959 (c)YOLOV3 (d)YOLOV3(1) 2)平均I0U 除了以上评价指标外,本文还引入平均重叠 度(intersection over union,IOU)来判定肿瘤的定位 误差,4种算法的在测试集上结果如图10所示, 显然,在训练集上的4种算法平均IOU明显高于 (e)YOLOV3(2) (①YOLOV3(3) 测试集上对应算法的平均IOU,YOLOV3、 YOLOV3(1)、YOLOV3(2)和YOLOV3(3)算法在 图11恶性测试样本效果展示 Fig.11 Malignant test sample effect display 测试集和训练集上平均IOU依次增加,这也证实 了本文在引入Res2Net、DownSample模块和残差 密集网络后,YOLOv3特征提取能力更强。 4.3实际测试效果 从数据库中随机抽取一个恶性样本,采用改 进后的YOLVO3算法进行识别,如图11所示, YOLOV3、YOLOV3(1)、YOL0V3(2)和 (a)原始图像 (b)标注后的图像
在引入 Res2Net、DownSample 模块和残差密集网 络后,YOLOv3 模型的整体性能得到较大的提升。 1.0 查准率 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.8 0.6 0.4 0.2 0 查全率 Faster R-CNN-良性 YOLOV3-良性 YOLOV3 (1)-良性 YOLOV3 (2)-良性 YOLOV3 (3)-良性 图 8 测试集上良性样本的 PR 曲线 Fig. 8 PR curves of benign samples on test set 1.0 查准率 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.8 0.6 0.4 0.2 0 查全率 YOLOV3-恶性 YOLOV3 (1)-恶性 YOLOV3 (2)-恶性 YOLOV3 (3)-恶性 图 9 测试集上恶性样本的 PR 曲线 Fig. 9 PR curves of malignant samples on test set 表 3 乳腺超声数据集划分 Table 3 Dividing breast ultrasound data sets % 算法 良性AP 恶性AP mAP YOLOv3 0.743 4 0.757 1 0.750 30 YOLOv3(1) 0.759 3 0.774 4 0.766 85 YOLOv3(2) 0.771 1 0.805 2 0.788 15 YOLOv3(3) 0.781 0.810 8 0.795 9 2) 平均 IOU 除了以上评价指标外,本文还引入平均重叠 度 (intersection over union, IOU)来判定肿瘤的定位 误差,4 种算法的在测试集上结果如图 10 所示, 显然,在训练集上的 4 种算法平均 IOU 明显高于 测试集上对应算法的平 均 IOU , YOLOV3 、 YOLOV3(1)、YOLOV3(2) 和 YOLOV3(3) 算法在 测试集和训练集上平均 IOU依次增加,这也证实 了本文在引入 Res2Net、DownSample 模块和残差 密集网络后,YOLOv3 特征提取能力更强。 4.3 实际测试效果 从数据库中随机抽取一个恶性样本,采用改 进后的 YOLVO3 算法进行识别,如图 11 所示, YOLOV3 、 YOLOV3(1) 、 YOLOV3(2 ) 和 YOLOV3(3) 算法均将其识别为恶性,识别的置信 度分别为 95.39%、97.652%、99.31% 和 99.97%;从 数据库中随机抽取一个良性样本,如图 12 所示, YOLOV3 、 YOLOV3(1) 、 YOLOV3(2 ) 和 YOLOV3(3) 算法均将其识别为恶性,识别的置信 度分别为 97.28%、98.48%、98.89% 和 99.97%,显 然本文在引入 Res2Net、DownSample 模块和残差 密集网络后,YOLOV3 特征提取能力更强。 83.01 80.24 85.21 81.26 86.01 82.51 86.88 82.59 76 78 80 82 84 86 88 训练集 测试集 平均 IOU YOLOV3 YOLOV3 (1) YOLOV3 (2) YOLOV3 (3) 图 10 训练集和测试集上的平均 IOU Fig. 10 Average IOU on training set and test set (a) 原始图像 (b) 标注后的图像 (c) YOLOV3 malignant 95.39% (d) YOLOV3 (1) malignant 97.62% (e) YOLOV3 (2) malignant 99.31% (f) YOLOV3 (3) malignant 99.97% 图 11 恶性测试样本效果展示 Fig. 11 Malignant test sample effect display (a) 原始图像 (b) 标注后的图像 第 1 期 徐立芳,等:基于改进的 YOLOv3 算法的乳腺超声肿瘤识别 ·27·
·28· 智能系统学报 第16卷 with applications,2012,64(5):1153-1162 [4]GINSBURG O,BRAY F,COLEMAN M P,et al.The global burden of women's cancers:a grand challenge in global health[J].The lancet,2017,389(10071):847-860. [5]MENEZES G L,KNUTTEL F M,STEHOUWER B L,et al.Magnetic resonance imaging in breast cancer:a literat- (c)YOLOV3 (d)YOLOV3(1) ure review and future perspectives[J].World journal of clinical oncology,2014,5(2):61-70. [6]袁红梅,余建群,褚志刚,等.动态增强MRI、超声及 X射线对乳腺良恶性病灶诊断的对比研究).中国普外 基础与临床杂志,2015,22(2):246-250. YUAN Hongmei,YU Jianqun,CHU Zhigang,et al.Com- (e)YOLOV3(2) (f)YOLOV3 (3) parative study of dynamic contrast-enhanced breast MRI. 图12良性测试样本效果展示 ultrasound,and X-ray mammography in differential dia- Fig.12 Benign test sample effect display gnosis of benign and malignant breast lesions[J].Chinese 5结束语 journal of bases and clinics in general surgery,2015,22(2): 246-250. 针对传统乳腺超声肿瘤识别方法均采用人工 [7]中国抗癌协会乳腺癌专业委员会.中国抗癌协会乳腺癌 提取的特征逐步实现ROI区域定位和肿瘤分类 诊治指南与规范(2017年版)[J].中国癌症杂志, 往往识别精度低、鲁棒性较差且通用性不强,目 2017,27(9):695-759 前基于深度学习的方法又仅限于肿瘤ROI区域 Breast cancer professional committee of Chinese anti-can- 的定位或对给定的肿瘤ROI区域进行分类,本文 cer association.Guidelines and specifications for breast cancer diagnosis and treatment of China anti cancer associ- 提出采用深度学习中的YOLOv.3算法同时实现了 ation (2017 Edition)[J].China oncology,2017,27(9): 对良恶性的分类和肿瘤ROI区域的定位,同时针 695-759. 对乳腺肿瘤识别中的问题对算法进行了改进,经 [8]周星彤,沈松杰,孙强.中国乳腺癌筛查现状及进展[, 过实验证明,在引入Res2Net、DownSample模块 中国医学前沿杂志,2020,12(3):6-11. 和残差密集网络后YOLOv3算法有着更高的检测 ZHOU Xingtong,SHEN Songjie,SUN Qiang.Current 精度,其在测试集上mAP达到0.7959,平均IOU situation and progress of breast cancer screening in 达到0.8259,相比于传统的YOLOv3算法分别提 China[J].Chinese journal of the frontiers of medical sci- 高了4.56%和2.35%,今后可进一步优化算法提 ence (electronic version),2020,12(3):6-11. 高检测精度。 [9]Cai L,Wang X,Wang Y,et al.Robust phase-based tex- 经专业医生鉴定,采用改进后的YOLOv3算 ture descriptor for classification of breast ultrasound im- 法不仅同时实现对肿瘤ROI区域的定位和良恶 ages[J].BioMedical Engineering OnLine,2015,14(1): 性的分类,而且取得了较好的检测效果,使得人 1-21 [10]HUANG Y L.JIANG Y R.CHEN D R,et al.Computer- 工智能应用更接近实际操作环境,有效提升基层 aided diagnosis with morphological features for breast le- 医生诊断能力,降低专科医生工作强度,有着极 sion on sonograms[J].Ultrasound in obstetrics and 大的应用价值。 gynecology,.2008,32(4):565-572. 参考文献: [11]KABIR S M,BHUIYAN M I H.Classification of breast tumour in contourlet transform domain[C]//2018 10th In- [1]CHEN Wanqing,ZHENG Rongshou,BAADE P D,et al. ternational Conference on Electrical and Computer Engin- Cancer statistics in China,2015[J].CA:a cancer journal eering (ICECE).Dhaka,Bangladesh,2018:289-292. for clinicians.2016,66(2):115-132. [12]MENON R V,RAHA P,KOTHARI S,et al.Automated [2]SIEGEL RL,MILLER K D,JEMAL A.Cancer statistics, detection and classification of mass from breast ultra- 2016[J].CA:a cancer journal for clinicians,2016,66(1): sound images[C]//2015 5th National Conference on Com- 7-30 puter Vision,Pattern Recognition,Image Processing and [3]LO C S,WANG C M.Support vector machine for breast Graphics.Patna,India,2015:1-4. MR image classification[J].Computers and mathematics [13]肖婷.基于深度特征迁移与融合的乳腺超声图像分
5 结束语 针对传统乳腺超声肿瘤识别方法均采用人工 提取的特征逐步实现 ROI 区域定位和肿瘤分类 往往识别精度低、鲁棒性较差且通用性不强,目 前基于深度学习的方法又仅限于肿瘤 ROI 区域 的定位或对给定的肿瘤 ROI 区域进行分类,本文 提出采用深度学习中的 YOLOv3 算法同时实现了 对良恶性的分类和肿瘤 ROI 区域的定位,同时针 对乳腺肿瘤识别中的问题对算法进行了改进,经 过实验证明,在引入 Res2Net、DownSample 模块 和残差密集网络后 YOLOv3 算法有着更高的检测 精度,其在测试集上 mAP 达到 0.795 9,平均 IOU 达到 0.825 9,相比于传统的 YOLOv3 算法分别提 高了 4.56% 和 2.35%,今后可进一步优化算法提 高检测精度。 经专业医生鉴定,采用改进后的 YOLOv3 算 法不仅同时实现对肿瘤 ROI 区域的定位和良恶 性的分类,而且取得了较好的检测效果,使得人 工智能应用更接近实际操作环境,有效提升基层 医生诊断能力,降低专科医生工作强度,有着极 大的应用价值。 参考文献: CHEN Wanqing, ZHENG Rongshou, BAADE P D, et al. Cancer statistics in China, 2015[J]. CA: a cancer journal for clinicians, 2016, 66(2): 115–132. [1] SIEGEL R L, MILLER K D, JEMAL A. Cancer statistics, 2016[J]. CA: a cancer journal for clinicians, 2016, 66(1): 7–30. [2] LO C S, WANG C M. Support vector machine for breast MR image classification[J]. Computers and mathematics [3] with applications, 2012, 64(5): 1153–1162. GINSBURG O, BRAY F, COLEMAN M P, et al. The global burden of women’s cancers: a grand challenge in global health[J]. The lancet, 2017, 389(10071): 847–860. [4] MENEZES G L, KNUTTEL F M, STEHOUWER B L, et al. Magnetic resonance imaging in breast cancer: a literature review and future perspectives[J]. World journal of clinical oncology, 2014, 5(2): 61–70. [5] 袁红梅, 余建群, 褚志刚, 等. 动态增强 MRI、超声及 X 射线对乳腺良恶性病灶诊断的对比研究 [J]. 中国普外 基础与临床杂志, 2015, 22(2): 246–250. YUAN Hongmei, YU Jianqun, CHU Zhigang, et al. Comparative study of dynamic contrast-enhanced breast MRI, ultrasound, and X-ray mammography in differential diagnosis of benign and malignant breast lesions[J]. Chinese journal of bases and clinics in general surgery, 2015, 22(2): 246–250. [6] 中国抗癌协会乳腺癌专业委员会. 中国抗癌协会乳腺癌 诊治指南与规范 (201 7 年版)[J]. 中国癌症杂志, 2017,27(9): 695–759. Breast cancer professional committee of Chinese anti-cancer association. Guidelines and specifications for breast cancer diagnosis and treatment of China anti cancer association (2017 Edition)[J]. China oncology, 2017,27(9): 695–759. [7] 周星彤, 沈松杰, 孙强. 中国乳腺癌筛查现状及进展 [J]. 中国医学前沿杂志, 2020, 12(3): 6–11. ZHOU Xingtong, SHEN Songjie, SUN Qiang. Current situation and progress of breast cancer screening in China[J]. Chinese journal of the frontiers of medical science (electronic version), 2020, 12(3): 6–11. [8] Cai L, Wang X, Wang Y, et al. Robust phase-based texture descriptor for classification of breast ultrasound images[J]. BioMedical Engineering OnLine, 2015, 14(1): 1–21. [9] HUANG Y L, JIANG Y R, CHEN D R, et al. Computeraided diagnosis with morphological features for breast lesion on sonograms[J]. Ultrasound in obstetrics and gynecology, 2008, 32(4): 565–572. [10] KABIR S M, BHUIYAN M I H. Classification of breast tumour in contourlet transform domain[C]//2018 10th International Conference on Electrical and Computer Engineering (ICECE). Dhaka, Bangladesh, 2018: 289–292. [11] MENON R V, RAHA P, KOTHARI S, et al. Automated detection and classification of mass from breast ultrasound images[C]//2015 5th National Conference on Computer Vision, Pattern Recognition, Image Processing and Graphics. Patna, India, 2015: 1–4. [12] [13] 肖婷. 基于深度特征迁移与融合的乳腺超声图像分 (c) YOLOV3 benign 97.28% (d) YOLOV3 (1) benign 98.48% (e) YOLOV3 (2) benign 98.89% (f) YOLOV3 (3) benign 99.97% 图 12 良性测试样本效果展示 Fig. 12 Benign test sample effect display ·28· 智 能 系 统 学 报 第 16 卷
第1期 徐立芳,等:基于改进的YOLOv:3算法的乳腺超声肿瘤识别 ·29· 类D].重庆:重庆大学,2018 [20]REDMON J,FARHADI A.Yolov3:an incremental im- XIAO Ting.Breast ultrasound image classification on provement[J].ar Xiv preprint:arXiv:1804.02767,2018. deep feature based transfer learning and feature fusion[D]. [21]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation Chongqing:Chongqing University,2018. networks[C]//Proceedings of the 2018 IEEE/CVF Confer- [14]HAN S,KANG H K,JEONG J Y,et al.A deep learning ence on Computer Vision and Pattern Recognition.Salt framework for supporting the classification of breast le- Lake City,USA,2018:7132-7141. sions in ultrasound imagesfJ].Physics in medicine and [22]GAO Shanghua,CHENG Mingming,ZHAO Kai,et al. biology,2017,62(19y:7714-7728. [15]梁舒.基于残差学习U型卷积神经网络的乳腺超声图 Res2Net:a new multi-scale backbone architecture[J]. 像肿瘤分割研究D1.广州:华南理工大学,2018 IEEE transactions on pattern analysis and machine intelli- LIANG Shu.Research on breast ultrasound image seg- gence,2019:l-10 mentaion based on residual U-shaped convolution neural 作者简介: network[D].Guangzhou:South China University of Tech- 徐立芳,讲师,博士,主要研究方 nology,2018. 向为智能控制、机器视觉与机器认知 [16]王恒立.基于全卷积网络的乳腺超声图像语义分割方 人机混合智能。主持、参与省部级科 法D].哈尔滨:哈尔滨工业大学,2018. 研项目10项,授权发明专利6项。发 WANG Hengli.Semantic segmentation method for breast 表学术论文20余篇。 ultrasound images based on fully convolutional network[D].Harbin:Harbin Institute of Technology, 2018. 傅智杰,硕士研究生,主要研究方 [17]YAP M H,GOYAL M,OSMAN F M,et al.End-to-end 向为深度学习、计算机视觉、医学 breast ultrasound lesions recognition with a deep learning 影像。 approach[C]//Proceedings Volume 10578,Medical Ima- ging 2018:Biomedical Applications in Molecular,Struc- tural,and Functional Imaging.Houston,Texas,United States,2018:1057819. [18]CHIAO J Y.CHEN K Y.LIAO K Y.et al.Detection and 莫宏伟,教授,博士生导师,主要 classification the breast tumors using mask R-CNN on 研究方向为类脑计算与人工智能、机 sonograms[J].Medicine,2019,98(19):e15200. 器视觉与机器认知、人机混合智能。 [19]SHIN S Y,LEE S,YUN I D,et al.Joint weakly and semi- 主持省部级科研项目24项,授权发明 supervised deep learning for localization and classifica- 专利10项。发表学术论文80余篇。 tion of masses in breast ultrasound images[J].IEEE trans- actions on medical imaging,2019,38(3):762-774
类 [D]. 重庆:重庆大学, 2018. XIAO Ting. Breast ultrasound image classification on deep feature based transfer learning and feature fusion[D]. Chongqing: Chongqing University, 2018. HAN S, KANG H K, JEONG J Y, et al. A deep learning framework for supporting the classification of breast lesions in ultrasound images[J]. Physics in medicine and biology, 2017, 62(19): 7714–7728. [14] 梁舒. 基于残差学习 U 型卷积神经网络的乳腺超声图 像肿瘤分割研究 [D]. 广州:华南理工大学, 2018. LIANG Shu. Research on breast ultrasound image segmentaion based on residual U-shaped convolution neural network[D]. Guangzhou: South China University of Technology, 2018. [15] 王恒立. 基于全卷积网络的乳腺超声图像语义分割方 法 [D]. 哈尔滨:哈尔滨工业大学, 2018. WANG Hengli. Semantic segmentation method for breast ultrasound images based on fully convolutional network[D]. Harbin: Harbin Institute of Technology, 2018. [16] YAP M H, GOYAL M, OSMAN F M, et al. End-to-end breast ultrasound lesions recognition with a deep learning approach[C]//Proceedings Volume 10578, Medical Imaging 2018: Biomedical Applications in Molecular, Structural, and Functional Imaging. Houston, Texas, United States, 2018: 1057819. [17] CHIAO J Y, CHEN K Y, LIAO K Y, et al. Detection and classification the breast tumors using mask R-CNN on sonograms[J]. Medicine, 2019, 98(19): e15200. [18] SHIN S Y, LEE S, YUN I D, et al. Joint weakly and semisupervised deep learning for localization and classification of masses in breast ultrasound images[J]. IEEE transactions on medical imaging, 2019, 38(3): 762–774. [19] REDMON J, FARHADI A. Yolov3: an incremental improvement[J]. arXiv preprint: arXiv: 1804.02767, 2018. [20] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132–7141. [21] GAO Shanghua, CHENG Mingming, ZHAO Kai, et al. Res2Net: a new multi-scale backbone architecture[J]. IEEE transactions on pattern analysis and machine intelligence, 2019:1–10. [22] 作者简介: 徐立芳,讲师,博士,主要研究方 向为智能控制、机器视觉与机器认知、 人机混合智能。主持、参与省部级科 研项目 10 项,授权发明专利 6 项。发 表学术论文 20 余篇。 傅智杰,硕士研究生,主要研究方 向为深度学习、计算机视觉、医学 影像。 莫宏伟,教授,博士生导师,主要 研究方向为类脑计算与人工智能、机 器视觉与机器认知、人机混合智能。 主持省部级科研项目 24 项,授权发明 专利 10 项。发表学术论文 80 余篇。 第 1 期 徐立芳,等:基于改进的 YOLOv3 算法的乳腺超声肿瘤识别 ·29·