第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202111024 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20211213.1720.004html 多尺度特征融合网络的视网膜OCT图像分类 韩璐,毕晓君 (1.哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;2.中央民族大学信息工程学院,北京 100081) 摘要:目前基于深度学习的视网膜OCT图像分类方法存在网络特征提取能力低、小目标病变分类困难等问 题。为此本文提出了一种双分支多尺度特征融合网络,通过加入门控注意力机制,利用深层特征作为选通信号 传递给浅层特征,在消除冗余特征的同时,获得更细尺度的抽象信息。同时加入空洞空间金字塔模块,实现在 不降低特征图分辨率的同时增大感受野,按不同比例有效捕获全局上下文信息,提高了小目标病变分类精度。 实验结果表明,本文提出的方法在视网膜OCT图像分类任务中取得了较好效果,分类准确率达97.9%。 关键词:视网膜:光学相干断层扫描:注意力机制:空间空洞金字塔;神经网络:图像分类:深度学习:医学图像 中图分类号:TP391.7文献标志码:A文章编号:1673-4785(2022)02-0360-08 中文引用格式:韩璐,毕晓君.多尺度特征融合网络的视网膜0CT图像分类智能系统学报,2022,17(2):360-367. 英文引用格式:HAN Lu,BI Xiaojun.Retinal optical coherence tomography image classification based on multiscale feature fusion[J].CAAI transactions on intelligent systems,2022,17(2):360-367. Retinal optical coherence tomography image classification based on multiscale feature fusion HAN Lu',BI Xiaojun (1.College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China;2.School of In- formation Engineering,Minzu University of China,Beijing 100081,China) Abstract:The retinal optical coherence tomography (OCT)image classification method based on deep learning has problems such as low ability of network feature extraction and difficult classification of small target lesions.Therefore, this paper proposes a dual branch multiscale feature fusion network.The gating attention mechanism is added to the vgg16 network,and the deep features are transmitted to the shallow features as gating signals.The redundant features are removed more fine-grained abstract information is obtained.Simultaneously,an atrous spatial pyramid pooling (ASPP)module is introduced to increase the receptive field and capture the global context information in various pro- portions without reducing the feature map resolution.The ASPP module increases the classification accuracy of small target lesions.The experimental results show that the proposed method has achieved good results in the retinal OCT im- age classification task,and the classification accuracy has reached 97.9%. Keywords:retina;optical coherence tomography;attention mechanism;atrous spatial pyramid pooling;neural network; image classification;deep learning;medical image 近年来,患有视网膜黄斑病变的患者数量明 要,通过适当的治疗和定期的筛查可以使黄斑病 显增加,并且随着病情的加深,该病会对视力产 变引起的失明减少90%。 生不可逆转的影响,严重情况下会导致失明。 光学相千断层扫描技术(optical coherence 因此,黄斑病变的早期发现和临床诊断至关重 tomography,OCT)可以提供高分辨率的视网膜截 收稿日期:2021-11-13.网络出版日期:2021-12-21 面图像,是目前用于检验视网膜疾病最为先进的 通信作者:毕晓君.E-mail:bixiaojun@hrbeu.edu.cn 技术手段,具有非接触、无创、成像快等优点刃
DOI: 10.11992/tis.202111024 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211213.1720.004.html 多尺度特征融合网络的视网膜 OCT 图像分类 韩璐1 ,毕晓君2 (1. 哈尔滨工程大学 信息与通信工程学院,黑龙江 哈尔滨 150001; 2. 中央民族大学 信息工程学院,北京 100081) 摘 要:目前基于深度学习的视网膜 OCT 图像分类方法存在网络特征提取能力低、小目标病变分类困难等问 题。为此本文提出了一种双分支多尺度特征融合网络,通过加入门控注意力机制,利用深层特征作为选通信号 传递给浅层特征,在消除冗余特征的同时,获得更细尺度的抽象信息。同时加入空洞空间金字塔模块,实现在 不降低特征图分辨率的同时增大感受野,按不同比例有效捕获全局上下文信息,提高了小目标病变分类精度。 实验结果表明,本文提出的方法在视网膜 OCT 图像分类任务中取得了较好效果,分类准确率达 97.9%。 关键词:视网膜;光学相干断层扫描;注意力机制;空间空洞金字塔;神经网络;图像分类;深度学习;医学图像 中图分类号:TP391.7 文献标志码:A 文章编号:1673−4785(2022)02−0360−08 中文引用格式:韩璐, 毕晓君. 多尺度特征融合网络的视网膜 OCT 图像分类 [J]. 智能系统学报, 2022, 17(2): 360–367. 英文引用格式:HAN Lu, BI Xiaojun. Retinal optical coherence tomography image classification based on multiscale feature fusion[J]. CAAI transactions on intelligent systems, 2022, 17(2): 360–367. Retinal optical coherence tomography image classification based on multiscale feature fusion HAN Lu1 ,BI Xiaojun2 (1. College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China; 2. School of Information Engineering, Minzu University of China, Beijing 100081, China) Abstract: The retinal optical coherence tomography (OCT) image classification method based on deep learning has problems such as low ability of network feature extraction and difficult classification of small target lesions. Therefore, this paper proposes a dual branch multiscale feature fusion network. The gating attention mechanism is added to the vgg16 network, and the deep features are transmitted to the shallow features as gating signals. The redundant features are removed more fine-grained abstract information is obtained. Simultaneously, an atrous spatial pyramid pooling (ASPP) module is introduced to increase the receptive field and capture the global context information in various proportions without reducing the feature map resolution. The ASPP module increases the classification accuracy of small target lesions. The experimental results show that the proposed method has achieved good results in the retinal OCT image classification task, and the classification accuracy has reached 97.9%. Keywords: retina; optical coherence tomography; attention mechanism; atrous spatial pyramid pooling; neural network; image classification; deep learning; medical image 近年来,患有视网膜黄斑病变的患者数量明 显增加,并且随着病情的加深,该病会对视力产 生不可逆转的影响,严重情况下会导致失明[1-3]。 因此,黄斑病变的早期发现和临床诊断至关重 要,通过适当的治疗和定期的筛查可以使黄斑病 变引起的失明减少 90%。 光学相干断层扫描技术 (optical coherence tomography,OCT) 可以提供高分辨率的视网膜截 面图像,是目前用于检验视网膜疾病最为先进的 技术手段,具有非接触、无创、成像快等优点[4-7] , 收稿日期:2021−11−13. 网络出版日期:2021−12−21. 通信作者:毕晓君. E-mail: bixiaojun@hrbeu.edu.cn. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
第2期 韩璐,等:多尺度特征融合网络的视网膜OCT图像分类 ·361· 医生通过对视网膜OCT图像的分析对眼底疾病 除冗余特征的同时,获得更细尺度的细节信息。 做出诊断。然而,利用OCT技术对视网膜疾病进 行人工诊断面临以下问题:视网膜黄斑病变患者 1双分支多尺度特征融合网络 逐年增加,医生面临巨大的阅片任务,依靠专业 2014年,牛津大学著名研究组Visual Geo- 医生的诊断已经无法满足大量患者的诊疗需求; metry Group提出VGG网络,斩获该年ImageN. OCT图像为灰度图像,个别病变特征不明显,医 ct竞赛定位任务第一名和Classification Task分类 师诊断时有误诊和漏诊情况发生:个别地区医疗 任务第二名。该工作探索了卷积神经网络的深度 水平较差,导致大量患者在患病初期没有及时发 对图像分类任务性能的影响,在固定网络架构中 现,造成疾病恶化&10。 其他参数的同时,通过增加卷积层来平稳地增加 计算机辅助诊断技术-(computer-aided dia- 网络深度,分类准确率获得显著提升。 gnosis,CAD)是解决这一问题的有效方法。早期 VGG网络由卷积层、最大池化下采样层和全 的CAD技术使用基于手工特征的传统机器学习 连接层组成。其中,卷积层均采用卷积核大小为 分类方法,尽管在视网膜OCT图像的分类领域取 3×3,步距为1,填充为1的卷积操作。VGG16相 得了一些成果,但是存在严重依赖于人工设计特征, 比于AlexNet,采用连续的几个3×3卷积核代替 特征级别低,在网络训练过程中存在计算代价 AlexNet中的较大卷积核。两个3×3卷积的堆叠 高、处理流程复杂等问题。近年来,深度学习迅速 层具有5×5的感受野,3个这样结构堆叠获得的 发展,并在计算机视觉领域表现优异。深度学习使 感受野是7×7。使用小卷积核堆叠代替大卷积核 用卷积神经网络在不同的层次上自动学习从低级 可以整合非线性映射层,使决策函数更加具有判 到高级的图像特征,弥补了传统技术需要手工提 别性;在拥有相同感受野的前提下能够减少网络 取特征这一缺陷,成为解决视网膜OCT图像分类 所需参数;同时增加网络非线性,让网络学习到更 的主流算法。其中具有代表性的有2017年,Karri 复杂、深层的特征。VGG提出的网络深度从11 等提出了一种基于迁移学习的视网膜OCT图 层到19层不等,本文选择VGG16作为基线网络。 像分类方法。该方法通过微调预训练后的Gool- 本文提出了一种基于改进VGG16的视网膜图 geNet网络,减小网络对大量数据的依赖,在训练 像分类网络—双分支多尺度特征融合网络。主 数据有限的情况下实现对DMEs1a、AMD和正常 要改进点如下: 图像的分类,分类精度分别为86%、89%和99%。 1)在VGG16网络中引入针对医学图像的门 2020年,张添福等1提出了一种轻量化0CT图 控注意力机制模块,从而消除医学图像中的大量 像分类网络。使用深度可分离卷积代替普通卷积 冗余,突出病变区域信息抑制图像中的无关区域; 层从而减小网络的参数。同时使用全局平均池化 2)在VGG16网络中使用并行的扩张卷积在 代替全连接层,提高空间鲁棒性,其网络准确率 不减小特征图大小的同时,获得较大感受野,得 可达97%。 到病变的细节信息,并与深度抽象特征融合,提 以上研究对视网膜OCT分类任务做出了突 高分类精度。 出贡献,但是尚存以下两点问题:1)视网膜OCT 1.1门控注意力机制 图像存在大量冗余,在特征提取过程中,显著病 近年来,注意力机制作为一种可以即插即用 变特征容易被忽略,造成有用信息的丢失;2)玻 在网络模型中的模块,在自然图像处理领域取得 璃疣(Drusen)病变位置小且形态模糊,导致Drusen 了良好的效果。其中最具代表性的工作有2017年 这类疾病的分类难度大,目前该类别的准确率尚 HU等9提出的通道注意力机制、2018年Woo等Pm 需提高。 提出的融合了通道注意力以及空间注意力的CBAM 针对以上问题,本文主要做了以下3个方面的 机制以及2020年Wang等2提出的改进通道注 工作:1)设计了一种双通道的多尺度融合网络, 意力机制。这种机制在通道和空间两个维度加权 有效利用包含了丰富语义信息的深层特征以及包 生成注意力图,使网络能够关注重要的通道特征 含纹理信息的浅层特征;2)引入扩张卷积,通过 以及空间上的位置信息。 在网络中加入一系列并行的扩张卷积,实现在不 相比于自然图像,医学图像具有目标区域局 降低特征图分辨率的同时,增大感受野,按不同 部化这一特性。尤其是本文使用的眼部OCT图 比例获得上下文信息;3)引入门控注意力模块,利 像,其病变位置均占整张OCT图像很小的区域。 用深层特征作为选通信号传递给浅层特征,在消 鉴于医学图像这一特性,若将通道和空间注意力
医生通过对视网膜 OCT 图像的分析对眼底疾病 做出诊断。然而,利用 OCT 技术对视网膜疾病进 行人工诊断面临以下问题:视网膜黄斑病变患者 逐年增加,医生面临巨大的阅片任务,依靠专业 医生的诊断已经无法满足大量患者的诊疗需求; OCT 图像为灰度图像,个别病变特征不明显,医 师诊断时有误诊和漏诊情况发生;个别地区医疗 水平较差,导致大量患者在患病初期没有及时发 现,造成疾病恶化[8-10]。 计算机辅助诊断技术[11-13] (computer-aided diagnosis,CAD) 是解决这一问题的有效方法。早期 的 CAD 技术使用基于手工特征的传统机器学习 分类方法,尽管在视网膜 OCT 图像的分类领域取 得了一些成果,但是存在严重依赖于人工设计特征, 特征级别低,在网络训练过程中存在计算代价 高、处理流程复杂等问题。近年来,深度学习迅速 发展,并在计算机视觉领域表现优异。深度学习使 用卷积神经网络在不同的层次上自动学习从低级 到高级的图像特征,弥补了传统技术需要手工提 取特征这一缺陷,成为解决视网膜 OCT 图像分类 的主流算法。其中具有代表性的有 2017 年,Karri 等 [14] 提出了一种基于迁移学习的视网膜 OCT 图 像分类方法。该方法通过微调预训练后的 GoolgeNet 网络,减小网络对大量数据的依赖,在训练 数据有限的情况下实现对 DME[15-16] 、AMD 和正常 图像的分类,分类精度分别为 86%、89% 和 99%。 2020 年,张添福等[17] 提出了一种轻量化 OCT 图 像分类网络。使用深度可分离卷积代替普通卷积 层从而减小网络的参数。同时使用全局平均池化 代替全连接层,提高空间鲁棒性,其网络准确率 可达 97%。 以上研究对视网膜 OCT 分类任务做出了突 出贡献,但是尚存以下两点问题:1) 视网膜 OCT 图像存在大量冗余,在特征提取过程中,显著病 变特征容易被忽略,造成有用信息的丢失;2) 玻 璃疣 (Drusen) 病变位置小且形态模糊,导致 Drusen 这类疾病的分类难度大,目前该类别的准确率尚 需提高。 针对以上问题,本文主要做了以下 3 个方面的 工作:1) 设计了一种双通道的多尺度融合网络, 有效利用包含了丰富语义信息的深层特征以及包 含纹理信息的浅层特征;2) 引入扩张卷积,通过 在网络中加入一系列并行的扩张卷积,实现在不 降低特征图分辨率的同时,增大感受野,按不同 比例获得上下文信息;3) 引入门控注意力模块,利 用深层特征作为选通信号传递给浅层特征,在消 除冗余特征的同时,获得更细尺度的细节信息。 1 双分支多尺度特征融合网络 2014 年,牛津大学著名研究组 Visual Geometry Group 提出 VGG 网络[18] ,斩获该年 ImageNet 竞赛定位任务第一名和 Classification Task 分类 任务第二名。该工作探索了卷积神经网络的深度 对图像分类任务性能的影响,在固定网络架构中 其他参数的同时,通过增加卷积层来平稳地增加 网络深度,分类准确率获得显著提升。 VGG 网络由卷积层、最大池化下采样层和全 连接层组成。其中,卷积层均采用卷积核大小为 3×3,步距为 1,填充为 1 的卷积操作。VGG16 相 比于 AlexNet,采用连续的几个 3×3 卷积核代替 AlexNet 中的较大卷积核。两个 3×3 卷积的堆叠 层具有 5×5 的感受野,3 个这样结构堆叠获得的 感受野是 7×7。使用小卷积核堆叠代替大卷积核 可以整合非线性映射层,使决策函数更加具有判 别性;在拥有相同感受野的前提下能够减少网络 所需参数;同时增加网络非线性,让网络学习到更 复杂、深层的特征。VGG 提出的网络深度从 11 层到 19 层不等,本文选择 VGG16 作为基线网络。 本文提出了一种基于改进 VGG16 的视网膜图 像分类网络−双分支多尺度特征融合网络。主 要改进点如下: 1) 在 VGG16 网络中引入针对医学图像的门 控注意力机制模块,从而消除医学图像中的大量 冗余,突出病变区域信息抑制图像中的无关区域; 2) 在 VGG16 网络中使用并行的扩张卷积在 不减小特征图大小的同时,获得较大感受野,得 到病变的细节信息,并与深度抽象特征融合,提 高分类精度。 1.1 门控注意力机制 近年来,注意力机制作为一种可以即插即用 在网络模型中的模块,在自然图像处理领域取得 了良好的效果。其中最具代表性的工作有 2017 年 HU 等 [19] 提出的通道注意力机制、2018 年 Woo 等 [20] 提出的融合了通道注意力以及空间注意力的 CBAM 机制以及 2020 年 Wang 等 [21] 提出的改进通道注 意力机制。这种机制在通道和空间两个维度加权 生成注意力图,使网络能够关注重要的通道特征 以及空间上的位置信息。 相比于自然图像,医学图像具有目标区域局 部化这一特性。尤其是本文使用的眼部 OCT 图 像,其病变位置均占整张 OCT 图像很小的区域。 鉴于医学图像这一特性,若将通道和空间注意力 第 2 期 韩璐,等:多尺度特征融合网络的视网膜 OCT 图像分类 ·361·
·362· 智能系统学报 第17卷 机制串联至网络中,会导致获得的加权注意力图 意力机制效果不佳。 谱单一。尽管这种机制串联在网络深处能够取得 本文引入了一种针对医学图像中目标局部化 良好效果,但是网络的加深使特征图减小,导致 这一特性,重点关注医学图像中病变细节信息的 相关病变的细节信息丢失,因此基于深度学习的 门控注意力机制模块(attention gate module,AG), 视网膜OCT图像分类技术中采用通道和空间注 如图1所示。 w1×1×1 :1×1×1 wx:1x1×1 图1门控注意力机模块 Fig.1 Attention gate module 深层的粗糙特征包含目标对象的位置信息, 12 空洞空间金字塔模块 并在全局范围内建立它们之间的关系。图1中: 视网膜病变具有局部性,且病变区域在OCT g代表网络中获取到的深层特征;x代表特征提取 图像中占据位置小。其中Drusen的此特点最为 过程中任意某一层获取的浅层特征,浅层特征中 明显,其变位置小且模糊。此特点严重影响OCT 包含目标的细节信息,比如形状、大小等。浅 图像的分类效果,目前提出的相关分类方法中, 层特征中包含着严重影响分类任务准确性的细节 Drusen类别的分类准确率最高为92.5%,相比于 信息。AG模块将深层特征和浅层特征融合并生 视网膜OCT图像分类应用中其他3个类别的分 成注意力图谱,然后将该注意力图普与浅层特征 类精度尚有待提高。 相乘,用深层信息消除中与任务无关的特征内容, 现阶段的经典分类网络通过加深网络深度, 修剪冗余特征,突出显著目标区域。其公式为 从而获得更大的感受野以及丰富的上下文信息。 g=((WIx.+W:g+bxs))+bo (1) 但是针对医学图像的特性,在分辨率小的特征图 a=o2(g(x,g;0) (2) 上进行分类将损失大量有用信息。为解决该问 式中:σ1是RELU非线性激活函数;σ2是归一化 题,本文设计了双分支网络,在骨干网络经过3次 sigmoid函数,将门控系数范围控制在[0,1]。因 下采样操作,加入并行扩张卷积空洞空间金字塔 此,AG可以由以下参数描述:线性变换W和W。: 模块,以不同比例捕捉全局上下文信息。 偏置bw,这里的线性变换采用1×1×1卷积实现。 扩张卷积(dilated convolution)由Chen等 本文在VGG16网络中采用AG模块,该网络 于2016年提出,与普通卷积相比,扩张卷积引入 经过5次下采样,得到大小为7×7×512的特征图, 扩张率这一参数,在基础卷积上加入间隔,卷积 该特征图即为选通信号g。由于影响分类准确率 核各点间的间隔为扩张率减1,如图2所示。 的浅层特征可能分布在网络的不同层次,因此, AG模块将选通信号g提供的上下文全局信息分 别与VGG16中第9层和第13层的浅层特征融 合,在消除浅层特征中冗余的同时,获得更细尺 (a)普通卷积(b)扩张卷积(c)扩张卷积 度的病变抽象特征,进而融合多尺度特征。其中 (扩张率2)(扩张率4) 第9层和第13层的特征图大小分别为28×28和 图2普通卷积和扩张卷积 14×14。最终网络得到14×14、28×28以及7×7等 Fig.2 Ordinary convolution and dilated convolution 3种尺度的特征图,经过全局平均池化以及展平 扩张卷积对应的卷积核实际大小以及感受野 处理后,将3种尺度信息拼接起来,并通过分类 大小均大于普通卷积,但实际参数不变,以图2中 层(softmax)进行分类。综上,本文通过在VGG16 不同扩张率的3×3卷积为例,它们均只有9个点 中加入AG模块,可以有效解决OCT图像中病变 有参数,与普通的3×3卷积参数相同,其余扩张位 局部化这一问题,突出病变区域同时抑制背景噪 置的参数均为0。扩张卷积对应的实际卷积核以 声,让网络进一步挖掘到病变特征,提升分类准 及感受野大小计算公式为 确率。 RF=RF-1+(k-1)×s (3)
机制串联至网络中,会导致获得的加权注意力图 谱单一。尽管这种机制串联在网络深处能够取得 良好效果,但是网络的加深使特征图减小,导致 相关病变的细节信息丢失,因此基于深度学习的 视网膜 OCT 图像分类技术中采用通道和空间注 意力机制效果不佳。 本文引入了一种针对医学图像中目标局部化 这一特性,重点关注医学图像中病变细节信息的 门控注意力机制模块 (attention gate module,AG), 如图 1 所示。 g xl wg: 1×1×1 wx: 1×1×1 σ1 σ2 ψ: 1×1×1 图 1 门控注意力机模块 Fig. 1 Attention gate module x l x l 深层的粗糙特征包含目标对象的位置信息, 并在全局范围内建立它们之间的关系。图 1 中: g 代表网络中获取到的深层特征; 代表特征提取 过程中任意某一层获取的浅层特征,浅层特征中 包含目标的细节信息,比如形状、大小等。浅 层特征中包含着严重影响分类任务准确性的细节 信息。AG 模块将深层特征和浅层特征融合并生 成注意力图谱,然后将该注意力图普与浅层特征 相乘,用深层信息消除 中与任务无关的特征内容, 修剪冗余特征,突出显著目标区域。其公式为 q l = ψ T (σ1(WT x x l i +WT g g+ bxg))+ bψ (1) α l = σ2(q l (x l , g;θ)) (2) σ1 σ2 Wx Wg bψ 1×1×1 式中: 是 RELU 非线性激活函数; 是归一化 sigmoid 函数,将门控系数范围控制在 [0,1]。因 此,AG 可以由以下参数描述:线性变换 和 ; 偏置 ,这里的线性变换采用 卷积实现。 本文在 VGG16 网络中采用 AG 模块,该网络 经过 5 次下采样,得到大小为 7×7×512 的特征图, 该特征图即为选通信号 g。由于影响分类准确率 的浅层特征可能分布在网络的不同层次,因此, AG 模块将选通信号 g 提供的上下文全局信息分 别与 VGG16 中第 9 层和第 13 层的浅层特征融 合,在消除浅层特征中冗余的同时,获得更细尺 度的病变抽象特征,进而融合多尺度特征。其中 第 9 层和第 13 层的特征图大小分别为 28×28 和 14×14。最终网络得到 14×14、28×28 以及 7×7 等 3 种尺度的特征图,经过全局平均池化以及展平 处理后,将 3 种尺度信息拼接起来,并通过分类 层 (softmax) 进行分类。综上,本文通过在 VGG16 中加入 AG 模块,可以有效解决 OCT 图像中病变 局部化这一问题,突出病变区域同时抑制背景噪 声,让网络进一步挖掘到病变特征,提升分类准 确率。 1.2 空洞空间金字塔模块 视网膜病变具有局部性,且病变区域在 OCT 图像中占据位置小。其中 Drusen 的此特点最为 明显,其变位置小且模糊。此特点严重影响 OCT 图像的分类效果,目前提出的相关分类方法中, Drusen 类别的分类准确率最高为 92.5%,相比于 视网膜 OCT 图像分类应用中其他 3 个类别的分 类精度尚有待提高。 现阶段的经典分类网络通过加深网络深度, 从而获得更大的感受野以及丰富的上下文信息。 但是针对医学图像的特性,在分辨率小的特征图 上进行分类将损失大量有用信息。为解决该问 题,本文设计了双分支网络,在骨干网络经过 3 次 下采样操作,加入并行扩张卷积空洞空间金字塔 模块,以不同比例捕捉全局上下文信息。 扩张卷积 (dilated convolution) 由 Chen 等 [22] 于 2016 年提出,与普通卷积相比,扩张卷积引入 扩张率这一参数,在基础卷积上加入间隔,卷积 核各点间的间隔为扩张率减 1,如图 2 所示。 (a) 普通卷积 (b) 扩张卷积 (扩张率 2) (c) 扩张卷积 (扩张率 4) 图 2 普通卷积和扩张卷积 Fig. 2 Ordinary convolution and dilated convolution 扩张卷积对应的卷积核实际大小以及感受野 大小均大于普通卷积,但实际参数不变,以图 2 中 不同扩张率的 3×3 卷积为例,它们均只有 9 个点 有参数,与普通的 3×3 卷积参数相同,其余扩张位 置的参数均为 0。扩张卷积对应的实际卷积核以 及感受野大小计算公式为 RFi = RFi−1 +(k−1)× s (3) ·362· 智 能 系 统 学 报 第 17 卷
第2期 韩璐,等:多尺度特征融合网络的视网膜OCT图像分类 ·363· 式中:k为卷积核尺寸;s是步长,是上一层感受野 扩张率分别为6、12、18的扩张卷积。为了融入 大小。通过加入扩张卷积,能够在不进行下采样 全局上下文信息,该模块采用了图像级特征,通 操作的前提下,同样获得更大的感受野。在大尺 过对该模块的输入进行全局平均池操作,并将得 度特征图上实现细节信息的保留以及丰富上下文 到的图像级特征输入到1×1×256的卷积核中,然 信息的获取。更好地保留了较小病变的形状以及 后经过双线性插值将特征上采样到所需的空间尺 轮廓特征,有利于提升小目标分类精度。本文在 寸。最后将这4部分特征拼接输入到1×1卷积进 VGGl6网络中采用的空洞空间金字塔模块(at- 一步加强特征提取。 rous spatial pyramid pooling,ASPP)如图3所示。 综上,本文通过采用不同扩张率的空洞空间 金字塔模块,在不减小特征图大小的同时,按不 1×1 同比例捕捉上下文信息,同时扩大感受野。在特 征提取过程中,不会因为过度下采样而损失病变 3×3 扩张率为6 信息,同时又利用扩张卷积和图像级特征融合了 全局信息,较好地提升了网络对小目标Drusen病 3×3 接 变的特征提取能力。 扩张率为12 1.3整体模块设计以及网络架构 基于门控注意力机制和空洞空间金字塔模块 3×3 扩张率为18 两个创新点,本文提出了一种基于改进VGG16的 双分支多尺度特征融合网络,如图4所示。网络 全局平均 1×] 上采样 经过3次下采样后分成两个分支,3次下采样后 池化 得到的大小为28×28×512的特征图作为接下来两 图3空洞空间金字塔模块 路分支的输入。一路分支继续下采样,得到最深 Fig.3 Atrous spatial pyramid pooling module 层的特征g作为选通信号,为第3次、第4次下采 骨干网络经过3次下采样后的特征图作为该 样后的特征图提供上下文信息,修剪浅层特征中 模块的输入,分别经过并行的1×1卷积以及3个 的冗余信息,突出病变区域显著特征。 224×224×64 112×112×128 56×56×256 28×28×512 14×14×512 7x7×512 接操作 >下采样操作 了门控注意力机制 C拼接操作 ASPP 模块 图4本文方法演示图 Fig.4 Method demonstration diagram of this paper 另一路分支进入空间空洞金字塔模块,分别 28×28×512,尺度不变。在AG模块中,选通信号 进行不同扩张率的扩张卷积,输出特征图大小为 g和第3次下采样后特征图融合得到的特征和空
式中: k 为卷积核尺寸; s 是步长,是上一层感受野 大小。通过加入扩张卷积,能够在不进行下采样 操作的前提下,同样获得更大的感受野。在大尺 度特征图上实现细节信息的保留以及丰富上下文 信息的获取。更好地保留了较小病变的形状以及 轮廓特征,有利于提升小目标分类精度。本文在 VGG16 网络中采用的空洞空间金字塔模块 (atrous spatial pyramid pooling, ASPP) 如图 3 所示。 1×1 3×3 扩张率为 6 3×3 扩张率为 12 3×3 扩张率为 18 1×1 上采样 全局平均 池化 拼 接 操 作 图 3 空洞空间金字塔模块 Fig. 3 Atrous spatial pyramid pooling module 骨干网络经过 3 次下采样后的特征图作为该 模块的输入,分别经过并行的 1×1 卷积以及 3 个 扩张率分别为 6、12、18 的扩张卷积。为了融入 全局上下文信息,该模块采用了图像级特征,通 过对该模块的输入进行全局平均池操作,并将得 到的图像级特征输入到 1×1×256 的卷积核中,然 后经过双线性插值将特征上采样到所需的空间尺 寸。最后将这 4 部分特征拼接输入到 1×1 卷积进 一步加强特征提取。 综上,本文通过采用不同扩张率的空洞空间 金字塔模块,在不减小特征图大小的同时,按不 同比例捕捉上下文信息,同时扩大感受野。在特 征提取过程中,不会因为过度下采样而损失病变 信息,同时又利用扩张卷积和图像级特征融合了 全局信息,较好地提升了网络对小目标 Drusen 病 变的特征提取能力。 1.3 整体模块设计以及网络架构 基于门控注意力机制和空洞空间金字塔模块 两个创新点,本文提出了一种基于改进 VGG16 的 双分支多尺度特征融合网络,如图 4 所示。网络 经过 3 次下采样后分成两个分支,3 次下采样后 得到的大小为 28×28×512 的特征图作为接下来两 路分支的输入。一路分支继续下采样,得到最深 层的特征 g 作为选通信号,为第 3 次、第 4 次下采 样后的特征图提供上下文信息,修剪浅层特征中 的冗余信息,突出病变区域显著特征。 下采样操作 ∫ 门控注意力机制 C 拼接操作 ∫ ∫ 拼 接 操 作 224×224×64 112×112×128 56×56×256 28×28×512 14×14×512 7×7×512 ASPP 模块 C 图 4 本文方法演示图 Fig. 4 Method demonstration diagram of this paper 另一路分支进入空间空洞金字塔模块,分别 进行不同扩张率的扩张卷积,输出特征图大小为 28×28×512,尺度不变。在 AG 模块中,选通信号 g 和第 3 次下采样后特征图融合得到的特征和空 第 2 期 韩璐,等:多尺度特征融合网络的视网膜 OCT 图像分类 ·363·
·364· 智能系统学报 第17卷 间空洞金字塔模块的输出大小维度均相同,将两 OCT分类任务的评价指标,具体公式如式(4)~ 部分特征融合,进一步获得融合了选通信息以及 (7所示。 多尺度信息的特征。并且,该融合后的特征为大 TP+TN 尺度特征,实现了让网络在分辨率大的特征图上 Accuracy TP+TN+FP+FN (4) 进行分类。为了让小目标病变获得良好的分类效 TP Recall TP+FN (5) 果,需要网络获取丰富的病变区域信息,包括病 TP 变的形状、大小特征等。这种特征通常蕴藏在浅 Precision (6) TP+FP 层网络中,但是由于病变区域过小,这些浅层特 TN (7) 征会在特征提取过程中,损失大量病变区域的细 Specifity=FP+TN 节信息。本文提出的方法不仅融合了多尺度特 式中:TP是将正样本正确分类的个数;TN为将负 征,还通过在大分辨率特征图上进行分类避免了 样本正确分类的个数;FP为将正样本分类错误的 细节特征的丢失,有效解决了现有方法对小目标 个数;FN为将负样本分类错误的个数。本文中的 病变分类效果不佳这一问题。 视网膜分类任务属于多分类任务,这里的正样本 是指定的某一特定类别,例如玻璃疣,而此时的 2实验结果及分析 负样本为除玻璃疣外的其他3种类别。同时,本 为验证本文提出方法的有效性与先进性,实 文绘制了4种类别的混淆矩阵,可直观看出各类 验部分主要做了以下两个方面的工作:1)消融实 别的分类情况以及与基线网络分类情况的对比。 验,本文提出的两个创新点分别引入实验以及最 终的改进网络与基线网络的实验效果对比实验: 2)与现有代表性算法的对比实验。 2.1实验环境 本文使用的实验环境如表1所示。本实验采 用SGD优化算法,一共训练150个epoch,初始学 习率设置为0.001,学习率衰减采用指数衰减,衰 (a)玻璃疣 (b)脉络膜新生血管 减底数gamma设置为0.98。 表1实验环境配置 Table 1 Experimental environment configuration 配件 参数 操作系统 Ubuntu 16.04 显卡 GeForce GTX 2080 Ti 内存/GB 16 (c)黄斑水肿 (d)正常图像 开发工具 Pytorch1.2.0 Python3.6.2 图5视网膜OCT图像示例 2.2数据集 Fig.5 Retinal OCT image example 本文使用的数据集是Kaggle平台提供的开 2.4实验分析 源视网膜OCT病变图像,该数据集由加利福尼亚 2.4.1算法的有效性验证 大学圣地亚哥分校(UCSD)于2017年公开。该数 为了验证本文提出方法的有效性,这里对改 据集包含4种类别,分别是玻璃膜疣(Drusen)、脉 进后的网络(引入AG模块和空间空洞金字塔模 络膜新生血管(CNV)、糖尿病黄斑水肿(DME)和 块)与只加入AG模块以及基线网络进行了消融 正常类别,如图5所示。数据集包含训练集和测 实验,实验在同样的数据集、实验环境以及相同 试集,训练集中4种类别分别包含8616、37205、 的网络参数配置上进行,实验结果如表2所示。 11348、26315张图片。测试集由每类250张图片 由表2可以看出,加入AG模块后,网络的识 组成,共1000张OCT图像。本文按照8:2的比 别率较基线网络提高了1.9%,由此看出通过引人 例将训练集划分为训练集和验证集。 AG模块,网络更好地学习了病变区域特征,降低 2.3评价指标 了大量背景冗余的影响。在此基础之上,加入本 本文使用准确率(Accuracy)、召回率(Recall) 文的第二个改进点,网络的准确率进一步提高到 精确率(Precision)、特异性(Specifity)作为视网膜 97.9%,较基线网络提高了3.7%。其中Drusen病
间空洞金字塔模块的输出大小维度均相同,将两 部分特征融合,进一步获得融合了选通信息以及 多尺度信息的特征。并且,该融合后的特征为大 尺度特征,实现了让网络在分辨率大的特征图上 进行分类。为了让小目标病变获得良好的分类效 果,需要网络获取丰富的病变区域信息,包括病 变的形状、大小特征等。这种特征通常蕴藏在浅 层网络中,但是由于病变区域过小,这些浅层特 征会在特征提取过程中,损失大量病变区域的细 节信息。本文提出的方法不仅融合了多尺度特 征,还通过在大分辨率特征图上进行分类避免了 细节特征的丢失,有效解决了现有方法对小目标 病变分类效果不佳这一问题。 2 实验结果及分析 为验证本文提出方法的有效性与先进性,实 验部分主要做了以下两个方面的工作:1) 消融实 验,本文提出的两个创新点分别引入实验以及最 终的改进网络与基线网络的实验效果对比实验; 2) 与现有代表性算法的对比实验。 2.1 实验环境 本文使用的实验环境如表 1 所示。本实验采 用 SGD 优化算法,一共训练 150 个 epoch,初始学 习率设置为 0.001,学习率衰减采用指数衰减,衰 减底数 gamma 设置为 0.98。 表 1 实验环境配置 Table 1 Experimental environment configuration 配件 参数 操作系统 Ubuntu 16.04 显卡 GeForce GTX 2080 Ti 内存/GB 16 开发工具 Pytorch1.2.0 Python3.6.2 2.2 数据集 本文使用的数据集是 Kaggle 平台提供的开 源视网膜 OCT 病变图像,该数据集由加利福尼亚 大学圣地亚哥分校(UCSD)于 2017 年公开。该数 据集包含 4 种类别,分别是玻璃膜疣 (Drusen)、脉 络膜新生血管(CNV)、糖尿病黄斑水肿(DME)和 正常类别,如图 5 所示。数据集包含训练集和测 试集,训练集中 4 种类别分别包含 8 616、37 205、 11 348、26 315 张图片。测试集由每类 250 张图片 组成,共 1 000 张 OCT 图像。本文按照 8∶2 的比 例将训练集划分为训练集和验证集。 2.3 评价指标 本文使用准确率 (Accuracy)、召回率 (Recall) 精确率 (Precision)、特异性 (Specifity) 作为视网膜 OCT 分类任务的评价指标,具体公式如式 (4)~ (7) 所示。 Accuracy = TP+TN TP+TN+FP+FN (4) Recall = TP TP+FN (5) Precision = TP TP+FP (6) Specifity = TN FP+TN (7) 式中:TP 是将正样本正确分类的个数;TN 为将负 样本正确分类的个数;FP 为将正样本分类错误的 个数;FN 为将负样本分类错误的个数。本文中的 视网膜分类任务属于多分类任务,这里的正样本 是指定的某一特定类别,例如玻璃疣,而此时的 负样本为除玻璃疣外的其他 3 种类别。同时,本 文绘制了 4 种类别的混淆矩阵,可直观看出各类 别的分类情况以及与基线网络分类情况的对比。 (a) 玻璃疣 (c) 黄斑水肿 (d) 正常图像 (b) 脉络膜新生血管 图 5 视网膜 OCT 图像示例 Fig. 5 Retinal OCT image example 2.4 实验分析 2.4.1 算法的有效性验证 为了验证本文提出方法的有效性,这里对改 进后的网络(引入 AG 模块和空间空洞金字塔模 块)与只加入 AG 模块以及基线网络进行了消融 实验,实验在同样的数据集、实验环境以及相同 的网络参数配置上进行,实验结果如表 2 所示。 由表 2 可以看出,加入 AG 模块后,网络的识 别率较基线网络提高了 1.9%,由此看出通过引入 AG 模块,网络更好地学习了病变区域特征,降低 了大量背景冗余的影响。在此基础之上,加入本 文的第二个改进点,网络的准确率进一步提高到 97.9%,较基线网络提高了 3.7%。其中 Drusen 病 ·364· 智 能 系 统 学 报 第 17 卷
第2期 韩璐,等:多尺度特征融合网络的视网膜OCT图像分类 ·365· 变有了明显的提高,提高了1.5%。由该实验结果 250 可以看出,加入扩张卷积使网络在大尺度特征图 CNV 245 0 26 0 200 上进行分类,让小目标病变的细节信息不会随特 DME 征提取过程的深入而损失,Drusen的识别效果显 5 250 150 著地提升。 DRUSEN 0 0 223 100 表2算法有效性验证实验 Table 2 Algorithm validation experiment 50 NORMAL 0 0 0 243 方法 类别 精确率召回率特异性总体准确率 0 CNV0.8550.9920.944 DME0.961 0.98 0.987 VGG16 0.942 Drusen0.9730.852 0.992 真实标签 (b)VGG+AG Normal 1.0 0.944 1.0 280 CNV0.9040.98 0.965 CNV 248 0 200 DME0.969 1.0 0.989 VGG16+AG 0.961 DME 249 150 Drusen0.9780.892 0.993 Normal 1.0 0.972 1.0 DRUSEN 0 100 0 238 CNV0.9920.9920.997 50 VGG16+ DME0.9580.996 0.985 NORMAL 0 0 244 0.979 AG+ASPP Drusen0.9880.9520.996 Normal0.980.9760.993 为了进一步直观地看出网络对4个类别的分 其实标签 类效果,这里绘制了基线网络以及加入AG模块 (c)VGG+AG+ASPP 和加入AG模块、空间空洞金字塔模块的混淆矩 图6混淆矩阵 阵,如图6所示。在混淆矩阵中,对角线上的数字 Fig.6 Confusion matrix 代表每个类别正确分类的样本个数,对角线上数 2.4.2算法的先进性验证 值越大说明分类越准确。从图6可以看出,加入 为验证本文方法的先进性,将本文提出算法 AG模块后,虽然各类别分类效果有所提高,但是 与现阶段具有代表性的基于深度学习的视网膜 由于Drusen病变小而模糊,且与CNV表现相似, OCT分类算法进行对比,对比结果如表3所示。 对Drusen的分类效果相比于其他3个类别差。 首先,从表3可以看出,现有方法对Drusen的分 再加入空间空洞金字塔模块后,Drusen的分类效 类准确率不高,该类别的最高准确率仅达92.5%, 果有了明显的改善。 远低于另外3种类别的分类精度。这是因为现有 方法针对小目标病变的特征提取能力不强,在特 250 征提取过程中,Drusen这一病变的细节信息损失 CNV 248 5 37 0 200 严重。针对这一问题,本文通过加入门控注意力 机制突出病变区域信息,以及加人空间空洞金子 DME 245 0 150 塔模块减小网络下采样的次数,在大分辨率的特 DRUSEN 0 0 213 100 征图上进行分类,从而保留小目标病变区域的细 节特征,本文对Drusen病变的分类准确率较现有 50 NORMAL 0 0 236 文献有了显著提升,较文献[17-24分别提高了6.3% 0 和9.8%。同时,本文方法在CNV、DME两种类别 病变上也获得了最好的分类效果。本文对Normal 类别的分类准确率较文献[17]低0.5%,但本文方 真实标签 法的整体分类准确率依然是现有视网膜OCT图 (a)VGG 像分类任务中最高的,相比于文献[1刀提出的轻
变有了明显的提高,提高了 1.5%。由该实验结果 可以看出,加入扩张卷积使网络在大尺度特征图 上进行分类,让小目标病变的细节信息不会随特 征提取过程的深入而损失,Drusen 的识别效果显 著地提升。 表 2 算法有效性验证实验 Table 2 Algorithm validation experiment 方法 类别 精确率 召回率 特异性 总体准确率 VGG16 CNV 0.855 0.992 0.944 0.942 DME 0.961 0.98 0.987 Drusen 0.973 0.852 0.992 Normal 1.0 0.944 1.0 VGG16+AG CNV 0.904 0.98 0.965 0.961 DME 0.969 1.0 0.989 Drusen 0.978 0.892 0.993 Normal 1.0 0.972 1.0 VGG16+ AG+ASPP CNV 0.992 0.992 0.997 0.979 DME 0.958 0.996 0.985 Drusen 0.988 0.952 0.996 Normal 0.98 0.976 0.993 为了进一步直观地看出网络对 4 个类别的分 类效果,这里绘制了基线网络以及加入 AG 模块 和加入 AG 模块、空间空洞金字塔模块的混淆矩 阵,如图 6 所示。在混淆矩阵中,对角线上的数字 代表每个类别正确分类的样本个数,对角线上数 值越大说明分类越准确。从图 6 可以看出,加入 AG 模块后,虽然各类别分类效果有所提高,但是 由于 Drusen 病变小而模糊,且与 CNV 表现相似, 对 Drusen 的分类效果相比于其他 3 个类别差。 再加入空间空洞金字塔模块后,Drusen 的分类效 果有了明显的改善。 CNV DME DRUSEN NORMAL CNV DME DRUSEN NORMAL 200 250 150 100 50 0 预测标签 真实标签 (a) VGG 248 5 37 0 2 245 0 8 0 0 213 6 0 0 0 236 (b) VGG+AG (c) VGG+AG+ASPP CNV DME DRUSEN NORMAL CNV DME DRUSEN NORMAL 200 280 150 100 50 0 真实标签 CNV DME DRUSEN NORMAL CNV DME DRUSEN NORMAL 200 250 150 100 50 0 预测标签 预测标签 真实标签 245 0 26 0 5 250 1 2 0 0 223 5 0 0 0 243 248 1 1 0 2 249 6 3 0 0 238 3 0 0 0 244 图 6 混淆矩阵 Fig. 6 Confusion matrix 2.4.2 算法的先进性验证 为验证本文方法的先进性,将本文提出算法 与现阶段具有代表性的基于深度学习的视网膜 OCT 分类算法进行对比,对比结果如表 3 所示。 首先,从表 3 可以看出,现有方法对 Drusen 的分 类准确率不高,该类别的最高准确率仅达 92.5%, 远低于另外 3 种类别的分类精度。这是因为现有 方法针对小目标病变的特征提取能力不强,在特 征提取过程中,Drusen 这一病变的细节信息损失 严重。针对这一问题,本文通过加入门控注意力 机制突出病变区域信息,以及加入空间空洞金子 塔模块减小网络下采样的次数,在大分辨率的特 征图上进行分类,从而保留小目标病变区域的细 节特征,本文对 Drusen 病变的分类准确率较现有 文献有了显著提升,较文献 [17-24] 分别提高了 6.3% 和 9.8%。同时,本文方法在 CNV、DME 两种类别 病变上也获得了最好的分类效果。本文对 Normal 类别的分类准确率较文献 [17] 低 0.5%,但本文方 法的整体分类准确率依然是现有视网膜 OCT 图 像分类任务中最高的,相比于文献 [17] 提出的轻 第 2 期 韩璐,等:多尺度特征融合网络的视网膜 OCT 图像分类 ·365·
·366· 智能系统学报 第17卷 量化视网膜OCT图像分类网络,本文算法准确率 diabetes mellitus control[J].Chinese journal of diabetes. 提高了0.9%,较文献[23]提出的多层次可选择卷 2002,10(1):37-39,36 积分类方法准确率提高了2.51%,较文献[24]提 [3]OTANI T.KISHI S,MARUYAMA Y.Patterns of diabet- 出的迁移学习方法准确率提高了1.4%,较文献[25] ic macular edema with optical coherence tomography[J]. 提出的基于通道注意力机制的分类方法提升了0.4%, American journal of ophthalmology,1999,127(6): 这充分验证了本文改进网铬模型的先进性。 688-693. [4]HUANG D,SWANSON E A.LIN C P.et al.Optical co- 表3算法先进性验证实验 herence tomography[J].Science,1991,254(5035) Table 3 Algorithm advanced verification experiment % 1178-1181. 方法 Drusen CNV DME Normal整体识别准确率 [5]DREXLER W.FUJIMOTO J G.State-of-the-art retinal 文献[17刀 92.5 96.995.8 98.5 97 optical coherence tomography[J].Progress in retinal and 文献[23] 95.39 eye research,2008,27(1):45-88 [6]PIZURICA A.JOVANOV L.HUYSMANS B.et al. 文献24 89 98 92 96 96.5 Multiresolution denoising for optical coherence tomo- 文献25] 97.5 graphy:a review and evaluation[J].Current medical ima- 本文算法 98.8 99.295.8 98 97.9 ging reviews.2008,4(4):270-284 [7]BEAUREPAIRE E.BOCCARA A C.LEBEC M.et al. 3结束语 Full-field optical coherence microscopy[J].Optics letters, 1998.23(4):244 本文提出了一种应用于视网膜OCT图像分 [8]GOH JK H.CHEUNG C Y.SIMS S.et al.Retinal ima- 类任务的双分支多尺度特征融合网络。通过加入 ging techniques for diabetic retinopathy screening[J]. 门控注意力机制模块,让深层特征作为选通信号 Journal of diabetes science and technology,2016,10(2) 修剪浅层特征中的冗余信息,突出OCT图像中的 282-294. 病变区域,消除背景噪声的影响。同时引入空洞 [9]袁非.糖尿病性视网膜病变及其早期检测).国外医学 空间金字塔模块,利用并行扩张卷积代替下采样 眼科学分册,1997(4):219-224 过程,在不降低特征图大小的前提下按不同比例 [10]ADHI M,DUKER J S.Optical coherence tomography: 捕捉上下文信息,获得更大的感受野。本文提出 current and future applications[J].Current opinion in 的方法有效解决了现有方法中因Drusen病变位 ophthalmology,2013,24(3):213-221. 置小、形态模糊导致的该类别分类难度大、精度 [11]DOI K.Computer-aided diagnosis in medical imaging: 低的问题,进一步提高了计算机辅助诊断的能力。 Historical review,current status and future potential[J]. 针对目前视网膜黄斑病变患者多、医生诊断压力 Computerized medical imaging and graphics,2007, 31(4/5):198-211. 大以及医疗行业逐渐智能化的现状,本文具有显 [12]ASIRI N.HUSSAIN M,AL ADEL F,et al.Deep learn- 著的研究价值。利用深度学习技术特征提取能力 ing based computer-aided diagnosis systems for diabetic 强大、可处理大量数据的优势,对本课题进一步 retinopathy:a survey[J].Artificial intelligence in medi- 深入研究,可以让计算机辅助诊断技术提升至人 cine,2019,99:101701 类专家水平,在实际应用中辅助人类医师更加高 [13]KOPROWSKI R.TEPER S.WROBEL Z.et al.Auto- 效、准确地诊断疾病,同时可以挖掘大量医疗数 matic analysis of selected choroidal diseases in OCT im- 据中的巨大价值,实现医疗系统智能化的转变。 ages of the eye fundus[J].Biomedical engineering on- 参考文献: line,2013,12:117. [14]KARRI S P K,CHAKRABORTY D,CHATTERJEE J. [1]ROMERO-AROCA P.Current status in diabetic macular Transfer learning based classification of optical coher- edema treatments[J].World journal of diabetes,2013. ence tomography images with diabetic macular edema 45):165-169 and dry age-related macular degeneration[J].Biomedic- [2]刘艳,隋虹,罗志忠,等糖尿病性视网膜病变与糖尿病 al optics express,2017,8(2):579-592. 控制状态研究[J】.中国糖尿病杂志,2002,10(1): [15]HASSAN B.RAJA G.HASSAN T,et al.Structure 37-39,36 tensor based automated detection of macular edema and LIU Yan,SUI Hong,LUO Zhizhong,et al.A study on the central serous retinopathy using optical coherence tomo- relationship between diabetic retinopathy and the state of graphy images[J].Journal of the Optical Society of
量化视网膜 OCT 图像分类网络,本文算法准确率 提高了 0.9%,较文献 [23] 提出的多层次可选择卷 积分类方法准确率提高了 2.51%,较文献 [24] 提 出的迁移学习方法准确率提高了 1.4%,较文献 [25] 提出的基于通道注意力机制的分类方法提升了 0.4%, 这充分验证了本文改进网络模型的先进性。 表 3 算法先进性验证实验 Table 3 Algorithm advanced verification experiment % 方法 Drusen CNV DME Normal 整体识别准确率 文献[17] 92.5 96.9 95.8 98.5 97 文献[23] — — — — 95.39 文献[24] 89 98 92 96 96.5 文献[25] — — — — 97.5 本文算法 98.8 99.2 95.8 98 97.9 3 结束语 本文提出了一种应用于视网膜 OCT 图像分 类任务的双分支多尺度特征融合网络。通过加入 门控注意力机制模块,让深层特征作为选通信号 修剪浅层特征中的冗余信息,突出 OCT 图像中的 病变区域,消除背景噪声的影响。同时引入空洞 空间金字塔模块,利用并行扩张卷积代替下采样 过程,在不降低特征图大小的前提下按不同比例 捕捉上下文信息,获得更大的感受野。本文提出 的方法有效解决了现有方法中因 Drusen 病变位 置小、形态模糊导致的该类别分类难度大、精度 低的问题,进一步提高了计算机辅助诊断的能力。 针对目前视网膜黄斑病变患者多、医生诊断压力 大以及医疗行业逐渐智能化的现状,本文具有显 著的研究价值。利用深度学习技术特征提取能力 强大、可处理大量数据的优势,对本课题进一步 深入研究,可以让计算机辅助诊断技术提升至人 类专家水平,在实际应用中辅助人类医师更加高 效、准确地诊断疾病,同时可以挖掘大量医疗数 据中的巨大价值,实现医疗系统智能化的转变。 参考文献: ROMERO-AROCA P. Current status in diabetic macular edema treatments[J]. World journal of diabetes, 2013, 4(5): 165–169. [1] 刘艳, 隋虹, 罗志忠, 等. 糖尿病性视网膜病变与糖尿病 控制状态研究 [J]. 中国糖尿病杂志, 2002, 10(1): 37–39,36. LIU Yan, SUI Hong, LUO Zhizhong, et al. A study on the relationship between diabetic retinopathy and the state of [2] diabetes mellitus control[J]. Chinese journal of diabetes, 2002, 10(1): 37–39,36. OTANI T, KISHI S, MARUYAMA Y. Patterns of diabetic macular edema with optical coherence tomography[J]. American journal of ophthalmology, 1999, 127(6): 688–693. [3] HUANG D, SWANSON E A, LIN C P, et al. Optical coherence tomography[J]. Science, 1991, 254(5035): 1178–1181. [4] DREXLER W, FUJIMOTO J G. State-of-the-art retinal optical coherence tomography[J]. Progress in retinal and eye research, 2008, 27(1): 45–88. [5] PIZURICA A, JOVANOV L, HUYSMANS B, et al. Multiresolution denoising for optical coherence tomography: a review and evaluation[J]. Current medical imaging reviews, 2008, 4(4): 270–284. [6] BEAUREPAIRE E, BOCCARA A C, LEBEC M, et al. Full-field optical coherence microscopy[J]. Optics letters, 1998, 23(4): 244. [7] GOH J K H, CHEUNG C Y, SIM S S, et al. Retinal imaging techniques for diabetic retinopathy screening[J]. Journal of diabetes science and technology, 2016, 10(2): 282–294. [8] 袁非. 糖尿病性视网膜病变及其早期检测 [J]. 国外医学 眼科学分册, 1997(4): 219–224. [9] ADHI M, DUKER J S. Optical coherence tomography: current and future applications[J]. Current opinion in ophthalmology, 2013, 24(3): 213–221. [10] DOI K. Computer-aided diagnosis in medical imaging: Historical review, current status and future potential[J]. Computerized medical imaging and graphics, 2007, 31(4/5): 198–211. [11] ASIRI N, HUSSAIN M, AL ADEL F, et al. Deep learning based computer-aided diagnosis systems for diabetic retinopathy: a survey[J]. Artificial intelligence in medicine, 2019, 99: 101701. [12] KOPROWSKI R, TEPER S, WRÓBEL Z, et al. Automatic analysis of selected choroidal diseases in OCT images of the eye fundus[J]. Biomedical engineering online, 2013, 12: 117. [13] KARRI S P K, CHAKRABORTY D, CHATTERJEE J. Transfer learning based classification of optical coherence tomography images with diabetic macular edema and dry age-related macular degeneration[J]. Biomedical optics express, 2017, 8(2): 579–592. [14] HASSAN B, RAJA G, HASSAN T, et al. Structure tensor based automated detection of macular edema and central serous retinopathy using optical coherence tomography images[J]. Journal of the Optical Society of [15] ·366· 智 能 系 统 学 报 第 17 卷
第2期 韩璐,等:多尺度特征融合网络的视网膜OCT图像分类 ·367· America A,Optics,image science,and vision,2016, [23]朱纳,李明.多层次可选择核卷积用于视网膜图像分 33(4):455-463 类[EB/OL].(2021-10-11)[2021-12-01].htps:/ns-cnki- [16]CIULLA T A.AMADOR A G.ZINMAN B.Diabetic net.wvpn.hrbeu.edu.cn/kcms/detail/50.1181.N.20211009. retinopathy and diabetic macular edema:patho- 1903.006.html. physiology,screening,and novel therapies[J].Diabetes ZHU Na,LI Ming.Multi-level selective kernel convolu- care,2003,26(9):2653-2664. tion for retinal image classification[EB/OL].(2021-10- [17刀张添福,钟舜聪,连超铭,等.基于深度学习特征融合 11)[2021-12-01].https://kns-cnki-net.wvpn.hrbeu.edu. 的视网膜图像分类[J].激光与光电子学进展, cn/kcms/detail/50.1181.N.20211009.1903.006.html. 2020(24)258-265. [24]BHADRA R,KAR S.Retinal disease classification from ZHANG Tianfu,ZHONG Shuncong,LIAN Chaoming, optical coherence tomographical scans using mul- et al.Deep learning feature fusion-based retina image tilayered convolution neural network[Cl//2020 IEEE Ap- classification[J].Laser optoelectronics progress, plied Signal Processing Conference.Kolkata,India. 2020(24):258-265. IEEE,2020:212-216. [18]SIMONYAN K,ZISSERMAN A.Very deep convolu- [25]于海琛.基于SE-Block的视网膜疾病分类方法研究 tional networks for large-scale image recognition [D1.长春:吉林大学,2019 [EB/OL].(2014-09-04)[2021-01-01].https:/arxiv YU Haichen.Research on classification of retinal dis- org/abs/1409.1556 eases based on SE-block[D].Changchun:Jilin Uni- [19]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation versity,2019. networks[Cl//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,USA. 作者简介: IEEE.2018:7132-7141. 韩璐,硕土,主要研究方向为图像 [20]WOO S,PARK J,LEE J Y,et al.CBAM:convolutional 识别、深度学习。 block attention module[M]//Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018: 3-19 [21]WANG Qilong,WU Banggu,ZHU Pengfei,et al.ECA- net:efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on 毕晓君,教授,博士生导师,主要 Computer Vision and Pattern Recognition.Seattle,USA. 研究方向为信息智能处理、数字图像 处理、智能优化算法及机器学习。主 IEEE,2020:11531-11539 持国家自然科学基金面上项目2项 [22]CHEN L C,PAPANDREOU G,KOKKINOS I,et al 科技部国际合作项目面上项目1项 DeepLab:semantic image segmentation with deep con- 教育部博士点基金项目1项、工业和 volutional nets,atrous convolution,and fully connected 信息化部海洋工程装备科研项目子项 CRFs[J].IEEE transactions on pattern analysis and ma- 目1项、民品横向课题1项,获国家专利8项。发表学术论 chine intelligence,2018,40(4):834-848. 文170余篇,出版学术专著3部
America A, Optics, image science, and vision, 2016, 33(4): 455–463. CIULLA T A, AMADOR A G, ZINMAN B. Diabetic retinopathy and diabetic macular edema: pathophysiology, screening, and novel therapies[J]. Diabetes care, 2003, 26(9): 2653–2664. [16] 张添福, 钟舜聪, 连超铭, 等. 基于深度学习特征融合 的视网膜图像分 类 [J]. 激光与光电子学进展 , 2020(24): 258–265. ZHANG Tianfu, ZHONG Shuncong, LIAN Chaoming, et al. Deep learning feature fusion-based retina image classification[J]. Laser & optoelectronics progress, 2020(24): 258–265. [17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04)[2021-01-01].https://arxiv. org/abs/1409.1556. [18] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. IEEE, 2018: 7132−7141. [19] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3−19. [20] WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECAnet: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA. IEEE, 2020: 11531−11539. [21] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834–848. [22] 朱纳, 李明. 多层次可选择核卷积用于视网膜图像分 类 [EB/OL]. (2021-10-11)[2021-12-01].https://kns-cnkinet.wvpn.hrbeu.edu.cn/kcms/detail/50.1181.N.20211009. 1903.006.html. ZHU Na, LI Ming. Multi-level selective kernel convolution for retinal image classification[EB/OL]. (2021-10- 11)[2021-12-01].https://kns-cnki-net.wvpn.hrbeu.edu. cn/kcms/detail/50.1181.N.20211009.1903.006.html.. [23] BHADRA R, KAR S. Retinal disease classification from optical coherence tomographical scans using multilayered convolution neural network[C]//2020 IEEE Applied Signal Processing Conference . Kolkata, India. IEEE, 2020: 212-216. [24] 于海琛. 基于 SE-Block 的视网膜疾病分类方法研究 [D]. 长春: 吉林大学, 2019. YU Haichen. Research on classification of retinal diseases based on SE-block[D]. Changchun: Jilin University, 2019. [25] 作者简介: 韩璐,硕士,主要研究方向为图像 识别、深度学习。 毕晓君,教授,博士生导师,主要 研究方向为信息智能处理、数字图像 处理、智能优化算法及机器学习。主 持国家自然科学基金面上项目 2 项、 科技部国际合作项目面上项目 1 项、 教育部博士点基金项目 1 项、工业和 信息化部海洋工程装备科研项目子项 目 1 项、民品横向课题 1 项,获国家专利 8 项。发表学术论 文 170 余篇,出版学术专著 3 部。 第 2 期 韩璐,等:多尺度特征融合网络的视网膜 OCT 图像分类 ·367·