第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0I:10.11992tis.201912006 基于深度学习与结构磁共振成像的抑郁症辅助诊断 付常洋,王瑜,肖洪兵,邢素霞 (北京工商大学食品安全大数据技术北京市重点实验室,北京100048) 摘要:抑郁症是致残率和发病率最高的疾病之一,全球约有3亿人正遭受着抑郁症的困扰。然而,目前并没 有有效的生物特征和临床方法能够帮助医生对抑郁症进行准确的诊断。针对此任务,本文将计算机视觉领域 的前沿深度学习模型进行优化与适配,应用于抑郁症的辅助诊断,并在此基础上引入迁移学习,取得了很好的 效果。实验结果表明,同前沿算法模型相比,本文提出的方法能够有效提高抑郁症与健康对照者的结构磁共振 成像分类准确率和召回率.充分验证了提出方法的有效性和优越性。 关键词:抑郁症;诊断:计算机视觉;深度学习;优化:迁移学习;结构磁共振成像;分类 中图分类号:TP181文献标志码:A 文章编号:1673-4785(2021)03-0544-08 中文引用格式:付常洋,王瑜,肖洪兵,等.基于深度学习与结构磁共振成像的抑郁症辅助诊断J.智能系统学报,2021, 16(3):544-551. 英文引用格式:FU Changyang,,WANG Yu,XIAO Hongbing,etal.Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging(J.CAAI transactions on intelligent systems,2021,16(3):544-551. Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging FU Changyang,WANG Yu,XIAO Hongbing,XING Suxia (Beijing Key Lab of Food Safety Big Data Technology,Beijing Technology and Business University,Beijing 100048,China) Abstract:Depression is one of the diseases with the highest disability and morbidity.About 300 million people around the world are suffering from depression.However,there exist no effective biological characteristics and clinical meth- ods to help doctors diagnose depression accurately.In this study,the state-of-the-art deep leaming model in the field of computer vision is optimized and adapted to diagnose depression.On this basis,transfer learning is introduced,achiev- ing excellent results.Experimental results reveal that compared with the frontier algorithm model,the proposed method can effectively improve the classification accuracy and recall of the structural magnetic resonance image of control sub- jects who are healthy and those who are depressed,which fully verifies the effectiveness and superiority of the proposed method. Keywords:depression;diagnosis;computer vision;deep learning;optimization;transfer learning;structural magnetic resonance image;classification 抑郁症(major depressive disorder,,MDD)是一 类》第10版(1CD-10)和美国《精神障碍诊断与 种非常常见的精神类疾病,对患者的生活质量和 统计手册》第4版(DSM-IV),但这种方式过于 身体健康有着显著的危害。据世界卫生组织统 依赖医生的主观判断,正确诊断率低,延误了最 计,目前,全球有超3亿人患有抑郁症四,抑郁症 佳治疗时间,导致病情迁延或加重。因此,寻找 患者的自残、自杀等行为对患者及其家属造成的 一个客观且有效的诊断方法,例如根据常见的脑 痛苦、对社会造成的损失不容忽视。抑郁症的临 部医学影像来诊断抑郁症的方法,是非常必要的。 床诊断主要依据精神疾病诊断手册,缺乏定量的 结构磁共振成像(structural magnetic resonance 生理指标,目前常用的诊断标准有《国际疾病分 imaging,sMR是当下流行的医学成像方式,具有 收稿日期:2019-12-07 无创、对比度高等优势,广泛用于抑郁症的诊断 基金项目:国家自然科学基金面上项目(61671028):国家重大 科技研发子课题(ZLJC603-5-1). 研究7。随着人工智能和大数据时代的到来,深度 通信作者:王瑜.E-mail:wangyu(@btbu.edu.cn. 学习s0作为人工智能领域的核心技术,与传统算
DOI: 10.11992/tis.201912006 基于深度学习与结构磁共振成像的抑郁症辅助诊断 付常洋,王瑜,肖洪兵,邢素霞 (北京工商大学 食品安全大数据技术北京市重点实验室,北京 100048) 摘 要:抑郁症是致残率和发病率最高的疾病之一,全球约有 3 亿人正遭受着抑郁症的困扰。然而,目前并没 有有效的生物特征和临床方法能够帮助医生对抑郁症进行准确的诊断。针对此任务,本文将计算机视觉领域 的前沿深度学习模型进行优化与适配,应用于抑郁症的辅助诊断,并在此基础上引入迁移学习,取得了很好的 效果。实验结果表明,同前沿算法模型相比,本文提出的方法能够有效提高抑郁症与健康对照者的结构磁共振 成像分类准确率和召回率,充分验证了提出方法的有效性和优越性。 关键词:抑郁症;诊断;计算机视觉;深度学习;优化;迁移学习;结构磁共振成像;分类 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)03−0544−08 中文引用格式:付常洋, 王瑜, 肖洪兵, 等. 基于深度学习与结构磁共振成像的抑郁症辅助诊断 [J]. 智能系统学报, 2021, 16(3): 544–551. 英文引用格式:FU Changyang, WANG Yu, XIAO Hongbing, et al. Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging[J]. CAAI transactions on intelligent systems, 2021, 16(3): 544–551. Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging FU Changyang,WANG Yu,XIAO Hongbing,XING Suxia (Beijing Key Lab of Food Safety Big Data Technology, Beijing Technology and Business University, Beijing 100048, China) Abstract: Depression is one of the diseases with the highest disability and morbidity. About 300 million people around the world are suffering from depression. However, there exist no effective biological characteristics and clinical methods to help doctors diagnose depression accurately. In this study, the state-of-the-art deep learning model in the field of computer vision is optimized and adapted to diagnose depression. On this basis, transfer learning is introduced, achieving excellent results. Experimental results reveal that compared with the frontier algorithm model, the proposed method can effectively improve the classification accuracy and recall of the structural magnetic resonance image of control subjects who are healthy and those who are depressed, which fully verifies the effectiveness and superiority of the proposed method. Keywords: depression; diagnosis; computer vision; deep learning; optimization; transfer learning; structural magnetic resonance image; classification 抑郁症 (major depressive disorder, MDD) 是一 种非常常见的精神类疾病,对患者的生活质量和 身体健康有着显著的危害。据世界卫生组织统 计,目前,全球有超 3 亿人患有抑郁症[1] ,抑郁症 患者的自残、自杀等行为对患者及其家属造成的 痛苦、对社会造成的损失不容忽视。抑郁症的临 床诊断主要依据精神疾病诊断手册,缺乏定量的 生理指标,目前常用的诊断标准有《国际疾病分 类》第 10 版 (ICD-10)[2] 和美国《精神障碍诊断与 统计手册》第 4 版 (DSM-IV)[3] ,但这种方式过于 依赖医生的主观判断,正确诊断率低,延误了最 佳治疗时间,导致病情迁延或加重。因此,寻找 一个客观且有效的诊断方法,例如根据常见的脑 部医学影像来诊断抑郁症的方法,是非常必要的。 结构磁共振成像 (structural magnetic resonance imaging, sMRI)[4] 是当下流行的医学成像方式,具有 无创、对比度高等优势,广泛用于抑郁症的诊断 研究[5-7]。随着人工智能和大数据时代的到来,深度 学习[8-10] 作为人工智能领域的核心技术,与传统算 收稿日期:2019−12−07. 基金项目:国家自然科学基金面上项目 (61671028);国家重大 科技研发子课题 (ZLJC6 03-5-1). 通信作者:王瑜. E-mail:wangyu@btbu.edu.cn. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·545· 法相比,在图像领域取得了突破性的成绩 工作流程,用于目标领域同类型、同部位的数据 因此,越来越多的学者将深度学习方法应用到医 进行预训练,然后将模型迁移至抑郁症sMRI数 疗图像领域的研究课题中。 据,并进行再训练,提高了分类精度,证明了迁移 深度卷积神经网络(convolutional neural net- 学习的有效性,通过与其他迁移学习方法做对 works,.CNN)通过使用反向传播算法来调整其内 比,证明了提出的迁移学习方法的优越性; 部参数,叠加了多层神经元,用来发现大数据集 3)与多组先进的二维、三维网络进行对比实 中更深层次的特征。文献[16]表明,网络层数对 验,证明了提出的3 D-DenseNet网络在抑郁症sMRI 网络的最终性能的影响巨大,越深层的网络往往 数据分类任务中具有优越性和有效性。 越能提高其泛化能力。CNN网络的发展也符合 这一规律,自AlexNet!的7层发展到了VGGm 1实验准备 的16层,甚至19层,后来发展到GoogLeNet!的 1.1数据库 22层。但随着层数的增加,训练网络所需的计算 本研究共包含174名被试者,其中99名重症 能力和时间成本也随之增加,而且一味地增加层 抑郁症患者和75名年龄、性别、受教育程度匹配 数,并不总是能够提升网络性能,网络达到一定 的健康对照者(heathy control,,HC)。重症抑郁症 深度后再加深,反而会导致网络收敛速度变慢, 患者是从首都医科大学附属安定医院招募的,健 分类准确率也变差。排除数据集过小带来的模型 康对照组是从报纸广告上招募的。所有重症抑郁 过拟合等问题,分类准确率会在增加网络层数的 症患者都达到了美国精神障碍诊断与统计学手册 过程中逐渐趋于饱和,继续加深网络会出现准确 第4版(DSM-IV)对抑郁症的诊断标准,所有正常 率下降的现象,这种现象被称为退化问题,网络 人都通过了DSM-IV的非病人版结构化临床访谈 层数越深,网络的分类性能退化越快。 面试,在实验前,所有被试者都签署了知情同意书。 针对这一问题,He等在2016年提出了残 2组被试者的临床统计学分析结果如表1所示。 差网络(residual network,.ResNet),通过引入残差 表1被试者统计学分析结果 模块,建立相邻层之间的短路连接,有助于训练 Table 1 Statistical analysis results of subjects 过程中梯度的反向传播,将网络层数做到了 P 152层以上,一定程度上解决了梯度消失和网络 变量 MDD HC 33:42 退化问题。 性别(男:女) 43:56 0.941 基于此,Huang等20在2017年提出了密集连 年龄/岁 34.57±12.18 35.65±12.63 0.570 (densely connected convolutional networks, 教育程度/年 13.75±3.01 12.93±2.40 0.610 DenseNet),其基本思路与ResNet一致,但是该网 年龄范围/岁 18-65 19-60 络建立了前面所有层与后面层的连接,实现特征 病程/年 7.88±7.87 重用,在参数量和计算成本均比ResNet少的情况 抑郁症发病次数/次 2.63±126 下,DenseNet在多个公开大型数据集上表现出了 HAMD 21.44±3.97 比ResNet更优的性能。 虽然深度学习在计算机视觉领域大放异彩, HAMA 16.00±9.61 但目前的深度学习网络,大多只能处理如Im- 表1中:P为MDD和HC的双样本T检验 ageNet等二维的自然图像数据,对于三维数据涉 值;HAMD表示汉密尔顿忧郁量表(Hamilton de- 及较少,如何将深度学习网络应用在抑郁症结构 pression scale);HAMA表示汉密尔顿焦虑量表 磁共振影像的分类任务上,成为一个研究热点和 (Hamilton anxiety scale). 难点。基于此,本文将DenseNet网络模型进行三 1.2sMRI数据采集 维(three dimensional,3D)化,并引入迁移学习方 所有sMRI图像都是在北京师范大学认知神 法,进一步优化了实验结果。本文主要贡献概括 经科学与学习国家重点实验室用一台Tesla3.0扫 如下: 描所得,扫描时采用三维磁化快速梯度回波成像 1)提出一种三维密集连接网络(3D-Dense (magnetization prepared rapid gradient echo, Net),将密集连接的思想扩展到三维,以充分挖掘 MPRAGE),扫描参数如下:射频重复时间(repeti- 三维sMRI数据中的层间结构信息,实现对抑郁 tion time,,TR)=2530ms,回波时间(echo time,TE)= 症患者与健康对照者sMRI数据的准确分类; 3.39ms,翻转角度(flip angle,.FA)=7°,成像视野 2)引入迁移学习,精心设计了一个迁移学习 (field of view,FOV)=256mm×256mm,体素大小
法相比,在图像领域取得了突破性的成绩[11-12]。 因此,越来越多的学者将深度学习方法应用到医 疗图像领域的研究课题中[13-15]。 深度卷积神经网络 (convolutional neural networks, CNN) 通过使用反向传播算法来调整其内 部参数,叠加了多层神经元,用来发现大数据集 中更深层次的特征。文献 [16] 表明,网络层数对 网络的最终性能的影响巨大,越深层的网络往往 越能提高其泛化能力。CNN 网络的发展也符合 这一规律,自 AlexNet[11] 的 7 层发展到了 VGG[17] 的 16 层,甚至 19 层,后来发展到 GoogLeNet[18] 的 22 层。但随着层数的增加,训练网络所需的计算 能力和时间成本也随之增加,而且一味地增加层 数,并不总是能够提升网络性能,网络达到一定 深度后再加深,反而会导致网络收敛速度变慢, 分类准确率也变差。排除数据集过小带来的模型 过拟合等问题,分类准确率会在增加网络层数的 过程中逐渐趋于饱和,继续加深网络会出现准确 率下降的现象,这种现象被称为退化问题,网络 层数越深,网络的分类性能退化越快。 针对这一问题,He 等 [19] 在 2016 年提出了残 差网络 (residual network, ResNet),通过引入残差 模块,建立相邻层之间的短路连接,有助于训练 过程中梯度的反向传播,将网络层数做到 了 152 层以上,一定程度上解决了梯度消失和网络 退化问题。 基于此,Huang 等 [20] 在 2017 年提出了密集连 接网络 (densely connected convolutional networks, DenseNet),其基本思路与 ResNet 一致,但是该网 络建立了前面所有层与后面层的连接,实现特征 重用,在参数量和计算成本均比 ResNet 少的情况 下,DenseNet 在多个公开大型数据集上表现出了 比 ResNet 更优的性能。 虽然深度学习在计算机视觉领域大放异彩, 但目前的深度学习网络,大多只能处理如 ImageNet 等二维的自然图像数据,对于三维数据涉 及较少,如何将深度学习网络应用在抑郁症结构 磁共振影像的分类任务上,成为一个研究热点和 难点。基于此,本文将 DenseNet 网络模型进行三 维 (three dimensional, 3D) 化,并引入迁移学习方 法,进一步优化了实验结果。本文主要贡献概括 如下: 1) 提出一种三维密集连接网络 (3D-Dense Net),将密集连接的思想扩展到三维,以充分挖掘 三维 sMRI 数据中的层间结构信息,实现对抑郁 症患者与健康对照者 sMRI 数据的准确分类; 2) 引入迁移学习,精心设计了一个迁移学习 工作流程,用于目标领域同类型、同部位的数据 进行预训练,然后将模型迁移至抑郁症 sMRI 数 据,并进行再训练,提高了分类精度,证明了迁移 学习的有效性,通过与其他迁移学习方法做对 比,证明了提出的迁移学习方法的优越性; 3) 与多组先进的二维、三维网络进行对比实 验,证明了提出的 3D-DenseNet 网络在抑郁症 sMRI 数据分类任务中具有优越性和有效性。 1 实验准备 1.1 数据库 本研究共包含 174 名被试者,其中 99 名重症 抑郁症患者和 75 名年龄、性别、受教育程度匹配 的健康对照者 (heathy control, HC)。重症抑郁症 患者是从首都医科大学附属安定医院招募的,健 康对照组是从报纸广告上招募的。所有重症抑郁 症患者都达到了美国精神障碍诊断与统计学手册 第 4 版 (DSM-IV) 对抑郁症的诊断标准,所有正常 人都通过了 DSM-IV 的非病人版结构化临床访谈 面试,在实验前,所有被试者都签署了知情同意书。 2 组被试者的临床统计学分析结果如表 1 所示。 表 1 被试者统计学分析结果 Table 1 Statistical analysis results of subjects 变量 MDD HC P 性别(男∶女) 43∶56 33∶42 0.941 年龄/岁 34.57±12.18 35.65±12.63 0.570 教育程度/年 13.75±3.01 12.93±2.40 0.610 年龄范围/岁 18~65 19~60 — 病程/年 7.88±7.87 — — 抑郁症发病次数/次 2.63±1.26 — — HAMD 21.44±3.97 — — HAMA 16.00±9.61 — — 表 1 中 :P 为 MDD 和 HC 的双样本 T 检验 值;HAMD 表示汉密尔顿忧郁量表 (Hamilton depression scale);HAMA 表示汉密尔顿焦虑量表 (Hamilton anxiety scale)。 1.2 sMRI 数据采集 所有 sMRI 图像都是在北京师范大学认知神 经科学与学习国家重点实验室用一台 Tesla3.0 扫 描所得,扫描时采用三维磁化快速梯度回波成像 (magnetization prepared rapid gradient echo, MPRAGE),扫描参数如下:射频重复时间 (repetition time, TR) = 2530 ms,回波时间 (echo time, TE) = 3.39 ms,翻转角度 (flip angle, FA) = 7°,成像视野 (field of view, FOV) = 256 mm×256 mm,体素大小 第 3 期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·545·
·546· 智能系统学报 第16卷 为1mm×1mm×1.33mm,层厚为1.33mm,扫描层 接网络(3D-DenseNet),以更好地从三维sMRI数 数为128。 据中提取有代表性的特征,并提高抑郁症的 1.3数据预处理 sMRI数据分类的精度。 sMRI数据预处理工作使用基于Matlab的 一个121层3D-DenseNet结构如图2所示。 SPM12工具包2u实现。考虑到灰质区域对抑郁 其中3D-DenseBlock1包含6层,3D-DenseBlock2 症诊断的重要影响2四,本文只用灰质部分进行实 包含12层,3D-DenseBlock3包含24层,3D- 验。预处理主要内容包括:去除非脑组织、空间 DenseBlock4包含16层。每一层都包含一个1×1×1 标准化、灰质分割、空间平滑。处理后每个被试 三维卷积层(3D-Conv)、一个3×3×3三维卷积层, 者sMRI数据的尺寸为121×145×121体素。数据 2个批量归一化(batch normalization,.BN2层,以 预处理流程如图1所示。 及2个线性整流函数(ReLU)21层。一个6层的 3D-DenseBlock结构如图3所示。 灰质分割 空间平滑 原始图像 空间标准化、 3D-Conv,3D-BN 去除非脑组织 ReLU,3D-MaxPool 标准化全脑标准化灰质 平滑灰质 3D-DenseBlock1☐ 3D-Transition MNI模板 3D-DenseBlock 2 图1数据预处理流程 Fig.1 Data preprocessing flowchart 3D-Transition 3D-DenseBlock 3 2研究方法 3D-Transition 2.1三维化DenseNet 3D-DenseBlock4☐ 尽管DenseNet在很多2D自然图片数据集上 取得了卓越的成绩,但在医学图像领域却鲜有建 ReLU,3D-AvgPool 树,原因是2D网络中的卷积核、池化核等都是二 FC、Softmax 维的矩阵,只能在二维平面图像的高度H和宽度 HC?MDD W两个方向上移动,自然也只能提取二维的特 征。而sMRI等医学图像数据大多是三维的立体 图23D-DenseNet的121层网络结构 数据,使用2D网络处理时只能将三维图像分层 Fig.2 Structure of 3D-DenseNet 121 输入,或将其中一个维度当作channel维度,但 输入 2种方法都不能很好地利用数据的层间结构信 息。基于此,本文将2D网络中的卷积核、池化核 BN +ReLU+3D-Conv) 等过滤器增加一个深度维度D,扩展为三维矩阵, BN +ReLU+3D-Conv 这样过滤器就可以在sMRI数据所有3个方向 BN +ReLU+3D-Conv (H、W、D)上移动,也就可以充分挖掘出数据的空 间信息,每个过滤器的输出同样是一个3D的数 BN +ReLU+3D-Conv 据。若其中一个三维卷积核的尺寸为k×k×k× BN +ReLU+3D-Conv) channel,数量为n,输入数据尺寸为h×w×d,由于 本文使用的sMRI数据类似灰度图,channel维度 BN +ReLU+3D-Conv 为1,故该卷积核的输出尺寸为 输出 (h-k+1)×(w-k+1)×(d-k+1)×n (1) 通过类似的方法可以扩展DenseNet中的池 图3一个6层3D-DenseBlock结构 化层、批归一化层,从而构建出一个三维密集连 Fig.3 A 6-layer 3D-DenseBlock
为 1 mm×1 mm×1.33 mm,层厚为 1.33 mm,扫描层 数为 128。 1.3 数据预处理 sMRI 数据预处理工作使用基于 Matlab 的 SPM12 工具包[21] 实现。考虑到灰质区域对抑郁 症诊断的重要影响[22] ,本文只用灰质部分进行实 验。预处理主要内容包括:去除非脑组织、空间 标准化、灰质分割、空间平滑。处理后每个被试 者 sMRI 数据的尺寸为 121×145×121 体素。数据 预处理流程如图 1 所示。 空间标准化、 去除非脑组织 原始图像 MNI 模板 灰质分割 空间平滑 标准化全脑 标准化灰质 平滑灰质 图 1 数据预处理流程 Fig. 1 Data preprocessing flowchart 2 研究方法 2.1 三维化 DenseNet 尽管 DenseNet 在很多 2D 自然图片数据集上 取得了卓越的成绩,但在医学图像领域却鲜有建 树,原因是 2D 网络中的卷积核、池化核等都是二 维的矩阵,只能在二维平面图像的高度 H 和宽度 W 两个方向上移动,自然也只能提取二维的特 征。而 sMRI 等医学图像数据大多是三维的立体 数据,使用 2D 网络处理时只能将三维图像分层 输入,或将其中一个维度当作 channel 维度,但 2 种方法都不能很好地利用数据的层间结构信 息。基于此,本文将 2D 网络中的卷积核、池化核 等过滤器增加一个深度维度 D,扩展为三维矩阵, 这样过滤器就可以在 sMRI 数据所有 3 个方向 (H、W、D) 上移动,也就可以充分挖掘出数据的空 间信息,每个过滤器的输出同样是一个 3D 的数 据。若其中一个三维卷积核的尺寸为 k×k×k× channel,数量为 n,输入数据尺寸为 h×w×d,由于 本文使用的 sMRI 数据类似灰度图,channel 维度 为 1,故该卷积核的输出尺寸为 (h−k+1)×(w−k+1)×(d −k+1)×n (1) 通过类似的方法可以扩展 DenseNet 中的池 化层、批归一化层,从而构建出一个三维密集连 接网络 (3D-DenseNet),以更好地从三维 sMRI 数 据中提取有代表性的特征,并提高抑郁症 的 sMRI 数据分类的精度。 一个 121 层 3D-DenseNet 结构如图 2 所示。 其中 3D-DenseBlock 1 包含 6 层,3D-DenseBlock 2 包含 12 层 , 3D-DenseBlock 3 包含 24 层 , 3DDenseBlock 4 包含 16 层。每一层都包含一个 1×1×1 三维卷积层 (3D-Conv)、一个 3×3×3 三维卷积层, 2 个批量归一化 (batch normalization, BN)[23] 层,以 及 2 个线性整流函数 (ReLU)[24] 层。一个 6 层的 3D-DenseBlock 结构如图 3 所示。 3D-Conv, 3D-BN ReLU, 3D-MaxPool 3D-DenseBlock 1 3D-Transition 3D-DenseBlock 2 3D-Transition 3D-DenseBlock 3 3D-Transition 3D-DenseBlock 4 ReLU, 3D-AvgPool FC、Softmax HC ? MDD 图 2 3D-DenseNet 的 121 层网络结构 Fig. 2 Structure of 3D-DenseNet 121 BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv 输入 输出 图 3 一个 6 层 3D-DenseBlock 结构 Fig. 3 A 6-layer 3D-DenseBlock ·546· 智 能 系 统 学 报 第 16 卷
第3期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症轴助诊断 ·547· 每一层的密集连接(dense connectivity)都可 式(2)中的密集连接操作在特征图大小不一 表示为 致时是不可行的,所以在每2个3D-DenseBlock =H(xox1…-JD (2) 之间都加入一个过渡层3D-Transition,包含一个 BN层、一个RLU层、一个1×1×1卷积层,以及 式中:x表示第I层接收的特征图(feature map): 一个均匀池化层(AvgPool),用来进行特征图降 [0x1…-]表示将第0,1,…,-1层产生的特征 维。最后,一个3D-DenseBlock后面连接一个 图按channel维度连接在一起;H()表示复合函 ReLU层、一个AvgPool层、一个全连接层(FC), 数,由3个连续操作组成,即批量归一化操作、线 以及一个分类器层(Softmax),用来实现最后的特 性整流函数激活,以及3×3×3的三维卷积运算。 征降维和分类。 如果每个H()函数产生k个特征图,那么第I层 一个121层的3D-DensNet网络的具体参数和 输入的特征图总数为k。+k×(I-1),其中k代表输 架构如表2所示,其中每一个Conv都代表一个 入层的通道数。 BN-ReLU-Conv顺序流程。 表23D-DenseNet121网络架构 Table 2 Parameters and architecture of the 3D-DenseNet 121 层 输出尺寸体素 参数 输入层 1×121×145×121 3D-Conv 64×121×73×61 卷积核大小(7,7,7),步幅(1,2,2) 3D-BN 64×121×73×61 cps:1e-5,动量系数:0.1 ReLU 64×121×73×61 3D-MaxPool 64×61×37×31 卷积核大小(3,3,3),步幅(1,1,1) 1×1×1conv Dense Block(1) 256×61×37×31 ×6 3×3×3conv 128×61×37×31 1×1×1conv 3D-Transition 128×30×18×15 2×2×2平均池化,步幅:2 [1×1×1conv Dense Block(2) 512×30×18×15 ×12 3x3x3 conv 256×30×18×15 1×1×1conW 3D-Transition 256×15×9×7 2×2×2平均池化.步幅:2 1×1×1conw Dense Block(3) 1024×15×9×7 ×24 3×3×3conv 512×15×9×7 1×1×1conv 3D-Transition 512×7×4×3 2×2×2平均池化,步幅:2 1×1×1conw Dense Block(4) 1024×7×4×3 3×3×3conw ×16 ReLU 1024×7×4×3 3D-AvgPool 1024×1×1×1 卷积核大小(7,4,3),步幅(1,1,1) F C Softmax Layer 2 2.2 迁移学习 习中,网络参数的初始值并不是随机的,而是从 卷积神经网络使用反向传播算法进行训练, 已经在更大数据集上训练过的网络模型中复制 其中每一层的参数在迭代中不断更新,以最小化 的,随后再对网络进行微调。 特定的损失函数值。通常,训练之前会用一组随 由于医学影像数据普遍数据量不大且难以获 机值将参数初始化。值得注意的是,网络层数的 取,很多学者探索将迁移学习引入医学图像领 增加会导致网络参数量的增加,这就需要更多的 域。Tajbakhsh等21深入地讨论和比较了在医学 训练数据,以使反向传播算法更好地收敛,如果 图像分析领域中,从零开始的训练网络和引入迁 数据量不够,很容易造成过拟合,使算法陷入局 移学习,并进行微调的结果。研究表明,在大多 部最小值,导致分类性能欠佳。为解决这个问 数情况下,引入迁移学习并进行微调,比从零开 题,一个可行的方法是采取迁移学习。在迁移学 始的训练网络效果更好。目前为止,迁移学习已
每一层的密集连接 (dense connectivity) 都可 表示为 xl = Hl([x0 x1 ··· xl−1]) (2) xl [x0 x1 ··· xl−1] Hl(·) Hl(·) k0 +k×(l−1) k0 式中: 表示第 l 层接收的特征图 (feature map); 表示将第 0,1,···,l−1 层产生的特征 图按 channel 维度连接在一起; 表示复合函 数,由 3 个连续操作组成,即批量归一化操作、线 性整流函数激活,以及 3×3×3 的三维卷积运算。 如果每个 函数产生 k 个特征图,那么第 l 层 输入的特征图总数为 ,其中 代表输 入层的通道数。 式 (2) 中的密集连接操作在特征图大小不一 致时是不可行的,所以在每 2 个 3D-DenseBlock 之间都加入一个过渡层 3D-Transition,包含一个 BN 层、一个 ReLU 层、一个 1×1×1 卷积层,以及 一个均匀池化层 (AvgPool),用来进行特征图降 维。最后,一个 3D-DenseBlock 后面连接一个 ReLU 层、一个 AvgPool 层、一个全连接层 (FC), 以及一个分类器层 (Softmax),用来实现最后的特 征降维和分类。 一个 121 层的 3D-DensNet 网络的具体参数和 架构如表 2 所示,其中每一个 Conv 都代表一个 BN-ReLU-Conv 顺序流程。 表 2 3D-DenseNet 121 网络架构 Table 2 Parameters and architecture of the 3D-DenseNet 121 层 输出尺寸/体素 参数 输入层 1×121×145×121 — 3D-Conv 64×121×73×61 卷积核大小: (7, 7, 7), 步幅:(1, 2, 2) 3D-BN 64×121×73×61 eps: 1e-5, 动量系数: 0.1 ReLU 64×121×73×61 — 3D-MaxPool 64×61×37×31 卷积核大小: (3, 3, 3), 步幅:(1, 1, 1) Dense Block (1) 256×61×37×31 [ 1×1×1 conv 3×3×3 conv ] ×6 3D-Transition 128×61×37×31 1×1×1 conv 128×30×18×15 2×2×2 平均池化, 步幅: 2 Dense Block (2) 512×30×18×15 [ 1×1×1 conv 3×3×3 conv ] ×12 3D-Transition 256×30×18×15 1×1×1 conv 256×15×9×7 2×2×2 平均池化, 步幅: 2 Dense Block (3) 1024×15×9×7 [ 1×1×1 conv 3×3×3 conv ] ×24 3D-Transition 512×15×9×7 1×1×1 conv 512×7×4×3 2×2×2 平均池化, 步幅: 2 Dense Block (4) 1024×7×4×3 [ 1×1×1 conv 3×3×3 conv ] ×16 ReLU 1024×7×4×3 — 3D-AvgPool 1024×1×1×1 卷积核大小: (7, 4, 3), 步幅:(1, 1, 1) F C & Softmax Layer 2 — 2.2 迁移学习 卷积神经网络使用反向传播算法进行训练, 其中每一层的参数在迭代中不断更新,以最小化 特定的损失函数值。通常,训练之前会用一组随 机值将参数初始化。值得注意的是,网络层数的 增加会导致网络参数量的增加,这就需要更多的 训练数据,以使反向传播算法更好地收敛,如果 数据量不够,很容易造成过拟合,使算法陷入局 部最小值,导致分类性能欠佳。为解决这个问 题,一个可行的方法是采取迁移学习。在迁移学 习中,网络参数的初始值并不是随机的,而是从 已经在更大数据集上训练过的网络模型中复制 的,随后再对网络进行微调。 由于医学影像数据普遍数据量不大且难以获 取,很多学者探索将迁移学习引入医学图像领 域。Tajbakhsh 等 [25] 深入地讨论和比较了在医学 图像分析领域中,从零开始的训练网络和引入迁 移学习,并进行微调的结果。研究表明,在大多 数情况下,引入迁移学习并进行微调,比从零开 始的训练网络效果更好。目前为止,迁移学习已 第 3 期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·547·
·548· 智能系统学报 第16卷 被应用于阿尔滋海默症2、脑瘤2和肺结节1等 8组数据共享编码器,并分别使用8个解码器,最 疾病的医学图像分类或分割研究当中,并表现出 后只迁移共用的编码器部分用于肺结节CT图像 了优秀的效果。据我们所知,目前没有任何关于 的分类研究。受Chen等2例的启发,本文设计了 抑郁症医学图像分类的研究使用迁移学习,但所 一个新颖的三维sMRI数据迁移学习框架。在数 有上述研究都证明,将迁移学习应用于医学成像 据选择方面,只收集同一部位(大脑)和同一类型 领域具有巨大的价值,并且与从无到有的训练相 (sMR)的数据进行预训练,并只考虑分类任务。 比,在训练数据集较小的情况下,迁移学习的引 在这3个限制条件下,选择使用开源的老年痴呆 入有可能提高抑郁症sMRI图像分类的精度。 症数据集ADNI(htps:/ida.loni.usc.edu)作为预训 Chen等收集了包括肝脏、心脏等8种不同 练数据。为了实现本文的迁移学习,设计了1个 部位的3D医学图像分割数据集,在训练过程中, 3步处理工作流,如图4所示。 AD uonisue-Ce HC 迁移 MDD Na-dE AuoD-dE uorsueIL-dE 图4 迁移学习架构 Fig.4 Framework of the proposed transfer learning 1)从ADNI数据库中挑选出合适的sMRI数 的学习速率对迁移过后的主干网络进行微调,用 据,包含阿兹海默患者(alzheimer's disease, 较大的学习速率来训练未经过预训练的分类层 AD)、轻度认知障碍(mild cognitive impairment,. 以使传输的网络能够从MDD数据中提取一些新 MC),以及健康对照组(heathy control,HC)3类, 的特征,提高分类性能。 共656个被试者,并用与本文中相同的数据预处 理步骤,对挑选出来的数据进行预处理: 3实验与结果分析 2)用所选数据训练1个三分类的3D-DenseNet 为了验证本文提出方法的有效性,本文精心 网络,让网络学习sMRI数据的特征; 设计了一系列实验,探讨不同深度学习网络以及 3)将训练好的网络模型中的主干网络(图4 三维化相应网络对分类精度的影响,验证所设计 中红框部分)部分迁移到抑郁症sMRI数据的分类 任务中,并添加二分类层,使用本文的抑郁症sMRI 的迁移学习流程的有效性和优越性。 数据继续进行训练,以增强网络的分类性能。 3.1模型评价指标 之所以只从脑部sMRI数据集中选择数据作 本文分类问题为二分类问题,也就是将样本 预训练,是因为如果选择的源域和目标域的相似 分成MDD患者和HC两类,规定MDD患者为正 度太小,很可能会导致负迁移,从而导致性能下 类(positive),HC为负类(negative),分类算法对测 降,即分类准确率不提高反而降低。相反,2个数 试数据集的预测有正确或错误之分,具体包括将 据集越相似,2个数据集的高层特征就越相似,这 正类预测为正类数(true positive,TP)、将正类预测 将产生更好的代表性特征和更适合目标域的预训 为负类数(false negative,FN)、将负类预测为正类 练模型,以提高目标域任务的分类性能。为了进 数(false positive,FP)、将负类预测为负类数(true 行对比实验,在第3步中用相同的过程和相同的 negative,TN)4种情况。针对研究课题的特殊性, 数据训练三维化的ResNet。此外,本文使用较小 本文选取了正确率和召回率2个指标来评价模型
被应用于阿尔兹海默症[26] 、脑瘤[27] 和肺结节[28] 等 疾病的医学图像分类或分割研究当中,并表现出 了优秀的效果。据我们所知,目前没有任何关于 抑郁症医学图像分类的研究使用迁移学习,但所 有上述研究都证明,将迁移学习应用于医学成像 领域具有巨大的价值,并且与从无到有的训练相 比,在训练数据集较小的情况下,迁移学习的引 入有可能提高抑郁症 sMRI 图像分类的精度。 Chen 等 [29] 收集了包括肝脏、心脏等 8 种不同 部位的 3D 医学图像分割数据集,在训练过程中, 8 组数据共享编码器,并分别使用 8 个解码器,最 后只迁移共用的编码器部分用于肺结节 CT 图像 的分类研究。受 Chen 等 [29] 的启发,本文设计了 一个新颖的三维 sMRI 数据迁移学习框架。在数 据选择方面,只收集同一部位 (大脑) 和同一类型 (sMRI) 的数据进行预训练,并只考虑分类任务。 在这 3 个限制条件下,选择使用开源的老年痴呆 症数据集 ADNI(https://ida.loni.usc.edu) 作为预训 练数据。为了实现本文的迁移学习,设计了 1 个 3 步处理工作流,如图 4 所示。 3D-Conv, 3D-BN ReLU, 3D-MaxPool 3D-DenseBlock (1) 3D-Transition 3D-DenseBlock (2) 3D-Transition 3D-DenseBlock (3) 3D-Transition 3D-DenseBlock (4) ReLU, 3D-AvgPool FC, Softmax MCI AD HC AD MCI HC 3D-Conv, 3D-BN ReLU, 3D-MaxPool 3D-DenseBlock (1) 3D-Transition 3D-DenseBlock (2) 3D-Transition 3D-DenseBlock (3) 3D-Transition 3D-DenseBlock (4) ReLU, 3D-AvgPool FC, Softmax MDD HC 迁移 MDD HC 图 4 迁移学习架构 Fig. 4 Framework of the proposed transfer learning 1) 从 ADNI 数据库中挑选出合适的 sMRI 数 据,包含阿兹海默患者 (alzheimer’s disease, AD)、轻度认知障碍 (mild cognitive impairment, MCI),以及健康对照组 (heathy control, HC)3 类, 共 656 个被试者,并用与本文中相同的数据预处 理步骤,对挑选出来的数据进行预处理; 2) 用所选数据训练 1 个三分类的 3D-DenseNet 网络,让网络学习 sMRI 数据的特征; 3) 将训练好的网络模型中的主干网络 (图 4 中红框部分) 部分迁移到抑郁症 sMRI 数据的分类 任务中,并添加二分类层,使用本文的抑郁症 sMRI 数据继续进行训练,以增强网络的分类性能。 之所以只从脑部 sMRI 数据集中选择数据作 预训练,是因为如果选择的源域和目标域的相似 度太小,很可能会导致负迁移,从而导致性能下 降,即分类准确率不提高反而降低。相反,2 个数 据集越相似,2 个数据集的高层特征就越相似,这 将产生更好的代表性特征和更适合目标域的预训 练模型,以提高目标域任务的分类性能。为了进 行对比实验,在第 3 步中用相同的过程和相同的 数据训练三维化的 ResNet。此外,本文使用较小 的学习速率对迁移过后的主干网络进行微调,用 较大的学习速率来训练未经过预训练的分类层, 以使传输的网络能够从 MDD 数据中提取一些新 的特征,提高分类性能。 3 实验与结果分析 为了验证本文提出方法的有效性,本文精心 设计了一系列实验,探讨不同深度学习网络以及 三维化相应网络对分类精度的影响,验证所设计 的迁移学习流程的有效性和优越性。 3.1 模型评价指标 本文分类问题为二分类问题,也就是将样本 分成 MDD 患者和 HC 两类,规定 MDD 患者为正 类 (positive),HC 为负类 (negative),分类算法对测 试数据集的预测有正确或错误之分,具体包括将 正类预测为正类数 (true positive, TP)、将正类预测 为负类数 (false negative, FN)、将负类预测为正类 数 (false positive, FP)、将负类预测为负类数 (true negative, TN)4 种情况。针对研究课题的特殊性, 本文选取了正确率和召回率 2 个指标来评价模型 ·548· 智 能 系 统 学 报 第 16 卷
第3期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·549· 的分类性能。正确率定义为Accuracy=(TP+ 达能力,学习更加复杂的知识,从而可以拟合更 TN)/(TP+FN+FP+TN),反映了分类器对所 加复杂的特征输入:而DenseNet在层数大致相同 有样本的判定能力:召回率定义为Recall=TP/ 的情况下比ResNet表现得更好,表现最好的 (TP+FN),反映了被正确判定的MDD患者占患者 DenseNet.264达到了69.96%的准确率和76.32% 总数的比重。 的召回率,这表明DenseNet中的密集连接思想在 3.2训练设置 本研究中优于ResNet的残差思想,故接下来的实 所有网络在训练时都使用交叉熵损失函数 验主要以DenseNet为主。 与Adam优化算法Bo,weight decay值设置为 3.43D网络与2D网络的对比实验 0.001.将所有数据按80%、10%、10%的比例划分 接下来,将部分2D网络三维化,并进行了对比 训练、验证、测试集,并采用五折交叉验证,epoch 实验,以证明3D网络的优越性,实验结果见表4。 值设置为100。由于GPU内存容量有限,在训练 表42D网络与3D网络实验结果对比 2D网络时batch size设置为64,在训练3D网络 Table 4 Comparison of experimental results between 2D 时batch size设置为8。当不使用迁移学习时学习 and 3D networks 率初始值设置为0.01,当使用迁移学习时,未迁移 网铬模型 准确率% 召回率% 部分的初始学习率保持原有的0.01,迁移部分的 ResNet101 65.59 72.23 初始学习率部分设为原有的0.001倍,当验证集 3D-ResNet101 73.26 78.46 loss值连续l0个epoch不下降时,学习率变为原 ResNet152 66.06 72.09 来的0.1倍。所有训练都是在一台带有一块 3D-ResNet152 73.47 79.33 ResNet200 67.94 74.82 NVIDIA TITAN Xp GPU、四核Intel Xeon E3-l230 3D-ResNet200 74.81 80.66 v53.41GHz处理器的winl0专业版系统服务器上 DenseNet121 67.38 74.65 进行的,编程语言为Python3.6,深度学习框架为 3D-DenseNet121 74.26 80.20 PyTorch1.0. DenseNet169 68.20 74.91 3.3不同深度的2D网络对比实验 3D-DenseNet169 75.38 81.26 在进行2D网络实验时,将预处理过后的 DenseNet201 68.84 75.35 sMRI数据分层输入网络,输入尺寸为121×145, 3D-DenseNet201 76.53 82.59 并采用投票算法,即对于每个被试者,测试结果 DenseNet264 69.96 76.32 为正类的层数超过一半判定为正类,否则判定为 3D-DenseNet264 77.42 83.72 负类。通过对比几个不同深度的网络,以证明网 从表4中的数据可以看出,对网络进行三维 络深度对分类性能的影响和DenseNet的相对优 化操作后,分类准确率和召回率有了显著提升, 越性,实验结果见表3。 例如3D-DenseNet264的分类准确率比二维的 表32D网络实验结果 DenseNet264提升了7.46%;而层数相似的3D- Table 3 2D network experimental results DenseNet要比3D-ResNet效果好,例如3D 网铬模型 准确率/% 召回率% DenseNet201的分类精度为76.53%,3D-ResNet AlexNet 58.45 65.68 200的分类精度为74.81%。这表明抑郁症sMR1 VGG19 60.32 67.39 数据的层间信息非常丰富,而本文提出的三维密 ResNet34 63.33 68.26 集连接网络3D-DenseNet恰恰能够挖掘出这些有 ResNet50 63.88 69.34 ResNet101 65.59 72.23 效信息,相比一般的DenseNet以及其他传统的二 ResNet152 66.06 72.09 维网络提供更多的有效特征,从而提高分类性能。 ResNet200 67.94 74.82 3.5迁移学习对比实验 DenseNet121 67.38 74.65 本文将3D-DenseNet系列中表现最好的3D DenseNet169 68.20 74.91 DenseNet.264用ADNI数据库做了预训练,并进行 DenseNet201 68.84 75.35 迁移学习(以下称ADNI-Transfer),与直接用抑郁 DenseNet264 69.96 76.32 症数据训练(以下称None)的实验结果进行对 从表3中的数据可以看出,随着网络层数的 比。因为Chen等2使用的迁移学习方法(以下 增多,网络的分类准确率和召回率大体上逐步升 称Med3D-Transfer)只在3D-ResNet系列网络做了 高,这表明网络的加深可以提供更好的非线性表 实验,并且只释放出了预训练好的模型,并未提
的分类性能。正确率定义为 Accuracy = (TP + TN)/(TP + FN + FP + TN),反映了分类器对所 有样本的判定能力;召回率定义为 Recall = TP/ (TP+FN),反映了被正确判定的 MDD 患者占患者 总数的比重。 3.2 训练设置 所有网络在训练时都使用交叉熵损失函数 与 Adam 优化算法[ 3 0 ] ,weight decay 值设置为 0.001,将所有数据按 80%、10%、10% 的比例划分 训练、验证、测试集,并采用五折交叉验证,epoch 值设置为 100。由于 GPU 内存容量有限,在训练 2D 网络时 batch size 设置为 64,在训练 3D 网络 时 batch size 设置为 8。当不使用迁移学习时学习 率初始值设置为 0.01,当使用迁移学习时,未迁移 部分的初始学习率保持原有的 0.01,迁移部分的 初始学习率部分设为原有的 0.001 倍,当验证集 loss 值连续 10 个 epoch 不下降时,学习率变为原 来 的 0 . 1 倍。所有训练都是在一台带有一 块 NVIDIA TITAN Xp GPU、四核 Intel Xeon E3-1 230 v5 3.41GHz 处理器的 win10 专业版系统服务器上 进行的,编程语言为 Python3.6,深度学习框架为 PyTorch1.0。 3.3 不同深度的 2D 网络对比实验 在进行 2D 网络实验时,将预处理过后的 sMRI 数据分层输入网络,输入尺寸为 121×145, 并采用投票算法,即对于每个被试者,测试结果 为正类的层数超过一半判定为正类,否则判定为 负类。通过对比几个不同深度的网络,以证明网 络深度对分类性能的影响和 DenseNet 的相对优 越性,实验结果见表 3。 表 3 2D 网络实验结果 Table 3 2D network experimental results 网络模型 准确率/% 召回率/% AlexNet 58.45 65.68 VGG19 60.32 67.39 ResNet34 63.33 68.26 ResNet50 63.88 69.34 ResNet101 65.59 72.23 ResNet152 66.06 72.09 ResNet200 67.94 74.82 DenseNet121 67.38 74.65 DenseNet169 68.20 74.91 DenseNet201 68.84 75.35 DenseNet264 69.96 76.32 从表 3 中的数据可以看出,随着网络层数的 增多,网络的分类准确率和召回率大体上逐步升 高,这表明网络的加深可以提供更好的非线性表 达能力,学习更加复杂的知识,从而可以拟合更 加复杂的特征输入;而 DenseNet 在层数大致相同 的情况下比 ResNet 表现得更好,表现最好的 DenseNet264 达到了 69.96% 的准确率和 76.32% 的召回率,这表明 DenseNet 中的密集连接思想在 本研究中优于 ResNet 的残差思想,故接下来的实 验主要以 DenseNet 为主。 3.4 3D 网络与 2D 网络的对比实验 接下来,将部分 2D 网络三维化,并进行了对比 实验,以证明 3D 网络的优越性,实验结果见表 4。 表 4 2D 网络与 3D 网络实验结果对比 Table 4 Comparison of experimental results between 2D and 3D networks 网络模型 准确率/% 召回率/% ResNet101 65.59 72.23 3D-ResNet101 73.26 78.46 ResNet152 66.06 72.09 3D-ResNet152 73.47 79.33 ResNet200 67.94 74.82 3D-ResNet200 74.81 80.66 DenseNet121 67.38 74.65 3D-DenseNet121 74.26 80.20 DenseNet169 68.20 74.91 3D-DenseNet169 75.38 81.26 DenseNet201 68.84 75.35 3D-DenseNet201 76.53 82.59 DenseNet264 69.96 76.32 3D-DenseNet264 77.42 83.72 从表 4 中的数据可以看出,对网络进行三维 化操作后,分类准确率和召回率有了显著提升, 例如 3D-DenseNet264 的分类准确率比二维的 DenseNet264 提升了 7.46%;而层数相似的 3DDenseNe t 要比 3D-ResNe t 效果好,例如 3DDenseNet201 的分类精度为 76.53%,3D-ResNet 200 的分类精度为 74.81%。这表明抑郁症 sMRI 数据的层间信息非常丰富,而本文提出的三维密 集连接网络 3D-DenseNet 恰恰能够挖掘出这些有 效信息,相比一般的 DenseNet 以及其他传统的二 维网络提供更多的有效特征,从而提高分类性能。 3.5 迁移学习对比实验 本文将 3D-DenseNet 系列中表现最好的 3DDenseNet264 用 ADNI 数据库做了预训练,并进行 迁移学习 (以下称 ADNI-Transfer),与直接用抑郁 症数据训练 (以下称 None) 的实验结果进行对 比。因为 Chen 等 [29] 使用的迁移学习方法 (以下 称 Med3D-Transfer) 只在 3D-ResNet 系列网络做了 实验,并且只释放出了预训练好的模型,并未提 第 3 期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·549·
·550· 智能系统学报 第16卷 供训练数据的获取渠道,故为了证明本文提出的 学习方法的有效性和优越性。同前沿方法相比, ADNI-Transfer方法的优越性,将3D-ResNet系列 本文提出的方法能够有效提高抑郁症与健康对照 中表现最好的3D-ResNet2200也做了ADNI-Trans- 者的sMRI数据分类准确率和召回率,继而辅助 fer,并与进行Med3D-Transfer的3D-ResNet200网 医生完成诊断,充分验证了提出方法的有效性和 络作对比,实验结果见表5。 可行性,具有重要的研究价值。 表5迁移学习实验结果对比 参考文献: Table 5 Comparison of experimental results of transfer learning [1]世界卫生组织.抑郁症[EB/0L].(2019-08-29) 网络模型 迁移学习方法准确率%召回率% [2019-12-04]https://www.who.int/zh/news-room/fact- None 74.81 80.66 sheets/detail/depression. 3D-ResNet200 Med3D-Transfer 78.62 84.37 World Health Organization.Depression fact sheets ADNI-Transfer 81.45 86.52 [EB/OL].(2019-08-29)I2019-12-04]https:/www.who None 77.42 83.72 int/zh/news-room/fact-sheets/detail/depression. 3D-DenseNet264 ADNI-Transfer 84.37 87.26 [2]BRANDT W A.LOEW T.VON HEYMANN F,et al. How does the ICD-10 symptom rating (ISR)with four 从表5可以看出,引入迁移学习后,网络的分 items assess depression compared to the BDI-I?A valida- 类性能有了显著提升,例如3D-DenseNet264在经 tion study[J].Journal of affective disorders,2015,173: 过ADNI-Transfer操作之后,分类准确率提升了 143-145. 6.95%,这说明迁移学习能够将其他领域的知识引 [3]MASKE U E,HAPKE U,RIEDEL-HELLER S G,et al. 入到抑郁症sMRI数据的分类任务中,一定程度 Respondents'report of a clinician-diagnosed depression in health surveys:comparison with DSM-IV mental dis- 上解决了样本不充足问题,从而加快模型训练的 orders in the general adult population in Germany[J].BMC 效率,提升模型最终的泛化能力。相比于Med3D- psychiatry,2017,17(1):39. Transfer方法,本文提出的ADNI-Transfer迁移学 [4]GIEDD J N.Structural magnetic resonance imaging of the 习方法在准确率和召回率上均有更优表现,例如 adolescent brain[J].Annals of the New York academy of 进行ADN-Transfer的3D-ResNet2200网络的分类 sciences,2004,1021(1:77-85. 准确率要比进行Med3D-Transfer的3D-ResNet200 [5]GAO Shuang,CALHOUN V D,SUI Jing.Machine learn- ing in major depression:from classification to treatment 网络高出2.83%,召回率高出3.54%,这说明网络 outcome prediction[J].CNS neuroscience&therapeutics, 从与目标领域数据相同部位、相同类型的源领域 2018,24(11):1037-1052 数据中提取信息对目标任务更有价值,从而这样 [6]HILBERT K,LUEKEN U,MUEHLHAN M,et al.Separ- 的做法也更能提高目标任务的评价指标,也就是 ating generalized anxiety disorder from major depression 更能够提升抑郁症sMRI数据的分类精准确率和 using clinical,hormonal,and structural MRI data:a mul- 召回率。由本文提出的3D-DenseNet.264网络和 timodal machine learning study[J].Brain and behavior, ADNI-Transfer迁移学习方法组合后得到的实验 2017,7(3):e00633. [7]SANKAR A,ZHANG Tianhao,GAONKAR B,et al.Dia- 结果明显优于其他方法,证明了本文提出方法的 gnostic potential of structural neuroimaging for depression 有效性和优越性。 from a multi-ethnic community sample[].BJPsych open, 2016,2(4):247-254 4结束语 [8]LECUN Y.BENGIO Y,HINTON G.Deep learning[J] 本文提出一种三维密集连接深度学习网络 Nature,.2015,521(7553):436-444. [9]马世龙,乌尼日其其格,李小平.大数据与深度学习综述 3D-DenseNet,并首次将它用于三维抑郁症 [).智能系统学报,2016,11(6:728-742 sMRI数据的分类研究中。通过对DenseNet进行 MA Shilong,WUNIRI Qigige,LI Xiaoping.Deep learn- 三维化改进,使之能够更好地提取三维信息,在 ing with big data:state of the art and development[J]. 与多个计算机视觉领域先进的网络对比实验中发 CAAl transactions on intelligent systems,2016,11(6): 现,本文设计的网络均表现出更优的性能,并且 728-742 随着网络深度的增加,网络的分类性能也随之提 [10]刘帅师,程曦.郭文燕,等.深度学习方法研究新进展 升。除此之外,引入迁移学习,针对目标任务数 ).智能系统学报,2016,11(5):567-577. LIU Shuaishi,CHENG Xi,GUO Wenyan,et al.Progress 据的特殊性,精心设计了一个迁移学习工作流程 report on new research in deep learning[J].CAAI transac- ADN-Transfer,并与当下领域内流行的迁移学习 tions on intelligent systems,2016,11(5):567-577. 方法作了比较,实验结果证明了本文提出的迁移 [11]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im-
供训练数据的获取渠道,故为了证明本文提出的 ADNI-Transfer 方法的优越性,将 3D-ResNet 系列 中表现最好的 3D-ResNet200 也做了 ADNI-Transfer,并与进行 Med3D-Transfer 的 3D-ResNet200 网 络作对比,实验结果见表 5。 表 5 迁移学习实验结果对比 Table 5 Comparison of experimental results of transfer learning 网络模型 迁移学习方法 准确率/% 召回率/% 3D-ResNet200 None 74.81 80.66 Med3D-Transfer 78.62 84.37 ADNI-Transfer 81.45 86.52 3D-DenseNet264 None 77.42 83.72 ADNI-Transfer 84.37 87.26 从表 5 可以看出,引入迁移学习后,网络的分 类性能有了显著提升,例如 3D-DenseNet264 在经 过 ADNI-Transfer 操作之后,分类准确率提升了 6.95%,这说明迁移学习能够将其他领域的知识引 入到抑郁症 sMRI 数据的分类任务中,一定程度 上解决了样本不充足问题,从而加快模型训练的 效率,提升模型最终的泛化能力。相比于 Med3DTransfer 方法,本文提出的 ADNI-Transfer 迁移学 习方法在准确率和召回率上均有更优表现,例如 进行 ADNI-Transfer 的 3D-ResNet200 网络的分类 准确率要比进行 Med3D-Transfer 的 3D-ResNet200 网络高出 2.83%,召回率高出 3.54%,这说明网络 从与目标领域数据相同部位、相同类型的源领域 数据中提取信息对目标任务更有价值,从而这样 的做法也更能提高目标任务的评价指标,也就是 更能够提升抑郁症 sMRI 数据的分类精准确率和 召回率。由本文提出的 3D-DenseNet264 网络和 ADNI-Transfer 迁移学习方法组合后得到的实验 结果明显优于其他方法,证明了本文提出方法的 有效性和优越性。 4 结束语 本文提出一种三维密集连接深度学习网络 3D-DenseNet ,并首次将它用于三维抑郁 症 sMRI 数据的分类研究中。通过对 DenseNet 进行 三维化改进,使之能够更好地提取三维信息,在 与多个计算机视觉领域先进的网络对比实验中发 现,本文设计的网络均表现出更优的性能,并且 随着网络深度的增加,网络的分类性能也随之提 升。除此之外,引入迁移学习,针对目标任务数 据的特殊性,精心设计了一个迁移学习工作流程 ADNI-Transfer,并与当下领域内流行的迁移学习 方法作了比较,实验结果证明了本文提出的迁移 学习方法的有效性和优越性。同前沿方法相比, 本文提出的方法能够有效提高抑郁症与健康对照 者的 sMRI 数据分类准确率和召回率,继而辅助 医生完成诊断,充分验证了提出方法的有效性和 可行性,具有重要的研究价值。 参考文献: 世界卫生组织. 抑郁症 [EB/OL]. (2019−08−29) [2019−12−04] https://www.who.int/zh/news-room/factsheets/detail/depression. World Health Organization. Depression fact sheets [EB/OL]. (2019−08−29)[2019−12−04] https://www.who. int/zh/news-room/fact-sheets/detail/depression. [1] BRANDT W A, LOEW T, VON HEYMANN F, et al. How does the ICD-10 symptom rating (ISR) with four items assess depression compared to the BDI-II? A validation study[J]. Journal of affective disorders, 2015, 173: 143–145. [2] MASKE U E, HAPKE U, RIEDEL-HELLER S G, et al. Respondents’ report of a clinician-diagnosed depression in health surveys: comparison with DSM-IV mental disorders in the general adult population in Germany[J]. BMC psychiatry, 2017, 17(1): 39. [3] GIEDD J N. Structural magnetic resonance imaging of the adolescent brain[J]. Annals of the New York academy of sciences, 2004, 1021(1): 77–85. [4] GAO Shuang, CALHOUN V D, SUI Jing. Machine learning in major depression: from classification to treatment outcome prediction[J]. CNS neuroscience & therapeutics, 2018, 24(11): 1037–1052. [5] HILBERT K, LUEKEN U, MUEHLHAN M, et al. Separating generalized anxiety disorder from major depression using clinical, hormonal, and structural MRI data: a multimodal machine learning study[J]. Brain and behavior, 2017, 7(3): e00633. [6] SANKAR A, ZHANG Tianhao, GAONKAR B, et al. Diagnostic potential of structural neuroimaging for depression from a multi-ethnic community sample[J]. BJPsych open, 2016, 2(4): 247–254. [7] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. [8] 马世龙, 乌尼日其其格, 李小平. 大数据与深度学习综述 [J]. 智能系统学报, 2016, 11(6): 728–742. MA Shilong, WUNIRI Qiqige, LI Xiaoping. Deep learning with big data: state of the art and development[J]. CAAI transactions on intelligent systems, 2016, 11(6): 728–742. [9] 刘帅师, 程曦, 郭文燕, 等. 深度学习方法研究新进展 [J]. 智能系统学报, 2016, 11(5): 567–577. LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI transactions on intelligent systems, 2016, 11(5): 567–577. [10] [11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Im- ·550· 智 能 系 统 学 报 第 16 卷
第3期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·551· ageNet classification with deep convolutional neural net- ternational Conference on Artificial Intelligence and Stat- works[C]//Proceedings of the 25th International Confer- istics.Fort Lauderdale.USA.2011:315-323. ence on Neural Information Processing Systems.Lake [25]TAJBAKHSH N.SHIN J Y.GURUDU S R.et al.Con- Tahoe,USA,2012:1097-1105. volutional neural networks for medical image analysis: [12]DONAHUE J.HENDRICKS L A.ROHRBACH M,et al. full training or fine tuning[J].IEEE transactions on med- Long-term recurrent convolutional networks for visual re- ical imaging,.2016,35(5):1299-1312. cognition and description[J].IEEE transactions on pat- [26]HON M,KHAN N M.Towards Alzheimer's disease clas- tern analysis and machine intelligence,2017,39(4): sification through transfer learning[C]//IEEE Internation- 677-691. al Conference on Bioinformatics and Biomedicine.Kan- [13]KERMANY D S,GOLDBAUM M,CAI Wenjia,et al. sas City,USA,2017:1166-1169. Identifying medical diagnoses and treatable diseases by [27]LIU Renhao,HALL L O,GOLDGOF D B,et al.Explor- image-based deep learning[J].Cell,2018,172(5): ing deep features from brain tumor magnetic resonance 1122-1131,e1-e2. images via transfer learning[C]//International Joint Con- [14]吕鸿蒙,赵地,迟学斌.基于增强AlexNet的深度学习的 ference on Neural Networks.Vancouver,Canada,2016: 阿尔茨海默病的早期诊断[J1.计算机科学,2017, 235-242. 44(S1:50-60. [28]DA NOBREGA R V M,PEIXOTO S A.DA SILVA S P LV Hongmeng,ZHAO Di,CHI Xuebin.Deep learning P,et al.Lung nodule classification via deep transfer learn- for early diagnosis of Alzheimer's disease based on in- ing in CT lung images[C]//IEEE 31st International Sym- tensive AlexNet[J].Computer science,2017,44(S1): posium on Computer-Based Medical Systems.Karlstad, 50-60. Sweden,2018:244-249. [15]LITJENS G,KOOI T,BEJNORDI B E,et al.A survey on [29]CHEN S.MA K.AND ZHENG Y.Med3D:transfer deep learning in medical image analysis[J].Medical im- learning for 3D medical image analysis[EB/OL]. age analysis,2017,42:60-88. (2019-04-09)[2019-09-025]https:://arxiv..org/abs/1904.0 [16]SZEGEDY C,LIU Wei,JIA Yangqing,et al.Going deep- 0625. er with convolutions[C]//IEEE Conference on Computer [30]DIEDERIK P K,JIMMY B.Adam:a method for Vision and Pattern Recognition.Boston,USA,2015:1-9. stochastic optimization[J/OL].(2017-1-30)[2019-9- [17]SIMONYAN K,ZISSERMAN A.Very deep convolu- 29]https://arxiv.org/abs/1412.6980v5. tional networks for large-scale image recognition[J]. Computer science,2014,18(3):178-182. 作者简介: [18]SZEGEDY C.VANHOUCKE V.IOFFE S.et al.Re- 付常洋,硕士研究生,主要研究方 thinking the inception architecture for computer 向为图像处理与机器学习。 vision[C]//IEEE Conference on Computer Vision and Pat- tern Recognition.Las Vegas,USA,2016:2818-2826. [19]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778. [20]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et 王瑜,副教授,博士,中国自动化 al.Densely connected convolutional networks[Cl//IEEE 学会、中国电子学会和中国人工智能 Conference on Computer Vision and Pattern Recognition. 学会高级会员,生物信息学与人工生 命专委会委员,EEE和计算机学会会 Honolulu,USA,2017:2261-2269. 员,CCF YOCSEF委员,主要研究方 [21]ASHBURNER J,BARNES G,CHEN Chunchuan,et al. 向为图像处理与模式识别。主持国家 SPM12 manual[EB/OL].(2019-01-13)[2020-08-29] 自然科学基金面上项目2项、北京市 https://www.fil.ion.ucl.ac.uk/spm/software/spm12. 自然科学基金面上项目1项。出版学术专著2部,发表学术 [22]ARNONE D,MCKIE S,ELLIOTT R,et al.State-de- 论文30余篇。 pendent changes in hippocampal grey matter in depres sion[J].Molecular psychiatry,2013,18(12):1265-1272. 肖洪兵,副教授,博士,主要研究 [23]IOFFE S,SZEGEDY C.Batch normalization:accelerat- 方向为传感器与高动态测试技术、嵌 ing deep network training by reducing internal covariate 入式系统应用。在研以及完成的科研 shift[Cl//Proceedings of the 32nd International Confer- 项目10余项,其中省级以上项目 ence on International Conference on Machine Learning. 3项。获得北京市科技进步三等奖 Lille,France,2015:448-456. 1项。取得软件著作权3项,实用新 [24]GLOROT X,BORDES A,BENGIO Y.Deep sparse recti- 型专利3项。出版专著1部,主编教 fier neural networks[Cl//Proceedings of the Fourteenth In- 材3部,发表学术论文20余篇
ageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097−1105. DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(4): 677–691. [12] KERMANY D S, GOLDBAUM M, CAI Wenjia, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning[J]. Cell, 2018, 172(5): 1122–1131, e1-e2. [13] 吕鸿蒙, 赵地, 迟学斌. 基于增强 AlexNet 的深度学习的 阿尔茨海默病的早期诊断 [J]. 计算机科学, 2017, 44(S1): 50–60. LV Hongmeng, ZHAO Di, CHI Xuebin. Deep learning for early diagnosis of Alzheimer's disease based on intensive AlexNet[J]. Computer science, 2017, 44(S1): 50–60. [14] LITJENS G, KOOI T, BEJNORDI B E, et al. A survey on deep learning in medical image analysis[J]. Medical image analysis, 2017, 42: 60–88. [15] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1−9. [16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer science, 2014, 18(3): 178–182. [17] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 2818−2826. [18] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [19] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2261−2269. [20] ASHBURNER J, BARNES G, CHEN Chunchuan, et al. SPM12 manual[EB/OL]. (2019−01−13)[2020−08−29]. https://www.fil.ion.ucl.ac.uk/spm/software/spm12. [21] ARNONE D, MCKIE S, ELLIOTT R, et al. State-dependent changes in hippocampal grey matter in depression[J]. Molecular psychiatry, 2013, 18(12): 1265–1272. [22] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France, 2015: 448−456. [23] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth In- [24] ternational Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA, 2011: 315−323. TAJBAKHSH N, SHIN J Y, GURUDU S R, et al. Convolutional neural networks for medical image analysis: full training or fine tuning[J]. IEEE transactions on medical imaging, 2016, 35(5): 1299–1312. [25] HON M, KHAN N M. Towards Alzheimer’s disease classification through transfer learning[C]//IEEE International Conference on Bioinformatics and Biomedicine. Kansas City, USA, 2017: 1166−1169. [26] LIU Renhao, HALL L O, GOLDGOF D B, et al. Exploring deep features from brain tumor magnetic resonance images via transfer learning[C]//International Joint Conference on Neural Networks. Vancouver, Canada, 2016: 235−242. [27] DA NÓBREGA R V M, PEIXOTO S A, DA SILVA S P P, et al. Lung nodule classification via deep transfer learning in CT lung images[C]//IEEE 31st International Symposium on Computer-Based Medical Systems. Karlstad, Sweden, 2018: 244−249. [28] CHEN S, MA K, AND ZHENG Y. Med3D: transfer learning for 3D medical image analysis[EB/OL]. (2019−04−09)[2019−09−025] https://arxiv.org/abs/1904.0 0625. [29] DIEDERIK P K, JIMMY B. Adam: a method for stochastic optimization[J/OL]. (2017-1-30)[2019-9- 29] https://arxiv.org/abs/1412.6980v5. [30] 作者简介: 付常洋,硕士研究生,主要研究方 向为图像处理与机器学习。 王瑜,副教授,博士,中国自动化 学会、中国电子学会和中国人工智能 学会高级会员,生物信息学与人工生 命专委会委员,IEEE 和计算机学会会 员,CCF YOCSEF 委员,主要研究方 向为图像处理与模式识别。主持国家 自然科学基金面上项目 2 项、北京市 自然科学基金面上项目 1 项。出版学术专著 2 部,发表学术 论文 30 余篇。 肖洪兵,副教授,博士,主要研究 方向为传感器与高动态测试技术、嵌 入式系统应用。在研以及完成的科研 项目 1 0 余项,其中省级以上项目 3 项。获得北京市科技进步三等奖 1 项。取得软件著作权 3 项,实用新 型专利 3 项。出版专著 1 部,主编教 材 3 部,发表学术论文 20 余篇。 第 3 期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·551·