442 工程科学学报,第42卷,第4期 reported in the literature.It can effectively address the data imbalance problem from the algorithm level.This scheme can be used in the diagnosis of ADHD as well as other diseases,such as Alzheimer's and Autism KEY WORDS multi-objective optimization;functional magnetic resonance imaging;attention deficit hyperactivity disorder;support vector machine;imbalance data set 注意力缺陷多动障碍(Attention deficit 处理数据不平衡问题,而算法层面的方法通常在 hyperactivity disorder,.ADHD)是儿童期最常见的精 决策过程中对不同的错分样本引入不同的惩罚因 神疾病之一,在大多数情况下持续到成年期.ADHD 子.在ADHD数据分类中,SMOTE方法已用于处 在DSM-5中被定义为神经发育障碍,主要表现为 理数据集不平衡问题.但是,通过对少数群体/多 注意力缺陷,过度活动和行为冲动等症状川据报 数群体进行随机过采样/欠采样,这些创建平衡训 道,全球儿童和青少年中ADHD的发病率为3.4% 练数据集的策略可能导致分类器性能欠佳) ADHD的病因和发病机制尚不清楚,目前 考虑到分类问题的多目标性质,Shao等w提 ADHD的诊断主要依赖于医生的主观经验.因此, 出了一种用于ADHD分类的双目标分类方法.但 ADHD的客观诊断和有效治疗是神经科学领域的 是,该方法并没有考虑数据集的不平衡性.因此, 重要课题之一 本文提出了采用基于SVM的多目标分类方案来 近年来,脑电图、磁共振成像1和功能性磁 解决ADHD数据不平衡问题,该方案通过多目标 共振成像等技术已被用于ADHD的辅助诊断 优化单独惩罚错分的正负样本,从而可以从算法 其中,静息态功能磁共振成像(Resting state 层面有效地处理数据不平衡问题. functional magnetic resonance imaging,rs-fMRI) 神疾病的病理分析中显示出其特有的优势,不仅 1数据处理 可以用于诊断ADHD,还可以用于诊断精神分裂 本研究中使用的数据集来自于ADHD-200竞 症和老年痴呆症 赛(http:/fcon_l000.projects.nitrc.org)数据集主 研究者们提出了各种特征提取、选择和分类 要从三个站点获取,分别是Kennedy Krieger Institute 方法用于基于rs-fMRI的ADHD分类中.Castellanos (KKI),New York University Medical Center(NYU) 等发现fMRI的功能连接信息可以成为ADHD 和Peking University(Peking).实验采用了五个数 诊断的一个突出特征.Du等☑提出了一种判别 据集,分别为KKI,NYU和Peking-l,Peking-2和 子网络的方法来对ADHD进行分类,该方法挖 Peking-joint,其中Peking-joint由Peking-l,Peking- 掘了来自全脑网络的判别子网络,并使用基于图 2和Peking-3三个数据集组成.数据标签类型分为 核的PCA来提取特征.Qureshi等图I计算了fMRI 正常人群(Normal control,NC)和ADHD患者.实 的全局连通图,并利用基于图谱的皮质分割的平 验所用到的五个数据集的详细描述如表1所示 均连通性度量作为分层极限学习机分类器的输入 特征.Miao和Zhang9提出了一种基于权重的 表1ADHD-200数据集描述 relief算法来获得rs-fMRI中低频波动分数幅度的 Table 1 Description of ADHD-200 data sets 特征子集.Riaz等no集成了非影像数据和影像数 Data set Total number of Number of ADHD Number of NC subjects subjects subjects 据的机器学习框架,研究ADHD和正常受试者之 KKI 83 22 61 间功能连接的改变.考虑到数据不平衡性,合成少 NYU 216 118 98 数类过采样技术(Synthetic minority oversampling Peking-1 的 4 61 technique,SMOTE)用于生成少数类样本 Peking-2 67 35 32 以上提到的大多数分类算法均假设样本是均 Peking-joint 194 78 116 衡的.然而事实上,基于rs-fMRI的ADHD数据分 类问题中数据集是不平衡的.若采用传统的分类 数据的预处理过程采用了DPARSF工具箱 方法,通过不平衡学习会导致对多数类别样本的 (htp:/rfmri..org/DPARSF).预处理主要包括移除前 过度聚焦,分类器性能下降.已有的不平衡数据处 十张不稳定图像,时间层校正,头动校正,空间标 理方法大体分为两大类:数据层面的方法和算法 准化,带通滤波和平滑处理.接下来对90个脑区 层面的方法四数据层面的方法通过数据采样来 分别计算其平均时间序列值,进一步地计算90个reported in the literature. It can effectively address the data imbalance problem from the algorithm level. This scheme can be used in the diagnosis of ADHD as well as other diseases, such as Alzheimer’s and Autism. KEY WORDS multi-objective optimization;functional magnetic resonance imaging;attention deficit hyperactivity disorder;support vector machine;imbalance data set 注 意 力 缺 陷 多 动 障 碍 ( Attention deficit hyperactivity disorder, ADHD)是儿童期最常见的精 神疾病之一,在大多数情况下持续到成年期. ADHD 在 DSM-5 中被定义为神经发育障碍,主要表现为 注意力缺陷,过度活动和行为冲动等症状[1] . 据报 道,全球儿童和青少年中 ADHD 的发病率为 3.4%. ADHD 的 病 因 和 发 病 机 制 尚 不 清 楚 , 目 前 ADHD 的诊断主要依赖于医生的主观经验. 因此, ADHD 的客观诊断和有效治疗是神经科学领域的 重要课题之一. 近年来,脑电图[2]、磁共振成像[3] 和功能性磁 共振成像[4] 等技术已被用于 ADHD 的辅助诊断. 其 中 , 静 息 态 功 能 磁 共 振 成 像 ( Resting state functional magnetic resonance imaging, rs-fMRI)在精 神疾病的病理分析中显示出其特有的优势,不仅 可以用于诊断 ADHD,还可以用于诊断精神分裂 症[4] 和老年痴呆症[5] . 研究者们提出了各种特征提取、选择和分类 方法用于基于 rs-fMRI 的 ADHD 分类中. Castellanos 等[6] 发现 fMRI 的功能连接信息可以成为 ADHD 诊断的一个突出特征. Du 等[7] 提出了一种判别 子网络的方法来对 ADHD 进行分类 ,该方法挖 掘了来自全脑网络的判别子网络,并使用基于图 核的 PCA 来提取特征. Qureshi 等[8] 计算了 fMRI 的全局连通图,并利用基于图谱的皮质分割的平 均连通性度量作为分层极限学习机分类器的输入 特 征 . Miao 和 Zhang[9] 提出了一种基于权重 的 relief 算法来获得 rs-fMRI 中低频波动分数幅度的 特征子集. Riaz 等[10] 集成了非影像数据和影像数 据的机器学习框架,研究 ADHD 和正常受试者之 间功能连接的改变. 考虑到数据不平衡性,合成少 数类过采样技术 ( Synthetic minority oversampling technique,SMOTE) [11] 用于生成少数类样本. 以上提到的大多数分类算法均假设样本是均 衡的. 然而事实上,基于 rs-fMRI 的 ADHD 数据分 类问题中数据集是不平衡的. 若采用传统的分类 方法,通过不平衡学习会导致对多数类别样本的 过度聚焦,分类器性能下降. 已有的不平衡数据处 理方法大体分为两大类:数据层面的方法和算法 层面的方法[12] . 数据层面的方法通过数据采样来 处理数据不平衡问题,而算法层面的方法通常在 决策过程中对不同的错分样本引入不同的惩罚因 子. 在 ADHD 数据分类中,SMOTE 方法已用于处 理数据集不平衡问题. 但是,通过对少数群体/多 数群体进行随机过采样/欠采样,这些创建平衡训 练数据集的策略可能导致分类器性能欠佳[13] . 考虑到分类问题的多目标性质,Shao 等[14] 提 出了一种用于 ADHD 分类的双目标分类方法. 但 是,该方法并没有考虑数据集的不平衡性. 因此, 本文提出了采用基于 SVM 的多目标分类方案来 解决 ADHD 数据不平衡问题,该方案通过多目标 优化单独惩罚错分的正负样本,从而可以从算法 层面有效地处理数据不平衡问题. 1 数据处理 本研究中使用的数据集来自于 ADHD-200 竞 赛(http://fcon_1000.projects.nitrc.org/) [15] . 数据集主 要从三个站点获取,分别是 Kennedy Krieger Institute (KKI) ,New York University Medical Center(NYU) 和 Peking University(Peking). 实验采用了五个数 据集 ,分别 为 KKI, NYU 和 Peking-1, Peking-2 和 Peking-joint, 其 中 Peking-joint 由 Peking-1, Peking- 2 和 Peking-3 三个数据集组成. 数据标签类型分为 正常人群(Normal control, NC)和 ADHD 患者. 实 验所用到的五个数据集的详细描述如表 1 所示. 数据的预处理过程采用了 DPARSF 工具箱 (http://rfmri.org/DPARSF). 预处理主要包括移除前 十张不稳定图像,时间层校正,头动校正,空间标 准化,带通滤波和平滑处理. 接下来对 90 个脑区 分别计算其平均时间序列值,进一步地计算 90 个 表 1 ADHD-200 数据集描述 Table 1 Description of ADHD-200 data sets Data set Total number of subjects Number of ADHD subjects Number of NC subjects KKI 83 22 61 NYU 216 118 98 Peking-1 85 24 61 Peking-2 67 35 32 Peking-joint 194 78 116 · 442 · 工程科学学报,第 42 卷,第 4 期