工程科学学报 Chinese Journal of Engineering 基于多目标支持向量机的ADHD分类 杜海鹏邵立珍张冬辉 ADHD classification based on a multi-objective support vector machine DU Hai-peng.SHAO Li-zhen,ZHANG Dong-hui 引用本文: 杜海鹏,邵立珍,张冬辉.基于多目标支持向量机的ADHD分类J].工程科学学报,2020,42(4):441-447.doi: 10.13374j.issn2095-9389.2019.09.12.007 DU Hai-peng.SHAO Li-zhen,ZHANG Dong-hui.ADHD classification based on a multi-objective support vector machine[J]. Chinese Journal of Engineering,.2020,42(4:441-447.doi:10.13374j.issn2095-9389.2019.09.12.007 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2019.09.12.007 您可能感兴趣的其他文章 Articles you may be interested in 基于改进的支持向量回归机算法的磁记忆定量化缺陷反演 Metal magnetic memory quantitative inversion of defects based onoptimized support vector machine regression 工程科学学报.2018.40(9%:1123 https:/doi.org10.13374.issn2095-9389.2018.09.014 固溶时效工艺对6016铝合金力学性能的影响及多目标优化 Effect of solution and aging processes on the mechanical properties of 6016 aluminum alloy and multi-objective optimization 工程科学学报.2017,391):75htps/1doi.org/10.13374.issn2095-9389.2017.01.010 基于全局优化支持向量机的多类别高炉故障诊断 Multi-class fault diagnosis of BF based on global optimization LS-SVM 工程科学学报.2017,391):39 https:/1doi.org/10.13374j.issn2095-9389.2017.01.005 无数学模型的非线性约束单目标系统优化方法改进 Optimization method improvement for nonlinear constrained single objective system without mathematical models 工程科学学报.2018,40(11:1402htps:oi.org10.13374.issn2095-9389.2018.11.014 多目标多约束混合流水车间插单重调度问题研究 Research on rush order insertion rescheduling problem under hybrid flow shop with multi-objective and multi-constraint 工程科学学报.2019.41(11:1450 https::/doi.org10.13374.issn2095-9389.2018.11.27.002
基于多目标支持向量机的ADHD分类 杜海鹏 邵立珍 张冬辉 ADHD classification based on a multi-objective support vector machine DU Hai-peng, SHAO Li-zhen, ZHANG Dong-hui 引用本文: 杜海鹏, 邵立珍, 张冬辉. 基于多目标支持向量机的ADHD分类[J]. 工程科学学报, 2020, 42(4): 441-447. doi: 10.13374/j.issn2095-9389.2019.09.12.007 DU Hai-peng, SHAO Li-zhen, ZHANG Dong-hui. ADHD classification based on a multi-objective support vector machine[J]. Chinese Journal of Engineering, 2020, 42(4): 441-447. doi: 10.13374/j.issn2095-9389.2019.09.12.007 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007 您可能感兴趣的其他文章 Articles you may be interested in 基于改进的支持向量回归机算法的磁记忆定量化缺陷反演 Metal magnetic memory quantitative inversion of defects based onoptimized support vector machine regression 工程科学学报. 2018, 40(9): 1123 https://doi.org/10.13374/j.issn2095-9389.2018.09.014 固溶时效工艺对6016铝合金力学性能的影响及多目标优化 Effect of solution and aging processes on the mechanical properties of 6016 aluminum alloy and multi-objective optimization 工程科学学报. 2017, 39(1): 75 https://doi.org/10.13374/j.issn2095-9389.2017.01.010 基于全局优化支持向量机的多类别高炉故障诊断 Multi-class fault diagnosis of BF based on global optimization LS-SVM 工程科学学报. 2017, 39(1): 39 https://doi.org/10.13374/j.issn2095-9389.2017.01.005 无数学模型的非线性约束单目标系统优化方法改进 Optimization method improvement for nonlinear constrained single objective system without mathematical models 工程科学学报. 2018, 40(11): 1402 https://doi.org/10.13374/j.issn2095-9389.2018.11.014 多目标多约束混合流水车间插单重调度问题研究 Research on rush order insertion rescheduling problem under hybrid flow shop with multi-objective and multi-constraint 工程科学学报. 2019, 41(11): 1450 https://doi.org/10.13374/j.issn2095-9389.2018.11.27.002
工程科学学报.第42卷,第4期:441-447.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:441-447,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007;http://cje.ustb.edu.cn 基于多目标支持向量机的ADHD分类 杜海鹏,邵立珍区,张冬辉 北京科技大学自动化学院工业过程知识自动化教育部重点实验室,北京100083 ☒通信作者,E-mail:Ishao(@ustb.edu.cn 摘要注意力缺陷多动障碍(ADHD)是儿童期最常见的精神疾病之一,在大多数情况下持续到成年期.近年来,基于功能 磁共振数据的ADHD分类成为了研究热点.文献中已有的大多数分类算法均假设样本是均衡的,然而事实上,ADHD数据集 通常是不平衡的.传统的学习算法会使得分类器倾向于多数类样本,从而导致性能下降.本文研究了基于不平衡神经影像数 据的ADHD分类问题,即基于静息状态功能磁共振数据对ADHD进行分类.采用功能连接矩阵作为分类特征,提出了一种 基于多目标支持向量机的ADHD数据分类方案.该方案将不均衡数据分类问题建模为具有三个目标的支持向量机模型,其 中三个目标分别为最大化分类间隔、最小化正样本误差和最小化负样本误差,进而正负样本经验误差可以被分开处理.然后 采用多目标优化的法向量边界交叉法对模型进行求解,并给出一组代表性的分类器供决策者进行选择.该方案在ADHD- 200竞赛的五个数据集上进行测试评估,并与传统分类方法进行对比.实验结果表明本文提出的三个目标支持向量机分类方 案比传统的分类方法效果好,可以有效的从算法层面解决数据不平衡问题.该方案不仅可用于辅助ADHD诊断,还可用于阿 尔茨海默病和自闭症等疾病的辅助诊断. 关键词多目标优化:功能磁共振数据:注意力缺陷多动障碍:支持向量机:不平衡数据集 分类号TG181 ADHD classification based on a multi-objective support vector machine DU Hai-peng,SHAO Li-zher°,ZHANG Dong--hui Key Laboratory of Knowledge Automation for Industrial Processes of Ministry of Education,School of Automation and Electrical Engineering, University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:Ishao@ustb.edu.cn ABSTRACT Attention deficit hyperactivity disorder (ADHD)is one of the most common mental disorders during childhood,which lasts until adulthood in most cases.In recent years,ADHD classification based on functional magnetic resonance imaging (fMRI)data has become a research hotspot.Most existing classification algorithms reported in the literature assume that samples are balanced; however,ADHD data sets are usually imbalanced.Imbalanced data sets can cause the performance degradation of a classifier by imbalanced learning,which tends to overfocus on the majority class.In this study,we considered an imbalanced neuroimaging classification problem:classification of ADHD using resting state fMRI.We used the functional connection matrix of fMRI as the classification feature and proposed a multi-objective data classification scheme based on a support vector machine(SVM)to aid the diagnosis of ADHD.In this scheme,the imbalanced data classification problem is formulated as an SVM model with three objectives: maximizing the margin,minimizing the sum of positive errors,and minimizing the sum of negative errors.Accordingly,the positive and negative sample empirical errors can be separately handled.Then,the model is solved by a multi-objective optimization method,i.e., normal boundary intersection method.A set of representative classifiers are computed for selection by decision makers.The proposed scheme was tested and evaluated on five data sets from the ADHD-200 consortium and compared with traditional classification methods. Experimental results show that the proposed three-objective SVM classification scheme is better than traditional classification methods 收稿日期:2019-09-12
基于多目标支持向量机的 ADHD 分类 杜海鹏,邵立珍苣,张冬辉 北京科技大学自动化学院工业过程知识自动化教育部重点实验室, 北京 100083 苣通信作者,E-mail:lshao@ustb.edu.cn 摘 要 注意力缺陷多动障碍(ADHD)是儿童期最常见的精神疾病之一,在大多数情况下持续到成年期. 近年来,基于功能 磁共振数据的 ADHD 分类成为了研究热点. 文献中已有的大多数分类算法均假设样本是均衡的,然而事实上,ADHD 数据集 通常是不平衡的. 传统的学习算法会使得分类器倾向于多数类样本,从而导致性能下降. 本文研究了基于不平衡神经影像数 据的 ADHD 分类问题,即基于静息状态功能磁共振数据对 ADHD 进行分类. 采用功能连接矩阵作为分类特征,提出了一种 基于多目标支持向量机的 ADHD 数据分类方案. 该方案将不均衡数据分类问题建模为具有三个目标的支持向量机模型,其 中三个目标分别为最大化分类间隔、最小化正样本误差和最小化负样本误差,进而正负样本经验误差可以被分开处理. 然后 采用多目标优化的法向量边界交叉法对模型进行求解,并给出一组代表性的分类器供决策者进行选择. 该方案在 ADHD- 200 竞赛的五个数据集上进行测试评估,并与传统分类方法进行对比. 实验结果表明本文提出的三个目标支持向量机分类方 案比传统的分类方法效果好,可以有效的从算法层面解决数据不平衡问题. 该方案不仅可用于辅助 ADHD 诊断,还可用于阿 尔茨海默病和自闭症等疾病的辅助诊断. 关键词 多目标优化;功能磁共振数据;注意力缺陷多动障碍;支持向量机;不平衡数据集 分类号 TG181 ADHD classification based on a multi-objective support vector machine DU Hai-peng,SHAO Li-zhen苣 ,ZHANG Dong-hui Key Laboratory of Knowledge Automation for Industrial Processes of Ministry of Education, School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: lshao@ustb.edu.cn ABSTRACT Attention deficit hyperactivity disorder (ADHD) is one of the most common mental disorders during childhood, which lasts until adulthood in most cases. In recent years, ADHD classification based on functional magnetic resonance imaging (fMRI) data has become a research hotspot. Most existing classification algorithms reported in the literature assume that samples are balanced; however, ADHD data sets are usually imbalanced. Imbalanced data sets can cause the performance degradation of a classifier by imbalanced learning, which tends to overfocus on the majority class. In this study, we considered an imbalanced neuroimaging classification problem: classification of ADHD using resting state fMRI. We used the functional connection matrix of fMRI as the classification feature and proposed a multi-objective data classification scheme based on a support vector machine (SVM) to aid the diagnosis of ADHD. In this scheme, the imbalanced data classification problem is formulated as an SVM model with three objectives: maximizing the margin, minimizing the sum of positive errors, and minimizing the sum of negative errors. Accordingly, the positive and negative sample empirical errors can be separately handled. Then, the model is solved by a multi-objective optimization method, i.e., normal boundary intersection method. A set of representative classifiers are computed for selection by decision makers. The proposed scheme was tested and evaluated on five data sets from the ADHD-200 consortium and compared with traditional classification methods. Experimental results show that the proposed three-objective SVM classification scheme is better than traditional classification methods 收稿日期: 2019−09−12 工程科学学报,第 42 卷,第 4 期:441−447,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 441−447, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.12.007; http://cje.ustb.edu.cn
442 工程科学学报,第42卷,第4期 reported in the literature.It can effectively address the data imbalance problem from the algorithm level.This scheme can be used in the diagnosis of ADHD as well as other diseases,such as Alzheimer's and Autism KEY WORDS multi-objective optimization;functional magnetic resonance imaging;attention deficit hyperactivity disorder;support vector machine;imbalance data set 注意力缺陷多动障碍(Attention deficit 处理数据不平衡问题,而算法层面的方法通常在 hyperactivity disorder,.ADHD)是儿童期最常见的精 决策过程中对不同的错分样本引入不同的惩罚因 神疾病之一,在大多数情况下持续到成年期.ADHD 子.在ADHD数据分类中,SMOTE方法已用于处 在DSM-5中被定义为神经发育障碍,主要表现为 理数据集不平衡问题.但是,通过对少数群体/多 注意力缺陷,过度活动和行为冲动等症状川据报 数群体进行随机过采样/欠采样,这些创建平衡训 道,全球儿童和青少年中ADHD的发病率为3.4% 练数据集的策略可能导致分类器性能欠佳) ADHD的病因和发病机制尚不清楚,目前 考虑到分类问题的多目标性质,Shao等w提 ADHD的诊断主要依赖于医生的主观经验.因此, 出了一种用于ADHD分类的双目标分类方法.但 ADHD的客观诊断和有效治疗是神经科学领域的 是,该方法并没有考虑数据集的不平衡性.因此, 重要课题之一 本文提出了采用基于SVM的多目标分类方案来 近年来,脑电图、磁共振成像1和功能性磁 解决ADHD数据不平衡问题,该方案通过多目标 共振成像等技术已被用于ADHD的辅助诊断 优化单独惩罚错分的正负样本,从而可以从算法 其中,静息态功能磁共振成像(Resting state 层面有效地处理数据不平衡问题. functional magnetic resonance imaging,rs-fMRI) 神疾病的病理分析中显示出其特有的优势,不仅 1数据处理 可以用于诊断ADHD,还可以用于诊断精神分裂 本研究中使用的数据集来自于ADHD-200竞 症和老年痴呆症 赛(http:/fcon_l000.projects.nitrc.org)数据集主 研究者们提出了各种特征提取、选择和分类 要从三个站点获取,分别是Kennedy Krieger Institute 方法用于基于rs-fMRI的ADHD分类中.Castellanos (KKI),New York University Medical Center(NYU) 等发现fMRI的功能连接信息可以成为ADHD 和Peking University(Peking).实验采用了五个数 诊断的一个突出特征.Du等☑提出了一种判别 据集,分别为KKI,NYU和Peking-l,Peking-2和 子网络的方法来对ADHD进行分类,该方法挖 Peking-joint,其中Peking-joint由Peking-l,Peking- 掘了来自全脑网络的判别子网络,并使用基于图 2和Peking-3三个数据集组成.数据标签类型分为 核的PCA来提取特征.Qureshi等图I计算了fMRI 正常人群(Normal control,NC)和ADHD患者.实 的全局连通图,并利用基于图谱的皮质分割的平 验所用到的五个数据集的详细描述如表1所示 均连通性度量作为分层极限学习机分类器的输入 特征.Miao和Zhang9提出了一种基于权重的 表1ADHD-200数据集描述 relief算法来获得rs-fMRI中低频波动分数幅度的 Table 1 Description of ADHD-200 data sets 特征子集.Riaz等no集成了非影像数据和影像数 Data set Total number of Number of ADHD Number of NC subjects subjects subjects 据的机器学习框架,研究ADHD和正常受试者之 KKI 83 22 61 间功能连接的改变.考虑到数据不平衡性,合成少 NYU 216 118 98 数类过采样技术(Synthetic minority oversampling Peking-1 的 4 61 technique,SMOTE)用于生成少数类样本 Peking-2 67 35 32 以上提到的大多数分类算法均假设样本是均 Peking-joint 194 78 116 衡的.然而事实上,基于rs-fMRI的ADHD数据分 类问题中数据集是不平衡的.若采用传统的分类 数据的预处理过程采用了DPARSF工具箱 方法,通过不平衡学习会导致对多数类别样本的 (htp:/rfmri..org/DPARSF).预处理主要包括移除前 过度聚焦,分类器性能下降.已有的不平衡数据处 十张不稳定图像,时间层校正,头动校正,空间标 理方法大体分为两大类:数据层面的方法和算法 准化,带通滤波和平滑处理.接下来对90个脑区 层面的方法四数据层面的方法通过数据采样来 分别计算其平均时间序列值,进一步地计算90个
reported in the literature. It can effectively address the data imbalance problem from the algorithm level. This scheme can be used in the diagnosis of ADHD as well as other diseases, such as Alzheimer’s and Autism. KEY WORDS multi-objective optimization;functional magnetic resonance imaging;attention deficit hyperactivity disorder;support vector machine;imbalance data set 注 意 力 缺 陷 多 动 障 碍 ( Attention deficit hyperactivity disorder, ADHD)是儿童期最常见的精 神疾病之一,在大多数情况下持续到成年期. ADHD 在 DSM-5 中被定义为神经发育障碍,主要表现为 注意力缺陷,过度活动和行为冲动等症状[1] . 据报 道,全球儿童和青少年中 ADHD 的发病率为 3.4%. ADHD 的 病 因 和 发 病 机 制 尚 不 清 楚 , 目 前 ADHD 的诊断主要依赖于医生的主观经验. 因此, ADHD 的客观诊断和有效治疗是神经科学领域的 重要课题之一. 近年来,脑电图[2]、磁共振成像[3] 和功能性磁 共振成像[4] 等技术已被用于 ADHD 的辅助诊断. 其 中 , 静 息 态 功 能 磁 共 振 成 像 ( Resting state functional magnetic resonance imaging, rs-fMRI)在精 神疾病的病理分析中显示出其特有的优势,不仅 可以用于诊断 ADHD,还可以用于诊断精神分裂 症[4] 和老年痴呆症[5] . 研究者们提出了各种特征提取、选择和分类 方法用于基于 rs-fMRI 的 ADHD 分类中. Castellanos 等[6] 发现 fMRI 的功能连接信息可以成为 ADHD 诊断的一个突出特征. Du 等[7] 提出了一种判别 子网络的方法来对 ADHD 进行分类 ,该方法挖 掘了来自全脑网络的判别子网络,并使用基于图 核的 PCA 来提取特征. Qureshi 等[8] 计算了 fMRI 的全局连通图,并利用基于图谱的皮质分割的平 均连通性度量作为分层极限学习机分类器的输入 特 征 . Miao 和 Zhang[9] 提出了一种基于权重 的 relief 算法来获得 rs-fMRI 中低频波动分数幅度的 特征子集. Riaz 等[10] 集成了非影像数据和影像数 据的机器学习框架,研究 ADHD 和正常受试者之 间功能连接的改变. 考虑到数据不平衡性,合成少 数类过采样技术 ( Synthetic minority oversampling technique,SMOTE) [11] 用于生成少数类样本. 以上提到的大多数分类算法均假设样本是均 衡的. 然而事实上,基于 rs-fMRI 的 ADHD 数据分 类问题中数据集是不平衡的. 若采用传统的分类 方法,通过不平衡学习会导致对多数类别样本的 过度聚焦,分类器性能下降. 已有的不平衡数据处 理方法大体分为两大类:数据层面的方法和算法 层面的方法[12] . 数据层面的方法通过数据采样来 处理数据不平衡问题,而算法层面的方法通常在 决策过程中对不同的错分样本引入不同的惩罚因 子. 在 ADHD 数据分类中,SMOTE 方法已用于处 理数据集不平衡问题. 但是,通过对少数群体/多 数群体进行随机过采样/欠采样,这些创建平衡训 练数据集的策略可能导致分类器性能欠佳[13] . 考虑到分类问题的多目标性质,Shao 等[14] 提 出了一种用于 ADHD 分类的双目标分类方法. 但 是,该方法并没有考虑数据集的不平衡性. 因此, 本文提出了采用基于 SVM 的多目标分类方案来 解决 ADHD 数据不平衡问题,该方案通过多目标 优化单独惩罚错分的正负样本,从而可以从算法 层面有效地处理数据不平衡问题. 1 数据处理 本研究中使用的数据集来自于 ADHD-200 竞 赛(http://fcon_1000.projects.nitrc.org/) [15] . 数据集主 要从三个站点获取,分别是 Kennedy Krieger Institute (KKI) ,New York University Medical Center(NYU) 和 Peking University(Peking). 实验采用了五个数 据集 ,分别 为 KKI, NYU 和 Peking-1, Peking-2 和 Peking-joint, 其 中 Peking-joint 由 Peking-1, Peking- 2 和 Peking-3 三个数据集组成. 数据标签类型分为 正常人群(Normal control, NC)和 ADHD 患者. 实 验所用到的五个数据集的详细描述如表 1 所示. 数据的预处理过程采用了 DPARSF 工具箱 (http://rfmri.org/DPARSF). 预处理主要包括移除前 十张不稳定图像,时间层校正,头动校正,空间标 准化,带通滤波和平滑处理. 接下来对 90 个脑区 分别计算其平均时间序列值,进一步地计算 90 个 表 1 ADHD-200 数据集描述 Table 1 Description of ADHD-200 data sets Data set Total number of subjects Number of ADHD subjects Number of NC subjects KKI 83 22 61 NYU 216 118 98 Peking-1 85 24 61 Peking-2 67 35 32 Peking-joint 194 78 116 · 442 · 工程科学学报,第 42 卷,第 4 期
杜海鹏等:基于多目标支持向量机的ADHD分类 443 脑区两两之间的皮尔逊相关系数,最终得到功能 传统的SVM对泛化能力和经验误差进行加 连接(Functional connection,FC)矩阵l6,FC矩阵采 权,它在本质上是一个双目标优化问题叨.文献[14] 集的流程图如图1所示.由于FC的对称性,取下 采用了基于1范数的双目标分类模型用于分类 三角矩阵((90×90-90)/2=4005)作为样本的特征. ADHD和NC受试者.但是,该模型没有考虑不平 由于实验所用数据集特征的个数远远大于样 衡数据分布,把正样本的误差和负样本的误差加 本个数,采用PCA(Principal component analysis)7 和在了一起.事实上,当存在类不平衡时,由于分 对数据进行降维.为了尽可能多地保留信息每个 类器的目的是最大化整体准确性,传统的分类器 数据集的特征维度降至比其训练样本的数量少1. 将倾向于多数类.换句话说,分类器可能将所有样 2多目标分类方案 本分类为负值,从而提高过高的准确度 本文使用如下三个目标SVM模型(T-SVM) 本文提出的基于多目标支持向量机的ADHD 对正负样本的误差成本分别进行处理,其中三个 分类方案如图2所示.首先建立三个目标分类模 目标分别是最大化分类间隔,最小化正样本经验 型,其次通过多目标优化算法求解多目标优化问 误差之和与最小化负样本经验误差之和2 题以得到帕累托(Pareto)最优分类器,然后评估分 类器性能,在交叉验证集中选出最佳分类器,最后 T-sv0 minh,∑年,∑g b=+11b2=-1) 在测试集上进行测试 s.ty(w…x+b)+≥1,i=1,2,…,m+ 2.1三个目标SVM分类模型 y(w…x+b)+≥1,i=m++1,m++2,…,m 在二分类问题中,数据集中每个类别下的样 ,≥0 本数目相差很大,则该数据集被认为是不平衡的 其中,m+表示多数类样本个数,,分别代表正负 数目少的一类称作少数类样本,数目较多的一类 样本的经验误差,目标函数反映了最大化分类间 称为多数类样本.文中所用数据集,多数类为NC 隔的同时最小化正负样本的经验误差.为使优化 样本,少数类为ADHD样本 问题(T-SVM)可解,用两个正变量w,和w_来表示 支持向量机(Support vector machine,.SVM)是 w,即w=w++w,因此第一个目标函数就表示为 种常用的有监督机器学习算法剧给定一个具有 lwl1=eT(w++w-),其中e是全为1的列向量.该 m个样本的训练集合S={(x,y),(x2,y2),…,(cm.ym)以, 模型是一个多目标线性优化问题(Multi--objective 其中x'EXCR表示第个样本的特征,y'e{-l,+l) linear programming,MOLP).基于多目标优化最 代表第个样本的标签.SVM的基本思想是在特征 优解的概念,本文给出如下Pareto最优分类器的 空间上找到最佳的分离超平面使得训练集上正负 定义 样本间隔最大.分类超平面可以用y=w·x+b表 对于一个训练集,如果不存在任何一个可行解 示,其中,w∈"表示法向量,beR表示截距 (w,w-,b,,)支配(m,p-,五,,),即eT(w++w-)≤ AAL termplatcs Ntime seriers Function connection matrix Calculate the pearson correlation coefficient 图1功能连接矩阵采集流程图 Fig.1 Flowchart of functional connection matrix acquisition Classifier Three objective SVM Multi-objective classification model optimization pertormance Classifier selection evaluation 图2基于多目标支持向量机的ADHD分类方案 Fig.2 ADHD classification scheme based on multi-objective SVM
(90×90−90)/2 = 4005 脑区两两之间的皮尔逊相关系数,最终得到功能 连接(Functional connection, FC)矩阵[16] ,FC 矩阵采 集的流程图如图 1 所示. 由于 FC 的对称性,取下 三角矩阵( )作为样本的特征. 由于实验所用数据集特征的个数远远大于样 本个数,采用 PCA(Principal component analysis) [17] 对数据进行降维. 为了尽可能多地保留信息,每个 数据集的特征维度降至比其训练样本的数量少 1. 2 多目标分类方案 本文提出的基于多目标支持向量机的 ADHD 分类方案如图 2 所示. 首先建立三个目标分类模 型,其次通过多目标优化算法求解多目标优化问 题以得到帕累托(Pareto)最优分类器,然后评估分 类器性能,在交叉验证集中选出最佳分类器,最后 在测试集上进行测试. 2.1 三个目标 SVM 分类模型 在二分类问题中,数据集中每个类别下的样 本数目相差很大,则该数据集被认为是不平衡的. 数目少的一类称作少数类样本,数目较多的一类 称为多数类样本. 文中所用数据集,多数类为 NC 样本,少数类为 ADHD 样本. m S = {(x 1 , y 1 ),(x 2 , y 2 ),··· ,(x m,y m)} x i ∈ X ⊂ R n i y i ∈ {−1,+1} i y = w· x+b w ∈ R n b ∈ R 支持向量机(Support vector machine, SVM)是 一种常用的有监督机器学习算法[18] . 给定一个具有 个样本的训练集合 , 其中 表示第 个样本的特征, 代表第 个样本的标签. SVM 的基本思想是在特征 空间上找到最佳的分离超平面使得训练集上正负 样本间隔最大. 分类超平面可以用 表 示,其中, 表示法向量, 表示截距. 传统的 SVM 对泛化能力和经验误差进行加 权,它在本质上是一个双目标优化问题[19] . 文献 [14] 采用了基于 1 范数的双目标分类模型用于分类 ADHD 和 NC 受试者. 但是,该模型没有考虑不平 衡数据分布,把正样本的误差和负样本的误差加 和在了一起. 事实上,当存在类不平衡时,由于分 类器的目的是最大化整体准确性,传统的分类器 将倾向于多数类. 换句话说,分类器可能将所有样 本分类为负值,从而提高过高的准确度. 本文使用如下三个目标 SVM 模型(T-SVM) 对正负样本的误差成本分别进行处理,其中三个 目标分别是最大化分类间隔,最小化正样本经验 误差之和与最小化负样本经验误差之和[20] . (T−SVM)min ∥w∥1 , ∑ {i|y i=+1} ξ i + , ∑ {i|y i=−1} ξ i − s.t y i (w· x i +b)+ξ i + ⩾ 1,i = 1,2,··· ,m+ y i (w· x i +b)+ξ i − ⩾ 1,i = m+ +1,m+ +2,··· ,m ξ i + , ξi − ⩾ 0 m+ ξ i + , ξi − w+ w− w w = w+ +w− ∥ w∥1 = e T (w+ +w−) 其中, 表示多数类样本个数, 分别代表正负 样本的经验误差,目标函数反映了最大化分类间 隔的同时最小化正负样本的经验误差. 为使优化 问题(T-SVM)可解,用两个正变量 和 来表示 ,即 ,因此第一个目标函数就表示为 ,其中 e 是全为 1 的列向量. 该 模型是一个多目标线性优化问题(Multi-objective linear programming, MOLP) . 基于多目标优化最 优解的概念,本文给出如下 Pareto 最优分类器的 定义. (w+,w−,b, ξi + , ξi − ) (w¯ +,w¯ −,b¯, ξ¯i + , ξ¯i − ) e T (w+ +w−) ⩽ 对于一个训练集,如果不存在任何一个可行解 支配 ,即 AAL termplatcs N time seriers Function connection matrix Calculate the pearson correlation coefficient 图 1 功能连接矩阵采集流程图 Fig.1 Flowchart of functional connection matrix acquisition Three objective SVM classification model Multi-objective optimization Classifier pertormance evaluation Classifier selection 图 2 基于多目标支持向量机的 ADHD 分类方案 Fig.2 ADHD classification scheme based on multi-objective SVM 杜海鹏等: 基于多目标支持向量机的 ADHD 分类 · 443 ·
444 工程科学学报,第42卷,第4期 em4+m,∑年≤∑,∑g≤∑,则 考平面,计算参考平面的法向量方向: d=+by=+1)b=-1y=-1) (2)在参考平面上布置均匀分布的参考点 称(m+,p-,b,,)为Pareto最优分类器.所有Pareto q,i=1,…,k 最优分类器构成了Pareto前沿分类器.由于所有 (3)遍历所有的k个参考点,求解最优化问题: Pareto最优分类器都是对分类间隔,正负经验误差 maxt,st.qi+tn=fx),t≥0,x∈X 之间的权衡,因此决策者可能会感兴趣.此外,由 并把q:+tn存储到集合R. 于具有最佳性能的分类器均在Pareto最优分类器 输出:代表性非支配点子集R 集合中,不需要考虑该集合之外的分类器 通过NBI方法可以求得一组MOLP的代表性 2.2多目标优化算法 非支配点.对于(T-SVM)问题,每个非支配点都对 本文采用法向边界交叉法(Normal boundary 应一个Pareto最优分类器.决策者可以在交叉验 intersection method,NBI)P来求解MOLP问题 证集上遍历所有的Pareto最优分类器,选择出性 (MOLP)min f(x)=(fi(x).f(x).....fp(x))T 能最优Pareto分类器作为最终的分类器 s.tr∈Rm:gr)=(g1x),g2(x),…,8p(x)T≤0 2.3分类器性能评估 其中,X={x∈R”:g(x)=(g1(x),g2(x),…,gp(x)T≤0} 对于一组Pareto最优分类器,决策者需要根据 代表决策变量可行域,假设其非空,则目标空间可 交叉验证集上的性能选择最终分类器.常用的衡 行域为Y={fx):xeX. 量分类器性能的评价指标有灵敏度(Sensitivity)、 对于MOLP问题,如果不存在x∈X使得 特异性(Specificity)和准确性(Accuracy).敏感性 fx)≤fe),则称∈X为MOLP问题的一个有效 表明少数群体的准确性,特异性表明多数群体的 解.有效解组成的集合表示为XE,称作决策空间中 准确性 的有效集合.相应地,=f)称作一个非支配点, 一般情况下,准确率通常被视为评估标准之 Yw={fx):xeXE称之为目标空间可行域中的非 一 但是,在数据集不平衡的情况下准确率不能完 支配点解集.NBI方法就是为了求得MOLP问题 全反映分类器的性能好坏.例如,对于正负样本比 中的非支配点集Yw的子集R.图3展示了NBI方法 率为1:9的数据集,即使判断所有少数类别的样 求解一个两个目标优化模型的示例.该方法首先 本都错误,准确率仍然可以达到90%.但是对于疾 计算一个参考平面,并在参考平面上放置均匀分 病诊断,正确分类少数类样本(患病)是很重要的. 布的参考点,然后沿着法线方向将参考点投影到 因此,本文使用灵敏度和特异性的几何平均值g Y的边界,最终得到多目标优化模型的代表性非支 means(g-means=Vsensitivity×specificity)来评估分 配点集合R.利用NBI解多个目标优化问题如算 类器性能 法1所示 3 实验结果 本文使用提出的基于1范数SVM的三个目标 分类方案对ADHD-200竞赛的五个数据集进行分 6 类测试.每个数据集都被随机分为三个数据集:训 练集、交叉验证集和测试集,划分比例为6:2:2, 即使用数据集的60%用于训练,20%用于模型交 叉验证选取最终分类器,剩余的20%用来测试衡 -2 6 8 量最终分类器的效果 下面以Peking-l数据集为例,给出分类器的选 图3NBI方法中获得的非支配点 Fig.3 Non-dominated points obtained using the NBI method 择过程.首先,用NBI方法来求解由训练集构成的 (T-SVM)问题,从而获得一组非支配点,共11个, 算法1NBI算法求解MOLP问题 如图4(a)所示,每个对应一个Pareto最优分类器, 输人:优化问题模型 图中三个坐标轴分别代表分类间隔|l,正样本 (1)求解三个目标模型中每个目标的最小值 经验误差之∑5,和与负样本经验误差之和∑-.进 =min((x):x∈X,k=1,2,3,假设最优解被表示 一步地,计算出11个分类器在训练集和交叉验证 为1,2,3,构造1,2,3三个点组成的凸包作为参 集上的准确率和g-means值,见表2
e T (w¯ ++w¯ −), ∑ {i|y i=+1} ξ i + ⩽ ∑ {i|y i=+1} ξ¯ i + , ∑ {i|y i=−1} ξ i − ⩽ ∑ {i|y i=−1} ξ¯ i − (w¯ +,w¯ −,b¯, ξ¯i + , ξ¯i − ) ,则 称 为 Pareto 最优分类器. 所有 Pareto 最优分类器构成了 Pareto 前沿分类器. 由于所有 Pareto 最优分类器都是对分类间隔,正负经验误差 之间的权衡,因此决策者可能会感兴趣. 此外,由 于具有最佳性能的分类器均在 Pareto 最优分类器 集合中,不需要考虑该集合之外的分类器. 2.2 多目标优化算法 本文采用法向边界交叉法 (Normal boundary intersection method, NBI)[21] 来求解 MOLP 问题. (MOLP)min f(x) = (f1(x), f2(x),··· , fp(x))T s.t.x ∈ R n : g(x) = (g1(x),g2(x),··· ,gp(x))T ⩽ 0 X = {x ∈ R n : g(x) = (g1(x),g2(x),··· ,gp(x))T ⩽ 0} Y = {f(x) : x ∈ X} 其中 , 代表决策变量可行域,假设其非空,则目标空间可 行域为 . x ∈ X f(x) ⩽ f(xˆ) xˆ ∈ X XE yˆ = f(xˆ) YN = {f(x) : x ∈ XE} YN R R 对 于 MOLP 问 题 , 如 果 不 存 在 使 得 ,则称 为 MOLP 问题的一个有效 解. 有效解组成的集合表示为 ,称作决策空间中 的有效集合. 相应地, 称作一个非支配点, 称之为目标空间可行域中的非 支配点解集. NBI 方法就是为了求得 MOLP 问题 中的非支配点集 的子集 . 图 3 展示了 NBI 方法 求解一个两个目标优化模型的示例. 该方法首先 计算一个参考平面,并在参考平面上放置均匀分 布的参考点,然后沿着法线方向将参考点投影到 Y 的边界,最终得到多目标优化模型的代表性非支 配点集合 . 利用 NBI 解多个目标优化问题如算 法 1 所示. 算法 1 NBI 算法求解 MOLP 问题 输入:优化问题模型 y I k = min{fk(x) : x ∈ X}, k = 1,2,3 y¯1, y¯2, y¯3 y¯1, y¯2, y¯3 (1)求解三个目标模型中每个目标的最小值 ,假设最优解被表示 为 ,构造 三个点组成的凸包作为参 考平面,计算参考平面的法向量方向 nˆ; qi ,i = 1,··· , k ( 2)在参考平面上布置均匀分布的参考点 ; (3)遍历所有的 k 个参考点,求解最优化问题: maxt,s.t.qi +tnˆ = f(x),t ⩾ 0, x ∈ X 并把 qi +tnˆ存储到集合 R. 输出:代表性非支配点子集 R 通过 NBI 方法可以求得一组 MOLP 的代表性 非支配点. 对于(T-SVM)问题,每个非支配点都对 应一个 Pareto 最优分类器. 决策者可以在交叉验 证集上遍历所有的 Pareto 最优分类器,选择出性 能最优 Pareto 分类器作为最终的分类器. 2.3 分类器性能评估 对于一组 Pareto 最优分类器,决策者需要根据 交叉验证集上的性能选择最终分类器. 常用的衡 量分类器性能的评价指标有灵敏度(Sensitivity)、 特异性(Specificity)和准确性(Accuracy). 敏感性 表明少数群体的准确性,特异性表明多数群体的 准确性. g−means = √ sensitivity×specificity 一般情况下,准确率通常被视为评估标准之 一. 但是,在数据集不平衡的情况下准确率不能完 全反映分类器的性能好坏. 例如,对于正负样本比 率为 1∶9 的数据集,即使判断所有少数类别的样 本都错误,准确率仍然可以达到 90%. 但是对于疾 病诊断,正确分类少数类样本(患病)是很重要的. 因此,本文使用灵敏度和特异性的几何平均值 gmeans( )来评估分 类器性能. 3 实验结果 本文使用提出的基于 1 范数 SVM 的三个目标 分类方案对 ADHD-200 竞赛的五个数据集进行分 类测试. 每个数据集都被随机分为三个数据集:训 练集、交叉验证集和测试集,划分比例为 6∶2∶2, 即使用数据集的 60% 用于训练,20% 用于模型交 叉验证选取最终分类器,剩余的 20% 用来测试衡 量最终分类器的效果. ∥ w∥1 ∑ ξ+ ∑ ξ− 下面以 Peking-1 数据集为例,给出分类器的选 择过程. 首先,用 NBI 方法来求解由训练集构成的 (T-SVM)问题,从而获得一组非支配点,共 11 个, 如图 4(a)所示,每个对应一个 Pareto 最优分类器, 图中三个坐标轴分别代表分类间隔 ,正样本 经验误差之 和与负样本经验误差之和 . 进 一步地,计算出 11 个分类器在训练集和交叉验证 集上的准确率和 g-means 值,见表 2. y2 y−1 y 2 y1 Y − 8 6 4 4 6 8 2 −2 2 图 3 NBI 方法中获得的非支配点 Fig.3 Non-dominated points obtained using the NBI method · 444 · 工程科学学报,第 42 卷,第 4 期
杜海鹏等:基于多目标支持向量机的ADHD分类 445. 31.0 111.0 b (a) 30.5 0-5 10.5 10 1 30.0 *6 ·2 10.0 0 -11 .7 ·3 29.5 9.5 ·8 ·4 为29.0 .9 5 9.0 .10 28.5 7 28.0 8.5 27.5 8.0 32 28 260.250.300.350.400.450.50 the 278320340.360.38040042040460480375 hell 图4 Peking-1数据集上非支配点集.(a)非支配点集:(b)非支配点1-5的权衡关系 Fig.4 Non-dominated points on Peking-1 data set:(a)non-dominated points;(b)trade-off information of non-dominated points 1-5 表2训练集/交叉验证集上的性能评价 Table 2 Evaluation of the training/cross-validation data set Classifier 1 2 3 4 6 Accuracy 0.6600/0.6842 0.6400/0.6842 0.6600/0.7368 0.6800/0.3842 0.6600/0.7368 0.6000/0.6316 G-means 0.6547/0.5311 0.66070.6202 0.6929/0.7161 0.7237/0.6794 0.7182/0.7596 0.6299/0.5883 Classefier 7 8 9 10 11 Accuracy 0.6000/0.6842 0.6200/0.6842 0.6000/0.6842 0.6200/0.6842 0.5800/0.5789 G-means 0.6299/0.6794 0.6726/0.6794 0.6547/0.7161 0.6841/0.7161 0.6268/0.5991 为了清楚地展示非支配点三个目标之间的权 数类样本的准确性为代价的. 衡关系,选取了前五个非支配点,在图4(b)和图5 根据所有非支配点对应的Pareto最优分类器 中展示其所对应的分类器的性能.图4(b)展示了 在交叉验证集的表现,对于Peking-l数据集,选择 三个目标(川l,∑+,∑5-)之间的权衡关系,可以 了具有最高g-means(值为0.7596)的分类器5作为 看出随着‖w1的增加,正样本经验误差之和∑5,随 该数据集的最终分类器.其他几个数据集的处理 之上升,而负样本经验误差之和∑-随之下降.图5 过程与Peking-】数据集一样,由于篇幅限制这里 进一步展示了这五个分类的性能,其中5(a)展示 不再给出. 了分类误差,5(b)展示了g-means值.两个子图中 为了进一步地展示本文提出的三个目标分类 以菱形点绘成的曲线代表正样本的分类误差之 方案的性能,将本文提出的方法与1范数SVM 和,图中具有相同横坐标值的其他点代表分类器 (L,SVM)、2范数SVM(L2SVM)、随机森林(random 在训练集与交叉验证集上的性能.从图中可以看 forest,.RF)2四、极限学习机(extreme learning machine, 出,正样本(少数类)经验误差的减小是以牺牲多 ELM)2以及两个目标分类方案(B-SVM)进行了 0.36 Validation 11.0 0.80 (a) (b)a Validation 111.0 0.36 -"-Training 10.5 0.75 -s-Training 0.36 10.5 0.36 10.0 10.0 0.70 0.36 9.5 9.5 0.65 0.30 9.0 9.0 0.29 0.60 8.5 8.5 0.28 8.0 0.55 8.0 0.27 0.282034036038040042040.460480535 058320340.360.380400.42040.460480575 hell hell: 图5 Peking-1数据集上1-5 Pareto最优分类器的性能.(a)范数与经验误差的关系:(b)范数与g-means的关系 Fig.5 Performance of Pareto optimal classifiers 1-5 for Peking-1:(a)norm versus empirical error;(b)norm versus g-means
∥ w∥1, ∑ ξ+, ∑ ξ− ∥ w∥1 ∑ ξ+ ∑ ξ− 为了清楚地展示非支配点三个目标之间的权 衡关系,选取了前五个非支配点,在图 4(b)和图 5 中展示其所对应的分类器的性能. 图 4(b)展示了 三个目标( )之间的权衡关系,可以 看出随着 的增加,正样本经验误差之和 随 之上升,而负样本经验误差之和 随之下降. 图 5 进一步展示了这五个分类的性能,其中 5(a)展示 了分类误差,5(b)展示了 g-means 值. 两个子图中 以菱形点绘成的曲线代表正样本的分类误差之 和,图中具有相同横坐标值的其他点代表分类器 在训练集与交叉验证集上的性能. 从图中可以看 出,正样本(少数类)经验误差的减小是以牺牲多 数类样本的准确性为代价的. 根据所有非支配点对应的 Pareto 最优分类器 在交叉验证集的表现,对于 Peking-1 数据集,选择 了具有最高 g-means(值为 0.7596)的分类器 5 作为 该数据集的最终分类器. 其他几个数据集的处理 过程与 Peking-1 数据集一样,由于篇幅限制这里 不再给出. 为了进一步地展示本文提出的三个目标分类 方案的性能 ,将本文提出的方法与 1 范数 SVM (L1SVM)、2 范数 SVM(L2SVM)、随机森林(random forest, RF) [22]、极限学习机(extreme learning machine, ELM) [23] 以及两个目标分类方案(B-SVM)进行了 表 2 训练集/交叉验证集上的性能评价 Table 2 Evaluation of the training/cross-validation data set Classifier 1 2 3 4 5 6 Accuracy 0.6600/0.6842 0.6400/0.6842 0.6600/0.7368 0.6800/0.3842 0.6600/0.7368 0.6000/0.6316 G-means 0.6547/0.5311 0.6607/0.6202 0.6929/0.7161 0.7237/0.6794 0.7182/0.7596 0.6299/0.5883 Classefier 7 8 9 10 11 Accuracy 0.6000/0.6842 0.6200/0.6842 0.6000/0.6842 0.6200/0.6842 0.5800/0.5789 G-means 0.6299/0.6794 0.6726/0.6794 0.6547/0.7161 0.6841/0.7161 0.6268/0.5991 Σξ+ Σξ− Σξ+ Σξ− 31.0 (b) 30.5 30.0 29.5 29.0 28.5 28.0 27.5 27.0 0.32 0.34 0.36 0.38 0.40 0.42 ||w||1 0.44 0.46 0.48 0.50 11.0 10.5 10.0 9.5 9.0 8.5 8.0 7.5 Σξ+ Σξ− (a) 26 0.25 28 30 32 34 0.30 0.35 0.40 ||w||1 0.45 0.50 11 10 9 8 7 6 1 2 3 4 5 6 7 8 9 10 11 图 4 Peking-1 数据集上非支配点集. (a)非支配点集;(b)非支配点 1–5 的权衡关系 Fig.4 Non-dominated points on Peking-1 data set: (a) non-dominated points; (b) trade-off information of non-dominated points 1–5 Σξ+ G-means 0.80 (b) 0.75 0.70 0.65 0.60 0.55 0.50 0.32 0.34 0.36 0.38 0.40 0.42 ||w||1 0.44 0.46 0.48 0.50 11.0 10.5 10.0 9.5 9.0 8.5 8.0 7.5 Σξ+ Error Σξ+ Validation Training Σξ+ Validation Training 0.36 0.36 0.36 0.36 0.36 0.36 0.30 0.29 0.28 0.27 (a) 0.26 0.32 0.34 0.36 0.38 0.40 0.42 ||w||1 0.44 0.46 0.48 0.50 11.0 10.5 10.0 9.5 9.0 8.5 8.0 7.5 图 5 Peking-1 数据集上 1–5 Pareto 最优分类器的性能.(a)范数与经验误差的关系;(b)范数与 g-means 的关系 Fig.5 Performance of Pareto optimal classifiers 1–5 for Peking-1: (a) norm versus empirical error; (b) norm versus g-means 杜海鹏等: 基于多目标支持向量机的 ADHD 分类 · 445 ·
446 工程科学学报,第42卷,第4期 对比分析.其中,LSVM和L2SVM中的超参数 除ADHD数据集外,本文也选取了University of C=0.8;RF中树的个数为50,每棵树的最大深度为 California Irvine(UCI)Machine Learning Repository 5;ELM中隐层节点个数为30.实验运行了十次, 上的MNIST数据集来测试提出的方法的有效性 最终给出了每个数据集下十次的平均结果,如表3 MNIST数据集有10类,我们对其进行下采样并随 所示.表中每个数据集最高的准确度以及最高的 机选取标签为“9”的50个样本作为正样本,其他 g-means值均以黑体加粗的形式给出.对比结果表 类均为负样本构造分类问题.分类结果如表3所 明,本文提出的三个目标的方案在所有ADHD数 示,结果表明本文提出的方法对一般的不平衡数 据集上的表现都优于其他对比方法 据集也具有较好的分类效果 表3不同方法的平均准确度/g-means值 Table 3 Average accuracy/g-means value for different methods Data set L SVM L2SVM B-SVM RF ELM T-SVM KKI 0.635/0.421 0.634/0.515 0.7320.527 0.725/0.530 0.696/0.622 0.753/0.606 NYU 0.545/0.543 0.556/0.542 0.643/0.624 0.6080.610 0.588/0.594 0.703/0.698 Peking-1 0.725/0.683 0.714/0.664 0.8010.677 0.770/0.688 0.677/0.647 0.813/0.711 Peking-2 0.636/0.637 0.665/0.683 0.807/0.776 0.635/0.649 0.564/0.601 0.845/0.851 Peking-joint 0.630/0.615 0.624/0.611 0.742/0.764 0.665/0.686 0.625/0.613 0.751/0.743 MNIST 0.977/0.783 0.978/0.797 0.979/0.800 0.975/0.790 0.9690.00 0.984/0.849 4 结论 [6] Castellanos F X,Margulies D S,Kelly C,et al.Cingulate- precuneus interactions:a new locus of dysfunction in adult 本文提出了一种基于多目标支持向量机的ADHD attention-deficit/hyperactivity disorder.Biol Psychiat,2008, 数据分类方案.该方案使用基于1范数SVM的三 63(3:332 个目标优化模型,分别考虑了正负样本的经验误 [7]Du J Q,Wang L P,Jie B,et al.Network-based classification of 差,从而可以从算法层面有效地处理类不平衡问 ADHD patients using discriminative subnetwork selection and 题.通过求解多目标优化问题,可以得到一组代表 graph kernel PCA.Comput Med Imag Graph,2016,52:82 性的Pareto最优分类器以供决策者进行选择.该 [8] Qureshi M N I,Jo H J,Lee B.ADHD subgroup discrimination 分类方案在ADHD-200数据集上进行了测试并和 with global connectivity features using hierarchical extreme leaming machine:resting-state FMRI study /2017 IEEE 14th 文献中的方法进行了对比分析.实验结果表明,本 International Symposium on Biomedical Imaging (ISBI 2017). 文提出的三个目标SVM分类方案在所有测试数 Melbourne,2017:529 据集上的表现优于1范数SVM,2范数SVM,随机 [9] Miao B,Zhang Y L.A feature selection method for classification 森林、极限学习机和双目标SVM方法 of ADHD I Proceedings of 4th International Conference on Information,Cybernetics and Computational Social Systems 参考文献 (ICCSS).Dalian,2017:21 [1]American Psychiatric Association.Diagnostic and statistical [10]Riaz A,Asad M,Alonso E,et al.Fusion of fMRI and non-imaging manual of mental disorders.BMC Med,2013,17:133 data for ADHD classification.Comput Med Imag Graph,2018,65: [2]Saad J F.Kohn M R.Clarke S,et al.Is the theta/beta EEG marker 115 for ADHD inherently flawed?J Attention Disord,2018,22(9): [11]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic 815 minority over-sampling technique.JArtif Intell Res,2002,16:321 [3] Chang C W,Ho CC,Chen J H.ADHD classification by a texture [12]Krawezyk B.Learning from imbalanced data:open challenges and analysis of anatomical brain MRI data.Front Syst Neurosci,2012 future directions.Prog Artif Intell,2016,5(4):221 6:66 [13]He H B,Garcia E A.Learning from imbalanced data./EEE Trans [4]Kuang L D,Lin Q H,Gong X F,et al.Model order effects on ICA Know/Data Eng,2009,21(9):1263 of resting-state complex-valued fMRI data:application to [14]Shao L Z,Xu Y D.Fu D M.Classification of ADHD with bi- schizophrenia.J Neurosci Methods,2018,304:24 objective optimization.J Biomed Inf 2018,84:164 [5]Hojjati S H,Ebrahimzadeh A,Khazaee A,et al.Predicting [15]Bellec P,Chu C,Chouinard-Decorte F,et al.The neuro bureau conversion from MCI to AD using resting-state fMRI,graph ADHD-200 preprocessed repository.Neuroimage,2017,144:275 theoretical approach and SVM.J Neurosci Methods,2017.282:69 [16]Friston K J.Functional and effective connectivity:a review.Brain
对比分析. 其中 , L1SVM 和 L2SVM 中的超参数 C=0.8;RF 中树的个数为 50,每棵树的最大深度为 5;ELM 中隐层节点个数为 30. 实验运行了十次, 最终给出了每个数据集下十次的平均结果,如表 3 所示. 表中每个数据集最高的准确度以及最高的 g-means 值均以黑体加粗的形式给出. 对比结果表 明,本文提出的三个目标的方案在所有 ADHD 数 据集上的表现都优于其他对比方法. 除 ADHD 数据集外,本文也选取了 University of California Irvine( UCI) Machine Learning Repository 上的 MNIST 数据集来测试提出的方法的有效性. MNIST 数据集有 10 类,我们对其进行下采样并随 机选取标签为“9”的 50 个样本作为正样本,其他 类均为负样本构造分类问题. 分类结果如表 3 所 示,结果表明本文提出的方法对一般的不平衡数 据集也具有较好的分类效果. 4 结论 本文提出了一种基于多目标支持向量机的ADHD 数据分类方案. 该方案使用基于 1 范数 SVM 的三 个目标优化模型,分别考虑了正负样本的经验误 差,从而可以从算法层面有效地处理类不平衡问 题. 通过求解多目标优化问题,可以得到一组代表 性的 Pareto 最优分类器以供决策者进行选择. 该 分类方案在 ADHD-200 数据集上进行了测试并和 文献中的方法进行了对比分析. 实验结果表明,本 文提出的三个目标 SVM 分类方案在所有测试数 据集上的表现优于 1 范数 SVM,2 范数 SVM,随机 森林、极限学习机和双目标 SVM 方法. 参 考 文 献 American Psychiatric Association. Diagnostic and statistical manual of mental disorders. BMC Med, 2013, 17: 133 [1] Saad J F, Kohn M R, Clarke S, et al. Is the theta/beta EEG marker for ADHD inherently flawed? J Attention Disord, 2018, 22(9): 815 [2] Chang C W, Ho C C, Chen J H. ADHD classification by a texture analysis of anatomical brain MRI data. Front Syst Neurosci, 2012, 6: 66 [3] Kuang L D, Lin Q H, Gong X F, et al. Model order effects on ICA of resting-state complex-valued fMRI data: application to schizophrenia. J Neurosci Methods, 2018, 304: 24 [4] Hojjati S H, Ebrahimzadeh A, Khazaee A, et al. Predicting conversion from MCI to AD using resting-state fMRI, graph theoretical approach and SVM. J Neurosci Methods, 2017, 282: 69 [5] Castellanos F X, Margulies D S, Kelly C, et al. Cingulateprecuneus interactions: a new locus of dysfunction in adult attention-deficit/hyperactivity disorder. Biol Psychiat, 2008, 63(3): 332 [6] Du J Q, Wang L P, Jie B, et al. Network-based classification of ADHD patients using discriminative subnetwork selection and graph kernel PCA. Comput Med Imag Graph, 2016, 52: 82 [7] Qureshi M N I, Jo H J, Lee B. ADHD subgroup discrimination with global connectivity features using hierarchical extreme learning machine: resting-state FMRI study // 2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017). Melbourne, 2017: 529 [8] Miao B, Zhang Y L. A feature selection method for classification of ADHD // Proceedings of 4th International Conference on Information, Cybernetics and Computational Social Systems (ICCSS). Dalian, 2017: 21 [9] Riaz A, Asad M, Alonso E, et al. Fusion of fMRI and non-imaging data for ADHD classification. Comput Med Imag Graph, 2018, 65: 115 [10] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique. J Artif Intell Res, 2002, 16: 321 [11] Krawczyk B. Learning from imbalanced data: open challenges and future directions. Prog Artif Intell, 2016, 5(4): 221 [12] He H B, Garcia E A. Learning from imbalanced data. IEEE Trans Knowl Data Eng, 2009, 21(9): 1263 [13] Shao L Z, Xu Y D, Fu D M. Classification of ADHD with biobjective optimization. J Biomed Inf, 2018, 84: 164 [14] Bellec P, Chu C, Chouinard-Decorte F, et al. The neuro bureau ADHD-200 preprocessed repository. Neuroimage, 2017, 144: 275 [15] [16] Friston K J. Functional and effective connectivity: a review. Brain 表 3 不同方法的平均准确度/g-means 值 Table 3 Average accuracy/g-means value for different methods Data set L1SVM L2SVM B-SVM RF ELM T-SVM KKI 0.635/0.421 0.634/0.515 0.732/0.527 0.725/0.530 0.696/0.622 0.753/0.606 NYU 0.545/0.543 0.556/0.542 0.643/0.624 0.608/0.610 0.588/0.594 0.703/0.698 Peking-1 0.725/0.683 0.714/0.664 0.801/0.677 0.770/0.688 0.677/0.647 0.813/0.711 Peking-2 0.636/0.637 0.665/0.683 0.807/0.776 0.635/0.649 0.564/0.601 0.845/0.851 Peking-joint 0.630/0.615 0.624/0.611 0.742/0.764 0.665/0.686 0.625/0.613 0.751/0.743 MNIST 0.977/0.783 0.978/0.797 0.979/0.800 0.975/0.790 0.969/0.00 0.984/0.849 · 446 · 工程科学学报,第 42 卷,第 4 期
杜海鹏等:基于多目标支持向量机的ADHD分类 447 Connect,2011,1(1):13 [20]Askan A,Sayin S.SVM classification for imbalanced data sets [17]Reris R,Brooks J P.Principal component analysis and using a multiobjective optimization framework.Ann Oper Res, optimization:a tutorial /Proceedings of 14th INFORMS 2014,216(1):191 Computing Sociery Conference,Richmond,Virginia,US,2015: [21]Das I,Dennis J E.Normal-boundary intersection:a new method 212 for generating the Pareto surface in nonlinear multicriteria [18]Cortes C,Vapnik V.Support-vector networks.Mach Learn,1995, optimization problems.SIAMJOprim,1998.8(3):631 20(3):273 [22]Breiman L.Random forests.Mach Learn,2001,45(1):5 [19]Aytug H,Say S.Exploring the trade-off between generalization [23]Peng X L.Lin P.Zhang T S,et al.Extreme learning machine- and empirical errors in a one-norm SVM.Eur J Oper Res,2012. based classification of ADHD using brain structural MRI data. 218(3):667 P1 OS One,2013,8(11):e79476
Connect, 2011, 1(1): 13 Reris R, Brooks J P. Principal component analysis and optimization: a tutorial // Proceedings of 14th INFORMS Computing Society Conference, Richmond, Virginia, US, 2015: 212 [17] Cortes C, Vapnik V. Support-vector networks. Mach Learn, 1995, 20(3): 273 [18] Aytug H, Sayın S. Exploring the trade-off between generalization and empirical errors in a one-norm SVM. Eur J Oper Res, 2012, 218(3): 667 [19] Aşkan A, Sayın S. SVM classification for imbalanced data sets using a multiobjective optimization framework. Ann Oper Res, 2014, 216(1): 191 [20] Das I, Dennis J E. Normal-boundary intersection: a new method for generating the Pareto surface in nonlinear multicriteria optimization problems. SIAM J Optim, 1998, 8(3): 631 [21] [22] Breiman L. Random forests. Mach Learn, 2001, 45(1): 5 Peng X L, Lin P, Zhang T S, et al. Extreme learning machinebased classification of ADHD using brain structural MRI data. PloS One, 2013, 8(11): e79476 [23] 杜海鹏等: 基于多目标支持向量机的 ADHD 分类 · 447 ·