正在加载图片...
杜海鹏等:基于多目标支持向量机的ADHD分类 443 脑区两两之间的皮尔逊相关系数,最终得到功能 传统的SVM对泛化能力和经验误差进行加 连接(Functional connection,FC)矩阵l6,FC矩阵采 权,它在本质上是一个双目标优化问题叨.文献[14] 集的流程图如图1所示.由于FC的对称性,取下 采用了基于1范数的双目标分类模型用于分类 三角矩阵((90×90-90)/2=4005)作为样本的特征. ADHD和NC受试者.但是,该模型没有考虑不平 由于实验所用数据集特征的个数远远大于样 衡数据分布,把正样本的误差和负样本的误差加 本个数,采用PCA(Principal component analysis)7 和在了一起.事实上,当存在类不平衡时,由于分 对数据进行降维.为了尽可能多地保留信息每个 类器的目的是最大化整体准确性,传统的分类器 数据集的特征维度降至比其训练样本的数量少1. 将倾向于多数类.换句话说,分类器可能将所有样 2多目标分类方案 本分类为负值,从而提高过高的准确度 本文使用如下三个目标SVM模型(T-SVM) 本文提出的基于多目标支持向量机的ADHD 对正负样本的误差成本分别进行处理,其中三个 分类方案如图2所示.首先建立三个目标分类模 目标分别是最大化分类间隔,最小化正样本经验 型,其次通过多目标优化算法求解多目标优化问 误差之和与最小化负样本经验误差之和2 题以得到帕累托(Pareto)最优分类器,然后评估分 类器性能,在交叉验证集中选出最佳分类器,最后 T-sv0 minh,∑年,∑g b=+11b2=-1) 在测试集上进行测试 s.ty(w…x+b)+≥1,i=1,2,…,m+ 2.1三个目标SVM分类模型 y(w…x+b)+≥1,i=m++1,m++2,…,m 在二分类问题中,数据集中每个类别下的样 ,≥0 本数目相差很大,则该数据集被认为是不平衡的 其中,m+表示多数类样本个数,,分别代表正负 数目少的一类称作少数类样本,数目较多的一类 样本的经验误差,目标函数反映了最大化分类间 称为多数类样本.文中所用数据集,多数类为NC 隔的同时最小化正负样本的经验误差.为使优化 样本,少数类为ADHD样本 问题(T-SVM)可解,用两个正变量w,和w_来表示 支持向量机(Support vector machine,.SVM)是 w,即w=w++w,因此第一个目标函数就表示为 种常用的有监督机器学习算法剧给定一个具有 lwl1=eT(w++w-),其中e是全为1的列向量.该 m个样本的训练集合S={(x,y),(x2,y2),…,(cm.ym)以, 模型是一个多目标线性优化问题(Multi--objective 其中x'EXCR表示第个样本的特征,y'e{-l,+l) linear programming,MOLP).基于多目标优化最 代表第个样本的标签.SVM的基本思想是在特征 优解的概念,本文给出如下Pareto最优分类器的 空间上找到最佳的分离超平面使得训练集上正负 定义 样本间隔最大.分类超平面可以用y=w·x+b表 对于一个训练集,如果不存在任何一个可行解 示,其中,w∈"表示法向量,beR表示截距 (w,w-,b,,)支配(m,p-,五,,),即eT(w++w-)≤ AAL termplatcs Ntime seriers Function connection matrix Calculate the pearson correlation coefficient 图1功能连接矩阵采集流程图 Fig.1 Flowchart of functional connection matrix acquisition Classifier Three objective SVM Multi-objective classification model optimization pertormance Classifier selection evaluation 图2基于多目标支持向量机的ADHD分类方案 Fig.2 ADHD classification scheme based on multi-objective SVM(90×90−90)/2 = 4005 脑区两两之间的皮尔逊相关系数,最终得到功能 连接(Functional connection, FC)矩阵[16] ,FC 矩阵采 集的流程图如图 1 所示. 由于 FC 的对称性,取下 三角矩阵( )作为样本的特征. 由于实验所用数据集特征的个数远远大于样 本个数,采用 PCA(Principal component analysis) [17] 对数据进行降维. 为了尽可能多地保留信息,每个 数据集的特征维度降至比其训练样本的数量少 1. 2    多目标分类方案 本文提出的基于多目标支持向量机的 ADHD 分类方案如图 2 所示. 首先建立三个目标分类模 型,其次通过多目标优化算法求解多目标优化问 题以得到帕累托(Pareto)最优分类器,然后评估分 类器性能,在交叉验证集中选出最佳分类器,最后 在测试集上进行测试. 2.1    三个目标 SVM 分类模型 在二分类问题中,数据集中每个类别下的样 本数目相差很大,则该数据集被认为是不平衡的. 数目少的一类称作少数类样本,数目较多的一类 称为多数类样本. 文中所用数据集,多数类为 NC 样本,少数类为 ADHD 样本. m S = {(x 1 , y 1 ),(x 2 , y 2 ),··· ,(x m,y m)} x i ∈ X ⊂ R n i y i ∈ {−1,+1} i y = w· x+b w ∈ R n b ∈ R 支持向量机(Support vector machine, SVM)是 一种常用的有监督机器学习算法[18] . 给定一个具有 个样本的训练集合 , 其中 表示第 个样本的特征, 代表第 个样本的标签. SVM 的基本思想是在特征 空间上找到最佳的分离超平面使得训练集上正负 样本间隔最大. 分类超平面可以用 表 示,其中, 表示法向量, 表示截距. 传统的 SVM 对泛化能力和经验误差进行加 权,它在本质上是一个双目标优化问题[19] . 文献 [14] 采用了基于 1 范数的双目标分类模型用于分类 ADHD 和 NC 受试者. 但是,该模型没有考虑不平 衡数据分布,把正样本的误差和负样本的误差加 和在了一起. 事实上,当存在类不平衡时,由于分 类器的目的是最大化整体准确性,传统的分类器 将倾向于多数类. 换句话说,分类器可能将所有样 本分类为负值,从而提高过高的准确度. 本文使用如下三个目标 SVM 模型(T-SVM) 对正负样本的误差成本分别进行处理,其中三个 目标分别是最大化分类间隔,最小化正样本经验 误差之和与最小化负样本经验误差之和[20] . (T−SVM)min ∥w∥1 , ∑ {i|y i=+1} ξ i + , ∑ {i|y i=−1} ξ i − s.t y i (w· x i +b)+ξ i + ⩾ 1,i = 1,2,··· ,m+ y i (w· x i +b)+ξ i − ⩾ 1,i = m+ +1,m+ +2,··· ,m ξ i + , ξi − ⩾ 0 m+ ξ i + , ξi − w+ w− w w = w+ +w− ∥ w∥1 = e T (w+ +w−) 其中, 表示多数类样本个数, 分别代表正负 样本的经验误差,目标函数反映了最大化分类间 隔的同时最小化正负样本的经验误差. 为使优化 问题(T-SVM)可解,用两个正变量 和 来表示 ,即 ,因此第一个目标函数就表示为 ,其中 e 是全为 1 的列向量. 该 模型是一个多目标线性优化问题(Multi-objective linear programming, MOLP) . 基于多目标优化最 优解的概念,本文给出如下 Pareto 最优分类器的 定义. (w+,w−,b, ξi + , ξi − ) (w¯ +,w¯ −,b¯, ξ¯i + , ξ¯i − ) e T (w+ +w−) ⩽ 对于一个训练集,如果不存在任何一个可行解 支配 ,即 AAL termplatcs N time seriers Function connection matrix Calculate the pearson correlation coefficient 图 1 功能连接矩阵采集流程图 Fig.1 Flowchart of functional connection matrix acquisition Three objective SVM classification model Multi-objective optimization Classifier pertormance evaluation Classifier selection 图 2 基于多目标支持向量机的 ADHD 分类方案 Fig.2 ADHD classification scheme based on multi-objective SVM 杜海鹏等: 基于多目标支持向量机的 ADHD 分类 · 443 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有