人工智能基础：一种基于支持向量数据描述的特征选择算法

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：566.98KB

第10卷第2期智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201405063 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20150326.1017.005.html 一种基于支持向量数据描述的特征选择算法曹晋2，张莉2，李凡长12 (1.苏州大学计算机科学与技术学院，江苏苏州215006：2.苏州大学计算机信息处理技术省重点实验室，江苏苏州215006) 摘要：已有基于支持向量数据描述的特征选择方法计算量较大，导致特征选择的时间过长。针对此问题，提出了一种新的基于支持向量数据描述的特征选择算法。新方法的特征选择是通过超球体球心方向上的能量大小来决定且采用了递归特征消除方式来逐渐剔除掉冗余特征。在Leukemia数据集上的实验结果表明，新方法能够进行快速的特征选择，且所选择的特征对后续的分类是有效的。关键词：支持向量数据描述：特征选择：递归计算：递归特征消除：癌症识别：基因表达中图分类号：TP391文献标志码：A文章编号：1673-4785(2015)02-0215-06 中文引用格式：曹晋，张莉，李凡长.一种基于支持向量数据描述的特征选择算法[J].智能系统学报，2015,10(2)：215-220. 英文引用格式：CAO Jin,ZHANG Li,LI Fanzhang.A noval support vector data description-based feature selection method[J]. CAAI Transactions on Intelligent Systems,2015,10(2):215-220. A noval support vector data description-based feature selection method CAO Jin'.2,ZHANG Li'.2,LI Fanzhang'.2 (1.Department of Computer Science and Technology,Soochow University,Suzhou 215006,China;2.Provincial Key Laboratory for Computer Information Processing Technology,Soochow University,Suzhou 215006,China) Abstract:There have been proposed feature selection methods based on support vector data description(SVDD), or SVDD-radius-RFE and SVDD-dual-objective-RFE.These methods are time consuming due to the high computa- tional complexity.To remedy it,a support vector data description-based feature selection method is proposed,ie SVDD-RFE.In this method,feature elimination depends on the energy of directions in the center of hypersphere.In addition,a scheme of recursive feature elimination (RFE)is introduced to iteratively remove irrelevant features. Experimental results on the Leukemia dataset showed that this method has fast speed for feature selection,and the selected features are efficient for subsequent classification tasks. Keywords:support vector data description;feature selection;recursive computation;recursive feature elimination; cancer recognition;gene expression 特征选择是机器学习、模式识别、医疗诊断等领征具有更强的分辨率。本文研究重点是基于支持向域的一个研究热点。特征选择是一种重要的数据处量机(support vector machine.,SVM)的特征选择方理方法，从很多输人特征集中选择一个重要特征的法，也就是把SVM引人到特征选择过程中。基于子集并且移除不相关或不重要的特征，使留下的特 SVM的特征选择算法分为3类：基于SVM的Wrap per特征选择算法、基于SVM的Embedded特征选收稿日期：2014-06-04.网络出版日期：2015-03-26. 基金项目：国家自然科学基金资助项目(61373093,61033013)：江苏省择算法和基于SVM的Filter与Wrapper的混合特征自然科学基金资助项目(BK2011284,BK201222725, BK20140008):江苏省高校自然科学研究基金资助项目选择算法。Weston等提出的基于SVM的Wrapper (13KJA520001). 特征选择算法是去寻找能最小化泛化误差边界的特通信作者：曹晋.E-mail:20134527007@s.suda.cd血.cm

第１０卷第２期智能系统学报Ｖｏｌ．１０ №．２２０１５年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１５ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４０５０６３网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１５０３２６．１０１７．００５．ｈｔｍｌ一种基于支持向量数据描述的特征选择算法曹晋１，２，张莉１，２，李凡长１，２（１．苏州大学计算机科学与技术学院，江苏苏州２１５００６；２．苏州大学计算机信息处理技术省重点实验室，江苏苏州２１５００６）摘要：已有基于支持向量数据描述的特征选择方法计算量较大，导致特征选择的时间过长。针对此问题，提出了一种新的基于支持向量数据描述的特征选择算法。新方法的特征选择是通过超球体球心方向上的能量大小来决定且采用了递归特征消除方式来逐渐剔除掉冗余特征。在Ｌｅｕｋｅｍｉａ数据集上的实验结果表明，新方法能够进行快速的特征选择，且所选择的特征对后续的分类是有效的。关键词：支持向量数据描述；特征选择；递归计算；递归特征消除；癌症识别；基因表达中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０２⁃０２１５⁃０６中文引用格式：曹晋，张莉，李凡长．一种基于支持向量数据描述的特征选择算法［Ｊ］．智能系统学报，２０１５，１０（２）：２１５⁃２２０．英文引用格式：ＣＡＯＪｉｎ，ＺＨＡＮＧＬｉ，ＬＩＦａｎｚｈａｎｇ．Ａｎｏｖａｌｓｕｐｐｏｒｔｖｅｃｔｏｒｄａｔａｄｅｓｃｒｉｐｔｉｏｎ⁃ｂａｓｅｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（２）：２１５⁃２２０．Ａｎｏｖａｌｓｕｐｐｏｒｔｖｅｃｔｏｒｄａｔａｄｅｓｃｒｉｐｔｉｏｎ⁃ｂａｓｅｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄＣＡＯＪｉｎ１，２，ＺＨＡＮＧＬｉ１，２，ＬＩＦａｎｚｈａｎｇ１，２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｏｏｃｈｏｗＵｎｉｖｅｒｓｉｔｙ，Ｓｕｚｈｏｕ２１５００６，Ｃｈｉｎａ；２．ＰｒｏｖｉｎｃｉａｌＫｅｙＬａｂｏｒａｔｏｒｙｆｏｒＣｏｍｐｕｔｅｒＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｏｌｏｇｙ，ＳｏｏｃｈｏｗＵｎｉｖｅｒｓｉｔｙ，Ｓｕｚｈｏｕ２１５００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｒｅｈａｖｅｂｅｅｎｐｒｏｐｏｓｅｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｓｂａｓｅｄｏｎｓｕｐｐｏｒｔｖｅｃｔｏｒｄａｔａｄｅｓｃｒｉｐｔｉｏｎ（ＳＶＤＤ），ｏｒＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥａｎｄＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ．Ｔｈｅｓｅｍｅｔｈｏｄｓａｒｅｔｉｍｅｃｏｎｓｕｍｉｎｇｄｕｅｔｏｔｈｅｈｉｇｈｃｏｍｐｕｔａ⁃ ｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙ．Ｔｏｒｅｍｅｄｙｉｔ，ａｓｕｐｐｏｒｔｖｅｃｔｏｒｄａｔａｄｅｓｃｒｉｐｔｉｏｎ⁃ｂａｓｅｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｉｓｐｒｏｐｏｓｅｄ，ｉｅＳＶＤＤ⁃ＲＦＥ．Ｉｎｔｈｉｓｍｅｔｈｏｄ，ｆｅａｔｕｒｅｅｌｉｍｉｎａｔｉｏｎｄｅｐｅｎｄｓｏｎｔｈｅｅｎｅｒｇｙｏｆｄｉｒｅｃｔｉｏｎｓｉｎｔｈｅｃｅｎｔｅｒｏｆｈｙｐｅｒｓｐｈｅｒｅ．Ｉｎａｄｄｉｔｉｏｎ，ａｓｃｈｅｍｅｏｆｒｅｃｕｒｓｉｖｅｆｅａｔｕｒｅｅｌｉｍｉｎａｔｉｏｎ（ＲＦＥ）ｉｓｉｎｔｒｏｄｕｃｅｄｔｏｉｔｅｒａｔｉｖｅｌｙｒｅｍｏｖｅｉｒｒｅｌｅｖａｎｔｆｅａｔｕｒｅｓ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｔｈｅＬｅｕｋｅｍｉａｄａｔａｓｅｔｓｈｏｗｅｄｔｈａｔｔｈｉｓｍｅｔｈｏｄｈａｓｆａｓｔｓｐｅｅｄｆｏｒｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ，ａｎｄｔｈｅｓｅｌｅｃｔｅｄｆｅａｔｕｒｅｓａｒｅｅｆｆｉｃｉｅｎｔｆｏｒｓｕｂｓｅｑｕｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋｓ．Ｋｅｙｗｏｒｄｓ：ｓｕｐｐｏｒｔｖｅｃｔｏｒｄａｔａｄｅｓｃｒｉｐｔｉｏｎ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｒｅｃｕｒｓｉｖｅｃｏｍｐｕｔａｔｉｏｎ；ｒｅｃｕｒｓｉｖｅｆｅａｔｕｒｅｅｌｉｍｉｎａｔｉｏｎ；ｃａｎｃｅｒｒｅｃｏｇｎｉｔｉｏｎ；ｇｅｎｅｅｘｐｒｅｓｓｉｏｎ收稿日期：２０１４⁃０６⁃０４．网络出版日期：２０１５⁃０３⁃２６．基金项目：国家自然科学基金资助项目（６１３７３０９３，６１０３３０１３）；江苏省自然科学基金资助项目（ＢＫ２０１１２８４，ＢＫ２０１２２２７２５，ＢＫ２０１４０００８）；江苏省高校自然科学研究基金资助项目（１３ＫＪＡ５２０００１）．通信作者：曹晋．Ｅ⁃ｍａｉｌ：２０１３４５２７００７＠ｓｔｕ．ｓｕｄａ．ｅｄｕ．ｃｎ．特征选择是机器学习、模式识别、医疗诊断等领域的一个研究热点。特征选择是一种重要的数据处理方法，从很多输入特征集中选择一个重要特征的子集并且移除不相关或不重要的特征，使留下的特征具有更强的分辨率。本文研究重点是基于支持向量机（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ，ＳＶＭ）的特征选择方法，也就是把ＳＶＭ引入到特征选择过程中。基于ＳＶＭ的特征选择算法分为３类：基于ＳＶＭ的Ｗｒａｐ⁃ ｐｅｒ特征选择算法、基于ＳＶＭ的Ｅｍｂｅｄｄｅｄ特征选择算法和基于ＳＶＭ的Ｆｉｌｔｅｒ与Ｗｒａｐｐｅｒ的混合特征选择算法。Ｗｅｓｔｏｎ等提出的基于ＳＶＭ的Ｗｒａｐｐｅｒ特征选择算法是去寻找能最小化泛化误差边界的特

·216· 智能系统学报第10卷征，这种寻找可以通过梯度下降来实现口。Guyon 为1类SV6)。SVDD与SVM唯一的不同就是，等提出的SVM-RFE(recursive feature elimination)是仅允许从一类数据中去学习。SVDD有2种版本。这种算法中最具代表性的一个【s)。针对传统SVM 一种是支持向量描述超平面的方法[)。这种方法 RFE特征选择算法中SVM参数（软间隔参数y和惩的线性版本是将原点视为异常点，使得最优超平面罚因子C)难以确定的问题，王俭臣等]采用粒子尽可能远离原点。另一种是Tax和Duin提出的超群算法搜索SVM的参数，并且将特征向量映射到球面的SVDD方法6.。此外，Campbell和Bennett SVM参数y确定的核空间中去进行特征选择，这样提出了基于线性规划的SVDD方法[)。Zang等1] 就有效地将特征选择与SVM分类器关联起来。但提出了一种改进的SVDD方法，适用于线性非圆数该方法由于采用序列向后搜索，具有较高的时间复据描述的情况。在文献[10]中，Zhang等将数据描杂度。Li等3)提出的基于SVM的Embedded特征述方法引入到了隐空间，这是一种广义的非线性数选择算法同时实现了分类与特征选择。该方法通过据描述方法。引入数据驱动权重，从而自适应地辨别出重要特征。这里，简要介绍基于超球体的SVDD方法[6，剧。此外，重要特征的系数偏差也大大减少。但是该方 SVDD仅需要一类数据或目标数据来构建由超球体法有较多的参数设置，算法在很大程度上依赖于参表示的学习模型。若一个点落在超球体内，则这个点数的调整。Lee等4提出了基于SVM的Filter与就属于目标数据集。若落在超球体外，则这个点就是 Wrapper的混合特征选择算法，并将其应用在微阵异常点。给定一个目标样本{x1,其中x:∈R” 列数据分析中。此方法首先用动态参数设置的遗传是目标样本，D是目标样本的维数，n是目标样本的算法产生大量的特征子集，然后根据特征子集中出个数。试图找到一个具有最小体积并能包含所有（或现的频率来选择特征，最后选择一定数量的排序靠大多数)数据的超球体。为了得到这个超球体，需知前的特征。道2个参数，即超球体的球心a和半径R。SVDD需对平衡的数据集来说，采用SVM的方法来进行要求解下述对偶规划来得到这2个参数：特征选择是非常合适的。但是当数据集本身具有不平衡性时，再采用SVM方法就不太合适了。针对这 min∑ i=1 个问题，Jeong等[u]提出了2种基于支持向量数据描述(support vector data description,SVDD)的特征选择 subjeet to∑a=1≤g≤C,i=l,2…,n(1 算法：SVDD-radius-RFE和SVDD-dual-objective-RFE。式中：α：是拉格朗日乘子，C>0是惩罚因子。支持向量数据描述也称为1类SVM方法，这里沿用超球体的球心α可以用拉格朗日乘子表示为文献[11]的术语。SVDD-radius-RFE方法可以用来最小化描述正常样本的边界，这个边界通过半径的平 . a= (2) 方来衡量。SVDD-dual-objective-.RFE方法可得到而半径R可表示为 SVDD对偶空间的一个紧致描述，这个描述可通过最 R2(xn)=‖xo-a‖2= 大化SVDD对偶目标函数得到。然而，这2种方法在样本维数较高时，时间复杂度会非常大。 i=1 为此，提出了一种新的基于支持向量数据描述式中：xx是支持向量，它对应的拉格朗日乘子0< 的特征选择算法。在新的方法中，依据超球体球心 am<C。向量上的方向能量大小来消除特征。若在某些方向 1.2基于SVDD的2种特征选择方法上的能量较小，就会消除此方向所对应的特征。在这里简单地介绍一下已有的基于SVDD的特征基因数据集上的实验结果证明了新方法SVDD-RFE 选择方法，即SVDD-radius-RFE和SVDD-dual-objec- 方法获得了更精确的分类性能和更少的时间消耗。 tive-RFE特征选择方法[u]」 1.2.1 SVDD-radius-RFE 1 相关工作在文献[I1]中，对SVDD-radius-RFE的规划给 1.1 支持向量数据描述(SVDD) 出了2种情况：没有可用的异常数据和少量可用的 SVDD是一种描述目标数据分布的方法，也称异常数据。本文中，仅针对没有可用的异常数据进

征，这种寻找可以通过梯度下降来实现［１］。Ｇｕｙｏｎ等提出的ＳＶＭ⁃ＲＦＥ（ｒｅｃｕｒｓｉｖｅｆｅａｔｕｒｅｅｌｉｍｉｎａｔｉｏｎ）是这种算法中最具代表性的一个［５］。针对传统ＳＶＭ⁃ ＲＦＥ特征选择算法中ＳＶＭ参数（软间隔参数 γ 和惩罚因子Ｃ）难以确定的问题，王俭臣等［２］采用粒子群算法搜索ＳＶＭ的参数，并且将特征向量映射到ＳＶＭ参数 γ 确定的核空间中去进行特征选择，这样就有效地将特征选择与ＳＶＭ分类器关联起来。但该方法由于采用序列向后搜索，具有较高的时间复杂度。Ｌｉ等［３］提出的基于ＳＶＭ的Ｅｍｂｅｄｄｅｄ特征选择算法同时实现了分类与特征选择。该方法通过引入数据驱动权重，从而自适应地辨别出重要特征。此外，重要特征的系数偏差也大大减少。但是该方法有较多的参数设置，算法在很大程度上依赖于参数的调整。Ｌｅｅ等［４］提出了基于ＳＶＭ的Ｆｉｌｔｅｒ与Ｗｒａｐｐｅｒ的混合特征选择算法，并将其应用在微阵列数据分析中。此方法首先用动态参数设置的遗传算法产生大量的特征子集，然后根据特征子集中出现的频率来选择特征，最后选择一定数量的排序靠前的特征。对平衡的数据集来说，采用ＳＶＭ的方法来进行特征选择是非常合适的。但是当数据集本身具有不平衡性时，再采用ＳＶＭ方法就不太合适了。针对这个问题，Ｊｅｏｎｇ等［１１］提出了２种基于支持向量数据描述（ｓｕｐｐｏｒｔｖｅｃｔｏｒｄａｔａｄｅｓｃｒｉｐｔｉｏｎ，ＳＶＤＤ）的特征选择算法：ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ和ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ。支持向量数据描述也称为１类ＳＶＭ方法，这里沿用文献［１１］的术语。ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ方法可以用来最小化描述正常样本的边界，这个边界通过半径的平方来衡量。ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ方法可得到ＳＶＤＤ对偶空间的一个紧致描述，这个描述可通过最大化ＳＶＤＤ对偶目标函数得到。然而，这２种方法在样本维数较高时，时间复杂度会非常大。为此，提出了一种新的基于支持向量数据描述的特征选择算法。在新的方法中，依据超球体球心向量上的方向能量大小来消除特征。若在某些方向上的能量较小，就会消除此方向所对应的特征。在基因数据集上的实验结果证明了新方法ＳＶＤＤ⁃ＲＦＥ方法获得了更精确的分类性能和更少的时间消耗。１相关工作１．１支持向量数据描述（ＳＶＤＤ）ＳＶＤＤ是一种描述目标数据分布的方法，也称为１类ＳＶＭ［６⁃８］。ＳＶＤＤ与ＳＶＭ唯一的不同就是，仅允许从一类数据中去学习。ＳＶＤＤ有２种版本。一种是支持向量描述超平面的方法［７］。这种方法的线性版本是将原点视为异常点，使得最优超平面尽可能远离原点。另一种是Ｔａｘ和Ｄｕｉｎ提出的超球面的ＳＶＤＤ方法［６，８］。此外，Ｃａｍｐｂｅｌｌ和Ｂｅｎｎｅｔｔ提出了基于线性规划的ＳＶＤＤ方法［９］。Ｚｈａｎｇ等［１３］提出了一种改进的ＳＶＤＤ方法，适用于线性非圆数据描述的情况。在文献［１０］中，Ｚｈａｎｇ等将数据描述方法引入到了隐空间，这是一种广义的非线性数据描述方法。这里，简要介绍基于超球体的ＳＶＤＤ方法［６，８］。ＳＶＤＤ仅需要一类数据或目标数据来构建由超球体表示的学习模型。若一个点落在超球体内，则这个点就属于目标数据集。若落在超球体外，则这个点就是异常点。给定一个目标样本｛ｘｉ｝ｎｉ＝１，其中ｘｉ ∈ ＲＤ是目标样本，Ｄ是目标样本的维数，ｎ是目标样本的个数。试图找到一个具有最小体积并能包含所有（或大多数）数据的超球体。为了得到这个超球体，需知道２个参数，即超球体的球心ａ和半径Ｒ。ＳＶＤＤ需要求解下述对偶规划来得到这２个参数：ｍｉｎ∑ ｎｉ＝１ ∑ ｎｊ＝１ αｉαｊｘＴｉｘｊ－ ∑ ｎｉ＝１ αｉｘＴｉｘｉｓｕｂｊｅｃｔｔｏ∑ ｎｉ＝１ αｉ＝１ ≤ αｉ ≤ Ｃ，ｉ＝１，２，…，ｎ（１）式中： αｉ是拉格朗日乘子，Ｃ＞０是惩罚因子。超球体的球心ａ可以用拉格朗日乘子表示为ａ＝ ∑ ｎｉ＝１ αｉｘｉ（２）而半径Ｒ可表示为Ｒ２ｘｓｖ ( ) ＝ ‖ｘｓｖ－ａ‖２＝ｘＴｓｖｘｓｖ－２∑ ｎｉ＝１ αｉｘＴｓｖｘｉ＋ ∑ ｎｉ＝１ ∑ ｎｊ＝１ αｉαｊｘＴｉｘｊ（３）式中：ｘｓｖ是支持向量，它对应的拉格朗日乘子０＜ αｓｖ＜Ｃ。１．２基于ＳＶＤＤ的２种特征选择方法这里简单地介绍一下已有的基于ＳＶＤＤ的特征选择方法，即ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ和ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃ⁃ ｔｉｖｅ⁃ＲＦＥ特征选择方法［１１］。１．２．１ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ在文献［１１］中，对ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ的规划给出了２种情况：没有可用的异常数据和少量可用的异常数据。本文中，仅针对没有可用的异常数据进 ·２１６· 智能系统学报第１０卷

第2期曹晋，等：一种新的基于支持向量数据描述的特征选择算法 ·217. 行讨论。个方向上的分布就越广。若能量在第i个方向上较令训练样本有n个，边界半径的平方如式(3) 小，则数据在该方向上必然非常紧凑。注意到作者所示。用所有支持向量获得的R(x.)的平均值作的目的是让尽可能多的目标数据包含在超球体内。为衡量边界大小的准则函数，则该平均值J,定义为紧凑的数据将形成一个小半径的超球体，这样的超 1,=∑ R2(x..) 球体可能不会包含大部分的数据。因此，紧凑分布 (4) 方向的特征应该被移除，同时分布较散的方向应该式中：t是支持向量的个数。引入线性核函数后，准保留。则函数(4)可以表示为因而，用a表示第i个特征的重要性。那么就 J,= 可以根据能量a来消除不重要特征。SVDD-RFE Σ化-ga足+宫含a4别从特征集合中迭代消除特征，这个迭代过程分以下 3步完成。1)由目标数据训练SVDD,得到超球体的 (5) 中心：2)计算所有特征的a,i=1,2,…,D:3)从原令J,(-P)为除特征P以外获得的球半径。始特征集移除具有最小值所对应的特征。重复则最坏的特征是具有最大J(-P)值所对应的特这个迭代过程直到满足终止条件。具体算法在下面征。移除特征P后，准则函数的有效性可用的算法1中给出。 DJ,(P)=J,-J,(-P)来表示。最坏的特征是具有注意算法1中的F是已选特征的索引集合，也最小值的DJ(P)对应的特征。意味着这些特征已保留下来。本算法旨在特征的选 1.2.2 SVDD-dual-objective-RFE 择和得到较少特征的数据集合。对于最后得到的数令J:和J:(-P)分别为SVDD对偶规划中对据集，任何分类器，都可以用来建立分类模型。偶函数的值和移除特征P后对偶规划的值。J是式算法1SVDD-RFE (1)中对偶规划具有相似的值，即：输入：训练样本{c:}1,其中x:∈R,n是训 (6) 练样本的个数，D是样本维数，子空间维数用d表示； =1=1 输出：被选择特征的索引集合F。 J(-P)= 立a(-Px(-P)(-P),- 1)初始化被选特征的索引集合F= {1,2,…,D}并且令m=D。三a(P)a(-Px(-D(Pm, 2)求解对偶规划(1)，得到超球体的中心a= (7) [a1a2…a]T∈R"。用DJ(P)=J4-J(-P)作为衡量准则函数 3)计算所有方向的能量a,i=1,2,…,m。来消除冗余特征，最坏的特征P·是在所有特征中， 4)找到具有最小能量的特征P=arg,mina。 i=,2,“则具有最小J:(-P)值的那一个。即 5)令m=m-1,令被选特征索引集合F=F\P, P·=arg maxDJ(P) 并从训练样本集合中消除第P个特征，得到更新的训练样本集合{x}-1,其中x:∈R。 2 基于支持向量数据描述的特征选择 6)若m=d,算法结束：否则转到2)。算法 3 实验结果本节提出了一种新的基于支持向量数据描述的在DNA微阵列的基因表达数据集上进行实验，特征选择算法，即SVDD-RFE。要验证SVDD-RFE算法的正确性和有效性。实验 SVM特征选择是利用权向量w来进行特征消数据集是Leukemia数据集。在Leukemia数据集除。SVDD不存在权向量w,但具有超球体的中心中，有2种不同种类的白血病，急性淋巴细胞性白血 a=[a1a2…a】T。|a:|的值表示目标样本病(acute lymphoblastic leukemia,ALL)和急性骨髓的第i个方向的平均幅值。则a:表示第i个方向的性白血病(acute myeloid leukemia,AML)。能量。第i个方向上的能量越大，则目标样本在第i 数据集被划分为2个子集：训练集和测试集

行讨论。令训练样本有ｎ个，边界半径的平方如式（３）所示。用所有支持向量获得的Ｒ２ｘｓｖ ( ) 的平均值作为衡量边界大小的准则函数，则该平均值Ｊｒ定义为Ｊｒ＝ ∑ Ｒ２ｘｓｖ ( ) ｔ（４）式中：ｔ是支持向量的个数。引入线性核函数后，准则函数（４）可以表示为Ｊｒ＝１ｔ ∑ ｘＴｓｖｘｓｖ－２∑ ｎｉ＝１ αｉｘＴｓｖｘｉ＋ ∑ ｎｉ＝１ ∑ ｎｊ＝１ αｉαｊｘＴ ( ｉｘｊ) （５）令Ｊｒ ( －Ｐ) 为除特征Ｐ以外获得的球半径。则最坏的特征是具有最大Ｊｒ ( －Ｐ) 值所对应的特征。移除特征Ｐ后，准则函数的有效性可用ＤＪｒ (Ｐ) ＝Ｊｒ－Ｊｒ ( －Ｐ) 来表示。最坏的特征是具有最小值的ＤＪｒ (Ｐ) 对应的特征。１．２．２ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ令Ｊｄ和Ｊｄ ( －Ｐ) 分别为ＳＶＤＤ对偶规划中对偶函数的值和移除特征Ｐ后对偶规划的值。Ｊｄ是式（１）中对偶规划具有相似的值，即：Ｊｄ＝ ∑ ｎｉ＝１ αｉｘＴｉｘｉ－ ∑ ｎｉ＝１ ∑ ｎｊ＝１ αｉαｊｘＴｉｘｊ（６）Ｊｄ ( －Ｐ) ＝ ∑ ｎｉ＝１ α ( －Ｐ) ｉｘ ( －Ｐ) Ｔｉｘ ( －Ｐ) ｉ－ ∑ ｎｉ＝１ ∑ ｎｊ＝１ α ( －Ｐ) ｉα ( －Ｐ) ｊｘ ( －Ｐ) Ｔｉｘ ( －Ｐ) ｊ（７）用ＤＪｄ (Ｐ) ＝Ｊｄ－Ｊｄ ( －Ｐ) 作为衡量准则函数来消除冗余特征，最坏的特征Ｐ ∗ 是在所有特征中，具有最小Ｊｄ ( －Ｐ) 值的那一个。即Ｐ ∗ ＝ａｒｇｍａｘＰＤＪｄ (Ｐ) ２基于支持向量数据描述的特征选择算法本节提出了一种新的基于支持向量数据描述的特征选择算法，即ＳＶＤＤ⁃ＲＦＥ。ＳＶＭ特征选择是利用权向量ｗ来进行特征消除。ＳＶＤＤ不存在权向量ｗ，但具有超球体的中心ａ＝ [ａ１ａ２ … ａＤ ] Ｔ。ａｉ的值表示目标样本的第ｉ个方向的平均幅值。则ａ２ｉ表示第ｉ个方向的能量。第ｉ个方向上的能量越大，则目标样本在第ｉ个方向上的分布就越广。若能量在第ｉ个方向上较小，则数据在该方向上必然非常紧凑。注意到作者的目的是让尽可能多的目标数据包含在超球体内。紧凑的数据将形成一个小半径的超球体，这样的超球体可能不会包含大部分的数据。因此，紧凑分布方向的特征应该被移除，同时分布较散的方向应该保留。因而，用ａ２ｉ表示第ｉ个特征的重要性。那么就可以根据能量ａ２ｉ来消除不重要特征。ＳＶＤＤ⁃ＲＦＥ从特征集合中迭代消除特征，这个迭代过程分以下３步完成。１）由目标数据训练ＳＶＤＤ，得到超球体的中心；２）计算所有特征的ａ２ｉ，ｉ＝１，２，…，Ｄ；３）从原始特征集移除具有最小ａ２ｉ值所对应的特征。重复这个迭代过程直到满足终止条件。具体算法在下面的算法１中给出。注意算法１中的Ｆ是已选特征的索引集合，也意味着这些特征已保留下来。本算法旨在特征的选择和得到较少特征的数据集合。对于最后得到的数据集，任何分类器，都可以用来建立分类模型。算法１ＳＶＤＤ⁃ＲＦＥ输入：训练样本ｘｉ { } ｎｉ＝１，其中ｘｉ ∈ ＲＤ，ｎ是训练样本的个数，Ｄ是样本维数，子空间维数用ｄ表示；输出：被选择特征的索引集合Ｆ。１）初始化被选特征的索引集合Ｆ＝ {１，２，…，Ｄ} 并且令ｍ＝Ｄ。２）求解对偶规划（１），得到超球体的中心ａ＝ [ａ１ａ２ … ａｍ ] Ｔ ∈ Ｒｍ。３）计算所有方向的能量ａ２ｉ，ｉ＝１，２，…，ｍ。４）找到具有最小能量的特征Ｐ＝ａｒｇｍｉｎｉ＝１，２，…，ｍａ２ｉ。５）令ｍ＝ｍ－１，令被选特征索引集合Ｆ＝Ｆ＼Ｐ，并从训练样本集合中消除第Ｐ个特征，得到更新的训练样本集合ｘｉ { } ｎｉ＝１，其中ｘｉ ∈ Ｒｍ。６）若ｍ＝ｄ，算法结束；否则转到２）。３实验结果在ＤＮＡ微阵列的基因表达数据集上进行实验，要验证ＳＶＤＤ⁃ＲＦＥ算法的正确性和有效性。实验数据集是Ｌｅｕｋｅｍｉａ数据集。在Ｌｅｕｋｅｍｉａ数据集中，有２种不同种类的白血病，急性淋巴细胞性白血病（ａｃｕｔｅｌｙｍｐｈｏｂｌａｓｔｉｃｌｅｕｋｅｍｉａ，ＡＬＬ）和急性骨髓性白血病（ａｃｕｔｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａ，ＡＭＬ）。数据集被划分为２个子集：训练集和测试集。第２期曹晋，等：一种新的基于支持向量数据描述的特征选择算法 ·２１７·

218. 智能系统学报第10卷训练集用来选择基因和调整分类器权重，测试集用 0.95r 来估计分类性能。训练集有38个样本(27个ALL 0.90 SVM-RFE SVDD 和11个AML),测试集有34个样本(20个ALL和 14个AML)。所有样本有7129个特征，对应于从 0.85 微阵列图像中提取出的归一化基因表达值。本实验 0.80 中，将ALL视为目标样本，AML视为负类样本。本数据集可从文献[12]中得到。本实验中的所有方 0.75 法是从7129个特征中选取100个重要特征，并且 0.70 2345678910 仅有参数C需要设置。接下来的实验中，将会讨论已选特征的好坏，然后去衡量分类精度的性能。图1分类精度的变化本实验的对比方法有SVM-RFE、SVDD-radius- Fig.I The accuracy with the change RFE、SVDD-dual-objective-.RFE以及SVDD-RFE。用从图1可以看出，SVDD-RFE相较于SVM-RFE KNN(nearest neighbor)分类器来衡量选择的特征是可以得到更好的分类精度。且在k=6时达到最好。否合适。KNN由于其简单性和有效性成为一种很方但通常会选择奇数，因此接下来的实验中，选择k= 便的分类器，它的核心思想是在训练集合中找到距离 5。接下来研究参数C的变化对4种特征选择方法测试样本点最近的k个点，然后将该测试样本点的类性能的影响。对于SVM-RFE,C在 {0.1,1,10,100,1000}集合中取值，对于SVDD- 别设置为k个点中数量最多类的类别标签。 RFE SVDD-radius-RFE SVDD-dual-objective-RFE 因为选择KNN作为分类器，参数k的选择对分 3种方法，C在[1/n,1]中取5个线性等距间隔，n 类精度有一定影响。出于运行时间上的考虑，仅对是训练样本的个数，即{0.037,0.28,0.52,0.76,1}。 SVM-RFE和SVDD-RFE做了参数k的比较。令k 在表1中，给出了不同C变化下，各种方法的分类召从1~10变化，同时分别令SVM-RFE中C=100,在回率。此外还有不进行特征选择时，直接采用KNN SVDD-RFE中C=0.1。图1给出了2种算法在不同分类器的识别效果。 k值下的分类精度变化曲线。表14种特征选择方法和不做特征选择的性能比较 Table 1 The comparison of training between QINN and BPNN SVM-RFE SVDD-radius-RFE AML的平均召运行时 ALL的召AML的平均召运行时 C值 ALL的召 C值回率/%召回率/%回率/% 间/s 回率/%召回率/%回率/% 间/s 0.1 100.00 14.29 57.14 507.64 0.037 0 100.00 50.00 154058.76 1 100.00 14.29 57.14 491.95 0.28 100.00 35.71 67.86 11917.37 10 100.00 14.29 57.14 500.43 0.52 100.00 42.86 71.43 12432.45 100 100.00 14.29 57.14 432.83 0.76 100.00 42.86 71.43 11575.10 1000 100.00 14.29 57.14 431.20 100.00 42.86 71.43 10359.75 SVDD-dual-objective-RFE SVDD-RFE ALL的召 AML的平均召运行时 ALL的召AML的平均召运行时 C值 C值回率/%召回率/%回率/% 间/s 回率/%召回率/%回率/% 间/s 0.037 100.00 21.43 60.71 44230.98 0.037 95.00 92.86 93.93 163.87 0.28 95.00 35.71 65.36 9522.17 0.28 100.00 50.00 75.00 137.82 0.52 100.00 7.14 53.57 9721.61 0.52 100.00 50.00 75.00 165.13 0.76 100.00 7.14 53.57 10253.75 0.76 100.00 50.00 75.00 155.48 1 100.00 7.14 53.57 9398.531 100.00 50.00 75.00 153.83 None ALL的召AML的平均召运行时 C值回率/%召回率/%回率/% 间/s 100.00 29.00 64.50

训练集用来选择基因和调整分类器权重，测试集用来估计分类性能。训练集有３８个样本（２７个ＡＬＬ和１１个ＡＭＬ），测试集有３４个样本（２０个ＡＬＬ和１４个ＡＭＬ）。所有样本有７１２９个特征，对应于从微阵列图像中提取出的归一化基因表达值。本实验中，将ＡＬＬ视为目标样本，ＡＭＬ视为负类样本。本数据集可从文献［１２］中得到。本实验中的所有方法是从７１２９个特征中选取１００个重要特征，并且仅有参数Ｃ需要设置。接下来的实验中，将会讨论已选特征的好坏，然后去衡量分类精度的性能。本实验的对比方法有ＳＶＭ⁃ＲＦＥ、ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ ＲＦＥ、ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ ＲＦＥ以及ＳＶＤＤ⁃ＲＦＥ。用ＫＮＮ（ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ）分类器来衡量选择的特征是否合适。ＫＮＮ由于其简单性和有效性成为一种很方便的分类器，它的核心思想是在训练集合中找到距离测试样本点最近的ｋ个点，然后将该测试样本点的类别设置为ｋ个点中数量最多类的类别标签。因为选择ＫＮＮ作为分类器，参数ｋ的选择对分类精度有一定影响。出于运行时间上的考虑，仅对ＳＶＭ⁃ＲＦＥ和ＳＶＤＤ⁃ＲＦＥ做了参数ｋ的比较。令ｋ从１～１０变化，同时分别令ＳＶＭ⁃ＲＦＥ中Ｃ＝１００，在ＳＶＤＤ⁃ＲＦＥ中Ｃ＝０．１。图１给出了２种算法在不同ｋ值下的分类精度变化曲线。图１分类精度的变化Ｆｉｇ．１Ｔｈｅａｃｃｕｒａｃｙｗｉｔｈｔｈｅｃｈａｎｇｅ从图１可以看出，ＳＶＤＤ⁃ＲＦＥ相较于ＳＶＭ⁃ＲＦＥ可以得到更好的分类精度。且在ｋ＝６时达到最好。但通常会选择奇数，因此接下来的实验中，选择ｋ＝５。接下来研究参数Ｃ的变化对４种特征选择方法性能的影响。对于ＳＶＭ⁃ＲＦＥ，Ｃ在 {０．１，１，１０，１００，１０００} 集合中取值，对于ＳＶＤＤ⁃ ＲＦＥ、ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ和ＳＶＤＤ⁃ ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ３种方法，Ｃ在［１／ｎ，１］中取５个线性等距间隔，ｎ是训练样本的个数，即 {０．０３７，０．２８，０．５２，０．７６，１} 。在表１中，给出了不同Ｃ变化下，各种方法的分类召回率。此外还有不进行特征选择时，直接采用ＫＮＮ分类器的识别效果。表１４种特征选择方法和不做特征选择的性能比较Ｔａｂｌｅ１ＴｈｅｃｏｍｐａｒｉｓｏｎｏｆｔｒａｉｎｉｎｇｂｅｔｗｅｅｎＱＩＮＮａｎｄＢＰＮＮＳＶＭ⁃ＲＦＥＣ值ＡＬＬ的召回率／％ＡＭＬ的召回率／％平均召回率／％运行时间／ｓＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥＣ值ＡＬＬ的召回率／％ＡＭＬ的召回率／％平均召回率／％运行时间／ｓ０．１１００．００１４．２９５７．１４５０７．６４０．０３７０１００．００５０．００１５４０５８．７６１１００．００１４．２９５７．１４４９１．９５０．２８１００．００３５．７１６７．８６１１９１７．３７１０１００．００１４．２９５７．１４５００．４３０．５２１００．００４２．８６７１．４３１２４３２．４５１００１００．００１４．２９５７．１４４３２．８３０．７６１００．００４２．８６７１．４３１１５７５．１０１０００１００．００１４．２９５７．１４４３１．２０１１００．００４２．８６７１．４３１０３５９．７５ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥＣ值ＡＬＬ的召回率／％ＡＭＬ的召回率／％平均召回率／％运行时间／ｓＳＶＤＤ⁃ＲＦＥＣ值ＡＬＬ的召回率／％ＡＭＬ的召回率／％平均召回率／％运行时间／ｓ０．０３７１００．００２１．４３６０．７１４４２３０．９８０．０３７９５．００９２．８６９３．９３１６３．８７０．２８９５．００３５．７１６５．３６９５２２．１７０．２８１００．００５０．００７５．００１３７．８２０．５２１００．００７．１４５３．５７９７２１．６１０．５２１００．００５０．００７５．００１６５．１３０．７６１００．００７．１４５３．５７１０２５３．７５０．７６１００．００５０．００７５．００１５５．４８１１００．００７．１４５３．５７９３９８．５３１１００．００５０．００７５．００１５３．８３ＮｏｎｅＣ值ＡＬＬ的召回率／％ＡＭＬ的召回率／％平均召回率／％运行时间／ｓ－１００．００２９．００６４．５０－ ·２１８· 智能系统学报第１０卷

第2期曹晋，等：一种新的基于支持向量数据描述的特征选择算法 .219. 从表1中可以看出，文中提出的方法得到了最好的平均召回率，另外，表中也给出了几种方法的运行时间，运行时间是指特征选择的时间。很明显， -0.5 SVDD-RFE选择了更好的特征来区分ALL和AML, 同时在时间消耗方面比其他3种方法都要少很多」 .0 尤其是与SVDD-radius-RFE和SVDD-dual-objective-. RFE方法相比。 -1.5 分别令C=0.037(SVDD-RFE),C=100(SVM- RFE),C=1(SVDD-radius-RFE SVDD-dual-objec- -2.0 tive-RFE),图2(a)和(b)给出了2种方法(SVDD -2.5 ×10 RFE和SVM-RFE)选择的IOO个特征的能量或权 012345678 特征重，未选特征的能量或权重置为0。图2(c)和(d) 给出了另外2种方法(SVDD-radius-RFE和SVDD- (d)退化仿真图像(SVDD-dual-objective-.RFE) 图2原始图像和退化仿真图像 dual-objective-RFE)移除特征P后DJ.(P)和 Fig.2 Original image and simulated degraded image DJ(P)的值。 0.7 4 结束语 0.6 文中提出了一种新的基于支持向量数据描述的 0.4 特征选择算法，并且将其用于癌症分类。该算法可 0.3 以轻松处理小样本、多特征的分类问题，也可以在消除特征冗余的同时实现特征选择。更重要的是，该 ) ×10 算法不仅得到了更为紧凑、更具有分辨能力的基因特征子集，还具有更好的稳定性和有效性。在Leukemia (a)原始图像数据集上的实验验证了算法的正确性。实验中，用 07 KNN分类器来衡量特征选择的性能。在Leukemia 数据集上，SVDD-RFE方法选择的特征集合不仅具有最好的分辨力，时间消耗也最少。未来工作中，将 0.4 运用SVDD的特征选择，进一步提高分类率。 0.2 参考文献： 2 6 8*10 [1]WESTON J,MUKHERJEE S,CHAPELLE O,et al.Fea- 特征 ture selection for SVMs [C]//Proc of Neural Information (b)退化仿真图像(SVM-RFE) Processing Systems.Denver,USA:2000:668-674. 14 [2]王俭臣，单甘霖，张岐龙，等.基于改进SVM-RE的特 12 征选择方法研究[J].微计算机应用，2011,32(2)：70 10 74. WANG Jianchen,SHAN Ganlin,ZHANG Qilong,et al.Re- 8 search on feature selection method based on improved SVM -RFE[J].Microcomputer Applications,2011,32(2):70- 74. [3]LI Juntao,JIA Yingmin,LI Wenlin.Adaptive huberized support vector machine and its application to microarray 2 3 6 > 8*10 特征 classification J].Neural Computing and Applications, (c)退化仿真图像(SVDD-radius-RFE) 2011,20(1):123-132

从表１中可以看出，文中提出的方法得到了最好的平均召回率，另外，表中也给出了几种方法的运行时间，运行时间是指特征选择的时间。很明显，ＳＶＤＤ⁃ＲＦＥ选择了更好的特征来区分ＡＬＬ和ＡＭＬ，同时在时间消耗方面比其他３种方法都要少很多，尤其是与ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ和ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ ＲＦＥ方法相比。分别令Ｃ＝０．０３７（ＳＶＤＤ⁃ＲＦＥ），Ｃ＝１００（ＳＶＭ⁃ ＲＦＥ），Ｃ＝１（ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ和ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃ⁃ ｔｉｖｅ⁃ＲＦＥ），图２（ａ）和（ｂ）给出了２种方法（ＳＶＤＤ⁃ ＲＦＥ和ＳＶＭ⁃ＲＦＥ）选择的１００个特征的能量或权重，未选特征的能量或权重置为０。图２（ｃ）和（ｄ）给出了另外２种方法（ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ和ＳＶＤＤ⁃ ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ）移除特征Ｐ后ＤＪｒ (Ｐ) 和ＤＪｄ（Ｐ）的值。（ａ）原始图像（ｂ）退化仿真图像（ＳＶＭ⁃ＲＦＥ）（ｃ）退化仿真图像（ＳＶＤＤ⁃ｒａｄｉｕｓ⁃ＲＦＥ）（ｄ）退化仿真图像（ＳＶＤＤ⁃ｄｕａｌ⁃ｏｂｊｅｃｔｉｖｅ⁃ＲＦＥ）图２原始图像和退化仿真图像Ｆｉｇ．２Ｏｒｉｇｉｎａｌｉｍａｇｅａｎｄｓｉｍｕｌａｔｅｄｄｅｇｒａｄｅｄｉｍａｇｅ４结束语文中提出了一种新的基于支持向量数据描述的特征选择算法，并且将其用于癌症分类。该算法可以轻松处理小样本、多特征的分类问题，也可以在消除特征冗余的同时实现特征选择。更重要的是，该算法不仅得到了更为紧凑、更具有分辨能力的基因子集，还具有更好的稳定性和有效性。在Ｌｅｕｋｅｍｉａ数据集上的实验验证了算法的正确性。实验中，用ＫＮＮ分类器来衡量特征选择的性能。在Ｌｅｕｋｅｍｉａ数据集上，ＳＶＤＤ⁃ＲＦＥ方法选择的特征集合不仅具有最好的分辨力，时间消耗也最少。未来工作中，将运用ＳＶＤＤ的特征选择，进一步提高分类率。参考文献：［１］ＷＥＳＴＯＮＪ，ＭＵＫＨＥＲＪＥＥＳ，ＣＨＡＰＥＬＬＥＯ，ｅｔａｌ．Ｆｅａ⁃ ｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒＳＶＭｓ［Ｃ］／／ＰｒｏｃｏｆＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｄｅｎｖｅｒ，ＵＳＡ：２０００：６６８⁃６７４．［２］王俭臣，单甘霖，张岐龙，等．基于改进ＳＶＭ⁃ＲＦＥ的特征选择方法研究［Ｊ］．微计算机应用，２０１１，３２（２）：７０⁃ ７４．ＷＡＮＧＪｉａｎｃｈｅｎ，ＳＨＡＮＧａｎｌｉｎ，ＺＨＡＮＧＱｉｌｏｎｇ，ｅｔａｌ．Ｒｅ⁃ ｓｅａｒｃｈｏｎｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｍｐｒｏｖｅｄＳＶＭ－ＲＦＥ［Ｊ］．ＭｉｃｒｏｃｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１１，３２（２）：７０⁃ ７４．［３］ＬＩＪｕｎｔａｏ，ＪＩＡＹｉｎｇｍｉｎ，ＬＩＷｅｎｌｉｎ．Ａｄａｐｔｉｖｅｈｕｂｅｒｉｚｅｄｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｍｉｃｒｏａｒｒａｙｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＮｅｕｒａｌＣｏｍｐｕｔｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０１１，２０（１）：１２３⁃１３２．第２期曹晋，等：一种新的基于支持向量数据描述的特征选择算法 ·２１９·

.220. 智能系统学报第10卷 [4]LEE C,LEU Y.A novel hybrid feature selection method for [12]ARMSTRONG S A,STAUNTON J E,SILVERMAN L B, microarray data analysis[J].Applied Soft Computing,2011, et al.MLL translocations specify a distinct gene expression 11(1):208-213. profile that distinguishes a unique leukemia[J].Nature Ge- [5]GUYON I,WESTON J,BARNHILL S,et al.Gene selec- netics,2002,30(1):41-47. tion for cancer classification using support vector machines [13]ZHANG Li,ZHOU Weida,LIN Yin,et al.Support vector [J].Machine Learning,.2002,46(1/2/3):389-422. novelty detection with dot product kernels for non-spherical [6]TAX D M J,ROBERT PW D.Support vector domain de- data C//Proceedings of the 2008 IEEE International scription.Pattern Recognition Letters,1999,20(11 ) Conference on Information and Automation.Zhangjiajie, 1191-1199. China,2008:41-46. [7]SCHIILKOPP B,BURGEST C,VAPNIK V.Extracting sup- 作者简介： port data for a given task[C]//Proceedings of First Interna- 曹晋，女，1991年生，硕士研究生 tional Conference on Know ledge Discovery and Data mining. 主要研究方向为模式识别与人工智能。 1995:262.267. [8]TAX D M J,DUIN R P W.Data domain description using support vectors[C]//ESANN.Facto,Brussels,1999:251- 256. [9]BENNETT C C K P.A linear programming approach to nov- elty detection[C]//Advances in Neural Information Process- 张莉，女，1975年生，教授，博士，主 ing Systems 13:Proceedings of the 2000 Conference.Bos- 要研究方向为机器学习与模式识别。 ton:MIT Press,2001,13:395-401. 发表学术论文70篇，合著著作3部，主 [10]ZHANG Li,WANG Bangjun,LI Fanzhang,et al.Support 持国家和省自然科学基金项目5项。 vector novelty detection in hidden space[J].Journal of Computational Information Systems,2011(7):1-7. [11]JEONG Y S,KONG I H,JEONG M K,et al.A new fea- 李凡长，男，1964年生，教授，博士 ture selection method for one-class classification problems 生导师，主要研究方向为人工智能、机 [J].Systems,Man,and Cybernetics,Part C:Applica- 器学习等。先后承担国家自然科学基 tions and Reviews,2012,42(6):1500-1509. 金重点、面上及省级项目8项，获省级科技奖2项，发表学术论文150余篇，出版专著7部

［４］ＬＥＥＣ，ＬＥＵＹ．Ａｎｏｖｅｌｈｙｂｒｉｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｏｒｍｉｃｒｏａｒｒａｙｄａｔａａｎａｌｙｓｉｓ［Ｊ］．ＡｐｐｌｉｅｄＳｏｆｔＣｏｍｐｕｔｉｎｇ，２０１１，１１（１）：２０８⁃２１３．［５］ＧＵＹＯＮＩ，ＷＥＳＴＯＮＪ，ＢＡＲＮＨＩＬＬＳ，ｅｔａｌ．Ｇｅｎｅｓｅｌｅｃ⁃ ｔｉｏｎｆｏｒｃａｎｃｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２００２，４６（１／２／３）：３８９⁃４２２．［６］ＴＡＸＤＭＪ，ＲＯＢＥＲＴＰＷＤ．Ｓｕｐｐｏｒｔｖｅｃｔｏｒｄｏｍａｉｎｄｅ⁃ ｓｃｒｉｐｔｉｏｎ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，１９９９，２０（１１）：１１９１⁃１１９９．［７］ＳＣＨＩＩＬＫＯＰＰＢ，ＢＵＲＧＥＳＴＣ，ＶＡＰＮＩＫＶ．Ｅｘｔｒａｃｔｉｎｇｓｕｐ⁃ ｐｏｒｔｄａｔａｆｏｒａｇｉｖｅｎｔａｓｋ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＦｉｒｓｔＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａｍｉｎｉｎｇ．１９９５：２６２⁃２６７．［８］ＴＡＸＤＭＪ，ＤＵＩＮＲＰＷ．Ｄａｔａｄｏｍａｉｎｄｅｓｃｒｉｐｔｉｏｎｕｓｉｎｇｓｕｐｐｏｒｔｖｅｃｔｏｒｓ［Ｃ］／／ＥＳＡＮＮ．Ｆａｃｔｏ，Ｂｒｕｓｓｅｌｓ，１９９９：２５１⁃ ２５６．［９］ＢＥＮＮＥＴＴＣＣＫＰ．Ａｌｉｎｅａｒｐｒｏｇｒａｍｍｉｎｇａｐｐｒｏａｃｈｔｏｎｏｖ⁃ ｅｌｔｙｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓ⁃ ｉｎｇＳｙｓｔｅｍｓ１３：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０００Ｃｏｎｆｅｒｅｎｃｅ．Ｂｏｓ⁃ ｔｏｎ：ＭＩＴＰｒｅｓｓ，２００１，１３：３９５⁃４０１．［１０］ＺＨＡＮＧＬｉ，ＷＡＮＧＢａｎｇｊｕｎ，ＬＩＦａｎｚｈａｎｇ，ｅｔａｌ．Ｓｕｐｐｏｒｔｖｅｃｔｏｒｎｏｖｅｌｔｙｄｅｔｅｃｔｉｏｎｉｎｈｉｄｄｅｎｓｐａｃｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２０１１（７）：１⁃７．［１１］ＪＥＯＮＧＹＳ，ＫＯＮＧＩＨ，ＪＥＯＮＧＭＫ，ｅｔａｌ．Ａｎｅｗｆｅａ⁃ ｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｏｒｏｎｅ⁃ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｓ［Ｊ］．Ｓｙｓｔｅｍｓ，Ｍａｎ，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ，ＰａｒｔＣ：Ａｐｐｌｉｃａ⁃ ｔｉｏｎｓａｎｄＲｅｖｉｅｗｓ，２０１２，４２（６）：１５００⁃１５０９．［１２］ＡＲＭＳＴＲＯＮＧＳＡ，ＳＴＡＵＮＴＯＮＪＥ，ＳＩＬＶＥＲＭＡＮＬＢ，ｅｔａｌ．ＭＬＬｔｒａｎｓｌｏｃａｔｉｏｎｓｓｐｅｃｉｆｙａｄｉｓｔｉｎｃｔｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅｔｈａｔｄｉｓｔｉｎｇｕｉｓｈｅｓａｕｎｉｑｕｅｌｅｕｋｅｍｉａ［Ｊ］．ＮａｔｕｒｅＧｅ⁃ ｎｅｔｉｃｓ，２００２，３０（１）：４１⁃４７．［１３］ＺＨＡＮＧＬｉ，ＺＨＯＵＷｅｉｄａ，ＬＩＮＹｉｎ，ｅｔａｌ．Ｓｕｐｐｏｒｔｖｅｃｔｏｒｎｏｖｅｌｔｙｄｅｔｅｃｔｉｏｎｗｉｔｈｄｏｔｐｒｏｄｕｃｔｋｅｒｎｅｌｓｆｏｒｎｏｎ⁃ｓｐｈｅｒｉｃａｌｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＡｕｔｏｍａｔｉｏｎ．Ｚｈａｎｇｊｉａｊｉｅ，Ｃｈｉｎａ，２００８：４１⁃４６．作者简介：曹晋，女，１９９１年生，硕士研究生，主要研究方向为模式识别与人工智能。张莉，女，１９７５年生，教授，博士，主要研究方向为机器学习与模式识别。发表学术论文７０篇，合著著作３部，主持国家和省自然科学基金项目５项。李凡长，男，１９６４年生，教授，博士生导师，主要研究方向为人工智能、机器学习等。先后承担国家自然科学基金重点、面上及省级项目８项，获省级科技奖２项，发表学术论文１５０余篇，出版专著７部。 ·２２０· 智能系统学报第１０卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录