【学术论文】支持向量机的训练算法综述

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：961.86KB

第3卷第6期智能系统学报 Vol.3 No.6 2008年12月 CAAI Transactions on Intelligent Systems Dec.2008 支持向量机的训练算法综述王书舟，伞冶 (哈尔滨工业大学控制与仿真中心，黑龙江哈尔滨150001) 摘要：支持向量机(SVM)是在统计学习理论基础上发展起来的新方法，其训练算法本质上是一个二次规划的求解问题.首先简要概述了SVM的基本原理，然后对SVM训练算法的国内外研究现状进行综述，重点分析SVM的缩减算法和具有线性收敛性质的算法，对这些算法的性能进行比较，并且对SVM的扩展算法也进行简单介绍.最后对该领域存在的问题和发展趋势进行了展望，关键词：统计学习理论；支持向量机；训练算法中图分类号：TP391.9文献标识码：A文章编号：1673-4785(2008)06046709 A survey on training algorithms for support vector machine WANG Shu-zhou,SAN Ye (Control Simulation Centre,Harbin Institute of Technology,Harbin 150001,China) Abstract:Support vector machines (SVMs)use new methods that originated in statistical learning theory.Training of an SVM can be formulated as a quadratic programming problem.The principles of SVM have been summarized briefly in this paper.The latest developments in SVM training algorithms in domestic and overseas research were re- viewed,especially reduction algorithms and algorithms with linear convergence properties.The performance of these algorithms was then compared,and a brief introduction to a proposed extension of them was given.Finally some problems and potential directions for future research are discussed. Keywords:statistical learning theory;support vector machine;training algorithms 支持向量机(support vector machine,.SVM)是近对SVM本身的特点提出了许多算法，本文对这些算年发展起来的一种通用机器学习新方法.它不但具法进行综述，包括块算法、分解算法、序贯最小优化有坚实的理论基础、简洁的数学形式、直观的几何解算法、增量与在线训练算法、缩减算法、具有线性收释，而且能够较好地解决小样本、非线性、维数灾和敛性质的算法，以及SVM的扩展算法. 局部极小等问题12，因此在模式分类[34)、回归问题56等很多领域得到了广泛的应用。 1支持向量机训练SVM的算法归结为求解一个受约束的凸 SVM最初是在模式分类中提出的，其基本思想二次优化问题.对于小规模的二次优化问题，利用牛是：通过非线性变换中(·)将输入空间映射到一个顿法、内点法等成熟的经典最优化算法就可以很好高维特征空间，在这个特征空间中求取最大间隔分地求解.但这些算法通常需要利用整个Hessian矩类超平面f(x)=w中(x)+b,其中w、b分别是这个阵，内存占用过多，从而导致训练时间过长.当训练超平面的权值和阈值.特征空间的维数可能是非常集很大，特别是支持向量数目也很大时，求解二次优高的，通常导致计算非常复杂.SVM算法通过核函化问题的经典方法不再可行.因此设计适用于大量数K(x,y)巧妙地解决了这个问题.SVM不直接计算样本的训练算法成为SVM研究的重要内容.目前针复杂的非线性变换中(·)，而是计算非线性变换收稿日期：2008-06-30. 中(·)的内积K(r,y),即核函数K(x,y)=中(x)· 基金项目：国家自然科学基金资助项目(60474069) 中(y）,从而大大简化了计算.核函数K(x,y)的利用通信作者：王书舟.E-mail:seek2000@163.com, 是由于在原空间和高维特征空间只用到了内积运算

·468. 智能系统学报第3卷的缘故. 代方式逐步排除非支持向量.块算法将矩阵的规模类似用于模式分类的SVM,回归SVM(support 从训练样本数的平方减少到具有非零Lagrange乘 vector regression,SVR)的基本思想是，通过非线性子的样本数的平方，从而降低了训练过程对存储容变换中(·)，将输人空间映射到一个高维特征空量的要求间，并在这个特征空间用线性函数f(x)= Osuna等人提出的分解算法(decomposition al- w中(x)+b拟合样本数据，同时保证能得到较好的 gorithm)21,是目前有效解决大规模问题的主要方泛化能力.设x:∈R,y:∈R,i=1,…,l,l为观测样法.分解算法将二次规划问题分解成一系列规模较本，R"代表输人空间，SVR问题可以表示为线性约小的二次规划子问题，进行迭代求解.在每次迭代束二次规划的优化问题：中，选取拉格朗日乘子分量的一个子集做为工作集， m吃11+号容+g1, 利用传统优化算法求解一个二次规划的子问题. Joachims在上述分解算法的基础上做了几点重要改 r（(w·)+b)-y≤6+6， (1) 进.第一，采用类似Zoutendijk可行方向法的策略确 8.t.{y:-(w·)+b)≤e+g, 定工作集B,即求解一个线性规划问题，得到可行 5,5≥0. 下降方向，把该方向中的非零分量作为本次迭代的其中C>0是函数复杂度和损失误差之间的一个平工作集，该线性规划存在高效算法，其核心是一个排衡量.由优化问题(1)的Lagrange函数相对于变量序问题.第二，提出shrinking方法，估计出有界支持、b5、5:的偏导数为0，可得优化问题(1)的对偶向量和非支持向量，有效地减小QP问题的规模.最问题：后，利用KernelCache来减少矩阵中元素的计算次数.Joachims利用这些方法实现的SVMlight,.是目前 min 设计SVM分类器的重要软件，且x(a-a Lin7]和Takahashi9等人分析并证明了分解 (a +ai) (2) 算法的收敛性.Lino]对-SVM和多类SVM的停机准则进行了分析，并针对多类SVM证明了分解算 8.t. a,-)=0, 法的渐进收敛性.Hu得到了鲁棒SVM的KKT条 0≤a,a≤l,i=1,…,1. 件和分解算法，利用预选取技术提高分解算法的收这个约束最优化问题的解是核函数的线性组合，具敛速度.Dong2]引进并行优化算法来快速剔除非支有如下的形式：持向量，用对角块矩阵逼近原核矩阵，从而原始问题分解为易于求解的子问题.Qiao131提出一种工作集 )=召(a,-a)K)+b (3) 选择规则，使分解算法具有多项式收敛的性质。这个用作函数回归的学习机器就是支持向量块算法的目标是找出所有的支持向量，因而最机，支持向量就是使表达式(3)中系数(a:-a:)不终需要存储相应的核函数矩阵，对于支持向量数很为零的训练样本，在使用SVM解决实际问题时，首大的问题，块算法十分复杂，与块算法不同，分解算先需要把它转化为一个可以用SVM求解的数学模法的目的不是找出所有的支持向量，而是每次只针型，这一工作称为模型选择，它包括训练集的选择、对很小的训练子集来求解，即使支持向量的个数超 SVM类型的选择、核函数的选择、SVM中自由参数过工作集的大小，也不改变工作集的规模.各种分解的选择等.对已经进行了模型选择的最优化问题算法的区别在于工作集的大小和工作集生成原则的 (1)或(2)，其求解方法就是SVM的训练算法. 不同.工作集的选择对于分解算法的收敛与否和收敛速度至关重要，因此开发新的工作集选择算法是 2支持向量机的基本算法提高分解算法性能的重要途径， 2.1块算法与分解算法除了分解算法，还有Huber近似算法[4、多拉块算法(chunking algorithm)[21最早是由Boser 格朗日乘子协同优化算法1s]、剪枝算法「16等SVM 等人提出来的.它的出发点是，删除矩阵中对应于的求解方法. Lagrange乘子为零的行和列不会对最终结果产生影 2.2序贯最小优化算法响.对于给定的样本，块算法的目标就是通过某种迭由Platt提出的序列最小优化(sequential mini-

第6期王书舟，等：支持向量机的训练算法综述 ·469· mal optimization,SMO)算法[]是分解算法工作集的是在线采集的，就必须使用增量式学习算法或在线个数等于2的特殊情形，即SM0把一个大的优化问学习算法]，增量学习是机器学习系统在处理新题分解成一系列只含两个变量的优化问题.两个变增样本时，能够只对原学习结果中与新样本有关的量的最优化问题可以解析求解，因而不需要迭代地部分进行增加、修改或删除操作，与之无关的部分则求解二次规划问题.对分类SMO算法，Keerthi等不被触及，增量训练算法的一个突出特点是支持向人【8]修正了优化条件，并针对经验方法提出两个改量机的学习不是一次离线进行的，而是一个数据逐进措施，以保证算法收敛和减少迭代次数.随后一加入反复优化的过程.文献[40]的算法改进是基 Keerthi等人[91提出了广义SMO(generalized SMO, 于Cauwenberghs提出的用于模式识别的增量减量 GSMO)算法，利用违反对的概念确定工作集，指出式学习方法，这种算法的目的是防止训练过程中有前面两种改进都是GSM0的特例，并证明，Ht>0, 用支持向量的丢失.考虑了增加或减少一个训练样以r违反对为工作集，则GSMO算法有限终止，得到本对拉格朗日系数和SVM的影响.在减少一个样本优化问题的r近似优化解.Lin2o对SM0算法的渐时，给出了模型选择算法留一法的形象解释.增量型进收敛性进行了证明，支持向量机训练算法可以用于实时在线训练，如起初SM0算法主要用于模式分类问题，后来 Ma4提出了用于函数回归问题的增量型在线SVM Smola21]等人进行类比扩展，提出了一种训练回归训练算法.序贯训练算法是样本数据序贯加入的训 SVM的SMO算法.这种算法选取两对变量a、a、练方法，也是在线训练方法的一种.人们提出一种 ajag,在每个迭代步，类似Platt的SM0的策略，按 Kernel Adatron算法[2]对SVM进行分类的序贯训照所选变量不同取值的4种情况，对QP子问题进练，这种方法的基本思想是借助感知机中的Adatron 行解析求解.Shevade(1指出Smola的更新阈值b方算法的原理来改变拉格朗日系数，具体来说通过序法并不是很有效，提出利用双阈值方法改进，同时还贯加入的样本的预测误差来修改SVM样本的系数，提出了一种按照违反KKT优化条件的程度选择变其本质上是一个爬山的寻优算法，通过反复的修改量的新方法.Fake等人[2a]针对SVM回归问题，指序贯加入样本的系数，使训练过程最终收敛.后来将出通过设置B:△-a,i=1,…,l,2l变量的QP问上述算法改进，使其不但适合分类而且也适合回归. 题可以转化为1个变量的QP问题，并改进了经验方 Vojislav2]证明了Kernel Adatron与SM0算法的等法以提高缓存的利用效率.Michael[24]针对不需要计价性.用于回归的Kernel Adatron和SMO的系数更算偏置项b的情况，分别对SMO的分类和回归算法新公式分别为进行了改进.Keerthi2]提出了用于最小二乘SvM 「C:←a:-a-7:(E:+e), 的SM0算法.Zeng26]等人提出了基于SM0算法的 (4) 稀疏最小二乘剪枝算法.Norikazu[79]对SM0的中 a←-a-+n:(E:-6)；止条件进了严格的证明.Cao303门提出了训练SVM (E:+e) a,←-a-K, 的并行SM0算法.Chen32]等人对SM0类型的分解 (5) 算法进行了研究.Bo1对最小二乘SVM的SM0算 (E:-e) a←a-a+Kx) 法的工作集的选择进行了研究.此外还有其他针对 SMO的分类和回归的改进算法[34)] 取n:=1/K(x:,x:),则容易看出式(4)与(5)算法的 SMO算法是分解算法中选取工作集为2的特等价性.Yaakov[4]在Kernel Adatron算法的基础上，殊情形，SMO将工作集的规模减到最小，一个直接结合支持向量的精确缩减，并把它们用于在线学习的后果就是迭代次数的增加.与分解算法相比，尽管的框架，提出一种稀疏在线贪婪(sparse online 它可能需要更多的迭代步，但是由于每步只需要很 greedy,SOG)SVR算法，少的计算量，SMO算法通常表现出整体快速收敛的 Smola4提出了一种在再生核Hibert空间采用性质.另外该算法还具有不需要储存核矩阵、没有矩随机梯度下降的在线算法，可以用于支持向量机的阵运算、容易实现等重要特点.但是分解算法、SMO 分类、回归和新奇性检测.Smale[5]提出在再生核空算法，都是只能够离线应用的训练算法间和一般的Hibert空间的在线算法，给出了随机梯 2.3 增量及在线训练算法度算法的一般形式和可能的收敛界.Yig6]提出了如果学习机的样本是随着时间序列获得的，或一种在再生核Hibert空间中，基于一般凸正则损失

470 智能系统学报第3卷函数的在线分类算法.Bianchi?41基于独立同分布时，需要保存的样本也很多.Crammer's71引入一个称的训练数据，给出对任意在线训练方法所取得具有为Budget的量，他以Rosenblatt的感知机为基础，增的最小风险的假设：加一个样本的插入和删除过程，从而达到控制支持增量减量算法[3941、基于Kemel Adatron的算向量个数的目的.令I为样本索引的集合，II表示法2)、在线算法4都可用于在线学习，但是增集合所含元素的个数，则此方法可以描述如下：量减量算法比较复杂，需要存储核矩阵，因此训练速初始化：设置e,n,:=0,wo=0,l为空度较慢.而基于Kernel Adatron的算法原理简单，每 Fort=1,2,…,T 次更新的运算量小，需要的内存也不大.然而这种训取得一个新样本x∈R”,及其标签y:,并做预测：练算法随着每次新样本的加入，都会引起其他样本 y=sig(y,(x,·w-1)). 系数的改变，需要不断地进行反复优化.在线算 fy(x,·w-1)≤e 法]可以采用基于随机梯度下降的方法，算法比 1)f1L:I=n,删除一个样本：较简单，而且对风险的界和收敛性等都有较严格的 a.i=argmaxien ly;(w:-1-ay) 理论分析和证明.另外，这些在线学习方法的缺点是 b.更新：w-1-w-1-Cy 需要考虑所有的历史数据，无法控制支持向量的个 c.删除第i个样本：Ik-I/{. 数.只有考虑到SVM解的稀疏性，才有可能减小计 End 算量，缩短计算时间. 2)插入新样本：I,-1-1U{t. 2.4支持向量缩减算法 3)令a4=1. 支持向量的数量的下界与训练样本数成线性关 4)计算w,-w-1+yax 系【，这表明支持向量的数量至少随训练样本的加 End 入而线性地增加.对具有大量训练样本的优化问题， End 支持向量的数量是影响在线训练和预测速度的主要输出f代x)=igm(w·x). 因素.因此，减少预测函数中包含支持向量的数量， Westons]指出上述以间隔的大小作为删除样成为提高SVM在线训练速度和预测速度的目标.文本的度量准则，具有噪声敏感的缺点，进而提出一种献[50]提出一种内积矩阵分解的算法，来提高SVM 改进算法，以选定的样本子集的误差作为度量准则，的分类速度.内积矩阵分解算法的思想是通过优化具有更好的鲁棒性.Deke9]通过收缩系数中，选的方式，适当地变换特征空间中的内积矩阵，并进一取，删除的是最旧的样本，得到了具有严格限制的支步变换分类函数的形式，既减少分类函数中支持向持向量和相关错误界.Dekl[o]用插值模代替标准量的数量，又能将全部支持向量的信息保留在分类 SVM中的任意模，实现对支持向量个数的控制.并函数中，达到不损失分类精度，又提高分类速度的目证明了：p插值范数和∞范数，近似等价于限制为样的.Wus1]通过在标准支持向量上附加更多的限制本前t个绝对值最大的元素的p插值范数；特别地，条件，直接得到稀疏大间隔分类器.Nguyen52s1提当p=1时，1-∞插值范数等价于对样本t个绝对出了一种bottom-up的方法，其缩减过程迭代地选择值最大的元素进行绝对值求和.在此文献中还改进属于同一类的两个最近的支持向量，然后用一个新标准的SMO算法以适应这种框架下的求解. 向量代替.新向量的构建只需要计算一个单变量函上述缩减算法大多考虑了SVM解的稀疏性，但数在(0,1)内的惟一最大值点，因此可以有效减少却又回到了更复杂的解决方法上，如通过核函数构支持向量的数量.Keerthis4提出用贪婪算法选择基成的矩阵的逆计算所有支持向量，计算新的优化问向量，来逼近原支持向量，从而减小分类函数的复杂题等，实际上没能做到减少运算量，度.「s5]基于向量相关准则和贪婪算法的思想，提 2.5具有线性收敛性质的算法出了一种特征向量选择的自适应缩减方法。训练SVM的常用方法，如分解方法、SMO方法 Sumeet's6利用Span概念进行支持向量的启发式缩等，结果收敛所需要的时间对样本数来说通常是减，并提出了一种支持向量机在线训练算法。超线性的.因此这些方法在应用于大数据集时失去支持向量缩减方法可以用于在线学习，但是这有效性.Joachims61对线性支持向量机提出了SVM- 些方法的缺点是需要考虑所有的历史数据，没有遗 Perf方法，这种方法在每一迭代步计算当前解的梯忘机制，无法控制支持向量的个数.当样本增加较多度并把它加到优化问题中，使训练SVM所用的时间

第6期王书舟，等：支持向量机的训练算法综述 471· 与样本数呈线性关系.SVMPerf以精度e在时间因为一次泰勒逼近是逼近函数的下界，则 O(md/(A&2))内求得解.这个界被Shwartz提出 Rp（w）≥max,, 的Pegasos方法改进为以精度e,以置信度1-6，在定义Rp和J的下界为时间O(1/(A8e)内得到解.Pegasos实质上是执行 R.(w)max a,w>+b, 随机次梯度下降，把解返回并投影到以1/√入半径的 J(w):=A2(w)+R(w). L,球面上且对所有t≤t构造R,≤R,≤Rmp,J,≤J,≤J,通过 Smola6]针对正则风险最小化问题，提出了一定义：种统一框架的全局收敛方法，可以应用于任何导致 w=argmin/(w）,w,=argmin,（w), 凸优化问题的正则风险最小化问题.其基本思想是： Y=J(,）-J(w,）,t=mi(w,）-J(w,) 在正则化函数中，正则项不变，用经验风险的下界，则可得到如下结论，对所有≤t有如下关系成立：即经验风险的一次泰勒逼近，代替经验风险，进行最 J(w）≤J,(w:)≤J(w）≤J(w,)=J+(w) 优化求解.Smola指出SVMPerf是这种方法的一个进而，6，是单调减的且特例，并给出了更紧的收敛界，即对ε精度，对一般 E:-6+1≥J+1(w41）-J,(w,)≥0. 的凸优化问题在0(1/ε)步内收敛，对连续可微问另外ε，为到最优点距离的上界：题在0(1lg(1/ε))步内收敛.这个方法的另一个重要特点是，它可以自动利用优化问题的光滑性，它的 Y.≥E:≥minsJ(w,）-J(w) 在主空间支持向量机的线性算法可简单描述如一个改进是无需求解二次规划问题而拥有同样的收下：敛速度。这种方法一个关键技术点是次梯度.次梯度是初始化：t=0,州o=0,a6=0,b=0,J(w)=入2(w) 凸函数梯度的一个推广，其中凸函数可以是非光滑 While s,≤e 的.假设"是凸函数F的一个函数值有限点，那么取得最小值w,:=argmin J,(w) 次梯度是在w点F的任何正切支撑超平面的标准计算次梯度a,+1和偏移量b+1 法向量.确切地被称为F在点的次梯度，当且 t←t+1 仅当 End Yw',F(w')>F(w)+, 此外，Smola]还给出了在对偶空间SVM的线 F在一点w的所有次梯度的集合称为F在这点的性算法，并由经验数据得出结论：在对偶空间执行精次微分，表示为8F(w).若这个集合非空，那么称F 确的线性搜索，则在主空间的目标函数有更快的收在”点次可微.若这个集合只有一个元素，称F在敛速度， w点可微.用x∈X,y∈Y分别表示训练样本的输人 3支持向量机的扩展算法模式和输出标签，l(x,y,w)是凸损失函数且w∈W, W是再生核希尔伯特空间.对给定的一组观测样本随着对SVM研究的深入，人们提出了一些SVM x:∈R",y:∈R,i=1,…,l,正则风险最小化函数可表的扩展算法.这些扩展算法主要是通过增加函数项、示为变量或系数等方法使公式变形，产生出有某一方面优势，或者有一定应用范围的算法，如-SVM646s]】 J(w）=Rp(w)+入2(w), 广义SVM(generalized SVM,CSVM)[s6,最小二乘 R(w):=12105,,m). SVM(least-square SVM,LS-SVM)[63-691.-SVM ma 法中用参数)取代C,v是间隔错误样本的个数所占 2(w)是光滑的凸正则项，入>0是正则系数，：=表总样本点数的份额的上界，也是支持向量的个数所示按定义等于，占总样本点数的份额的下界.参数v对于各种噪声令"：∈W表示在每次迭代中w的取值，并且令具有较好的鲁棒性，易于选择，并且可用以控制支持 a,∈W,b.∈R,w0=0,a0=0,bo=0,则Rp[w.]的向量的数目和误差，广义SVM直接以优化系数和核泰勒展开系数为矩阵构造出一个不等式约束的非线性优化问题，其 a+l=anRm（w:）, 对偶形式与标准SVM对偶形式等价.但广义SVM bit Ramp(w:)- 并不是直接求解此优化问题或其对偶形式，而是构

·472 智能系统学报第3卷造出若干特例：光滑SVM、近似SVM、简化SVM等，着理论的不断发展和完善，SVM在模式识别、回归 LS-SVM算法主要是为了解决计算复杂性问题，它分析、生物信息技术、医学研究以及其他一些领域，采用二次损失函数，并用等式约束来代替标准SVM 必将得到更加广泛的应用. 算法中的不等式约束，把标准SVM算法的二次规划问题转变成了线性方程组来求解。参考文献：此外还有加权SVM(weighted SVM)[o1模糊 [1]VAPNIK V.The nature of statistical learing theory M]. SVM（fuz四SVM)Im1、鲁棒SVM（robust New York:Springer Verlag,2000. SVM)[41,积极学习SVM(active SVM)[6]、中心 [2]CRISTIANINI N,SHAWE T J.An introduction to support sVM(center SVM)m,并行SVM(parallel vector machine[M].New York:Cambridge University Press,2000. SVM)i]、多类SVM(muli-class SVM)【91、几何 SVM(geometric SVM)[o1、转导半监督SVM((trans- [3]DOUMPOS M,ZOPOUNIDIS C.Additive support vector machines for pattern classification[J].IEEE Trans on Sys- ductive semi-supervised SVM)[a1-2l等】 tems,Man,and Cybernetics:Part B,2007,37(3):540- 550. 4结束语 [4]JAYADEVA,KHEMCHANDANI R,CHANDRA S.Twin 统计学习理论系统地研究了机器学习问题，尤 support vector machines for pattern classification[J].IEEE 其是在有限样本情况下的统计学习问题.这一理论 Trans on Pattern Analysis and Machine Intelligence,2007, 框架下产生的SVM是一种通用的机器学习新方法， 29(5):905-910. [5]WU Zhili,LI Chunhung,JOSEPH K,et al.Location esti- 在理论和实际应用中表现出很多优越的性能.SVM mation via support vector regression[J].IEEE Trans on 算法的理论与应用均取得了长足的进步，但在处理 Mobile Computing,2007,6(3):311-321. 有大量训练数据的实际应用中，仍然存在计算速度 [6]HAO Peiyi,CHIANG J H.Fuzzy regression analysis by 和存储容量等问题.该领域需要进一步发展和完善， support vector leaming approach[J].IEEE Trans on Fuzzy 研究方向包括： Sy9tems,2008,16(2):428-441. 1)更高效的算法.训练算法的收敛速度和计算 [7]CHANG CC,HSU C W,LIN C J.The analysis of decom- 所需内存是SVM发展的瓶颈，设计更快、更小的高 position methods for support vector machines[J].IEEE 效算法一直是SVM算法研究的主要目标. Trans on Neural Networks,2000,11 (4):1003-1008. [8]LIN C J.On the convergence of the decomposition method 2)更符合实际情况的假设.现有方法基本上是 for support vector machines[J].IEEE Trans on Neural Net- 基于数据的独立同分布假设，而很多实际情况，如非 work8,2001,12(6):1288-1298. 线性动态系统的建模，显然不满足这个条件.开发非 [9]NORIKAZU T,TETSUO N.Global convergence of decom- 独立同分布假设情况下的算法，将具有更大的实用 position learning methods for support vector machines[J]. 价值. IEEE Trans on Neural Networks,2006,17 (6):1362- 3)统一框架的建立.SVM的各种在线算法之 1369. 间，以及SVM与Logistic回归、条件随机域、Lsso类 [10]LIN C J.A Formal analysis of stopping criteria of decomp- 方法估计P范数方法、稀疏表示等方法之间的内在 osition methods for support vector machines[J].IEEE Trans on Neural Networks,2002,13(5):1045-1052. 联系是怎样的，如何建立统一的模型和研究理论体 [11]HU W J,SONG Q.An accelerated decomposition algo- 系也是值得研究的方向. rithm for robust support vector machines[J].IEEE Trans 当前的SVM缩减方法基本上是采用一步优化 on Circuits and Systems,2004,51(5):234-240. 策略的贪婪算法，这不但增加了算法的计算量，而且 [12]DONG Jianxiong,ADAM K,CHING Y S.Fast SVM 难以得到整体最优解.基于基寻踪原理的稀疏表示， training algorithm with decomposition on very large data 是一种采用p范数作为度量函数的全局竞争优化算 sets[J].IEEE Trans on Pattern Analysis and Machine In- telligence,2005,27(4):603618. 法，在一定条件下稀疏表示获得的解是最稀疏的解，同时也是待逼近函数的本质驱动源.另外，次梯度在 [13 ]QIAO Hong,WANG Yanguo,ZHANG Bo.A simple de- composition algorithm for support vector machines with pol- 训练过程中表现出良好的收敛速度，且不要求目标 ynomial-time convergence[J].Pattern Recognition,2007, 函数可微.因此，基于次梯度和稀疏表示的方法可望 40(9):2543-2549 在进一步提高SVM训练速度方面发挥重要作用.随 [14]周水生，詹海生，周利华.训练支持向量机的Huber近

第6期王书舟，等：支持向量机的训练算法综述 ·473· 似算法[J].计算机学报，2005,28(10)：1664-1670. [26]ZENG Xiangyan,CHEN Xuewen.SMO-based pruning ZHOU Shuisheng,ZHAN Haisheng,ZHOU Lihua.A Hu- methods for sparse least squares support vector machines ber approximation method for training the support vector [J].IEEE Trans on Neural Networks,2005,16 (6): machines[J].Chinese Journal of Computers,2005,28 1541-1546. (10):1664-1670. [27]NORIKAZU T,TETSUO N.Rigorous proof of termination [15]业宁，孙瑞样，董逸生.多拉格朗日乘子协同优化的 of SMO algorithm for support vector machines[J].IEEE SVM快速学习算法研究[J].计算机研究与发展， Trans on Neural Networks,2005,16(3):774-776. 2006,43(3):442-448. [28]GUO J,TAKAHASHI N,NISHI T.A novel sequential YE Ning,SUN Ruixiang,DONG Yisheng.SVM fast train- minimal optimization algorithm for support vector regression ing algorithm research based on multi-lagrange multiplier [C]//Proceedings of the 13th International Conference on [J].Joumal of Computer Research and Development, Neural Information Processing.Hong Kong,China,2006, 2006,43(3):442-448. 4234:827-836. [16]杨晓伟，路节，张广全.一种高效的最小二乘支持向 [29]TAKAHASHI N,GUO J,NISHI T.Global convergence of 量机分类器剪枝算法[J].计算机研究与发展，2007， SMO algorithm for support vector regression[J].IEEE 44(7):1128-1136. Trans on Neural Networks,2008,19(6):971-982. YANG Xiaowei,LU Jie,ZHANG Guangquan.An effec- [30]CAO L J,KEERTHI S S,ONG C J.Developing parallel tive pruning algorithm for least squares support vector ma- sequential minimal optimization for fast training support chine classifier[J].Journal of Computer Research and De- vector machine[J].Neurocomputing,2006,70(3):93- velopment,2007,44(7):1128-1136. 104. [17]PLATT J C.Fast training of support vector machines using [31]CAO L J,KEERTHI SS,ONG C J,et al.Parallel se- sequential minimal optimization[C//Advances in Kemnel quential minimal optimization for the training of support Methods-Support Vector Learning.Cambridge,MA:MIT vector machines J].IEEE Trans on Neural Networks, Press,1999:185-208. 2006,17(4):1039-1049. [18]KEERTHI S,SHEVADE S.BHATTCHARYYA C.et al. [32]CHEN P H,FAN R E,LIN C J.A study on SMO-type Improvements to Platt's SMO algorithm for SVM classifier decomposition methods for support vector machines[J]. design[J].Neural Computation,2001,13(3):637-649. IEEE Trans on Neural Networks,2006,17(4):893-908. [19]KEERTHI S,GILBERT E.Convergence of a generalized [33 ]BO Liefeng,JIAO Licheng,WANG Ling.Working set se- SMO algorithm for SVM classifier design J].Machine lection using functional gain for LS-SVM[J].IEEE Trans Learning,2002,46(1/2/3):351-360. on Neural Networks,2007,18(5):1541-1544. [20]LIN C J.Asymptotic convergence of an SMO algorithm [34]孙剑，郑南宁，张志华.一种训练支撑向量机的改进 without any assumptions[J].IEEE Trans on Neural Net- 贯序最小优化算法[J].软件学报，2002,13(10)： work3,2002,13(1):248-250. 2007-2012. [21]SMOLA A,SCHOLKOPF B.A tutorial on support vector SUN Jian,ZHENG Nanning,ZHANG Zhihua.An im- regressions[J].Statistics and Computing,2004,14(8): proved sequential minimization optimization algorithm for 199-222. support vector machine training[J].Joumnal of Software, 22]SHEVADE S K,KEERTHI SS,BHATTACHARYYA C. 2002,13(10):2007-2012. Improvements to SMO algorithm for SVM regression[J]. [35]李建民，张钹，林福宗.序贯最小优化的改进算法 IEEE Trans on Neural Networks,2000,11 (5):1188- [J].软件学报，2003,14(5)：918-924. 1193. LI Jianmin,ZHANG Bo,LIN Fuzong.An improvement al- [23]FLAKE G W,LAWRENCE S.Efficient SVM regression gorithm to sequential minimal optimization[J].Journal of training with SMO[J].Machine Learning,2002,46(1/ Software,2003,14(5):918-924. 2/3):271-290. [36]张浩然，韩正之回归支持向量机的改进序列最小优 [24]VOGT M.SMO algorithms for support vector machines 化学习算法[J].软件学报，2003,14(12)：2006 without bias term[R].Darmstadt,Germany:Institute of 2013. Automatic Control Laboratory for Control Systems and ZHANG Haoran,HAN Zhengzhi.An improved sequential Process Automation,Technische Univ.Darmstadt,2002. minimal optimization learning algorithm for regression sup- [25]KEERTHI SS,SHEVADE S K.SMO algorithm for least port vector machine[J].Journal of Software,2003,14 squares SVM formulations J].Neural Computation, (12):2006-2013. 2003,15(2):487-507. [37]朱齐丹，张智，邢卓异.支持向量机改进序列最小优

474 智能系统学报第3卷化学习算法[J].哈尔滨工程大学学报，2007,28(2)： on-line algorithms[J].IEEE Trans on Information Theory, 183-188. 2008,54(1):386-390. ZHU Qidan,ZHANG Zhi,XING Zhuoyi.Improved SMO [49]STEINWART I.Sparseness of support vector machines learing method of support vector machine [J].Joural of [J].Journal of Machine Learn Research,2003,4(3): Harbin Engineering University,2007,28(2):183-188. 1071-1105. [38]张浩然，汪晓东.回归最小二乘支持向量机的增量和 [50]刘向东，陈兆乾。一种快速支持向量机分类算法的研在线式学习算法[J].计算机学报，2006,29(3)：400- 究[J刀.计算机研究与发展，2004,41(8)：1327-1332. 406. LIU Xiangdong,CHEN Zhaoqian.A fast classification al- ZHANG Haoran,WANG Xiaodong.Incremental and on- gorithm of support vector machines[J].Journal of Comput- line leaming algorithm for regression least squares support er Research and Development,2004,41 (8):1327- vector machine[J].Chinese Journal of Computers,2006, 1332. 29(3):400-406. [51]WU M,SCHOLKOPF B,BAKIR G.A direct method for [39]杨静，张健沛，刘大昕.基于多支持向量机分类器的 building sparse kemnel learning algorithms[J].Joural of 增量学习算法研究[J].哈尔滨工程大学学报，2006,27 Machine Learning Research,2006,7(4):603-624. (1):103-106. [52]NGUYEN D,HO T.An efficient method for simplifying YANG Jing,ZHANG Jianpei,LIU Daxin.Research on in- support vector machines[C]//International Conference on cremental leaming algorithm with multiple support vector Machine Learning.Bonn,Germany,2005:617-624. machine classifiers [J].Journal of Harbin Engineering U- [53 ]NGUYEN D.HO T.A bottom-up method for simplifying niversity,2006,27(1）:103-106. support vector solutions [J].IEEE Trans on Neural Net- [40]汪辉.增量型支持向量机回归训练算法及在控制中 woks,2006,17(3):792-796. 的应用[D].杭州：浙江大学，2006. [54]KEERTHI SS,CHAPELLE O,DECOSTE D.Building WANG Hui.Incremental support vector machine regression support vector machines with reduced classifier complexity training algorithm and its application in control [D].Hang- [J].Journal of Machine Learning Research,2006,7 zhu:zhejiang University,2006. (7):1493-1515. [41]MA J H,THEILER J,PERKINS S.Accurate on-line sup- [55]LI Qing,JIAO Licheng,HAO Yingjuan.Adaptive simpli- port vector regression[J].Neural Computation,2003,15 fication of solution for support vector machine[J].Patter (11):2683-2703. Recognition,2007,40(3):972-980. [42]VOJISLAV K,MICHAEL V,HUANG Teming.On the e- [56 ]SUMEET A,SARADHI VV,HARISH K.Kemel-based quality of kemel AdaTron and sequential minimal optimiza- online machine learning and support vector reduction[J]. tion in classification and regression tasks and alike algo- Neurocomputing,2008,71(9）:1230-1237. rithms for kemnel machines[C]//European Symposium on [57]CRAMMER K,KANDOLA J,SINGER Y.Online classifi- Artificial Neural Networks.Bruges,Belgium:D-side Publi- cation on a budget[C]//Advances in Neural Information cations,2003:215-222. Processing Systems.Whistler,Canada,2003:225-232. [43]YAAKOV E,SHIE M,RON M.Sparse online greedy sup- [58 ]WESTON J,BORDES A,BOTTOU L.Online and off- port vector regression [C]//Machine learning:ECMI line)on an even tighter budget[C]//Proceedings of the 2002.Berlin:Springer-Verlag,2002:84-96. Tenth Interational Workshop on Artificial Intelligence and [44]KIVINEN J,SMOLA A J,WILLIAMSON R C.Online Statistics.Barbados,2005:413-420. leaming with kemels[J].IEEE Trans on Signal Process- [59]DEKEL O,SHWARTZ SS,SINGER Y.The forgetron:A ing,2004,52(8):2165-2176. kemnel-based perceptron on a fixed budget[Cl//Advances [45]SMALE S,YAO Y.Online learning algorithms[J].Foun- in Neural Information Processing Systems.Vancouver,Can- dations of Computational Mathematics,2006,6(3):145- ada,2005:259-266. 170. [60]OFER D,YORAM S.Support vector machines on a budget [46]YING Yiming,ZHOU Dingxuan,Online regularized classi- [C]//Advances in Neural Information Processing Sys- fication algorithms[J].IEEE Trans on Information Theo- tems.Whistler,Canada,2006:345-352. y,2006,52(11):47754788. [61]JOACHIMS T.Training linear SVMs in linear time[C]// [47]BIANCHI N C,CONCONI A,GENTILE C.On the gener- International Conference on Knowledge Discovery and Data alization ability of on-line leaming algorithms[J].IEEE Mining(KDD).New York,USA,2006:217-226. Trans on Information Theory,2004,50(9):2050-2057. [62]SHWARTZ S S,SINGER Y,SREBRO N.Pegasos:Pri- [48]BIANCHI N C,GENTILE C.Improved risk tail bounds for mal estimated sub-gradient solver for SVM[C]//Proceed-

第6期王书舟，等：支持向量机的训练算法综述 475。 ings of the Twenty-Fourth International Conference on Ma- [75]TRAFALIS T B,GILBERT R C.Robust classification and chine Learning(ICML2007)):Corvalis,USA,2007:807- regression using support vector machines [J].European 814. Journal of Operational Research,2006,173(3))::893- [63]SMOLA A J,VISHWANATHAN SV N,QUOC V L.Bu- 909. ndle methods for machine leaming[C]l//Advances in Neu- [76]MITRA P,MURTHY C A,PAL S K.A probabilistic ac- ral Information Processing Systems.Vancour,Canada, ive support vector learning algorithm[J].IEEE Trans on 2008. Pattern Analysis and Machine Intelligence,2004.26(3)): [6].CHEN PH,LIN CJ,SCHLKOPF B.A tutorial on v-sup- 413-418. port vector machines [J].Applied Stochastic Models in [77]TSANG I W,KWOKJT,ZURADA J M.Generalized Business and Industry,2005,21(2)):111-136. core vector machines[J]l.IEEE Trans on Neural Net- [65]]KAZUSHI I.Effects of kernel function on v-support vector works,.2006,17(5)）:1126-1140. machines in extreme cases[J].IEEE Trans on Neural Net- [78]ZANNI L.SERAFINI T.ZANGHIRATI G.Parallel soft- works,2006,17(1),:1-9. ware for training large scale support vector machines on [66]MANGASARIAN O L,WILD E W.Multisurface proximal multiprocessor systems[J].Journal of Machine Learning support vector machine classification via generalized eigen- Research,2006,7(7):1467-1492. values[J]..IEEE Trans on Pattern Analysis and Machine [赵春晖，陈万海，郭春燕.多类支持向量机方法的研究 Intelligence,2006,28(1)1:69-74 现状与分析[刀1.智能系统学报，2007,2(4)：11-17. [67]LEE Y J,HUANG S Y.Reduced support vector ma- ZHAO Chunhui,CHEN Wanhai,GUO Chunyan.Re- chines:a statistical theory[J].IEEE Trans on Neural Net- search and analysis of methods for multiclass support vector works,2007,18(1)):1-13. machines[J].CAAI Transactions on Intelligent Systems, [68]ANTHONY K,PHILIPPE D W.Comments on"pruning 2007,2(4)311-17. error minimization in least squares support vector ma- [80]THEODORIDIS S,MAVROFORAKIS M.Reduced convex chines"[J].IEEE Trans on Neural Network,2007,18 hulls::a geometric approach to support vector machines ②)：606609. ]IEEE Signal Processing Magazine,2007,24(3)): [60]JIAO Licheng BO Liefeng WANG Ling Fast sparse ap- 119-122. proximation for least squares support vector machine[J]. [81]BRUZZONE L,CHI M.MARCONCINI M.A novel trans- IEEE Trans on Neural Network,2007,18(3)):685-697. ductive SVMs for semi-supervised classification of remote- [70]]WANG Defeng,DANIEL S Y,ERIC CC T,Weighted ensing images[J]].IEE Trans on Geoscience and Re- mahalanobis distance kernels for support vector machines ote Sensing,2006,44(11)):3363-3373. I.IEEE Trans on Neural Networks,2007,18(5): 8]ASTORINO A,FUDULI A.Nonsmooth optimization tech- i453-1462. niques for semisupervised classification[J]].IEEE Trans [71]DU Shuxin,CHEN Shengtan.Weighted support vector ma- on Pattern Analysis and Machine Intelligence,2007.29 chine for classifications[C]//IEEE International Confer- 12:2135-2142.. ence on Systems,Man and Cybernetics.Hawaii,USA, 作者简介： 2005,4::3866-3871. 王书舟，男，1972年生，博士研究 [72]CAWLEY G C.An empirical evaluation of the fuzzy kemel 生，主要研究方向为支持向量机建模、 perceptron[J].IEEE Trans on Neural Networks,2007, 直升机控制与仿真.发表学术论文多 18(3))÷935-937 篇，6篇被EI检索。 [73]]HAO P Y,CHIANG J H.Fuzy regression analysis by support vector learning approach[J].IEEE Trans on Fuzzy Systems,2008,16(2)):428-441. 伞治，男，1951年生，教授，博士 [74]]CHUANG CC,SU SF,JENGJT,et al.Robust support 生导师.中国系统仿真学会理事.主要 ector regression networks for function approximation with 研究方向为复杂大系统的系统控制与 outliers[J].IEEE Trans on Neural Networks,2002,13 仿真.获国家科技进步二等奖2项，三 6:1322-1330 等奖1项，省部级科技进步奖多项.发表学术论文多篇，40余篇被EI收录

[76] MITRA P,MURTHY C A,PAL S K. A probabilistic acive support vector learning algorithm[J] . IEEE Trans on Pattern Analysis and Machine Intelligence,2004,26(3) : 413-418. [68] ANTHONY K,PHILIPPE D W. Comments on"pruning error minimization in least squares support vector machines"[J]. IEEE Trans on Neural Network,2007,18 (2) : 606-609. [63] SMOLA A J,VISHWANATHAN SV N,QUOC V L. Bundle methods for machine learning[ C] //Advances in Neural Information Processing Systems. Vancour, Canada, 2008. 伞冶,男,1951年生,教授,博士 [81] BRUZZONE L,CHI M,MARCONCINI M. A novel transductive SVMs for semi-supervised classification of remoteensing images[J] . IEE Trans on Geoscience and Remote Sensing,2006,44(11) :3363-3373. ings of the Twenty-Fourth International Conference on Machine Learning(ICML2007) :Corvalis,USA,2007: 807- 814. [75] TRAFALIS T B,GILBERT R C. Robust classification and regression using support vector machines [J] . European Journal of Operational Research,2006,173(3) : 893- 909. [70] WANG Defeng,DANIEL S Y,ERIC C C T,Weighted mahalanobis distance kernels for support vector machines [J] . IEEE Trans on Neural Networks,2007,18(5) : i453-1462. [69]JIAO Licheng,BO Liefeng,WANG Ling. Fast sparse approximation for least squares support vector machine[J]. IEEE Trans on Neural Network,2007,18(3) :685-697. [71] DU Shuxin,CHEN Shengtan. Weighted support vector machine for classifications[C] //IEEE International Conference on Systems,Man and Cybernetics. Hawaii,USA, 2005,4: 3866-3871. [64] CHEN PH,LIN CJ, SCHLKOPF B. A tutorial on v-support vector machines [J] . Applied Stochastic Models in Business and Industry,2005,21(2) :111-136 [78] ZANNI L, SERAFINI T,ZANGHIRATI G. Parallel software for training large scale support vector machines on multiprocessor systems[J] . Journal of Machine Learning Research,2006,7(7) : 1467-1492. [77] TSANG I W,KWOKJT,ZURADA J M. Generalized core vector machines[J] . IEEE Trans on Neural Networks,2006,17(5) :1126-1140. [80] THEODORIDIS S,MAVROFORAKIS M. Reduced convex hulls: a geometric approach to support vector machines [J] . IEEE Signal Processing Magazine,2007,24(3) : 119-122. [79] 赵春晖,陈万海,郭春燕.多类支持向量机方法的研究现状与分析[J] .智能系统学报,2007,2(4) :11-17. ZHAO Chunhui,CHEN Wanhai,GUO Chunyan. Research and analysis of methods for multiclass support vector machines[ J] . CAAI Transactions on Intelligent Systems, 2007,2(4) :11-17. [74] CHUANG C C,SU SF,JENGJT,et al. Robust support ector regression networks for function approximation with outliers[J]. IEEE Trans on Neural Networks,2002,13 (6) : 1322-1330 [73] HAO P Y, CHIANG J H. Fuzy regression analysis by support vector learning approach[ J]. IEEE Trans on Fuzzy Systems,2008,16(2) :428-441. 王书舟,等: 支持向量机的训练算法综述 [66] MANGASARIAN O L,WILD E W. Multisurface proximal support vector machine classification via generalized eigenvalues[J] . IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(1) :69-74. [67] LEE Y J,HUANG S Y. Reduced support vector machines: a statistical theory[J]. IEEE Trans on Neural Networks,2007,18(1) : 1-13. 第6期 [72] CAWLEY G C. An empirical evaluation of the fuzzy kemel perceptron[ J]. IEEE Trans on Neural Networks,2007, 18(3) :935-937. 作者简介: 475。 [82] ASTORINO A,FUDULI A. Nonsmooth optimization techniques for semisupervised classification[J] . IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29 (12) :2135-2142. 王书舟,男,1972年生,博士研究生,主要研究方向为支持向量机建模、直升机控制与仿真.发表学术论文多篇,6 篇被EI检索. [65] KAZUSHI I. Effects of kernel function on v-support vector machines in extreme cases[J]. IEEE Trans on Neural Networks,2006,17(1) : 1-9. 生导师.中国系统仿真学会理事.主要研究方向为复杂大系统的系统控制与仿真.获国家科技进步二等奖2项,三等奖1项,省部级科技进步奖多项.发表学术论文多篇,40余篇被EI收录

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

【学术论文】支持向量机的训练算法综述