一种SVM分类器自动模型选择方法

提出了一种基于粗网格与模式搜索相结合的支持向量机分类器模型参数优化方法,采用Jaakkola-Haussler误差上界作为模型选择的评价标准。以黎曼几何为理论依据,提出了一种新的保角变换,对核函数进行数据依赖性改进,进一步提高分类器泛化能力。在研究人工非线性分类问题的基础上,将该方法应用于手写相似汉字识别,实验结果表明分类精度得到了明显提高。

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：560.53KB

D0I:10.13374/j.issnl001053x.2006.01.021 第28卷第1期北京科技大学学报 Vol.28 No.1 2006年1月 Journal of University of Science and Technology Beijing Jan.2006 一种SVM分类器自动模型选择方法封筠1,2)颉斌1)郝卫东1)杨扬1) 1)北京科技大学信息工程学院，北京1000832)石家庄铁道学院计算机系，石家庄050043 摘要提出了一种基于粗网格与模式搜素相结合的支持向量机分类器模型参数优化方法，采用 Jaakkola--Haussler误差上界作为模型选择的评价标准.以黎曼几何为理论依据，提出了一种新的保角变换，对核函数进行数据依赖性改进，进一步提高分类器泛化能力.在研究人工非线性分类间题的基础上，将该方法应用于手写相似汉字识别，实验结果表明分类精度得到了明显提高. 关键词支持向量机；模型选择；黎曼几何；保角变换；汉字识别分类号TP391.43 支持向量机(SVM)是由Vapnik等人]于两方面的问题，即选择标准和所采用的搜索方法， 1995年在统计学习理论基础上提出的一种实现本文提出了一种基于Jaakkola-Haussler误差上界结构风险最小化准则的机器学习方法，模型选评价标准及粗网格与模式搜索相结合的模型参数择[2]是SVM从理论走向实际应用时所必须解决优化策略，的一个关键问题，它将直接显著地影响分类器泛因为在研究模型参数优化时所采用的核函数化性能的好坏，但目前对于该问题的研究还很不类型是确定的，所以并未充分考虑实际数据的影深入.SVM分类器的模型选择问题可被描述为：响.然而为了进一步提高分类的精度，有必要从对于某-一给定的问题，如何寻找到最适合的核函数据的角度重新定义核函数.本文完成核参数优数，其中包括核函数类型的确定、核参数的优化以化后，以黎曼几何[4)为理论依据，对核函数进行及针对具体给定数据的核函数的修正等方面，在数据依赖性改进，进而提高分类器泛化能力. 核函数类型的确定上，如何根据实际问题来选择 1模型选择评价标准最优的核函数至今仍未有明确的答案，从理论上来说，所有满足Mercer条件的核函数都可作为支这里重，点讨论常用的L2范数非线性软间隔持向量核使用.研究表明，高斯核函数SVM具有 SVM分类器.根据已知训练集T={(x1,y1), 很强的学习能力，因此它是一种应用最多的核 …,(xn,yn)川∈(X×Y)",其中x:∈X=Rm,y 函数，本文将重点讨论高斯核函数，其表示形式 ∈Y=1,-1{,i=1,…,n,建立L2范数非线性如下式所示：软间隔SVM的优化问题对偶形式如下： 1 K(,)=exp2aIx-） (1) 1 mini y04,K(x,x,）+ 除了核函数中的自由参数（比如高斯核函数 (2) 中的宽度参数σ)外，对于软间隔分类情况，在 ]房 SVM设计时需要引入常量参数C作为误差惩罚 s.t.a,≥0，i=1,2,…,n (3) 因子，通过变换核函数可将问题转变为硬间隔其中， SVM3],从而将C看作是核函数中的一个自由参数.在研究模型参数优化选择方法时，需要考虑 0=0,tj 1,i=j (4) 求解该最优化问题，得到最优解α‘=(ai, 收稿日期：2004-1101修回日期：2004-12-28 基金项目：河北省科学技术研究与发展指导计划项目(No, …,a)T,其中a≠0的训练样本为支持向量 02213560) 所构造的齐次决策函数为作者简介：封筠(1971一)，女，副教授，博士研究生 (x)) (5)

第卷 2第8 1期年2 0 0 6月 l 北京科技大学学报 u J o a r n l o U i f n e份 v i y t fo Sc i e e e a n nd e e T h n o l o y 价幼g i n g V o l . 2 8 N o . l J a n . 2 0 0 6 一种 SMv 分类器自动模型选择方法封药 ` , 2 ) 领斌 ` ) 郝卫东 ` ) 杨扬 ` ) 1 ) 北京科技大学信息工程学院 , 北京 1 0 0 0 83 2) 石家庄铁道学院计算机系 , 石家庄 0 5 0 043 摘要提出了一种基于粗网格与模式搜索相结合的支持向量机分类器模型参数优化方法 , 采用 aJ a k kol a 一 H au s le r 误差上界作为模型选择的评价标准 . 以黎曼几何为理论依据 , 提出了一种新的保角变换 , 对核函数进行数据依赖性改进 , 进一步提高分类器泛化能力 . 在研究人工非线性分类间题的基础上 , 将该方法应用于手写相似汉字识别 , 实验结果表明分类精度得到了明显提高 . 关祖词支持向量机 ; 模型选择 ; 黎曼几何 ; 保角变换 ; 汉字识别分类号 T P 3 9 1 . 4 3 支持向量机 ( s v M ) 是由 v a p n ik 等人川于 1 9 9 5 年在统计学习理论基础上提出的一种实现结构风险最小化准则的机器学习方法 . 模型选择 2[] 是 s v M 从理论走向实际应用时所必须解决的一个关键问题 , 它将直接显著地影响分类器泛化性能的好坏 , 但目前对于该问题的研究还很不深入 . S V M 分类器的模型选择问题可被描述为 : 对于某一给定的问题 , 如何寻找到最适合的核函数 , 其中包括核函数类型的确定、核参数的优化以及针对具体给定数据的核函数的修正等方面 . 在核函数类型的确定上 , 如何根据实际间题来选择最优的核函数至今仍未有明确的答案 . 从理论上来说 , 所有满足 M er ce r 条件的核函数都可作为支持向量核使用 . 研究表明 , 高斯核函数 S v M 具有很强的学习能力〔` 〕 , 因此它是一种应用最多的核函数 . 本文将重点讨论高斯核函数 , 其表示形式如下式所示 : 兀 ( 二 . 二、 ) 一 e x D卜共 JJ 二一二 J} 2 { ( 1 ) 二 ` 、丹 , ` 忿 j ` 几 F ( , 2 “ ` 丹之 1 厂、孟 / 乙 J 除了核函数中的自由参数 ( 比如高斯核函数中的宽度参数 6 ) 外 , 对于软间隔分类情况 , 在 S V M 设计时需要引人常量参数 C 作为误差惩罚因子 . 通过变换核函数可将问题转变为硬间隔 s v M 〔’ } , 从而将 c 看作是核函数中的一个自由参数 . 在研究模型参数优化选择方法时 , 需要考虑收稿 B 期 : 2 0 0 4 一 11 一 0 2 修回日期 : 2 0 0 4 一 22 一 2 5 墓金项目 : 河北省科学技术研究与发展指导计划项目 ( N 仓 0 2 2 13 5 6 0 ) 作者简介 : 封摘 ( 19 7 1一 ) , 女 , 副教授 , 博士研究生两方面的问题 , 即选择标准和所采用的搜索方法 . 本文提出了一种基于 Ja k k ol a 一 H au s le r 误差上界评价标准及粗网格与模式搜索相结合的模型参数优化策略 . 因为在研究模型参数优化时所采用的核函数类型是确定的 , 所以并未充分考虑实际数据的影响 . 然而为了进一步提高分类的精度 , 有必要从数据的角度重新定义核函数 . 本文完成核参数优化后 , 以黎曼几何4[] 为理论依据 , 对核函数进行数据依赖性改进 , 进而提高分类器泛化能力 . 1 模型选择评价标准这里重点讨论常用的 L Z 范数非线性软间隔 s v M 分类器 . 根据已知划11练集 T = { ( x l , y l ) , … , ( x 。 , y 。 ) }任 ( x x y ) ” , 其中 x 、任 x = R m , y , 任 Y = { 1 , 一 1 } , i 二 1 , … , n , 建立 L Z 范数非线性软间隔 S V M 的优化问题对偶形式如下 : 一i2 n . im 。、了1 、、 , 尹少 ù, 3 万硬、了、艺名 y 了 = I J = 1 粼 1 、 ] 砂红」 - . a , ) 0 , =i 1 , 2 , … , n 其中 , 、一 {左属 ( 4) 求解该最优化问题 , 得到最优解 a ` = ( a 广 , … , 。厂) T , 其中。广共。的训练样本为支持向量 . 所构造的齐次决策函数为 , ( · ,一 g · (客 · 厂, ! K (一 ) ! ( 5 , DOI: 10. 13374 /j . issn1001 -053x. 2006. 01. 021

Vol.28 No.1 封筠等：一种SVM分类器自动摸型选择方法 89* 模型选择的评价标准提供了问题解决的原心，利用所定义的模式确定搜索的方向.对于R2 则，通常可用泛化误差(GE)表示分类器推广能核参数空间，所采用的模式如图1所示，对应的模力.能够作为评价准则的数量指标主要分为两大式矩阵为：类：一类来自实际数据的实验验证结果；一类来自「1 10-1-1-101 01 理论分析所给出的界，实验验证准则的获得完全 Px= 1110-1-1-10J 依赖于经验数据，该类方法将所得训练样本的部 (8) 分作为验证数据用来评估泛化性能，主要包括K- (0.1) 折交叉验证(K-fold cross-validation)误差估计、 (-1.1)● 4模式中心0.0)●(1.) 留一(Leaveone--oul,简称LOO)误差估计.理论分析的目的就是要寻求与期望GE最紧的界，因 (-1.0)● ●1.0) 45 为I()()误差估计被认为是对(GE的近似无偏估计，所以也经常采用通过理论分析所获得的LOO (1.-1) ●(1，-1) (0.-1) 误差上界作为模型选择的评价标准。图1R2核参数空间对应的模式由于实验验证准则的计算代价很高，所以本 Fig.1 Pattern for an R2 kernel parameter space 文采用了种经过理论推导获得的LOO误差上界估计，即Jaakkola-Haussler误差上界s).针对模式矩阵的每一列确定了以模式中心为起点的下 L2范数非线性软间隔SVM分类器，其LO)误一个搜索计算参数点的位置，通过模式搜索步长差满足下式： △P取值的不同，可以实现以模式中心为圆心的 Rio(T).I1 360°范围搜索.参数变化量可由下式计算得到： n sgn(-yif(x;)+a;K(x,,x)) S=APPK (9) (6) 上式的右边项被称为Jaakkola-Haussler误差上对于R2核参数空间，其中△” 界.对高斯核函数.式(6)可写成模式搜索算法描述如下： Rw(r)≤1 n sgn(-y,f(x,)+a)(7) Step1确定初始的模式中心为粗网格搜索显然，在计算Jaakkola-Haussler误差上界时只需所得到的优化参数点，给定对数参数搜索步长AP 要利用所有训练样本做一次分类器训练，获得分及足够小的允许步长ε；类决策函数f(x),因此与经验验证方法相比较， Step2根据式(9)计算对数参数的变化量计算Jaakkola-Haussler误差上界所花费的代价要 s,然后依次求得当前模式中心的各邻域参数点小很多的Jaakkola-Haussler误差上界，并将其中使得该评价准则最小的参数点置为新的模式中心； 2搜索策略 Step3若模式中心不变，则减小搜索步长在确定了模型选择的准则后，需要设计一种 AP并转到Step2重新寻找新的模式中心；能寻找到使得该准则全局最优的模型参数点的搜 Step4重复执行Step2与Step3,直到AP 索方法.本文提出了一种粗网格与模式搜索相结小于允许步长ε为止，最终确定的模式中心即为合的优化策略，该算法先执行粗网格搜索寻找全最优参数点局优化区域，再利用模式搜索寻找在该优化区域 3基于黎曼几何的核函数修正的最优点 2.1粗网格搜索 3.1核函数的几何特性该搜索算法首先在参数空间定义统一的网 Burges在文献[6]中讨论了基于核函数的非格.研究发现在优化核参数时采用对数坐标是比线性支持向量机的几何问题，认为非线性映射P 较合理的2.然后计算所有网格点的Jaakkola- 是一个曲子流形，它定义了从输入空间I到特征 Haussler误差上.界，寻找全局最小区域，网格的粒空间F(再生核Hilbert空间)的一个嵌入，度决定了解的质量与搜索效率定理1在特征空间中，黎曼度规与核函数 2.2模式搜索之间满足如下关系式：该搜索算法将当前优化参数点置为模式中

V o l . 2 8 N ` ) . 1 封鸽等 : 一种 s v M 分类器自动模型选择方法模型选择的评价标准提供了问题解决的原则 , 通常可用泛化误差 ( G E )表示分类器推广能力 . 能够作为评价准则的数量指标主要分为两大类 : 一类来自实际数据的实验验证结果 ; 一类来自理论分析所给出的界实验验证准则的获得完全依赖于经验数据 , 该类方法将所得训练样本的部分作为验证数据用来评估泛化性能 , 主要包括 K - 折交叉验证 ( K 一 f o ld C or s S 一 v a lid a t i o n ) 误差估计、留一 ( L e a v e 一。 n 〔、一。 ut , 简称 L O( ) 误差估计 . 理论分析的目的就是要寻求与期望 G E 最紧的界 . 因为 L ( )O 误差估计被认为是对 G E 的近似无偏估计 , 所以也经常采用通过理论分析所获得的 L O O 误差上界作为模型选择的评价标准 . 由于实验验证准则的计算代价很高 , 所以本文采用 J ’ 一种经过理论推导获得的 L O O 误差上界估计 , 即 , J a a k k o z a 一日a u s s l e : 误差上界 [ 5 〕 . 针对 L “ 范数非线性软间隔 S v M 分类器 , 其 (L )( ) 误差满足一厂式 : 心 , 利用所定义的模式确定搜索的方向 . 对于 R Z 核参数空间 , 所采用的模式如图 1 所示 , 对应的模式矩阵为 : 厂1 1 0 一 1 一 1 一 1 P K = i 匕U 1 1 1 0 一 1 0 1 0 - 一 1 一 1 0 _ ( 8 ) ( 一 1 . 1) ( 0 , l ) ( 一 1 . 0 ) ( 一 l 一 l ) 图 1 R Z 核参数空间对应的模式 r i g . i P a t t e rn ro r an R Z k e r n e 一p a r a毗t er s ( l , l) ( l , 0 ) ( l ,一 l ) Pa C e R l一` T ,搜一告客 5 9 一 (一、 ( 一 ,二 : K ( · , , · , ) ) ( 6 ) 上式的右边项被称为 J a a k k o l a 一 H a u s s l e r 误差上界对于高斯核函数 , 式 ( 6) 可写成 R , 一阳 (I · ) ; : 1 艺 s g n ( 一 : J ( x : ) + 。广) ( 7 ) 显然 , 在计算 J a : , k k o i a 一 H a u s s l e : 误差上界时只需要利用所有训练样本做一次分类器训练 , 获得分类决策函数 _ f( x ) , 因此与经验验证方法相比较 , 计算 J a ak k ol a 一 H a us s1( , : 误差上界所花费的代价要小很多 . 2 搜索策略在确定厂模型选择的准则后 , 需要设计一种能寻找到使得该准则全局最优的模型参数点的搜索方法 . 本文提出了一种粗网格与模式搜索相结合的优化策略 , 该算法先执行粗网格搜索寻找全局优化区域 , 再利用模式搜索寻找在该优化区域的最优点 . 2 . 1 粗网格搜索该搜索算法首先在参数空间定义统一的网格 . 研究发现在优化核参数时采用对数坐标是比较合理的〔2 . 然后计算所有网格点的 J a ak ko l a - H au s l e : 误差上界 , 寻找全局最小区域 . 网格的粒度决定了解的质量与搜索效率 . 2 . 2 模式搜索该搜索算法将当前优化参数点置为模式中模式矩阵的每一列确定了以模式中心为起点的下一个搜索计算参数点的位置 . 通过模式搜索步长 △ P 取值的不同 , 可以实现以模式中心为圆心的 3 6 0 。范围搜索 . 参数变化量可由下式计算得到 : s 二压P P K ( 9 ) 厂△耳] T 对于 R “ 核参数空间 , 其中乙” = } 二 ’ } . 匕△号J 模式搜索算法描述如下 : s et p l 确定初始的模式中心为粗网格搜索所得到的优化参数点 , 给定对数参数搜索步长 j P 及足够小的允许步长引 st 印 2 根据式 ( 9 ) 计算对数参数的变化量、 , 然后依次求得当前模式中心的各邻域参数点的 J a a k k o l a 一 H a u s s l e r 误差上界 , 并将其中使得该评价准则最小的参数点置为新的模式中心 ; st eP 3 若模式中心不变 , 则减小搜索步长压P 并转到 st 即 2 重新寻找新的模式中心 ; s t e p 4 重复执行 s t e p Z 与 s t e p 3 , 直到乙” 小于允许步长 : 为止 , 最终确定的模式中心即为最优参数点 . 3 基于黎曼几何的核函数修正 3 . 1 核函数的几何特性 B ur ge S 在文献「6」中讨论了基于核函数的非线性支持向量机的几何问题 , 认为非线性映射 , 是一个曲子流形 , 它定义了从输入空间 I 到特征空间 F ( 再生核 iH lb er t 空间 ) 的一个嵌入 . 定理 1 在特征空间中 , 黎曼度规与核函数之间满足如下关系式 :

·90· 北京科技大学学报 2006年第1期 g,(x)=22K(,儿，： (10) 为-1的支持向量数目，xm表示属于负类的支持向量样本的特征均值.所以，x:表示支持向量样在黎曼空间中，体积微元可被定义为：本x:与其所属类的支持向量特征中心矢量xm间 dV=√g(x)dx1dx2dxa (11) 的Euclidean距离.显然，从式(l4)可知映射其中g(x=detg)(x)川，放大因子√g(x)表示在 D(x)与样本到支持向量的距离呈指数递减. 映射”下输入空间I的局部区域如何在特征空定理2采用式(14)所示保角变换D(x)的间F中被放大. 修正核函数K(x,x')满足Mercer定理的条件. 3.2 Amari的核函数修正思想证明设A为R的紧子集，对于任意的根据在输入空间所锈导的黎曼几何结构的基 h(x)∈L2(A),有h2(x)dx0,因此必存在一个正数B,使得分离边界曲面附近区域的黎曼度规g(x),而同 D(x)≥>0，从而有：时减小其他区域的g(x).基于在实际应用中分离边界曲面是未知的这一事实，Amari则通过增 AR,h(xh()dr= 加支持向量邻域的黎曼度规矩阵来解决这个问 D(x)D(x)K(x,x)h(x)h(x)dxdx 题，提出了如下定义的修正核函数的准保角映射定义1对于一个正的标量函数D(x),定 (()dxdx0. 义：定理得证 K(x,x')=D(x)D(x)K(x,x')(12) 在所提出的保角变换D(x)基础上，给出了称之为核函数通过因子D(x)的保角变换，则数据依赖型修正核函数的支持向量机训练算法，衣(x,x)成为支持向量机的修正核函数.同时，该算法可描述为：非线性映射p被修正为p(x)=D(x)p(x). Step1根据具体问题初步确定所选核函数对于高斯核函数，在其经过D(x)的保角变类型；换后，黎曼度规g(x)将变为： Step2利用本文提出的核参数优化算法， g(x)=D(x)D,(x+D2(x)g(x)(13) 求得优化核参数，进而确定初始的核函数K；其中，D,(x)=D(x Step3使用核函数K训练SVM,获取支持 Oxi 向量的信息，并计算x和xm,然后按式(12)，由式(13)知，所选择的D(x)应该在支持向量处取值大而在其他点取值小 (14)和(15)修正它，得到修正核函数K; 3.3保角变换 Step4使用修正核函数K训练SVM; 本文提出了一种新的保角变换D(x),如下 Step5重复执行Step3与Step4,直到获得式：最好的分类性能 D(x)=∑exp(-‖x-x:‖2/x)(14) 4实验结果与分析其中，t=‖xm-x:I2,xm的取值可由下式给出： 4.1人工非线性分类问题 xm,=+1 为了测评本文所提出的模型选择方法性能， xm= (15) xm,y:=-1 首先研究了它在人工非线性分类问题上的应用. 这里选用在区域[-0.5,0.5]×[-0.5,0.5]内随在式(15)中，x=1 x,nt是类标签为+1 机均匀分布的数据点，两类数据由非线性分界线 y=0.5sin(2πx)所决定，如图2所示.在仿真实的支持向量数目，x表示属于正类的支持向量验中，每类随机选取100个样本构成训练集，每类样本的特征均值；x。=1∑ ,nsv是类标签再另选1000个样本构成测试集， nsv 由核参数优化算法所得到的误差惩罚因子C

北京科技大学学报 2 0 06 年第 1 期 a a _ _ , igj ( ` ’ 一石寻 ( ` , ` ” X 一二 ( ` 0 ’ 在黎曼空间中 , 体积微元可被定义为 : d y 一甲百石) d x l d x Z … d x 、 ( r r ) 其中 g ( 二 = de t } g 。 ( 二 )1 , 放大因子了奋石万表示在映射切下输入空间 I 的局部区域如何在特征空间 F 中被放大 . 3 . 2 A m ar i 的核函数修正思想根据在输入空间所诱导的黎曼几何结构的基础上 , 日本学者 A m ar i 等人提出了通过修正核函数来提高 s v M 分类性能的方法 ’[, 7〕 . 该方法的基本思想是通过改变不同区域的体积元来增大 S v M 分界面处的空间分解力 , 即增大 f ( x ) = 0 分离边界曲面附近区域的黎曼度规 igj ( x) , 而同时减小其他区域的 igj ( x ) . 基于在实际应用中分离边界曲面是未知的这一事实 , A m ar i 则通过增加支持向量邻域的黎曼度规矩阵来解决这个问题 , 提出了如下定义的修正核函数的准保角映射 . 定义 1 对于一个正的标量函数 D ( x ) , 定义 : K ( x , x ` ) = D ( x ) D ( x ’ ) K ( x , x ` ) ( 12 ) 称之为核函数通过因子 D ( x ) 的保角变换 , 则天( x , x ` )成为支持向量机的修正核函数 . 同时 , 非线性映射甲被修正为毋( x) = D ( x) 杯 x) . 对于高斯核函数 , 在其经过 D ( x )的保角变换后 , 黎曼度规 igj ( x) 将变为 : 云ij ( x ) = D 、 ( x ) jD ( x + D Z ( x ) g 。 ( x ) ( 1 3 ) 甘。 n , _ 八 _ 旦旦工主 2 其甲 . D 、 ( x ) = - . / 、月 , 一 , 、一 ` a x 、由式 ( 1 3) 知 , 所选择的 D ( x ) 应该在支持向量处取值大而在其他点取值小 . 3 . 3 保角变换本文提出了一种新的保角变换 D ( x ) , 如下为一 1 的支持向量数目 , x 孟表示属于负类的支持向量样本的特征均值 . 所以 , : 、表示支持向量样本 x : 与其所属类的支持向量特征中心矢量 x m 间的 E u e li d e a n 距离 . 显然 , 从式 ( 14 ) 可知映射 D ( x) 与样本到支持向量的距离呈指数递减 . 定理 2 采用式 ( 14) 所示保角变换 D ( x ) 的修正核函数元( x , x ` )满足 M er ce r 定理的条件 . 证明设 A 为 R N 的紧子集 , 对于任意的、 ( 二 ) 。 : ’ ( , , , 有 { ` ’ ( ! , d 工 0 , 因此必存在一个正数月 , 使得 D ( x ) ) 月> 0 , 从而有 : 汗元( 二 . 二 · ) 、 ( 二 ) 。 ( 二 · ) d 二 d x 一 J J A 火 A 仟 n ( 二 ) n ( 二 · )、 ( 二 . 二 )。 ( 二 )、 ` 二 · ) d x d x · 要。 , 厅兀 ( x . x / ) 、 ( x ) 、 ( x · ) d x d x ·妻 0 . J J A X A 定理得证 . 在所提出的保角变换 D ( x ) 基础上 , 给出了数据依赖型修正核函数的支持向量机训练算法 . 该算法可描述为 : st eP I 根据具体问题初步确定所选核函数类型 ; st eP Z 利用本文提出的核参数优化算法 , 求得优化核参数 , 进而确定初始的核函数 K ; s t e p 3 使用核函数兀训练 S v M , 获取支持向量的信息 , 并计算 x 盆和 x 爪 , 然后按式 ( 12) , ( 14 ) 和 ( 15) 修正它 , 得到修正核函数元; s t e p 4 使用修正核函数 K 划11练 s v M ; s t e p s 重复执行 s t e p 3 与 s t e p 4 , 直到获得最好的分类性能 D ( x ) 一艺 e x p ( 一 ll x 一 x 、 11 2 / : 子) ( 一4 ) 其中 , : 卜 } X m 一 X 乞工 m = }1 2 , x m 的取值可由下式给出 : X m , y i = + 1 = 一 1 ( 1 5 ) 工 m , y ￡ n X 类是类标签为 + 1 n 脚, 艺浏土 , 在式 ( 1 5) 中 vsn , x 孟= 的支持向量数目 , x 盖表示属于正类的支持向量样本的特征均值 ; · 、一亡郭 , · 、是类标签 4 实验结果与分析 4 . 1 人工非线性分类问题为了测评本文所提出的模型选择方法性能 , 首先研究了它在人工非线性分类问题上的应用 . 这里选用在区域〔一 0 . 5 , 0 . 5」x 〔一 0 . 5 , 0 . 5] 内随机均匀分布的数据点 . 两类数据由非线性分界线 y = 0 . s is n ( 2二 x ) 所决定 , 如图 2 所示 . 在仿真实验中 , 每类随机选取 10 0 个样本构成训练集 , 每类再另选 1 0 0 个样本构成测试集 . 由核参数优化算法所得到的误差惩罚因子 C

Vol.28 No.1 封筠等：一种SVM分类器自动模型选择方法 91· 0.5 量，形成最终输入分类器的特征向量.图4以某 0.4000。。。 0 0.3 8 个汉字样本为例说明了本文所采用的特征提取方 08 法，另外，实验中发现弹性网格数N×N选为 0.200 8g0 0 8×8时分类效果最好 0.1 0 0 8080 016 029.8 0 -0.3 0.4- (1) (2) (3) ◆ 0,5405-6.2u00.10203040.5 图4特征提取示例.(1)规范化汉字：(2)LL子图：(3)弹性网格化的LL子图图2人工数据集（两类分别用和'“'表示） Fig.4 Illustration of feature extraction:(1)normalized char- Fig.2 Artificial data set.the two classes are denoted by acter;(2)LL sub-image:(3)meshed LI.sub-image and 'respectively 以相似字组“己巳"为例来研究本文所提出的为2048，宽度参数。为2.在此优化值的基础上，模型选择方法在手写相似字识别中的应用，在实利用本文所提出的保角变换对核函数进行送代修验中，每个汉字选用900套不同的书写样本，其中正计算，其结果如图3所示.可见，在第1步迭代 400套用作训练，剩余500套用于测试.由核参数时SVM分类器就达到了最好的性能0.033，与没优化算法所得到的误差惩罚因子C为16，宽度参有修正前的0.09相比较，测试误差要降低数：为8.对核函数进行迭代修正计算的结果如 63.3%,性能得到了大大改善图5所示.在第1步送代时GE达到了0.033并 0.99 且此时支持向量占总的训练样本比例为17.0%，与没有修正前的GE为0.06及支持向量比例为 0.07 54.9%相比较，GE要降低45%，支持向量比例要降低69%，由此可见SVM分类器性能得到了较 06 大程度地改善.另外，对比图3可以发现两者的 0.05 核函数修正迭代曲线变化趋势很相似，都是在第 0.04 1步迭代时SVM分类器就达到了最好的性能，并在后面的迭代中泛化误差GE趋于基本不变 0.030 6 送代步 0.0609 留3人工非线性分类问题的核函数修正结果 0.055 Fig.3 Simulated result for modified kernel on the artificial 0.050 non-linear classification problem 4.2手写相似汉字识别问题 0.045 相似字的识别是脱机手写汉字识别技术需要 0.040 解决的一个关键问题.尝试应用本文所提出的模 0.035 型选择方法来解决相似字识别这一难题.首先采用弹性网格与小波变换相结合的方法提取汉字的 0.0300 4 5 迭代步特征，具体做法是：先将规范化后的二维手写体汉图5相似字组“己已”识别的核函数修正结果字图像(64<64)按行、列分别进行一级小波变换， Fig.3 Simulated result for modified kernel on the similar set 对得到的低频分其【L子图（保持了汉字基本信 '己已'recognition problem 息)按汉字图像在水平和垂直两个方向上的直方图投影的均匀划分构造一组弹性网格(N×N 5 结论格)，再计算每个网格内的像素概率分布，进而得到一个V维的特征向量.然后，利用部分空间本文提出了一种SVM分类器自动模型选择法选择那些能表明相似字间主要差别的特征分的新方法，有效地解决了SVM从理论走向实际

V o l . 2 8 N o . l 封药等 : 一种 s v M 分类器自动模型选择方法令。今卜+., 闷。户今. 翔沪泌 . 卜气令 0 0 0 0 今吞母令仑 o O 压户 o U 、 O O o O 饭于量 , 形成最终输入分类器的特征向量 . 图 4 以某个汉字样本为例说明了本文所采用的特征提取方法 . 另外 , 实验中发现弹性网格数 N 又 N 选为 8 x s 时分类效果最好 . 0 0 0 + 、 + 已已。 ( l ) ( 2 ) ( 3 ) 一í么。一 0 . 至执卜户一 0 2 一一住 3 漆一 0 . 4 一尹。。傀魏犷一住s只廿黑共一又j 〕一气) 拜一LJ ` 乍 0 . 2 一 0 . 1 0 0 . 1 0 2 0 一 3 0 . 4 0 . 5 X 图 2 人工数据集 {两类分别用 ` 。 ’ 和 ` 关 ’ 表示 ) F ig . 2 a n d ` 关人r t in e i a 搜 d a t a s e t . t he t附 e l a s s e s a er d e n o tde b y 图 4 特征提取示例 . ( l) 规范化汉字 ; 〔2 ) L L 子图 ; ( 3 )弹性网格化的 L L 子图 F i g . 4 I及一此 t r a t盖。 n o f afe t 吐代 ex t ar e t i叨 : ( 1 ) n o r 秘li z de c h ar · a e t e r : ( 2 ) L L s u b · i m a g e ; ( 3 ) 砒 s h de L L s u b 一盖咖ge r e s P e e t i 、 e l》为 2 0 4 8 , 宽度参数。为 2 . 在此优化值的基础上 , 利用本文所提出的保角变换对核函数进行迭代修正计算 , 其结果如图 3 所示 . 可见 , 在第 1 步迭代时 S V M 分类器就达到了最好的性能 0 . 0 3 , 与没有修正前的 0 . ()9 相比较 , 测试误差要降低 6 3 . 3 % , 性能得到了大大改善 . 应0 1 2—3 4 5 6 以相似字组 “ 己巳 ” 为例来研究本文所提出的模型选择方法在手写相似字识别中的应用 . 在实验中 , 每个汉字选用 9 0 0 套不同的书写样本 , 其中 4 0 0 套用作训练 , 剩余 50 0 套用于测试 . 由核参数优化算法所得到的误差惩罚因子 C 为 16 , 宽度参数。为 8 . 对核函数进行迭代修正计算的结果如图 5 所示 . 在第 1 步迭代时 G E 达到了 0 . 0 3 并且此时支持向量占总的训练样本比例为 17 . 0 % , 与没有修正前的 G E 为 0 . 06 及支持向量比例为 5 4 . 9 % 相比较 , G E 要降低 4 5 % , 支持向量比例要降低 69 % , 由此可见 S V M 分类器性能得到了较大程度地改善 . 另外 , 对比图 3 可以发现两者的核函数修正迭代曲线变化趋势很相似 , 都是在第 1 步迭代时 S V M 分类器就达到了最好的性能 , 并在后面的迭代中泛化误差 G E 趋于基本不变 . 勺QOC “朽气通络,、日口0日n 日自曰Unù n曰门绷线迭代步图 3 人工非线性分类问题的核函数修正结果 0 . 06 0 0 . 0 5 5 F i g . 3 Sim ” . a t ed r es u l t f o r n l o d if ied ke r 俄 1 o n t he a r t ifj e i a l n o n 一 l i n e a r e l a s s 云6 e a t i o n P m b l e n l 0 乃50 4 . 2 手写相似汉字识别问题相似字的识别是脱机手写汉字识别技术需要解决的一个关键问题 . 尝试应用本文所提出的模型选择方法来解决相似字识别这一难题 . 首先采用弹性网格与小波变换相结合的方法提取汉字的特征 , 具体做法是 : 先将规范化后的二维手写体汉字图像( 64 只 6 4) 按行、列分别进行一级小波变换 , 对得到的低频分量几L 子图 ( 保持了汉字基本信息 ) 按汉字图像在水平和垂直两个方向上的直方图投影的均匀划分构造一组弹性网格 ( N 又 N 格 ) , 再计算每个网格内的像素概率分布 , 进而得到一个 N 二维的特征向量 . 然后 , 利用部分空间法选择那些能表明相似字间主要差别的特征分劣。刀4 5 兮二 0 0 4 0 0 . 0 3 5… 1 0刀3 0 6 图 5 1 2 3 4 5 6 迭代步相似字组 “ 己巳 ” 识别的核函数修正结果 F i g . 3 Si m u l a tde 代 s u 砚t fo r m峨心 iif de k e能 1 o n t h e s 应m il a r s e t ` 己已 ’ er 魄 n it i o n p r o b一e m 5 结论本文提出了一种 S V M 分类器自动模型选择的新方法 , 有效地解决了 S V M 从理论走向实际

·92· 北京科技大学学报 2006年第1期应用时所面临的模型选择这一“瓶颈”问题.首先 Ed.New York:Springer,2000 针对高斯核函数以Jaakkola--Haussler误差上界为 [2]Gold C,Sollichb P.Model selection for support vector ma 模型选择性能评价标准，应用粗网格与模式搜索 chine classifcation.Neurocomputing,2003,55:221 [3]Cortes C,Vapnik V.Support vector networks.Mach Learn. 相结合的优化算法寻找优化的模型参数.该优化 1995,20:273 算法充分利用了粗网格全局搜索及模式搜索的高 [4]Amari S,Wu S.Improving support vector machine classifiers 效率优点，特别适合于计算导数困难的低维优化 by modifying kernel functions.Neural Networks,1999,12: 问题.然后基于黎曼几何理论提出了一个新的保 783 角变换，对核函数进行数据依赖性的进一步改进， [5]Chapeile O,Vapnik V N.Choosing multiple parameters for 并证明了对应的修正核函数满足Mercer条件. support vector machines.Mach Learn,2002,46:131 16]Burges CJC.Geometry and invariance in kernel based meth 最后，在人工非线性分类问题实验研究的基础上， ods//Scholkopf B.Burges C JC.Smola A J.Advances in 将该方法应用于手写体相似汉字识别，实验结果 Kernel Methods-Support Vector Learning.Cambridge:MIT 表明SVM分类器性能得到了明显地改善. Press,1999 [7]Wu S,Amari S.Conformal transformation of kemel fune. 参考文献 tions:a data-dependent way to improve support vector machine classifiers.Neural Process Lett,2002,15:59 [1]Vapnik V N.The nature of statistical learning theory.2nd Automatic model selection method for support vector machines classifiers FENG Jun2),XIE Bin),HAO Weidong1),YANG Yang1) 1)Information Engineering School,University of Science and Technology Beijing,Beijing 100083,China 2)Department of Computer Science,Shijiazhuang Institute of Railway,Shijiazhuang 050043,China ABSTRACT An optimal approach was presented for model parameters of a support vector machine classifi- er based on coarse grid search combined with pattern search,in which the Jaakkola-Haussler error bound was considered as the evaluation criterion of model selection.Based on the Riemannian geometry theory,a novel conformal transformation was proposed and the kernel function was modified by the transformation in a data-dependent way.Simulated results for the artificial data set showed that the approach for automatic model selection was very effective.An application of the approach in handwritten similar Chinese characters recognition was further investigated.The experimental result showed remarkable improvement of the per- formance of the classifier. KEY WORDS support vector machines;model selection;Riemannian geometry;conformal transforma- tion;Chinese character recognition

北京科技大学学报 2 0 0` 年第 1 期应用时所面临的模型选择这一 “ 瓶颈 ” 问题 . 首先针对高斯核函数以 Ja k ko af 一 H au s el r 误差上界为模型选择性能评价标准 , 应用粗网格与模式搜索相结合的优化算法寻找优化的模型参数 . 该优化算法充分利用了粗网格全局搜索及模式搜索的高效率优点 , 特别适合于计算导数困难的低维优化问题 . 然后基于黎曼几何理论提出了一个新的保角变换 , 对核函数进行数据依赖性的进一步改进 , 并证明了对应的修正核函数满足 M er ce r 条件 . 最后 , 在人工非线性分类问题实验研究的基础上 , 将该方法应用于手写体相似汉字识别 , 实验结果表明 S V M 分类器性能得到了明显地改善 . 参考文献川 Va p n i k V N . T h e n a t u r e o f s t a t i s t i e a l l e am i叱 t h eo r y . Z n d E d , N e w Y or k : S p ir n 郎 r , 2 0 0 0 〔2 ] G o ld e , 50 1一i e h b P . M od e l s e l e e t io n f o r s u p卯rt ve c t o r m a - e h i n e e l as if e a t i o n . N e o r o c 帅)I . t i gn , 2 0 0 3 , 5 5 : 2 2 1 t 3 ] oC rt es C , v 叩 n ik V . S u p卯rt v e e t or n e t ow rks M a e h L e的 · 1 9 9 5 , 2 0 : 2 7 3 〔4 〕 A n l ar i s , w u 5 . xm p r vo i明 s叩即rt v e ct o r m a e h i n e e l a s if i e r s b y n 、浏if y ign k e rne l f u n c t ~ . N e u ar l N e tw or kS , 19 99 , 1 2 : 78 3 汇5 〕 Ch a p e ll e O , v a p n ik v N , C h o s i n g m u l t i p l e p amr et e r s f o r s u P p o r l v e e ot r m a e h i n e s . M a e h eL aur , 2 00 2 , 4 6 : 1 3 1 〔6 〕 B u 啥es C J e . G eO m e t r y an d i n va ir an c e i n k e r n e l bas e d m e t h - od s / cS h6I k o p f B , B u 啥es C J C , S m o l a A J . A d va n e e s i n K e rn e l M e t h od s 一 S 叩op rt V ce t o r L ~ i雌 . C a m b r i d g e : M IT P r e s , 1 9 9 9 [ 7 了 W u S , A m a r i 5 . oC n fo rm a l t r an s fo rm a t i o n o f k e rn e l f u n e - t i o n s : a d a t a 一 d e 伴n d e n t w a y t o im p ro v e s u p po r t ve e t o r m a e h i n e e l a s if i e rs . N e u r a l P r oc 积” L e t t , 2 0 0 2 , 1 5 : 5 9 A u t o m a t i e m o d e l s e l e e t i o n m e t h o d f o r s u p p o r t v e e t o r m a e h i n e s e l a s s i fi e r s 咫N G J u n l , 2 ) , x 班 B i n l ) , 月A o we 艺己o n g l ) , 以N G 介 n g l ) 1 ) I n fo 二 a t i o n E n g i n e e ir n g cS h o l , U n i v e r s i t y o f cS i e n e e a n d T e e h nol 吃y eB ij i眼 , B e ij i n g 1 0 00 8 3 , C h i n a 2 ) D e p art m en t of o 〕 n l p u t e r cS i e n e e , S h ij iaz h u a n g I n s t i t u t e o f R a Uw a y , s h ij iaz h u a n g 0 5 0 04 3 , e h i n a A BS T R A C T A n o p t i m a l a p p or a e h w a s p r e s e n t e d f o r m o d e l p a r a m e t e r s o f a s u p p o r t v e e t o r m a e h i n e e l a s s i fi - e r b a s e d o n e o a r s e g r id s e a r e h e o m b i n e d w i t h P a t t e r n s e a r e h , i n w h i e h t h e J a a k k o l a 一 H a u s s l e r e r or r bo u n d w a s e o n s i d e r e d a s t h e e v a l u a t i o n e r i t e r i o n o f m o d e l s e l e e t i o n . B a s e d o n t h e R i e m a n n i a n g e o m e t r y t h e o r y , a n o v e l e o n fo r m a l t r a n s fo r m a t i o n w a s p or po s e d a n d t h e k e r n e l f u n e t i o n w a s mo d if i e d b y t h e t r a n s fo r m a t i o n i n a d a t a 一 d e p e n d e n t w a y . S im u l a t e d r e s u l t s fo r t h e a r t i fi e i a l d a t a s e t s h o w e d t h a t t h e a p P or a e h fo r a u t o m a t i e m o d e l s e l e e t i o n w a s v e r y e f f e e t i v e . A n a P p li e a t i o n o f t h e a p p or a e h i n h a n d w ir t t e n s i m i l a r C h i n e s e e h a r a e t e r s r e e o g n i t i o n w a s f u r t h e r i n v e s t i g a t e d . T h e e x p e r im e n t a l r e s u l t s ho w e d r e m a r k a b l e im p or v e m e n t o f t h e P e r - fo mr a n e e o f t h e e l a s s i fi e r . K E Y W O R D S s u p 卯 r t v e e ot r m a e h i n e s ; mo d e l s e l e e t i o n ; Ri em an n i a n g eom e t r y ; e o n fo mr a l t r a n s f o mr a - t ion ; C h i n e s e e h a r a e t e r r e e o g n i t i o n

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

一种SVM分类器自动模型选择方法