支持向量机动态学习方法及其在票据识别中的应用

介绍了用支持向量机(SVM)进行动态学习训练的方法．解决了在机器学习过程中,训练样本获取比较困难,样本可随外界条件改变而变化的问题．实践证明,使用该方法可以动态跟踪样本的变化,保证SVM分类器的最优性能．利用该方法设计的银行票据OCR系统的实际应用说明了该方法的有效性．

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：451.96KB

D0I:10.13374/i.issn1001-053x.2006.02.045 第28卷第2期北京科技大学学报 Vol.28 No.2 2006年2月 Journal of University of Science and Technology Beijing Feb.2006 支持向量机动态学习方法及其在票据识别中的应用陈增照12)杨扬1)董才林2)何秀玲1,2) 1)北京科技大学信息工程学院，北京1000832)华中师范大学最优控制与离散数学重点实验室，武汉430079 摘要介绍了用支持向量机(SVM)进行动态学习训练的方法，解决了在机器学习过程中，训练样本获取比较困难，样本可随外界条件改变而变化的何题.实践证明，使用该方法可以动态跟踪样本的变化，保证SVM分类器的最优性能.利用该方法设计的银行票据OC℉系统的实际应用说明了该方法的有效性. 关键词支持向量机；动态学习；机器学习；手写字符识别；票据识别分类号TP391.4;TP181 在机器学习过程中，有一些问题的样本获取 1支持向量机比较困难，并且样本随外界条件改变而变化，无法建立一个稳定的训练样本集.例如在银行票据 SVM是统计学习理论中最年轻的内容，也是 OCR识别系统中，对于手写字符的识别，需要一最实用的部分，其核心内容是在1992到1995年定数量的字符作为训练样本集，但银行的实际票间提出来的，目前仍处在不断发展阶段[1,34] 据由于保密原因获取比较困难，特别是一些关键 SVM是从线性可分情况下的最优分类超平面发的票据.另外，手写字符的人为因素很大，在一个展而来的，基本思想可用图1的两维情况说明. 地域采集的样本往往不能适合另外一个地域，甚图中实心点和空心点代表两类样本，H为分类至在同一个地域不同分支机构的样本也可能会有线，H1,H2分别为过各类中离分类线最近的样本很大的差别.要得到较好的识别效果，需要花很且平行于分类线的直线，它们之间的距离叫做分多时间按地域或者分支机构分别采集训练样本进类间隔(Margin),所谓最优分类线就是要求分类行训练.为了解决这一问题，本文提出了一种动线不但能将两类正确分开（训练错误率为0），而态学习方法，它可以在系统的使用过程中，动态地且使分类间隔最大.使分类间隔最大实际上就是判断分类样本的变化情况，主动选择样本进行学对推广能力的控制，是SVM的核心思想之一，习，能够有效地解决样本采集困难和样本改变的问题统计学习理论是建立在一套坚实的理论基础之上的】，为解决有限样本学习问题提供了一个统一的框架.它能将很多现有方法纳入其中，有 0 望帮助解决许多原来难以解决的问题；同时，在这一理论基础上发展了一种新的通用学习方法一支持向量机(SVM),它表现出很多优于已有方法 Margin 2/川wl 的性能，可成功地应用于函数模拟、模式识别和数据分类等，取得了良好的效果，成为当前国际上的图1线性可分情况下的最优分类器研究热点[12] Fig.1 Optimal classifier of linear separable data 设分类线方程为x·w+b=0,可以对它进收稿日期：2004-1226修回日期：20050606 基金项目：湖北省科技攻关计划(No.2003BDST004) 行归一化，使得对线性可分的样本集(x,y:),i= 作者简介：陈增照(1974一)，男，博士研究生 1,2,…,n,x∈R,∈1+1，-1，满足

第 2 8 卷第 2 期 2 0 0 6 年 2 月北京科技大学学报 J o u rn a l o f U n ive 比 it y o f s c ie n ce a n d T e c h n 0 IOg y Be 劝i雌 V lo . 2 8 N o . 2 F e b 。 2 0 0 6 支持向量机动态学习方法及其在票据识别中的应用陈增照 ` · “ ) 杨扬 , ) 董才林 2 ) 何秀玲` , 2 ) l) 北京科技大学信息工程学院 , 北京 1 00 0 83 2) 华中师范大学最优控制与离散数学重点实验室 . 武汉 4 30 0 79 摘要介绍了用支持向量机 ( S V M )进行动态学习训练的方法 . 解决了在机器学习过程中 , 训练样本获取比较困难 , 样本可随外界条件改变而变化的问题 . 实践证明 , 使用该方法可以动态跟踪样本的变化 , 保证 S V M 分类器的最优性能利用该方法设计的银行票据 O C R 系统的实际应用说明了该方法的有效性 . 关钮词支持向量机 ; 动态学习 ; 机器学习 ; 手写字符识别 ; 票据识别分类号 T P 3 9 1 . 4 ; T P 1 8 1 在机器学习过程中 , 有一些问题的样本获取比较困难 , 并且样本随外界条件改变而变化 , 无法建立一个稳定的训练样本集 . 例如在银行票据 O CR 识别系统中 , 对于手写字符的识别 , 需要一定数量的字符作为训练样本集 , 但银行的实际票据由于保密原因获取比较困难 , 特别是一些关键的票据 . 另外 , 手写字符的人为因素很大 , 在一个地域采集的样本往往不能适合另外一个地域 , 甚至在同一个地域不同分支机构的样本也可能会有很大的差别 . 要得到较好的识别效果 , 需要花很多时间按地域或者分支机构分别采集训练样本进行训练 . 为了解决这一问题 , 本文提出了一种动态学习方法 , 它可以在系统的使用过程中 , 动态地判断分类样本的变化情况 , 主动选择样本进行学习 , 能够有效地解决样本采集困难和样本改变的问题 . 统计学习理论是建立在一套坚实的理论基础之上的 i ` ] , 为解决有限样本学习问题提供了一个统一的框架 . 它能将很多现有方法纳入其中 , 有望帮助解决许多原来难以解决的问题 ; 同时 , 在这一理论基础上发展了一种新的通用学习方法支持向量机 ( SV M ) , 它表现出很多优于已有—方法的性能可成功地应用于函数模拟、模式识别和数据分类等 , 取得了良好的效果 , 成为当前国际上的研究热点〔,创 . 收稿 B期 : 20 0 4 一 1 2 一 2 6 修回日期 : 2 0 0 5习 6心 6 基金项目: 湖北省科技攻关计划 ( No . Z o03 BD S T oo 4) 作者简介 : 陈增照 ( 19 74 一 ) , 男 , 博士研究生 1 支持向量机 S V M 是统计学习理论中最年轻的内容 , 也是最实用的部分 , 其核心内容是在 1 9 9 2 到 1 9 9 5 年间提出来的 , 目前仍处在不断发展阶段〔’ , 3一 S V M 是从线性可分情况下的最优分类超平面发展而来的 , 基本思想可用图 1 的两维情况说明 . 图中实心点和空心点代表两类样本 , H 为分类线 , H l , H : 分别为过各类中离分类线最近的样本且平行于分类线的直线 , 它们之间的距离叫做分类间隔 ( M ar ig n) . 所谓最优分类线就是要求分类线不但能将两类正确分开 (训练错误率为 0) , 而且使分类间隔最大 . 使分类间隔最大实际上就是对推广能力的控制 , 是 S V M 的核心思想之一图 1 线性可分情况下的最优分类器 Fi g · 1 O Pt im a l e l as in e r o f li en ar s e p ar b l e d a t a 设分类线方程为 x · w + b 二 0 , 可以对它进行归一化 1 , 2 , … , n 使得对线性可分的样本集 ( x ` , y ` ) , i 二 x 、〔 R d , 夕、任 } + 1 , 一 1 } , 满足 DOI: 10. 13374 /j . issn1001 -053x. 2006. 02. 045

·200· 北京科技大学学报 2006年第2期 y:(wx）+b)-1≥0i=1,2,…n(1) 分类函数式(6)，都只涉及到训练样本间的内积运此时分类间隔Margin等于2/‖w∥，使分类间隔算，这样在高维空间只需要进行内积运算，而这种最大等价于使‖w2∥w∥最小，满足条件式(1) 内积运算是可以用原空间的函数实现的，根据泛且使2/！w‖最大的分类面就叫做最优分类超平函有关理论，只要一种核函数满足Mercer条件，面，如图1中的H,H1,H2上的训练样本点叫做它就对应着某一变换空间的内积. 支持向量(SV).这样，寻找最优分类超平面的问概括地说，支持向量机通过事先选择好的某题就转化为求如下的一个二次规划问题：一个非线性变换，将输入向量x映射到高维特征 min4(w)=lw‖2/2 (2) 空间Z,在这个特征空间中构造一个最优分类超满足约束条件：平面.支持向量机的示意图如图2所示，它由两 y(wx:+b)≥1，i=1,2,…,n (3) 层组成：第一层从由核定义的给定基的集合中选利用Lagrange优化方法可以把上述最优分择基K(x,x:),i=1,…,5;第二层在这一空间中类超平面问题转化为其对偶问题1,5)，即在约束构造一个线性函数，这完全等价于在对应的特征条件空间中构造一个最优分类超平面. 宫m=0 (4a) 和 a:≥0，i=1,2,…,n ay (4a) 下对a:求解下列函数的最大值 K(xx) K(,x) K(xx) Q(a)= 会-台2aoS a:为每一个样本对应的Lagrange乘子.这是一 +。。个不等式约束下的二次函数寻优问题，存在惟一解.容易证明，解中将只有一部分（通常只有一少图2支特向量机的构成部分)a:不为零，对应的样本就是支持向量，解上 Fig.2 Structure of SVM 述问题后得到的最优分类函数是对于多类分类情况，可以利用如下方法来构 f(x)=sgn(w·x+b)= 造一个n类分类器1山： sgm∑aiy(xx)+b (6) (1)构造n个两类分类器，其中规则f(x), 式中，b“为分类阙值，i为支持向量.可以用任一 k=1,…,n,将第k类的训练样本与其他训练样个支持向量（满足条件式(3）中的等号)求得本分开.若向量x:属于第k类，则sigm(f(x:)= 在线性不可分的情况下，可以在条件式(3) 1,否则sign(f(x:)=-1. 中增加一个松弛项：≥0，则式(3)变为： (2)通过选取函数f(x),k=1,…,n中最大 y((wx:)+b)≥1-，i=1,2,…n(7) 值所对应的类别 m =arg maxifi (x;),,fn (x:), 将目标改为求(，5)=分P+c启最即可构造出一个n类分类器. 小，即折中考虑最少错分样本和最大分类间隔，就 2SVM实现动态学习得到广义最优分类超平面，其中，C>0是一个常数，它控制对错分样本惩罚的程度.广义最优分动态学习的过程是首先从标准的训练样本库类超平面的对偶问题与线性可分情况下几乎完全中选择适当的样本进行训练，设计分类器；然后根相同，只是条件式(4b)变为：据当前分类器在分类过程中的性能进行评价，判 C≥a≥0i=1,2,…,n (8) 断是否需要采集新的样本进行训练，若性能小于对于非线性问题，可以通过非线性变换转化某一给定值，则可以根据分类后的处理过程动态为某个高维空间中的线性问题，在变换空间中求采集新的训练样本，并重新进行训练，设计新的分最优分类超平面.这种变换一般比较复杂，但从类器.这个过程可以重复进行，从而使学习变成上面的讨论可以看出，不论是寻优函数式(5)还是动态过程，也可以说是自动学习

. 2 0 0 . 北京科技大学学报年第期 2 0 0 6 2 y ` ( ( w · ` x ) + b ) 一 1 ) 1 = 1 0 , 2 , … n ( 1 ) 此时分类间隔 M a gr in 等于 2/ }{ w {} , 使分类间隔最大等价于使 !1 w 11 “ l w {l最小 , 满足条件式 ( l ) 且使 2/ {! w {l 最大的分类面就叫做最优分类超平面 , 如图 1 中的 H , H , , H : 上的训练样本点叫做支持向量 ( S v ) . 这样 , 寻找最优分类超平面的问题就转化为求如下的一个二次规划问题 : m i n 笋( w ) 二 11 w .1 “ / 2 ( 2 ) 满足约束条件 : 夕` ( w · x * + b ) ) 1 , i = 1 , 2 , … , n ( 3 ) 利用 L ag ar n g e 优化方法可以把上述最优分类超平面问题转化为其对偶问题〔’ · 5 ] , 即在约束条件分类函数式 ( 6 ) , 都只涉及到训练样本间的内积运算 , 这样在高维空间只需要进行内积运算 , 而这种内积运算是可以用原空间的函数实现的 . 根据泛函有关理论 , 只要一种核函数满足 M er ce r 条件 , 它就对应着某一变换空间的内积 . 概括地说 , 支持向量机通过事先选择好的某一个非线性变换 , 将输入向量 x 映射到高维特征空间 z , 在这个特征空间中构造一个最优分类超平面 . 支持向量机的示意图如图 2 所示 , 它由两层组成 : 第一层从由核定义的给定基的集合中选择基 K ( x , x 、 ) , i = 1 , … , : ; 第二层在这一空间中构造一个线性函数 , 这完全等价于在对应的特征空间中构造一个最优分类超平面 . 习 y ia * = 0 和 a 、 ) 0 , i = 1 , 2 , … , n 下对 a * 求解下列函数的最大值 ( 4 a ) ( 4 a ) ~ , 、启 l 砚火0 ) = 夕 J 比了一下万犷写一 ` 名 a , 岁伪 ( x 、 · xj ) ( 5 ) “ 、为每一个样本对应的 L ag ar n g e 乘子 . 这是一个不等式约束下的二次函数寻优问题 , 存在惟一解 . 容易证明 , 解中将只有一部分 (通常只有一少部分 ) a 、不为零 , 对应的样本就是支持向量 , 解上述问题后得到的最优分类函数是 f ( x ) = s g n ( w · x + b ) = s g n ( 习。 : , 、 ( x ` · 二 ) + 。 · ) ( 6 ) 式中 , b ’ 为分类闭值 , i 为支持向量 . 可以用任一个支持向量 (满足条件式 ( 3) 中的等号 )求得 . 在线性不可分的情况下 , 可以在条件式 ( 3) 中增加一个松弛项宁* ) 0 , 则式( 3) 变为 : 夕 : ( ( w · x ` ) + b ) ) 1 一务 , i 二 1 , 2 , … n ( 7 ) 将目标改为求 ( , , ; ) 一令J} , 一} , 十。 ! 交。 ) 最 ’ 一 ’ ` ’ ` 一 ’ “ 一 ` ” ” ’ 2 ” ” ” 一、自、 , / ~ 小 , 即折中考虑最少错分样本和最大分类间隔 , 就得到广义最优分类超平面 . 其中 , C > O 是一个常数 , 它控制对错分样本惩罚的程度 . 广义最优分类超平面的对偶间题与线性可分情况下几乎完全相同 , 只是条件式 ( 4 b) 变为 : C ) a ` ) 0 1 = 1 , 2 , … , n ( 8 ) 对于非线性问题 , 可以通过非线性变换转化为某个高维空间中的线性问题 , 在变换空间中求最优分类超平面 . 这种变换一般比较复杂 , 但从上面的讨论可以看出 , 不论是寻优函数式 ( 5) 还是图 2 支持向 t 机的构成 n g . 2 tS cur tur e o f S V M 对于多类分类情况 , 可以利用如下方法来构造一个。类分类器 1[] : ( 1) 构造 n 个两类分类器 , 其中规则人 ( x ) , k = 1 , … , n , 将第 k 类的训练样本与其他训练样本分开 . 若向量 x ` 属于第 k 类 , 则 is gn ( 人 ( x ` ) ) 二 1 , 否则 s i g n ( fk ( x , ) ) = 一 1 . ( 2 )通过选取函数 fk ( x ) , 走 = z , … , n 中最大值所对应的类别 m = a r g m a x }f l ( x 、 ) , … , 几 ( x , ) } , 即可构造出一个 n 类分类器 . 2 S V M 实现动态学习动态学习的过程是首先从标准的训练样本库中选择适当的样本进行训练 , 设计分类器 ; 然后根据当前分类器在分类过程中的性能进行评价 , 判断是否需要采集新的样本进行训练 , 若性能小于某一给定值 , 则可以根据分类后的处理过程动态采集新的训练样本 , 并重新进行训练 , 设计新的分类器 . 这个过程可以重复进行 , 从而使学习变成动态过程 , 也可以说是自动学习

Vol.28 No.2 陈增照等：支持向量机动态学习方法及其在票据识别中的应用 ·201· 这里的标准训练样本库，可以使用当前已有号等，并与银行主机流水数据进行核对.要识别的样本数据库（例如，对手写金融汉字训练时可采的信息大部分是手写数字，由于各人的手写习惯用HCL2000库[61)，或者是自己建立的小样本数不同，决定了使用统一的训练样本不可能得到较据库，但必须保证每个类别的训练样本集不能空，好的识别结果.但由于不同地域人们的书写习一般有3一5个样本即可. 惯，以及每个人的书写习惯有相对的稳定性，所以对于判断何时进行重新训练，可以根据分类可以针对不同的分支机构分别采集训练样本进行的对象以及先验知识来设置一个阈值，并在使用学习.系统可以在识别结果与银行主机流水数据过程中进行调整.比如，对于印刷体数字的识别，进行核对时，对分类器的性能进行评价，并在需要分类器的性能一般可超过99%，如果系统中单字时重新采集新样本进行学习.系统处理过程如图识别正确率低于99%，就可以认为分类器遇到了 3如示新的样本（新字体），需要重新采集新样本进行训练；但对于手写的数字，这个阈值可以设置为初始样本库特征提取字符特征库训练SVM待识别字符 95%或者更小一些.需要注意的是，在样本稳定字符识别入特征提取的情况下，经过若干次训练后，分类器的性能也逐渐稳定（也可以根据这个条件来判断当前分类器新样本库采集样本口识别结果的性能是否达到最优)，这时若分类器性能还结果核对是低于给定的阈值，则说明阙值设置的不合理，需评价分类器要重新调整分类后的处理过程是动态学习所必须的，系图3银行票据OCR识别系统结构 Fig.3 Stracture of a bank slip recognition system 统需要在这个过程评价分类器的性能，收集新的训练样本，重新训练生成新的分类器.在实际应系统将手写数字正规化为16×16点阵，输入用中，很多情况下是可以满足这个条件的，比如银空间的维数为256，核函数采用二阶多项式函数，行票据OCR识别系统、自动判卷系统等，由于这初始样本库采用自己收集到的样本，运行结果如些系统需要保证识别结果的准确性，因此对识别表1所示，其中识别率指对手写数字的单字识结果（特别是识别错误的情况）需要进一步的检查别率核对，系统可以在检查的过程中加入对分类器性能的评价，并在需要时重新采集样本进行训练. 表1银行票据OCR识别系统运行结果采集样本的策略是选择识别出错的样本，这可以 Table 1 Recognized results of a bank slip recognition system 在对识别结果进行检查核对时同步进行时间/d 135791115 由SVM的原理可以看出，最优分类超平面识别率/%32 63 79 89 93 94 95 只与支持向量(SV)有关，SVM通过使分类间隔最大来设计最优分类超平面，以获得最好的推广可以看出，开始的7d时间内识别率增加很能力.样本点到最优分类超平面的距离则是判断快，7d以后识别率逐步趋向稳定，大约在95%时该样本点分类性质的主要因素.设样本点x到最达到最好的识别效果优分类超平面H的距离为d(x,H),对新样本的选择需要尽量靠近当前的分类边界[8]，即使新样 4 结语本xo满足d(xo,H)=min(d(x,H)),其中x是用SVM实现动态学习的方法，可以在系统已经采集到的样本，需要注意的是，在加入新的的使用过程中，动态地判断分类样本的变化情况，样本时，训练后分类器的分类边界可能会改变主动选择样本进行学习，能够有效地解决样本采 3 在银行票据OCR识别系统中的集困难和样本改变的问题.实践证明，使用该方法可以动态跟踪样本的变化，保证SVM分类器应用的最优性能.本系统已在商业银行的银行票据银行票据OCR识别系统是银行业务事后监 OCR识别系统中应用，取得了良好的效果.进一督系统的重要组成部分，其任务是自动提取并识步计划研究的内容包括：改进核函数，采用更光滑别银行票据中的要素信息，包括金额、帐号、流水的核函数；研究采集新样本时的样本选取方法

V o l 。 2 8 N o 。 2 陈增照等 : 支持向 t 机动态学习方法及其在票据识别中的应用这里的标准训练样本库 , 可以使用当前已有的样本数据库(例如 , 对手写金融汉字训练时可采用 H c 2L 0 0 0 库 6[] ) , 或者是自己建立的小样本数据库 , 但必须保证每个类别的训练样本集不能空 , 一般有 3 一 5 个样本即可 . 对于判断何时进行重新训练 , 可以根据分类的对象以及先验知识来设置一个阂值 , 并在使用过程中进行调整 . 比如 , 对于印刷体数字的识别 , 分类器的性能一般可超过 9 % , 如果系统中单字识别正确率低于 9 % , 就可以认为分类器遇到了新的样本(新字体 ) , 需要重新采集新样本进行训练 ; 但对于手写的数字 , 这个闭值可以设置为 95 % 或者更小一些 . 需要注意的是 , 在样本稳定的情况下 , 经过若干次训练后 , 分类器的性能也逐渐稳定 ( 也可以根据这个条件来判断当前分类器的性能是否达到最优〔’ )] , 这时若分类器性能还是低于给定的闭值 , 则说明闭值设置的不合理 , 需要重新调整 . 分类后的处理过程是动态学习所必须的 , 系统需要在这个过程评价分类器的性能 , 收集新的训练样本 , 重新训练生成新的分类器 . 在实际应用中 , 很多情况下是可以满足这个条件的 , 比如银行票据 O C R 识别系统、自动判卷系统等 . 由于这些系统需要保证识别结果的准确性 , 因此对识别结果 (特别是识别错误的情况 )需要进一步的检查核对 , 系统可以在检查的过程中加入对分类器性能的评价 , 并在需要时重新采集样本进行训练 . 采集样本的策略是选择识别出错的样本 , 这可以在对识别结果进行检查核对时同步进行 . 由 S V M 的原理可以看出 , 最优分类超平面只与支持向量 ( S V ) 有关 , S V M 通过使分类间隔最大来设计最优分类超平面 , 以获得最好的推广能力 . 样本点到最优分类超平面的距离则是判断该样本点分类性质的主要因素 . 设样本点 x 到最优分类超平面 H 的距离为 d ( x , H ) , 对新样本的选择需要尽量靠近当前的分类边界〔“ 〕 , 即使新样本 x 。满足 J ( x 。 , H ) = m i n ( J ( x , H ) ) , 其中 x 是已经采集到的样本 . 需要注意的是 , 在加入新的样本时 , 训练后分类器的分类边界可能会改变 . 3 在银行票据 O C R 识别系统中的应用银行票据 O C R 识别系统是银行业务事后监督系统的重要组成部分 , 其任务是自动提取并识别银行票据中的要素信息 , 包括金额、帐号、流水号等 , 并与银行主机流水数据进行核对 . 要识别的信息大部分是手写数字 , 由于各人的手写习惯不同 , 决定了使用统一的训练样本不可能得到较好的识别结果 . 但由于不同地域人们的书写习惯 , 以及每个人的书写习惯有相对的稳定性 , 所以可以针对不同的分支机构分别采集训练样本进行学习 . 系统可以在识别结果与银行主机流水数据进行核对时 , 对分类器的性能进行评价 , 并在需要时重新采集新样本进行学习 . 系统处理过程如图 3 如示 . 图 3 银行票据 O C R 识别系统结构 F ig . 3 St r u d 峨 o f a b a . k s li P r ec og . i t iou sy et m 系统将手写数字正规化为 16 x 1 6 点阵 , 输入空间的维数为 2 5 6 , 核函数采用二阶多项式函数 , 初始样本库采用自己收集到的样本 , 运行结果如表 1 所示 , 其中识别率指对手写数字的单字识别率 . 表 1 银行票据《X 二R 识别系统运行结果 aT b l e 1 R eco g川 Z e d 哪ul t s o f a b 仙k s li P r eC Og . lt i皿 s y s et m 时间/ d 1 3 5 7 9 1 1 15 识别率 / % 32 6 3 7 9 8 9 9 3 9 4 95 可以看出 , 开始的 7 d 时间内识别率增加很快 , 7 d 以后识别率逐步趋向稳定 , 大约在 95 % 时达到最好的识别效果 . 4 结语用 S V M 实现动态学习的方法 , 可以在系统的使用过程中 , 动态地判断分类样本的变化情况 , 主动选择样本进行学习 , 能够有效地解决样本采集困难和样本改变的问题 . 实践证明 , 使用该方法可以动态跟踪样本的变化 , 保证 S V M 分类器的最优性能本系统已在商业银行的银行票据 O C R 识别系统中应用 , 取得了良好的效果 . 进一步计划研究的内容包括 : 改进核函数 , 采用更光滑的核函数 ; 研究采集新样本时的样本选取方法

2 02 . 北京科技大学学报 2 0 0 6 年第 2 期参考文献【l v 叩 in k v N . 统计学习理论 . 许建华 , 张学工 , 译 . 北京 : 电子工业出版社 , 2 0 04 「2] 边肇棋 , 张学工 . 模式识别 . 2 版 . 北京 : 清华大学出版社 , 2 0 0 0 【3 ] E 劝s e r B , G u y o n l , v a p` k v . A tr o i吧 al g o r i t h m for o p t i - m a l m a gr i n e l a s if i e sr / F if t h A n n u a 1 W 0 ksr ho p o n C冶m p u t a - it o al L ~ ng T h e o r y . 只 t t s b u gr h : A C M P r es , 1 9 9 2 [ 4 」 C O r t e s C , V a p n i k V . S u p op r t 一 vce ot r n oetw r k s . M ac h L e ar n , 19 9 5 , 2 0 : 2 7 3 [ S J B ur g e s C J C . A t u t o ir al o n s 叩卯rt vce t o r m ac h i n es of r p at - t e rn re c o g n i t ion . 加t a M l n K n “ 钾 1 D i ~ 叮 , 19 9 8 , 2 ( 2 ) : 12 1 郭军 , 蔺志青 , 张洪刚 . 一个新的脱机手写汉字数据库模型及其应用 . 电子学报 , 2 0 0 0 , 2 8 ( 5 ) : 1 1 5 张键沛 , 徐华 . 支持向量机 ( S V M )主动学习方法研究与应用 . 计算机应用 , 2 0 0 4 , 2 4 ( l ) : l 卢增样 , 李衍达 . 交互支持向量机学习算法及应用 . 清华大学学报 : 自然科学版 , 1 99 9 , 3 9 ( 7 ) : 9 3 1 曰, . ,J es J 只76 à ù l ó一. L lesL A d y n a m i e a l l e a r n i n g m e t h o d w i t h S V M a n d i t s a p p li e a t i o n o n b a n k s li p r e e o g n i - t i o n c 月万 N ez n g z h a o l , 2 ) , 以N G 介 n g l ) , n O N G o izi n Z ) , 邢 ix u l i n g l · 2 ) l ) I of mar t io n E眼i n en 飞 cS h o l , U n i v e rs i t y o f S e ien e e an d T e e h n o 】o g y Be 巧i n g , 氏ij i n g 1 0 0 0 8 3 , C hin a 2 ) T h e C e n t er for OP t im a l C b ll t划 & D i ~ t e M a t h ema t i e s , C e n t ar l C h主n a N o 加 a 」IJ n i vem ty , Whu an 4 3 0 0 7 9 , Ch ian A B S T R A C T T h i s P a P e r i n t r o d u e e s a d y n a m i e a l l e a r n i n g m e t h o d u s i n g s u P P o r t v e e ot r m a e h i n e ( S V M ) . T h i s m e t ho d e a n os l v e s u e h m a e h i n e l e a rn i n g p or b l e m s a s t h e d i ffi e u l t i e s i n g a t h e r i n g t r a i n i n g s a m p l e s a n d t h e e h a n g e o f s a m p l e s w i t h o u t e r e n v i or n m e n t . I t 1 5 p or v e d t h a t S V M e l a s s i fi e r s e a n a e h i e v e o p t im a l p e 而 r - m a n e e a f t e r u s i n g t h i s m e t ho d i n t r a e k i n g t h e e h a 雌 e o f s a m p l e s . A b a n k s lip O C R s y s t e m d es i g n e d b y t h i s m e t h o d P or v e s t h e v a li d i t y . K E Y WO R D S s u p oP r t ve e t o r m a e h i n e ; d y n a m i e a l l e a rn i鳍 ; m a e h i n e l e a rn i n g ; h a n d w ir r t e n e h a ar e t e r r e c o g n i t i o n ; b a n k s li p r e e 呀 n i t i o n

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录