D0I:10.13374/i.issn1001-053x.2006.02.045 第28卷第2期 北京科技大学学报 Vol.28 No.2 2006年2月 Journal of University of Science and Technology Beijing Feb.2006 支持向量机动态学习方法及其 在票据识别中的应用 陈增照12)杨扬1)董才林2)何秀玲1,2) 1)北京科技大学信息工程学院,北京1000832)华中师范大学最优控制与离散数学重点实验室,武汉430079 摘要介绍了用支持向量机(SVM)进行动态学习训练的方法,解决了在机器学习过程中,训练 样本获取比较困难,样本可随外界条件改变而变化的何题.实践证明,使用该方法可以动态跟踪样 本的变化,保证SVM分类器的最优性能.利用该方法设计的银行票据OC℉系统的实际应用说明 了该方法的有效性. 关键词支持向量机;动态学习;机器学习;手写字符识别;票据识别 分类号TP391.4;TP181 在机器学习过程中,有一些问题的样本获取 1支持向量机 比较困难,并且样本随外界条件改变而变化,无法 建立一个稳定的训练样本集.例如在银行票据 SVM是统计学习理论中最年轻的内容,也是 OCR识别系统中,对于手写字符的识别,需要一 最实用的部分,其核心内容是在1992到1995年 定数量的字符作为训练样本集,但银行的实际票 间提出来的,目前仍处在不断发展阶段[1,34] 据由于保密原因获取比较困难,特别是一些关键 SVM是从线性可分情况下的最优分类超平面发 的票据.另外,手写字符的人为因素很大,在一个 展而来的,基本思想可用图1的两维情况说明. 地域采集的样本往往不能适合另外一个地域,甚 图中实心点和空心点代表两类样本,H为分类 至在同一个地域不同分支机构的样本也可能会有 线,H1,H2分别为过各类中离分类线最近的样本 很大的差别.要得到较好的识别效果,需要花很 且平行于分类线的直线,它们之间的距离叫做分 多时间按地域或者分支机构分别采集训练样本进 类间隔(Margin),所谓最优分类线就是要求分类 行训练.为了解决这一问题,本文提出了一种动 线不但能将两类正确分开(训练错误率为0),而 态学习方法,它可以在系统的使用过程中,动态地 且使分类间隔最大.使分类间隔最大实际上就是 判断分类样本的变化情况,主动选择样本进行学 对推广能力的控制,是SVM的核心思想之一, 习,能够有效地解决样本采集困难和样本改变的 问题 统计学习理论是建立在一套坚实的理论基础 之上的】,为解决有限样本学习问题提供了一个 统一的框架.它能将很多现有方法纳入其中,有 0 望帮助解决许多原来难以解决的问题;同时,在这 一理论基础上发展了一种新的通用学习方法一 支持向量机(SVM),它表现出很多优于已有方法 Margin 2/川wl 的性能,可成功地应用于函数模拟、模式识别和数 据分类等,取得了良好的效果,成为当前国际上的 图1线性可分情况下的最优分类器 研究热点[12] Fig.1 Optimal classifier of linear separable data 设分类线方程为x·w+b=0,可以对它进 收稿日期:2004-1226修回日期:20050606 基金项目:湖北省科技攻关计划(No.2003BDST004) 行归一化,使得对线性可分的样本集(x,y:),i= 作者简介:陈增照(1974一),男,博士研究生 1,2,…,n,x∈R,∈1+1,-1,满足
第 2 8 卷 第 2 期 2 0 0 6 年 2 月 北 京 科 技 大 学 学 报 J o u rn a l o f U n ive 比 it y o f s c ie n ce a n d T e c h n 0 IOg y Be 劝i雌 V lo . 2 8 N o . 2 F e b 。 2 0 0 6 支持向量机动态学习方法及 其 在票据识别 中的应用 陈增 照 ` · “ ) 杨 扬 , ) 董 才林 2 ) 何 秀玲` , 2 ) l) 北京科技大学信 息工程学院 , 北京 1 00 0 83 2) 华中师范大学最优控制与离散数学重点实验室 . 武汉 4 30 0 79 摘 要 介绍了用 支持 向量机 ( S V M )进行动态学习训 练的方法 . 解决 了在机器学习过程中 , 训 练 样本 获取 比较困难 , 样本可随外界条件改变而变化 的问题 . 实践证 明 , 使用该方法 可以动态跟踪样 本的变化 , 保证 S V M 分类器的最优性 能 利用该方法设计的银行票据 O C R 系统的实际应用说明 了该方法的有效性 . 关钮词 支持 向量机 ; 动态学习 ; 机器 学习 ; 手写字符识别 ; 票据识别 分类号 T P 3 9 1 . 4 ; T P 1 8 1 在机 器学 习过 程 中 , 有 一 些 问题的样 本获 取 比较 困难 , 并且 样本随 外界条件改变而变化 , 无 法 建立 一个 稳 定 的训 练 样 本集 . 例如 在银 行票据 O CR 识别系统 中 , 对 于手 写字 符 的识别 , 需 要 一 定数量的字符 作为训 练样 本 集 , 但银 行的实际 票 据由于保密原 因 获取 比较 困难 , 特别是 一些 关键 的票 据 . 另外 , 手写字 符 的人为 因素很 大 , 在 一个 地域 采集的样 本 往往 不 能适 合 另外 一 个地 域 , 甚 至在同 一个地域不 同分支机构的样本 也可 能会有 很大 的差 别 . 要 得到 较好的识别效果 , 需 要 花很 多时 间按 地域或者分支机 构分别采集训 练样本进 行训 练 . 为了解决这一 问题 , 本文 提 出了一 种动 态学 习方法 , 它 可以在 系统的使用过程 中 , 动态地 判断分类样本的变化情况 , 主 动选择样本进 行学 习 , 能够有效地 解决样 本采集困难和 样 本改 变 的 问题 . 统计学 习理论是 建立在 一套坚 实的理论 基础 之上的 i ` ] , 为解决 有限样本学 习 问题提 供了 一个 统一 的框架 . 它 能将很 多现 有 方法 纳 入 其中 , 有 望帮助解决许多原来难以解决 的问题 ; 同时 , 在这 一理论 基础 上发 展 了一种新的通 用学 习方法 支持向量机 ( SV M ) , 它 表现 出很 多优于 已 有—方法 的性 能 可成功地应用 于函数模拟 、 模式识别和 数 据分类 等 , 取得 了 良好 的效果 , 成为 当前 国际上 的 研 究热点〔,创 . 收稿 B期 : 20 0 4 一 1 2 一 2 6 修回 日期 : 2 0 0 5习 6心 6 基金项目: 湖北省科技攻关计划 ( No . Z o03 BD S T oo 4) 作者简介 : 陈增照 ( 19 74 一 ) , 男 , 博士研究生 1 支持向量机 S V M 是 统计学 习理论 中最年轻的内容 , 也 是 最实用的部分 , 其核心 内容是 在 1 9 9 2 到 1 9 9 5 年 间提 出 来的 , 目前仍 处 在 不 断 发 展 阶 段〔’ , 3一 S V M 是从线 性 可分 情况 下 的 最优 分类超 平面 发 展而 来的 , 基 本思想 可 用 图 1 的两维情况 说 明 . 图中实 心 点和 空 心 点代表 两 类 样 本 , H 为分 类 线 , H l , H : 分别 为过各类中离分类 线最 近 的样 本 且平行于分 类线 的直线 , 它 们之 间的距离 叫做分 类 间隔 ( M ar ig n) . 所谓最 优分 类线就是要求分 类 线不 但能将两 类正 确 分开 (训 练错误率为 0) , 而 且 使分类间隔最 大 . 使分类 间隔最大实际 上就是 对 推广 能力 的控 制 , 是 S V M 的核心思想之 一 图 1 线性可分情况下的最优分类器 Fi g · 1 O Pt im a l e l as in e r o f li en ar s e p ar b l e d a t a 设分类 线方程为 x · w + b 二 0 , 可以对它 进 行归一 化 1 , 2 , … , n 使得 对线性 可分的样 本集 ( x ` , y ` ) , i 二 x 、 〔 R d , 夕、 任 } + 1 , 一 1 } , 满足 DOI: 10. 13374 /j . issn1001 -053x. 2006. 02. 045
·200· 北京科技大学学报 2006年第2期 y:(wx)+b)-1≥0i=1,2,…n(1) 分类函数式(6),都只涉及到训练样本间的内积运 此时分类间隔Margin等于2/‖w∥,使分类间隔 算,这样在高维空间只需要进行内积运算,而这种 最大等价于使‖w2∥w∥最小,满足条件式(1) 内积运算是可以用原空间的函数实现的,根据泛 且使2/!w‖最大的分类面就叫做最优分类超平 函有关理论,只要一种核函数满足Mercer条件, 面,如图1中的H,H1,H2上的训练样本点叫做 它就对应着某一变换空间的内积. 支持向量(SV).这样,寻找最优分类超平面的问 概括地说,支持向量机通过事先选择好的某 题就转化为求如下的一个二次规划问题: 一个非线性变换,将输入向量x映射到高维特征 min4(w)=lw‖2/2 (2) 空间Z,在这个特征空间中构造一个最优分类超 满足约束条件: 平面.支持向量机的示意图如图2所示,它由两 y(wx:+b)≥1,i=1,2,…,n (3) 层组成:第一层从由核定义的给定基的集合中选 利用Lagrange优化方法可以把上述最优分 择基K(x,x:),i=1,…,5;第二层在这一空间中 类超平面问题转化为其对偶问题1,5),即在约束 构造一个线性函数,这完全等价于在对应的特征 条件 空间中构造一个最优分类超平面. 宫m=0 (4a) 和 a:≥0,i=1,2,…,n ay (4a) 下对a:求解下列函数的最大值 K(xx) K(,x) K(xx) Q(a)= 会-台2aoS a:为每一个样本对应的Lagrange乘子.这是一 +。。 个不等式约束下的二次函数寻优问题,存在惟一 解.容易证明,解中将只有一部分(通常只有一少 图2支特向量机的构成 部分)a:不为零,对应的样本就是支持向量,解上 Fig.2 Structure of SVM 述问题后得到的最优分类函数是 对于多类分类情况,可以利用如下方法来构 f(x)=sgn(w·x+b)= 造一个n类分类器1山: sgm∑aiy(xx)+b (6) (1)构造n个两类分类器,其中规则f(x), 式中,b“为分类阙值,i为支持向量.可以用任一 k=1,…,n,将第k类的训练样本与其他训练样 个支持向量(满足条件式(3)中的等号)求得 本分开.若向量x:属于第k类,则sigm(f(x:)= 在线性不可分的情况下,可以在条件式(3) 1,否则sign(f(x:)=-1. 中增加一个松弛项:≥0,则式(3)变为: (2)通过选取函数f(x),k=1,…,n中最大 y((wx:)+b)≥1-,i=1,2,…n(7) 值所对应的类别 m =arg maxifi (x;),,fn (x:), 将目标改为求(,5)=分P+c启最 即可构造出一个n类分类器. 小,即折中考虑最少错分样本和最大分类间隔,就 2SVM实现动态学习 得到广义最优分类超平面,其中,C>0是一个常 数,它控制对错分样本惩罚的程度.广义最优分 动态学习的过程是首先从标准的训练样本库 类超平面的对偶问题与线性可分情况下几乎完全 中选择适当的样本进行训练,设计分类器;然后根 相同,只是条件式(4b)变为: 据当前分类器在分类过程中的性能进行评价,判 C≥a≥0i=1,2,…,n (8) 断是否需要采集新的样本进行训练,若性能小于 对于非线性问题,可以通过非线性变换转化 某一给定值,则可以根据分类后的处理过程动态 为某个高维空间中的线性问题,在变换空间中求 采集新的训练样本,并重新进行训练,设计新的分 最优分类超平面.这种变换一般比较复杂,但从 类器.这个过程可以重复进行,从而使学习变成 上面的讨论可以看出,不论是寻优函数式(5)还是 动态过程,也可以说是自动学习
. 2 0 0 . 北 京 科 技 大 学 学 报 年 第 期 2 0 0 6 2 y ` ( ( w · ` x ) + b ) 一 1 ) 1 = 1 0 , 2 , … n ( 1 ) 此 时分类 间隔 M a gr in 等于 2/ }{ w {} , 使分类间隔 最大 等价于 使 !1 w 11 “ l w {l最小 , 满足条 件式 ( l ) 且使 2/ {! w {l 最大的分类面就 叫做最 优分类超平 面 , 如 图 1 中的 H , H , , H : 上 的训 练 样本点叫做 支持向量 ( S v ) . 这 样 , 寻 找最优 分类超 平面 的问 题就转化 为求如下的一个二次规 划 问题 : m i n 笋( w ) 二 11 w .1 “ / 2 ( 2 ) 满足约束条件 : 夕` ( w · x * + b ) ) 1 , i = 1 , 2 , … , n ( 3 ) 利 用 L ag ar n g e 优 化方法 可 以把上 述 最 优分 类超 平 面 问题转化 为其对 偶 问题〔’ · 5 ] , 即在约 束 条 件 分类函数 式 ( 6 ) , 都只涉及到训 练样本间的内积运 算 , 这样在 高维空 间只需要 进行内积运算 , 而这 种 内积运 算是可以用 原空 间的函数实现 的 . 根据泛 函有 关理 论 , 只要 一种核 函 数满足 M er ce r 条 件 , 它就对 应着某一变换 空 间的内积 . 概 括地说 , 支持 向量 机通 过 事先选择好 的某 一个 非线性变换 , 将输入 向量 x 映 射到 高维特征 空间 z , 在这个特征空 间中构造 一 个 最优分类超 平 面 . 支持 向量机 的示 意 图如 图 2 所示 , 它 由两 层组成 : 第一 层从 由核定义 的给定基 的集合 中选 择基 K ( x , x 、 ) , i = 1 , … , : ; 第二 层 在这 一空 间中 构造一 个线性 函 数 , 这 完全 等价于 在对 应 的特征 空间 中构造一个 最优分类超平面 . 习 y ia * = 0 和 a 、 ) 0 , i = 1 , 2 , … , n 下对 a * 求解下 列函数的最大值 ( 4 a ) ( 4 a ) ~ , 、 启 l 砚 火0 ) = 夕 J 比 了 一 下万 犷写 一 ` 名 a , 岁伪 ( x 、 · xj ) ( 5 ) “ 、 为 每一 个样 本对应 的 L ag ar n g e 乘子 . 这 是 一 个不等式约束下 的二 次函数寻 优 问题 , 存在惟 一 解 . 容易证明 , 解中将只有 一部 分 (通 常只有一 少 部分 ) a 、 不为零 , 对应 的样本 就是 支持向量 , 解上 述 问题后得 到的最优分类 函数是 f ( x ) = s g n ( w · x + b ) = s g n ( 习 。 : , 、 ( x ` · 二 ) + 。 · ) ( 6 ) 式中 , b ’ 为分类 闭值 , i 为 支持向量 . 可以 用 任一 个支持向量 (满足条件式 ( 3) 中的等号 )求得 . 在线性不 可分 的情况 下 , 可 以 在条 件式 ( 3) 中增 加一个 松弛项 宁* ) 0 , 则式( 3) 变为 : 夕 : ( ( w · x ` ) + b ) ) 1 一 务 , i 二 1 , 2 , … n ( 7 ) 将 目标改 为求 ( , , ; ) 一 令J} , 一} , 十 。 ! 交。 ) 最 ’ 一 ’ ` ’ ` 一 ’ “ 一 ` ” ” ’ 2 ” ” ” 一 、 自 、 , / ~ 小 , 即折 中考 虑最 少错分样本和 最大分类间 隔 , 就 得 到广义最优分类超平面 . 其中 , C > O 是一个 常 数 , 它控制对错分样本惩罚 的 程度 . 广义 最优分 类超平面 的对偶间题与线性 可分情况下几 乎完全 相 同 , 只是条件式 ( 4 b) 变为 : C ) a ` ) 0 1 = 1 , 2 , … , n ( 8 ) 对于 非线性 问题 , 可 以 通 过 非线性 变换转 化 为某个高维空 间中的 线性 问题 , 在变换 空 间 中求 最 优分类 超平 面 . 这 种变 换 一般 比较复杂 , 但 从 上 面的讨论 可以看出 , 不论是寻 优 函数式 ( 5) 还是 图 2 支持向 t 机的构成 n g . 2 tS cur tur e o f S V M 对于 多类分类情况 , 可以 利用如 下方法 来构 造 一个 。 类分类 器 1[] : ( 1) 构造 n 个两类 分 类器 , 其 中规 则 人 ( x ) , k = 1 , … , n , 将第 k 类 的训 练样本与其他 训 练样 本分开 . 若向量 x ` 属于 第 k 类 , 则 is gn ( 人 ( x ` ) ) 二 1 , 否则 s i g n ( fk ( x , ) ) = 一 1 . ( 2 )通 过选取 函 数 fk ( x ) , 走 = z , … , n 中最 大 值所对应 的类别 m = a r g m a x }f l ( x 、 ) , … , 几 ( x , ) } , 即可构 造出 一个 n 类分类器 . 2 S V M 实现动态学习 动 态学 习的过程是首先从标准 的训 练样本库 中选择适 当的样本进行训 练 , 设计分类器 ; 然 后根 据当前分类器 在分类过 程 中 的性能进行评 价 , 判 断是否需要采集新的样 本 进行训 练 , 若性能 小 于 某一给 定值 , 则 可 以根据分类后 的处 理 过 程动 态 采集新的训练样本 , 并重新进行训 练 , 设 计新的分 类器 . 这 个 过 程可 以重 复进行 , 从而 使学 习变成 动态过 程 , 也可以说是 自动学 习
Vol.28 No.2 陈增照等:支持向量机动态学习方法及其在票据识别中的应用 ·201· 这里的标准训练样本库,可以使用当前已有 号等,并与银行主机流水数据进行核对.要识别 的样本数据库(例如,对手写金融汉字训练时可采 的信息大部分是手写数字,由于各人的手写习惯 用HCL2000库[61),或者是自己建立的小样本数 不同,决定了使用统一的训练样本不可能得到较 据库,但必须保证每个类别的训练样本集不能空, 好的识别结果.但由于不同地域人们的书写习 一般有3一5个样本即可. 惯,以及每个人的书写习惯有相对的稳定性,所以 对于判断何时进行重新训练,可以根据分类 可以针对不同的分支机构分别采集训练样本进行 的对象以及先验知识来设置一个阈值,并在使用 学习.系统可以在识别结果与银行主机流水数据 过程中进行调整.比如,对于印刷体数字的识别, 进行核对时,对分类器的性能进行评价,并在需要 分类器的性能一般可超过99%,如果系统中单字 时重新采集新样本进行学习.系统处理过程如图 识别正确率低于99%,就可以认为分类器遇到了 3如示 新的样本(新字体),需要重新采集新样本进行训 练;但对于手写的数字,这个阈值可以设置为 初始样本库 特征提取 字符 特征库 训练SVM待识别字符 95%或者更小一些.需要注意的是,在样本稳定 字符识别入特征提取 的情况下,经过若干次训练后,分类器的性能也逐 渐稳定(也可以根据这个条件来判断当前分类器 新样本库 采集样本口识别结果 的性能是否达到最优),这时若分类器性能还 结果核对 是低于给定的阈值,则说明阙值设置的不合理,需 评价分类器 要重新调整 分类后的处理过程是动态学习所必须的,系 图3银行票据OCR识别系统结构 Fig.3 Stracture of a bank slip recognition system 统需要在这个过程评价分类器的性能,收集新的 训练样本,重新训练生成新的分类器.在实际应 系统将手写数字正规化为16×16点阵,输入 用中,很多情况下是可以满足这个条件的,比如银 空间的维数为256,核函数采用二阶多项式函数, 行票据OCR识别系统、自动判卷系统等,由于这 初始样本库采用自己收集到的样本,运行结果如 些系统需要保证识别结果的准确性,因此对识别 表1所示,其中识别率指对手写数字的单字识 结果(特别是识别错误的情况)需要进一步的检查 别率 核对,系统可以在检查的过程中加入对分类器性 能的评价,并在需要时重新采集样本进行训练. 表1银行票据OCR识别系统运行结果 采集样本的策略是选择识别出错的样本,这可以 Table 1 Recognized results of a bank slip recognition system 在对识别结果进行检查核对时同步进行 时间/d 135791115 由SVM的原理可以看出,最优分类超平面 识别率/%32 63 79 89 93 94 95 只与支持向量(SV)有关,SVM通过使分类间隔 最大来设计最优分类超平面,以获得最好的推广 可以看出,开始的7d时间内识别率增加很 能力.样本点到最优分类超平面的距离则是判断 快,7d以后识别率逐步趋向稳定,大约在95%时 该样本点分类性质的主要因素.设样本点x到最 达到最好的识别效果 优分类超平面H的距离为d(x,H),对新样本的 选择需要尽量靠近当前的分类边界[8],即使新样 4 结语 本xo满足d(xo,H)=min(d(x,H)),其中x是 用SVM实现动态学习的方法,可以在系统 已经采集到的样本,需要注意的是,在加入新的 的使用过程中,动态地判断分类样本的变化情况, 样本时,训练后分类器的分类边界可能会改变 主动选择样本进行学习,能够有效地解决样本采 3 在银行票据OCR识别系统中的 集困难和样本改变的问题.实践证明,使用该方 法可以动态跟踪样本的变化,保证SVM分类器 应用 的最优性能.本系统已在商业银行的银行票据 银行票据OCR识别系统是银行业务事后监 OCR识别系统中应用,取得了良好的效果.进一 督系统的重要组成部分,其任务是自动提取并识 步计划研究的内容包括:改进核函数,采用更光滑 别银行票据中的要素信息,包括金额、帐号、流水 的核函数;研究采集新样本时的样本选取方法
V o l 。 2 8 N o 。 2 陈增照等 : 支持向 t 机动态学 习方法及其在票据识别中的应用 这里 的标准训 练样本库 , 可 以 使 用 当前 已 有 的样本数据库(例如 , 对手 写金融汉字 训练时可采 用 H c 2L 0 0 0 库 6[] ) , 或者是 自己 建立 的 小样本数 据库 , 但必须保证每个类别的训练样 本集不能空 , 一般有 3 一 5 个样 本即可 . 对于 判断何时进行 重新 训 练 , 可 以 根 据分 类 的对象 以及先 验知识 来设 置 一个 阂值 , 并 在 使用 过程 中进行调整 . 比如 , 对于 印刷体数字 的识别 , 分类器 的性能一般可超 过 9 % , 如 果系统 中单字 识别正 确率低 于 9 % , 就 可 以认为 分类器遇 到 了 新的样 本(新字 体 ) , 需要 重新采集新样 本进 行训 练 ; 但对 于 手 写 的 数 字 , 这 个 闭值 可 以 设 置 为 95 % 或者更小一 些 . 需要 注 意 的是 , 在样 本稳 定 的情况下 , 经过 若干 次训练后 , 分类器 的性能也逐 渐稳定 ( 也 可以 根 据这个 条 件来判断 当前分类器 的性能是 否 达到 最 优〔’ )] , 这 时若分类器 性能 还 是低于 给定的 闭值 , 则说明 闭值设 置的不 合理 , 需 要重新调整 . 分类后 的处 理 过 程是 动 态学 习 所必 须 的 , 系 统需要 在这个 过 程评价分类器 的性能 , 收 集新 的 训练样 本 , 重新训 练生成新 的分类器 . 在 实际 应 用中 , 很 多情况下是 可以满足这个条件的 , 比如银 行票据 O C R 识别系统 、 自动判 卷 系统等 . 由于这 些系统需要 保证识别结果 的准 确 性 , 因 此对 识别 结果 (特别是识别错误 的情况 )需 要进一 步的检 查 核对 , 系统可 以在 检查 的 过 程 中加入 对 分类 器 性 能的评 价 , 并在需 要 时 重 新采集样 本 进 行训 练 . 采集样本的策略 是选 择 识别 出错的样 本 , 这 可 以 在对识别结果进行检查核 对时 同步 进行 . 由 S V M 的原理 可以看 出 , 最优 分类超平 面 只与支持 向量 ( S V ) 有关 , S V M 通 过 使分 类 间 隔 最大来设计最 优分类 超平 面 , 以获得 最 好 的推 广 能力 . 样本点到最 优分类超平 面 的距离则 是判断 该样本点分类性质的主要 因素 . 设 样本 点 x 到最 优分类超平面 H 的距离 为 d ( x , H ) , 对 新样本的 选择需要 尽量 靠近 当前的 分类边 界〔“ 〕 , 即使新 样 本 x 。 满足 J ( x 。 , H ) = m i n ( J ( x , H ) ) , 其 中 x 是 已 经采 集到 的样本 . 需要 注 意 的是 , 在 加 入新 的 样本 时 , 训 练后分类器 的分类边界 可能会 改变 . 3 在 银行 票据 O C R 识 别 系统 中 的 应用 银行票据 O C R 识别系统 是 银行 业 务事后 监 督系统的重要 组 成 部分 , 其 任务是 自动 提 取并识 别银行 票据 中的要 素信息 , 包括 金额 、 帐 号 、 流水 号等 , 并 与 银行 主 机 流水 数据 进 行 核对 . 要识别 的信息大部分是 手写数字 , 由于各人 的手 写 习惯 不 同 , 决定 了使 用统一 的训 练样 本 不 可能 得 到较 好的识别结果 . 但 由于 不 同地 域 人 们的书 写 习 惯 , 以 及每个 人 的书写 习惯 有相 对的稳 定性 , 所 以 可 以 针对 不 同的分 支机 构分别 采集训练样本进行 学习 . 系统可 以在识别 结果 与银行 主 机流 水数 据 进 行核对 时 , 对分类器 的性能进 行评价 , 并在需 要 时重新采集新样本进行 学 习 . 系统 处理过 程如 图 3 如示 . 图 3 银行票据 O C R 识别 系 统结构 F ig . 3 St r u d 峨 o f a b a . k s li P r ec og . i t iou sy et m 系统将手 写数字正规化 为 16 x 1 6 点阵 , 输入 空间的维数为 2 5 6 , 核 函数采用 二 阶多 项式函数 , 初始 样本库采用 自己 收集到 的样 本 , 运行结 果 如 表 1 所 示 , 其 中 识别率指 对 手 写 数字 的单 字 识 别率 . 表 1 银行票据 《X 二R 识别 系统运行结果 aT b l e 1 R eco g川 Z e d 哪ul t s o f a b 仙k s li P r eC Og . lt i皿 s y s et m 时 间/ d 1 3 5 7 9 1 1 15 识 别率 / % 32 6 3 7 9 8 9 9 3 9 4 95 可 以看 出 , 开 始的 7 d 时 间 内识别率增加 很 快 , 7 d 以后识 别率逐步 趋 向稳 定 , 大约在 95 % 时 达到 最好的识别效果 . 4 结语 用 S V M 实 现 动 态学 习的方 法 , 可 以在 系统 的使用过程 中 , 动态地判断分类样 本的变化情况 , 主动选择样本进行学 习 , 能够有效地 解决样本采 集困难和 样本改 变的问题 . 实践证明 , 使用 该方 法可 以 动态 跟 踪 样本 的变化 , 保证 S V M 分类器 的最 优性 能 本 系统 已 在商业 银 行 的银 行票 据 O C R 识别系统 中应用 , 取 得 了 良好的效 果 . 进 一 步计划研 究的内容包 括 : 改进核 函数 , 采用更 光滑 的核 函数 ; 研究采集新样本 时的样本选取方 法
·202· 北京科技大学学报 2006年第2期 参考文献 [5]Burges CJ C.A tutorial on support vector machines for pat- [1 Vapnik VN.统计学习理论.许建华,张学工,译,北京:电 tern recognition.Data Min Knowl Discovery,1998,2(2): 121 子工业出版社,2004 【6]郭军,葡志青,张洪刚.一个新的脱机手写汉字数据库模型 [2]边肇祺,张学工,棋式识别.2版,北京:清华大学出版社, 及其应用.电子学报,2000,28(5):115 2000 [7]张镀沛,徐华.支持向量机(SVM)主动学习方法研究与应 [3]Boser B.Guyon I,Vapnik V.A training algorithm for opti- 用.计算机应用,2004,24(1):1 mal margin classifiers//Fifth Annual Workshop on Computa- [8]卢增样,李行达,交互支持向量机学习算法及应用.清华大 tional Learning Theory.Pittsburgh:ACM Press,1992 学学报:自然科学版,1999,39(7):93 [4]Cortes C.Vapnik V.Support-vector networks.Mach Learn, 1995,20:273 A dynamical learning method with SVM and its application on bank slip recogni- tion CHEN Zengzhao2),YANG Yang),DONG Cailin2),HE Xiuling1.2) 1)Information Engineering School,University of Science and Technology Beijing,Beijing 100083,China 2)The Center for Optimal Control&Discrete Mathematics,Central China Normal University,Wuhan 430079,China ABSTRACT This paper introduces a dynamical learning method using support vector machine (SVM). This method can solve such machine learning problems as the difficulties in gathering training samples and the change of samples with outer environment.It is proved that SVM classifiers can achieve optimal perfor- mance after using this method in tracking the change of samples.A bank slip OCR system designed by this method proves the validity. KEY WORDS support vector machine;dynamical learning;machine learning;handwritten character recognition;bank slip recognition
2 02 . 北 京 科 技 大 学 学 报 2 0 0 6 年第 2 期 参 考 文 献 【l v 叩 in k v N . 统计学 习理论 . 许建华 , 张学工 , 译 . 北京 : 电 子工业 出版社 , 2 0 04 「2] 边肇棋 , 张学工 . 模式识别 . 2 版 . 北 京 : 清华大学 出版社 , 2 0 0 0 【3 ] E 劝s e r B , G u y o n l , v a p` k v . A tr o i吧 al g o r i t h m for o p t i - m a l m a gr i n e l a s if i e sr / F if t h A n n u a 1 W 0 ksr ho p o n C冶m p u t a - it o al L ~ ng T h e o r y . 只 t t s b u gr h : A C M P r es , 1 9 9 2 [ 4 」 C O r t e s C , V a p n i k V . S u p op r t 一 vce ot r n oetw r k s . M ac h L e ar n , 19 9 5 , 2 0 : 2 7 3 [ S J B ur g e s C J C . A t u t o ir al o n s 叩卯rt vce t o r m ac h i n es of r p at - t e rn re c o g n i t ion . 加t a M l n K n “ 钾 1 D i ~ 叮 , 19 9 8 , 2 ( 2 ) : 12 1 郭军 , 蔺志青 , 张洪刚 . 一个新的脱机手写汉字数据库模 型 及其应用 . 电子学报 , 2 0 0 0 , 2 8 ( 5 ) : 1 1 5 张键沛 , 徐华 . 支持 向量机 ( S V M )主动学 习方 法研究与应 用 . 计算机应用 , 2 0 0 4 , 2 4 ( l ) : l 卢增样 , 李衍达 . 交互支持向量机学 习算法及应用 . 清华大 学学报 : 自然科学版 , 1 99 9 , 3 9 ( 7 ) : 9 3 1 曰, . ,J es J 只76 à ù l ó一. L lesL A d y n a m i e a l l e a r n i n g m e t h o d w i t h S V M a n d i t s a p p li e a t i o n o n b a n k s li p r e e o g n i - t i o n c 月万 N ez n g z h a o l , 2 ) , 以N G 介 n g l ) , n O N G o izi n Z ) , 邢 ix u l i n g l · 2 ) l ) I of mar t io n E眼i n en 飞 cS h o l , U n i v e rs i t y o f S e ien e e an d T e e h n o 】o g y Be 巧i n g , 氏ij i n g 1 0 0 0 8 3 , C hin a 2 ) T h e C e n t er for OP t im a l C b ll t划 & D i ~ t e M a t h ema t i e s , C e n t ar l C h主n a N o 加 a 」IJ n i vem ty , Whu an 4 3 0 0 7 9 , Ch ian A B S T R A C T T h i s P a P e r i n t r o d u e e s a d y n a m i e a l l e a r n i n g m e t h o d u s i n g s u P P o r t v e e ot r m a e h i n e ( S V M ) . T h i s m e t ho d e a n os l v e s u e h m a e h i n e l e a rn i n g p or b l e m s a s t h e d i ffi e u l t i e s i n g a t h e r i n g t r a i n i n g s a m p l e s a n d t h e e h a n g e o f s a m p l e s w i t h o u t e r e n v i or n m e n t . I t 1 5 p or v e d t h a t S V M e l a s s i fi e r s e a n a e h i e v e o p t im a l p e 而 r - m a n e e a f t e r u s i n g t h i s m e t ho d i n t r a e k i n g t h e e h a 雌 e o f s a m p l e s . A b a n k s lip O C R s y s t e m d es i g n e d b y t h i s m e t h o d P or v e s t h e v a li d i t y . K E Y WO R D S s u p oP r t ve e t o r m a e h i n e ; d y n a m i e a l l e a rn i鳍 ; m a e h i n e l e a rn i n g ; h a n d w ir r t e n e h a ar e t e r r e c o g n i t i o n ; b a n k s li p r e e 呀 n i t i o n