正在加载图片...
Vol.28 No.2 陈增照等:支持向量机动态学习方法及其在票据识别中的应用 ·201· 这里的标准训练样本库,可以使用当前已有 号等,并与银行主机流水数据进行核对.要识别 的样本数据库(例如,对手写金融汉字训练时可采 的信息大部分是手写数字,由于各人的手写习惯 用HCL2000库[61),或者是自己建立的小样本数 不同,决定了使用统一的训练样本不可能得到较 据库,但必须保证每个类别的训练样本集不能空, 好的识别结果.但由于不同地域人们的书写习 一般有3一5个样本即可. 惯,以及每个人的书写习惯有相对的稳定性,所以 对于判断何时进行重新训练,可以根据分类 可以针对不同的分支机构分别采集训练样本进行 的对象以及先验知识来设置一个阈值,并在使用 学习.系统可以在识别结果与银行主机流水数据 过程中进行调整.比如,对于印刷体数字的识别, 进行核对时,对分类器的性能进行评价,并在需要 分类器的性能一般可超过99%,如果系统中单字 时重新采集新样本进行学习.系统处理过程如图 识别正确率低于99%,就可以认为分类器遇到了 3如示 新的样本(新字体),需要重新采集新样本进行训 练;但对于手写的数字,这个阈值可以设置为 初始样本库 特征提取 字符 特征库 训练SVM待识别字符 95%或者更小一些.需要注意的是,在样本稳定 字符识别入特征提取 的情况下,经过若干次训练后,分类器的性能也逐 渐稳定(也可以根据这个条件来判断当前分类器 新样本库 采集样本口识别结果 的性能是否达到最优),这时若分类器性能还 结果核对 是低于给定的阈值,则说明阙值设置的不合理,需 评价分类器 要重新调整 分类后的处理过程是动态学习所必须的,系 图3银行票据OCR识别系统结构 Fig.3 Stracture of a bank slip recognition system 统需要在这个过程评价分类器的性能,收集新的 训练样本,重新训练生成新的分类器.在实际应 系统将手写数字正规化为16×16点阵,输入 用中,很多情况下是可以满足这个条件的,比如银 空间的维数为256,核函数采用二阶多项式函数, 行票据OCR识别系统、自动判卷系统等,由于这 初始样本库采用自己收集到的样本,运行结果如 些系统需要保证识别结果的准确性,因此对识别 表1所示,其中识别率指对手写数字的单字识 结果(特别是识别错误的情况)需要进一步的检查 别率 核对,系统可以在检查的过程中加入对分类器性 能的评价,并在需要时重新采集样本进行训练. 表1银行票据OCR识别系统运行结果 采集样本的策略是选择识别出错的样本,这可以 Table 1 Recognized results of a bank slip recognition system 在对识别结果进行检查核对时同步进行 时间/d 135791115 由SVM的原理可以看出,最优分类超平面 识别率/%32 63 79 89 93 94 95 只与支持向量(SV)有关,SVM通过使分类间隔 最大来设计最优分类超平面,以获得最好的推广 可以看出,开始的7d时间内识别率增加很 能力.样本点到最优分类超平面的距离则是判断 快,7d以后识别率逐步趋向稳定,大约在95%时 该样本点分类性质的主要因素.设样本点x到最 达到最好的识别效果 优分类超平面H的距离为d(x,H),对新样本的 选择需要尽量靠近当前的分类边界[8],即使新样 4 结语 本xo满足d(xo,H)=min(d(x,H)),其中x是 用SVM实现动态学习的方法,可以在系统 已经采集到的样本,需要注意的是,在加入新的 的使用过程中,动态地判断分类样本的变化情况, 样本时,训练后分类器的分类边界可能会改变 主动选择样本进行学习,能够有效地解决样本采 3 在银行票据OCR识别系统中的 集困难和样本改变的问题.实践证明,使用该方 法可以动态跟踪样本的变化,保证SVM分类器 应用 的最优性能.本系统已在商业银行的银行票据 银行票据OCR识别系统是银行业务事后监 OCR识别系统中应用,取得了良好的效果.进一 督系统的重要组成部分,其任务是自动提取并识 步计划研究的内容包括:改进核函数,采用更光滑 别银行票据中的要素信息,包括金额、帐号、流水 的核函数;研究采集新样本时的样本选取方法V o l 。 2 8 N o 。 2 陈增照等 : 支持向 t 机动态学 习方法及其在票据识别中的应用 这里 的标准训 练样本库 , 可 以 使 用 当前 已 有 的样本数据库(例如 , 对手 写金融汉字 训练时可采 用 H c 2L 0 0 0 库 6[] ) , 或者是 自己 建立 的 小样本数 据库 , 但必须保证每个类别的训练样 本集不能空 , 一般有 3 一 5 个样 本即可 . 对于 判断何时进行 重新 训 练 , 可 以 根 据分 类 的对象 以及先 验知识 来设 置 一个 阂值 , 并 在 使用 过程 中进行调整 . 比如 , 对于 印刷体数字 的识别 , 分类器 的性能一般可超 过 9 % , 如 果系统 中单字 识别正 确率低 于 9 % , 就 可 以认为 分类器遇 到 了 新的样 本(新字 体 ) , 需要 重新采集新样 本进 行训 练 ; 但对 于 手 写 的 数 字 , 这 个 闭值 可 以 设 置 为 95 % 或者更小一 些 . 需要 注 意 的是 , 在样 本稳 定 的情况下 , 经过 若干 次训练后 , 分类器 的性能也逐 渐稳定 ( 也 可以 根 据这个 条 件来判断 当前分类器 的性能是 否 达到 最 优〔’ )] , 这 时若分类器 性能 还 是低于 给定的 闭值 , 则说明 闭值设 置的不 合理 , 需 要重新调整 . 分类后 的处 理 过 程是 动 态学 习 所必 须 的 , 系 统需要 在这个 过 程评价分类器 的性能 , 收 集新 的 训练样 本 , 重新训 练生成新 的分类器 . 在 实际 应 用中 , 很 多情况下是 可以满足这个条件的 , 比如银 行票据 O C R 识别系统 、 自动判 卷 系统等 . 由于这 些系统需要 保证识别结果 的准 确 性 , 因 此对 识别 结果 (特别是识别错误 的情况 )需 要进一 步的检 查 核对 , 系统可 以在 检查 的 过 程 中加入 对 分类 器 性 能的评 价 , 并在需 要 时 重 新采集样 本 进 行训 练 . 采集样本的策略 是选 择 识别 出错的样 本 , 这 可 以 在对识别结果进行检查核 对时 同步 进行 . 由 S V M 的原理 可以看 出 , 最优 分类超平 面 只与支持 向量 ( S V ) 有关 , S V M 通 过 使分 类 间 隔 最大来设计最 优分类 超平 面 , 以获得 最 好 的推 广 能力 . 样本点到最 优分类超平 面 的距离则 是判断 该样本点分类性质的主要 因素 . 设 样本 点 x 到最 优分类超平面 H 的距离 为 d ( x , H ) , 对 新样本的 选择需要 尽量 靠近 当前的 分类边 界〔“ 〕 , 即使新 样 本 x 。 满足 J ( x 。 , H ) = m i n ( J ( x , H ) ) , 其 中 x 是 已 经采 集到 的样本 . 需要 注 意 的是 , 在 加 入新 的 样本 时 , 训 练后分类器 的分类边界 可能会 改变 . 3 在 银行 票据 O C R 识 别 系统 中 的 应用 银行票据 O C R 识别系统 是 银行 业 务事后 监 督系统的重要 组 成 部分 , 其 任务是 自动 提 取并识 别银行 票据 中的要 素信息 , 包括 金额 、 帐 号 、 流水 号等 , 并 与 银行 主 机 流水 数据 进 行 核对 . 要识别 的信息大部分是 手写数字 , 由于各人 的手 写 习惯 不 同 , 决定 了使 用统一 的训 练样 本 不 可能 得 到较 好的识别结果 . 但 由于 不 同地 域 人 们的书 写 习 惯 , 以 及每个 人 的书写 习惯 有相 对的稳 定性 , 所 以 可 以 针对 不 同的分 支机 构分别 采集训练样本进行 学习 . 系统可 以在识别 结果 与银行 主 机流 水数 据 进 行核对 时 , 对分类器 的性能进 行评价 , 并在需 要 时重新采集新样本进行 学 习 . 系统 处理过 程如 图 3 如示 . 图 3 银行票据 O C R 识别 系 统结构 F ig . 3 St r u d 峨 o f a b a . k s li P r ec og . i t iou sy et m 系统将手 写数字正规化 为 16 x 1 6 点阵 , 输入 空间的维数为 2 5 6 , 核 函数采用 二 阶多 项式函数 , 初始 样本库采用 自己 收集到 的样 本 , 运行结 果 如 表 1 所 示 , 其 中 识别率指 对 手 写 数字 的单 字 识 别率 . 表 1 银行票据 《X 二R 识别 系统运行结果 aT b l e 1 R eco g川 Z e d 哪ul t s o f a b 仙k s li P r eC Og . lt i皿 s y s et m 时 间/ d 1 3 5 7 9 1 1 15 识 别率 / % 32 6 3 7 9 8 9 9 3 9 4 95 可 以看 出 , 开 始的 7 d 时 间 内识别率增加 很 快 , 7 d 以后识 别率逐步 趋 向稳 定 , 大约在 95 % 时 达到 最好的识别效果 . 4 结语 用 S V M 实 现 动 态学 习的方 法 , 可 以在 系统 的使用过程 中 , 动态地判断分类样 本的变化情况 , 主动选择样本进行学 习 , 能够有效地 解决样本采 集困难和 样本改 变的问题 . 实践证明 , 使用 该方 法可 以 动态 跟 踪 样本 的变化 , 保证 S V M 分类器 的最 优性 能 本 系统 已 在商业 银 行 的银 行票 据 O C R 识别系统 中应用 , 取 得 了 良好的效 果 . 进 一 步计划研 究的内容包 括 : 改进核 函数 , 采用更 光滑 的核 函数 ; 研究采集新样本 时的样本选取方 法
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有