正在加载图片...
Vol.27 No.4 高彦宇等:基于融合特征和LS-SVM的脱机手写体汉字识别 511 其中,=1,2,…,N,k=1,2,,m. 到各自的支持向量,并且每一类汉字形成独有的 通过求解线性方程组(6),LS-SVM分类器能 编码形式:在测试阶段,测试样本经过各LS 够有效实现多类分类,而且泛化能力不会降低. SVM后得到由-1和1组成的7位编码,与训练样 本形成的编码库比较后就可以得到识别结果.为 3实验及讨论 了比较识别效果,本文分别采用LS-SVM分类器 和距离分类器对测试样本进行识别,其中LS- 31实验 SVM的参数设置为=…==0.5,1.0,识别结 本文选择HTPU手写体汉字数据库中最常 果如表1所示. 用的100类汉字进行实验,其中每类汉字取50个 样本用于训练,10个样本用于测试. 表1距离分类器和LS-SVM分类器识别结果比较 Table I Comparison between the minimum distance classifier 首先对所有手写体汉字图像进行去噪、归一 and LS-SVM classifier 化等预处理;然后计算这些汉字图像的Zernike 特征提取 最小距离法% LS-SVM/% 矩,将其0~10阶共36个正交特征值构成全局特 Zernike矩 83.21 85.45 征向量;将这些汉字图像用8×8的弹性网格划 弹性网格 81.64 83.92 分,得到256维的局部特征向量,再通过K-L变换 融合特征 90.53 93.37 压缩为44维的正交特征向量:最后将统一度量 从实验结果可以看出:一方面,融合的特征 后的两种特征向量连接起来,得到80维的融合 向量能够更好地代表手写体汉字的特征:另一方 特征向量, 面,对于相同的特征向量,本文提出的LS-SVM 为了对100类手写体汉字样本进行分类识 分类识别方法得到的识别率高于采用距离分类 别,设计使用m=7个LS-SVM(如图3所示),输入 器得到的识别率.因此,可以证明LS-SVM所具 向量x=(x,x,…,x)代表测试样本的特征向量, 有的泛化能力对小样本集类别有更好的分类识 (K,,…w,…,,,xw)代表支持向量,每个 别能力, LS-SVM的输出为{-1,1}. 对于相同的样本,改变参数o和y的值对LS- 在训练阶段,每个LS-SVM通过训练样本得 SVM分类器进行测试,发现参数值的变化对LS- Ki) SVM分类器的识别率影响很小,这说明LS-SVM a. 分类器对参数的选择有很强的鲁棒性, 最后分析一下系统的识别时间.根据上文所 述,LS-SVM多类分类算法实际上是一种并行计 算方法,识别过程仅涉及到各个判别函数的计算 及最后的解码,因此识别时间远远低于“一对一” 或“一对多”的SVM多类识别方法阿.为了进一步 提高系统的训练和识别效率,可以采用Kok Seng Chua提出的大规模LS-SVM有效计算方法. 3.2讨论 IN 3 V 本文提出一种基于融合特征和最小二乘支 Cxw2 持向量机的脱机手写体汉字识别系统设计方法, 实验证明该系统能够取得很好的识别效果.下一 解码 步将对以下两个方面做进一步的考虑和改进: (1)串行特征融合方法虽然简单,但是融合后 的特征向量维数增多,给识别速度和精度带来很 IN-y 识别结果 大影响,因此需要进一步研究特征融合的策略. (2)尽管LS-SVM比SVM计算简单,但是由 K.X,X-) 图3基于LS-SVM的手写体汉字识别结构图 于LS-SVM的每个样本数据对分类器都有贡献, Fig.3 Framework of handwritten Chinese character recognition 所以它的支持向量不具有稀疏性,这又增加了分 based on LS-SVM 类的计算量,因此如何得到精练的支持向量也是、 b l . 7 o 2 N . 高彦 宇等 4 : 基 于融 合特 征和 S 一S M 的脱 机手 写 体 汉字 识 别 L V 其中 , iJ = 1 , 2 , … , N, k = 1 , 2 , … , m . 通 过求 解 线 性方 程 组 (6 ) , L S 一S V M 分 类 器 能 够 有 效实 现 多类分 类 , 而 且 泛 化 能力 不 会 降低 . 3 实 验 及 讨 论 .3 1 实验 本 文选 择 IH仰U 手 写体 汉 字数 据 库 中最 常 用 的 10 0 类 汉字 进 行 实验 , 其 中每类 汉 字取 50 个 样 本用 于 训 练 , 10 个样 本 用 于 测试 . 首先 对 所有 手 写体 汉 字 图像 进 行去 噪 、 归一 化 等预 处 理 ; 然 后 计算 这 些 汉 字 图像 的 Z e而ke 矩 , 将 其 O一 10 阶 共 36 个正 交特 征值 构 成全 局 特 征 向量 ; 将 这 些 汉字 图像 用 8 “ 8 的 弹性 网格划 分 , 得 到 2 56 维 的局 部特 征 向量 , 再通 过 K - L 变 换 压缩 为 4 维 的正 交 特 征 向量 ; 最 后 将 统一 度 量 后 的两 种特 征 向量连 接 起 来 , 得 到 80 维 的融 合 特 征 向量 . 为 了对 10 0 类 手 写 体 汉 字 样 本 进 行 分类 识 别 , 设 计使 用 m = 7个 L S一S V M ( 如 图 3 所 示 ) , 输 入 向 量x = x( , , 犷 , … , x 今代 表 测 试 样 本 的特 征 向量 , x(., l丙,1 … 翔 , … , xl , 。 , … , 耘公代 表 支 持 向量 , 每 个 L S一 S V M 的 输 出为 { 一 1 , 1 } . 在 训练 阶 段 , 每 个 L S一 S V M 通过 训练 样本 得 解 码 识 别结 果 图 3 基 于 L S e S V M 的手 写体 汉字 识别 结构 图 F i g · 3 F ar m ew o kr o f b a n d w ir t e n C h i n e s e e h a r a e t e r 代e o g n it o n b a 吕e d 0 . L -S S V M 到 各 自的支 持 向量 , 并 且每 一 类汉 字形 成独 有 的 编 码 形 式 ; 在 测 试 阶 段 , 测 试 样 本经 过 各 L S - S v M 后得 到 由一 1和 l 组成 的 7 位 编 码 , 与训 练样 本 形成 的编 码库 比 较后 就可 以得 到识别 结 果 . 为 了比 较 识 别 效果 , 本 文分 别 采用 L S一S V M 分 类器 和 距 离 分类 器 对 测 试 样 本 进 行 识别 , 其 中 L S一 S V M 的参 数 设置 为试二 一端= .0 5 , 厂 1 . 0 , 识 别 结 果 如表 l 所 示 . 表 1 距 离分 类器 和 L 象S V M 分类器 识别 结果 比 较 介 b l e 1 C o m P a ir s o n b e 巾胃 e e . t卜e m i n im u m d 妇at . e e e l a s s沉 e r a n d L S 一 S V M e l a s s沂 e r 特 征提 取 最 小距 离法禺 L S 一 S V N灯% Z e rn 止 e 矩 83 . 2 1 8 5 4 5 弹 性 网格 8 1 6 4 83 . 9 2 融合特 征 9 0 乃3 9 3 3 7 从 实 验 结果 可 以看 出 : 一 方 面 , 融 合 的特 征 向量 能够 更好 地 代表 手 写体 汉字 的特 征 ; 另 一方 面 , 对 于 相 同 的特 征 向量 , 本文 提 出的 L S一S V M 分 类 识 别 方 法 得 到 的识 别 率 高 于 采用 距 离 分 类 器 得 到 的识 别 率 . 因此 , 可 以证 明 L S一S V M 所 具 有 的泛 化 能 力对 小样 本 集 类 别 有 更好 的分 类 识 别 能 力 . 对 于相 同的样 本 , 改变 参 数氏 和夕的值 对 L S一 SV M 分类 器 进 行测 试 , 发现参 数值 的变化 对 L S一 SV M 分类 器 的 识别 率 影 响很 小 , 这 说 明 L S一 S V M 分类 器 对 参 数 的选 择有 很 强 的鲁棒性 . 最 后 分 析 一下 系统 的识别 时 间 , 根 据上 文所 述 , L S一S V M 多类 分类 算 法 实 际上 是 一种 并 行计 算方 法 , 识 别过 程仅 涉及 到 各个 判 别 函数 的计算 及 最 后 的解码 , 因此 识别 时 间远远 低于 “ 一对 一 ” 或 “ 一对 多 ” 的 S V M 多类识 别 方法 〔` , . 为 了进一 步 提 高 系 统 的训 练和 识 别 效率 , 可 以采 用 K o k se gn C hu a 提 出 的大 规模 L S一S V M 有 效 计算 方 法〔71 . .3 2 讨 论 本 文 提 出一 种 基 于 融 合 特 征 和 最 小 二 乘 支 持 向量机 的脱机 手 写体 汉字 识 别系 统 设计 方法 , 实验 证 明该 系统 能 够取 得 很好 的识 别 效果 . 下 一 步将 对 以下 两个 方 面做 进 一 步 的考虑 和 改 进 : ( l) 串行 特 征融 合方 法 虽然 简单 , 但 是融 合后 的特 征 向量 维数 增 多 , 给识 别速 度和 精度 带 来很 大 影 响 , 因此 需 要进 一 步研 究特 征融 合 的 策略 . (2 ) 尽 管 L S一S V M 比 S V M 计 算简 单 , 但是 由 于 L S一 S V M 的每个样 本数据 对 分类 器 都 有贡 献 , 所 以它 的 支持 向量 不具 有稀疏 性 , 这又 增 加 了分 类 的计 算量 , 因此 如何 得 到精练 的支持 向量 也 是
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有