正在加载图片...
Vol.28 No.1 封筠等:一种SVM分类器自动模型选择方法 91· 0.5 量,形成最终输入分类器的特征向量.图4以某 0.4000。。。 0 0.3 8 个汉字样本为例说明了本文所采用的特征提取方 08 法,另外,实验中发现弹性网格数N×N选为 0.200 8g0 0 8×8时分类效果最好 0.1 0 0 8080 016 029.8 0 -0.3 0.4- (1) (2) (3) ◆ 0,5405-6.2u00.10203040.5 图4特征提取示例.(1)规范化汉字:(2)LL子图:(3)弹性网 格化的LL子图 图2人工数据集(两类分别用和'“'表示) Fig.4 Illustration of feature extraction:(1)normalized char- Fig.2 Artificial data set.the two classes are denoted by acter;(2)LL sub-image:(3)meshed LI.sub-image and 'respectively 以相似字组“己巳"为例来研究本文所提出的 为2048,宽度参数。为2.在此优化值的基础上, 模型选择方法在手写相似字识别中的应用,在实 利用本文所提出的保角变换对核函数进行送代修 验中,每个汉字选用900套不同的书写样本,其中 正计算,其结果如图3所示.可见,在第1步迭代 400套用作训练,剩余500套用于测试.由核参数 时SVM分类器就达到了最好的性能0.033,与没 优化算法所得到的误差惩罚因子C为16,宽度参 有修正前的0.09相比较,测试误差要降低 数:为8.对核函数进行迭代修正计算的结果如 63.3%,性能得到了大大改善 图5所示.在第1步送代时GE达到了0.033并 0.99 且此时支持向量占总的训练样本比例为17.0%, 与没有修正前的GE为0.06及支持向量比例为 0.07 54.9%相比较,GE要降低45%,支持向量比例要 降低69%,由此可见SVM分类器性能得到了较 06 大程度地改善.另外,对比图3可以发现两者的 0.05 核函数修正迭代曲线变化趋势很相似,都是在第 0.04 1步迭代时SVM分类器就达到了最好的性能,并 在后面的迭代中泛化误差GE趋于基本不变 0.030 6 送代步 0.0609 留3人工非线性分类问题的核函数修正结果 0.055 Fig.3 Simulated result for modified kernel on the artificial 0.050 non-linear classification problem 4.2手写相似汉字识别问题 0.045 相似字的识别是脱机手写汉字识别技术需要 0.040 解决的一个关键问题.尝试应用本文所提出的模 0.035 型选择方法来解决相似字识别这一难题.首先采 用弹性网格与小波变换相结合的方法提取汉字的 0.0300 4 5 迭代步 特征,具体做法是:先将规范化后的二维手写体汉 图5相似字组“己已”识别的核函数修正结果 字图像(64<64)按行、列分别进行一级小波变换, Fig.3 Simulated result for modified kernel on the similar set 对得到的低频分其【L子图(保持了汉字基本信 '己已'recognition problem 息)按汉字图像在水平和垂直两个方向上的直方 图投影的均匀划分构造一组弹性网格(N×N 5 结论 格),再计算每个网格内的像素概率分布,进而得 到一个V维的特征向量.然后,利用部分空间 本文提出了一种SVM分类器自动模型选择 法选择那些能表明相似字间主要差别的特征分 的新方法,有效地解决了SVM从理论走向实际V o l . 2 8 N o . l 封药等 : 一种 s v M 分类器自动模型选择方法 令 。 今卜+., 闷 。户今. 翔沪泌 . 卜 气 令 0 0 0 0 今吞母令 仑 o O 压 户 o U 、 O O o O 饭于 量 , 形 成最 终 输入 分类 器 的特 征 向量 . 图 4 以 某 个汉字样 本为例说 明 了本 文所采用 的特 征提取方 法 . 另 外 , 实 验 中 发 现 弹性 网 格 数 N 又 N 选 为 8 x s 时分类 效果最 好 . 0 0 0 + 、 + 已 已 。 ( l ) ( 2 ) ( 3 ) 一í么 。 一 0 . 至执卜 户 一 0 2 一 一住 3 漆 一 0 . 4 一 尹 。 。傀 魏犷 一 住s只 廿 黑共 一又j 〕 一气) 拜 一LJ ` 乍 0 . 2 一 0 . 1 0 0 . 1 0 2 0 一 3 0 . 4 0 . 5 X 图 2 人 工数据集 {两类分别用 ` 。 ’ 和 ` 关 ’ 表示 ) F ig . 2 a n d ` 关 人r t in e i a 搜 d a t a s e t . t he t附 e l a s s e s a er d e n o tde b y 图 4 特征提取示例 . ( l) 规范化汉字 ; 〔2 ) L L 子图 ; ( 3 )弹性网 格化的 L L 子图 F i g . 4 I及一此 t r a t盖。 n o f afe t 吐代 ex t ar e t i叨 : ( 1 ) n o r 秘li z de c h ar · a e t e r : ( 2 ) L L s u b · i m a g e ; ( 3 ) 砒 s h de L L s u b 一盖咖ge r e s P e e t i 、 e l》 为 2 0 4 8 , 宽度参数 。 为 2 . 在此优 化值的基础上 , 利用本 文所提 出的保角变换 对核 函数 进行迭代修 正 计 算 , 其结 果如图 3 所示 . 可见 , 在第 1 步迭代 时 S V M 分类器 就达 到 了最 好的性 能 0 . 0 3 , 与没 有 修 正 前 的 0 . ()9 相 比 较 , 测 试 误 差 要 降 低 6 3 . 3 % , 性能 得到了大大 改善 . 应0 1 2—3 4 5 6 以 相似字组 “ 己 巳 ” 为 例来研究本 文所提 出的 模型选 择方法 在手 写相似 字识 别中 的应用 . 在 实 验 中 , 每个汉 字选用 9 0 0 套不 同的书写样本 , 其中 4 0 0 套 用作训练 , 剩 余 50 0 套用 于测试 . 由核 参数 优 化算法所得 到的误差惩 罚 因子 C 为 16 , 宽度参 数 。 为 8 . 对核 函数进 行迭 代修正计算的结果 如 图 5 所示 . 在 第 1 步 迭代 时 G E 达 到 了 0 . 0 3 并 且此时支持 向量 占总的训 练样 本 比例为 17 . 0 % , 与没有 修正 前 的 G E 为 0 . 06 及支 持 向量 比 例为 5 4 . 9 % 相 比较 , G E 要 降低 4 5 % , 支持 向量 比 例要 降低 69 % , 由此 可 见 S V M 分 类 器性 能 得 到 了较 大程度 地 改善 . 另外 , 对 比 图 3 可 以 发现 两 者的 核函 数修正迭 代 曲 线变 化趋 势 很相 似 , 都 是 在第 1 步 迭代时 S V M 分类器 就达到 了最 好的性 能 , 并 在后面 的迭代中泛 化误差 G E 趋 于基本不变 . 勺QOC “朽气 通络,、 日口0日n 日自曰Unù n曰门 绷线 迭代步 图 3 人工非线性分类问题的核函 数修正结果 0 . 06 0 0 . 0 5 5 F i g . 3 Sim ” . a t ed r es u l t f o r n l o d if ied ke r 俄 1 o n t he a r t ifj e i a l n o n 一 l i n e a r e l a s s 云6 e a t i o n P m b l e n l 0 乃50 4 . 2 手写相似 汉字识别问题 相似字 的识别 是脱机手 写汉字识 别技术需要 解决 的 一 个关 键问题 . 尝试应 用本 文所提 出的模 型选 择 方法来 解决相似 字识别这一 难题 . 首先 采 用弹性 网格 与小波变换 相结合的方法提取 汉字的 特征 , 具体 做法是 : 先将规范化 后的二维手 写体汉 字 图像( 64 只 6 4) 按行 、 列分别进 行一级 小波变换 , 对得到 的低频 分 量 几L 子 图 ( 保 持 了汉 字 基本 信 息 ) 按汉字 图像 在水 平和 垂 直两 个方 向上 的 直方 图投影 的均 匀 划 分 构 造 一组 弹 性 网 格 ( N 又 N 格 ) , 再 计算每个网 格 内的像 素概率分 布 , 进 而得 到一 个 N 二 维 的特征 向量 . 然 后 , 利 用 部 分 空 间 法选择 那些 能 表 明 相 似 字 间 主要 差 别 的 特 征分 劣 。刀4 5 兮二 0 0 4 0 0 . 0 3 5… 1 0刀3 0 6 图 5 1 2 3 4 5 6 迭代步 相似字组 “ 己巳 ” 识 别的核函数修正结果 F i g . 3 Si m u l a tde 代 s u 砚t fo r m峨心 iif de k e能 1 o n t h e s 应m il a r s e t ` 己已 ’ er 魄 n it i o n p r o b一e m 5 结论 本 文提 出了一种 S V M 分 类器 自动模型 选 择 的新 方 法 , 有效 地解 决 了 S V M 从 理论 走 向实 际
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有