V o l . 2 8 N o . l 封药等 : 一种 s v M 分类

正在加载图片...

Vol.28 No.1 封筠等：一种SVM分类器自动模型选择方法 91· 0.5 量，形成最终输入分类器的特征向量.图4以某 0.4000。。。 0 0.3 8 个汉字样本为例说明了本文所采用的特征提取方 08 法，另外，实验中发现弹性网格数N×N选为 0.200 8g0 0 8×8时分类效果最好 0.1 0 0 8080 016 029.8 0 -0.3 0.4- (1) (2) (3) ◆ 0,5405-6.2u00.10203040.5 图4特征提取示例.(1)规范化汉字：(2)LL子图：(3)弹性网格化的LL子图图2人工数据集（两类分别用和'“'表示） Fig.4 Illustration of feature extraction:(1)normalized char- Fig.2 Artificial data set.the two classes are denoted by acter;(2)LL sub-image:(3)meshed LI.sub-image and 'respectively 以相似字组“己巳"为例来研究本文所提出的为2048，宽度参数。为2.在此优化值的基础上，模型选择方法在手写相似字识别中的应用，在实利用本文所提出的保角变换对核函数进行送代修验中，每个汉字选用900套不同的书写样本，其中正计算，其结果如图3所示.可见，在第1步迭代 400套用作训练，剩余500套用于测试.由核参数时SVM分类器就达到了最好的性能0.033，与没优化算法所得到的误差惩罚因子C为16，宽度参有修正前的0.09相比较，测试误差要降低数：为8.对核函数进行迭代修正计算的结果如 63.3%,性能得到了大大改善图5所示.在第1步送代时GE达到了0.033并 0.99 且此时支持向量占总的训练样本比例为17.0%，与没有修正前的GE为0.06及支持向量比例为 0.07 54.9%相比较，GE要降低45%，支持向量比例要降低69%，由此可见SVM分类器性能得到了较 06 大程度地改善.另外，对比图3可以发现两者的 0.05 核函数修正迭代曲线变化趋势很相似，都是在第 0.04 1步迭代时SVM分类器就达到了最好的性能，并在后面的迭代中泛化误差GE趋于基本不变 0.030 6 送代步 0.0609 留3人工非线性分类问题的核函数修正结果 0.055 Fig.3 Simulated result for modified kernel on the artificial 0.050 non-linear classification problem 4.2手写相似汉字识别问题 0.045 相似字的识别是脱机手写汉字识别技术需要 0.040 解决的一个关键问题.尝试应用本文所提出的模 0.035 型选择方法来解决相似字识别这一难题.首先采用弹性网格与小波变换相结合的方法提取汉字的 0.0300 4 5 迭代步特征，具体做法是：先将规范化后的二维手写体汉图5相似字组“己已”识别的核函数修正结果字图像(64<64)按行、列分别进行一级小波变换， Fig.3 Simulated result for modified kernel on the similar set 对得到的低频分其【L子图（保持了汉字基本信 '己已'recognition problem 息)按汉字图像在水平和垂直两个方向上的直方图投影的均匀划分构造一组弹性网格(N×N 5 结论格)，再计算每个网格内的像素概率分布，进而得到一个V维的特征向量.然后，利用部分空间本文提出了一种SVM分类器自动模型选择法选择那些能表明相似字间主要差别的特征分的新方法，有效地解决了SVM从理论走向实际V o l . 2 8 N o . l 封药等 : 一种 s v M 分类器自动模型选择方法令。今卜+., 闷。户今. 翔沪泌 . 卜气令 0 0 0 0 今吞母令仑 o O 压户 o U 、 O O o O 饭于量 , 形成最终输入分类器的特征向量 . 图 4 以某个汉字样本为例说明了本文所采用的特征提取方法 . 另外 , 实验中发现弹性网格数 N 又 N 选为 8 x s 时分类效果最好 . 0 0 0 + 、 + 已已。 ( l ) ( 2 ) ( 3 ) 一í么。一 0 . 至执卜户一 0 2 一一住 3 漆一 0 . 4 一尹。。傀魏犷一住s只廿黑共一又j 〕一气) 拜一LJ ` 乍 0 . 2 一 0 . 1 0 0 . 1 0 2 0 一 3 0 . 4 0 . 5 X 图 2 人工数据集 {两类分别用 ` 。 ’ 和 ` 关 ’ 表示 ) F ig . 2 a n d ` 关人r t in e i a 搜 d a t a s e t . t he t附 e l a s s e s a er d e n o tde b y 图 4 特征提取示例 . ( l) 规范化汉字 ; 〔2 ) L L 子图 ; ( 3 )弹性网格化的 L L 子图 F i g . 4 I及一此 t r a t盖。 n o f afe t 吐代 ex t ar e t i叨 : ( 1 ) n o r 秘li z de c h ar · a e t e r : ( 2 ) L L s u b · i m a g e ; ( 3 ) 砒 s h de L L s u b 一盖咖ge r e s P e e t i 、 e l》为 2 0 4 8 , 宽度参数。为 2 . 在此优化值的基础上 , 利用本文所提出的保角变换对核函数进行迭代修正计算 , 其结果如图 3 所示 . 可见 , 在第 1 步迭代时 S V M 分类器就达到了最好的性能 0 . 0 3 , 与没有修正前的 0 . ()9 相比较 , 测试误差要降低 6 3 . 3 % , 性能得到了大大改善 . 应0 1 2—3 4 5 6 以相似字组 “ 己巳 ” 为例来研究本文所提出的模型选择方法在手写相似字识别中的应用 . 在实验中 , 每个汉字选用 9 0 0 套不同的书写样本 , 其中 4 0 0 套用作训练 , 剩余 50 0 套用于测试 . 由核参数优化算法所得到的误差惩罚因子 C 为 16 , 宽度参数。为 8 . 对核函数进行迭代修正计算的结果如图 5 所示 . 在第 1 步迭代时 G E 达到了 0 . 0 3 并且此时支持向量占总的训练样本比例为 17 . 0 % , 与没有修正前的 G E 为 0 . 06 及支持向量比例为 5 4 . 9 % 相比较 , G E 要降低 4 5 % , 支持向量比例要降低 69 % , 由此可见 S V M 分类器性能得到了较大程度地改善 . 另外 , 对比图 3 可以发现两者的核函数修正迭代曲线变化趋势很相似 , 都是在第 1 步迭代时 S V M 分类器就达到了最好的性能 , 并在后面的迭代中泛化误差 G E 趋于基本不变 . 勺QOC “朽气通络,、日口0日n 日自曰Unù n曰门绷线迭代步图 3 人工非线性分类问题的核函数修正结果 0 . 06 0 0 . 0 5 5 F i g . 3 Sim ” . a t ed r es u l t f o r n l o d if ied ke r 俄 1 o n t he a r t ifj e i a l n o n 一 l i n e a r e l a s s 云6 e a t i o n P m b l e n l 0 乃50 4 . 2 手写相似汉字识别问题相似字的识别是脱机手写汉字识别技术需要解决的一个关键问题 . 尝试应用本文所提出的模型选择方法来解决相似字识别这一难题 . 首先采用弹性网格与小波变换相结合的方法提取汉字的特征 , 具体做法是 : 先将规范化后的二维手写体汉字图像( 64 只 6 4) 按行、列分别进行一级小波变换 , 对得到的低频分量几L 子图 ( 保持了汉字基本信息 ) 按汉字图像在水平和垂直两个方向上的直方图投影的均匀划分构造一组弹性网格 ( N 又 N 格 ) , 再计算每个网格内的像素概率分布 , 进而得到一个 N 二维的特征向量 . 然后 , 利用部分空间法选择那些能表明相似字间主要差别的特征分劣。刀4 5 兮二 0 0 4 0 0 . 0 3 5… 1 0刀3 0 6 图 5 1 2 3 4 5 6 迭代步相似字组 “ 己巳 ” 识别的核函数修正结果 F i g . 3 Si m u l a tde 代 s u 砚t fo r m峨心 iif de k e能 1 o n t h e s 应m il a r s e t ` 己已 ’ er 魄 n it i o n p r o b一e m 5 结论本文提出了一种 S V M 分类器自动模型选择的新方法 , 有效地解决了 S V M 从理论走向实际

<<向上翻页向下翻页>>

点击下载：一种SVM分类器自动模型选择方法