国家哲学社会科学学术期刊数据库 ational social sciences Datab 基于SVM的甲骨文字识别 刘永革,刘国英 (安阳师范学院计算机与信息工程学院,河南安阳455000) 摘要]甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这 给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时 耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向 量机分类技术研究甲骨文字图片的识别技术,通过试验证明达到88%的准确率 [关键词]甲骨文;支持向量机;识别 [中图分类]TP317.1 [文献标识码]A [文章编号]1671-5330(2017)02-0054-03 1甲骨文字识别的研究意义 很多甲骨字在已出土的甲骨片中只出现几次,因 甲骨文作为古文字还没有进入国家标准也此甲骨文字的识别需要一个满足小样本的识别方 设有进入国际标准,所以甲骨文字在出版物上是法。因此,在项目执行过程中,我们采用支撑向量 以图片出现这给检索带来了困难;同时使用大数机进行甲骨文字识别。 据进行甲骨文考释的过程中需要大量的已标注3实验过程 的甲骨图像数据库,而人工标注耗时耗力,且只有 在我们的前期研究中已经建立了甲骨文图文 甲骨文专家能够完成这项任务,基于以上两个原资料库,该库中包含6199个已经经过甲骨文专家 因,甲骨文字图片的识别变得越来越重要,国内外标示过的甲骨文字。我们从数据库中,选择一些 研究文字识别的成果很多,但是研究甲骨文图像异形体出现次数较多或者样本数量较少的甲骨文 识别的不多,一是因为甲骨文是古文字,二是甲骨字构造识别数据库。具体如下: 拓片上文字背景噪声比较大,三是甲骨文异体字 (1)从数据库中,挑选15个字符进行识别实 比较多,所以甲骨文的图像识别有一定难度。 验 支撑向量机进行甲骨文字识别 大’,耳’,口’,目’,鸟’,女’,人 支撑向量机( Support Vector Machine)是Cor 上’,首’,为’,西’,又’,中’,子’, tes和 Vapnik于1995年首先提出的,它在解决小 自 样本、非线性及高维模式识别中表现出许多特有 共计选择了1290个甲骨字进行识别,每一个 的优势,并能够推广应用到函数拟合等其他机器挑选的样本数量如表1所示。 学习问题中。甲骨文字存在大量的异形体,且有 [收稿日期]2016-11-10 [基金项目]国家自然科学基金项目(项目编号:61572037);河南省教育厅自然科学研究重点项目(项目编号 14A52023);河南省甲骨文信息处理重点实验室资助;汉语海外传播河南省协同中心资助。 [作者简介]刘永革(1966-),男,教授,主要从事甲骨文信息处理、文字识别与文档分析;刘国英(1979-)男,教授,博 士,主要从事计算机图形图像研究。 国家哲学社会科学学术期刊数据库 National social sclences Database
基于 SVM的 甲骨文字识 别 刘永革 ,刘 国英 (安 阳师范 学院 计 算机与信息工程学 院 ,河南 安 阳 455000) [摘要 ]甲骨文 作为古文字还没有进入 国家标 准也没 有进 入 国际标准 ,所 以 甲骨 文字在 出版 物上是 以图片 出现 ,这 给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时 耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向 量 机分类技术研究 甲骨文字 图片 的识别技 术 ,通过试验证 明达到 88% 的准确率 。 [关键词 】甲骨文 ;支持 向量机 ;识别 [中图分 类]TP317.1 [文献标识 码]A [文章编号 ]1671—5330(2017)02—0054—03 1 甲骨文字识别 的研 究意义 甲骨文作 为古文字还没有进人国家标 准也 没有进入 国际标准 ,所 以甲骨文字在出版物上是 以图片出现 ,这给检索带来 了困难 ;同时使用大数 据进行 甲骨文考释 的过程中 ,需要大量的已标 注 的甲骨图像数据库 ,而人工标注耗时耗力 ,且 只有 甲骨文专家能够完成这项任务 ,基于 以上两个 原 因,甲骨文字图片的识别变得越来越重要 ,国内外 研究文字识别 的成果很多 ,但是研究 甲骨文图像 识别 的不多 ,一是 因为甲骨文是古文字 ,二是 甲骨 拓片上文字背景 噪声 比较大 ,三是 甲骨文异体字 比较多 ,所以甲骨文的图像识别有一定难度 。 2 支撑 向量机进行 甲骨文字识别 支撑向量机 (SupportVectorMachine)是 Cor. tes和 Vapnik于 1995年首先提 出的,它在解决小 样本 、非线性及高维模 式识别 中表现 出许多特有 的优势 ,并能够推广应用到函数拟合等其他机器 学习问题中。甲骨文字存在大量 的异形体 ,且有 很多甲骨字在已出土 的甲骨片 中只 出现几次 ,因 此 甲骨文字的识别需要一个满足小样本的识别方 法。因此 ,在项 目执行过程中,我们采用支撑 向量 机进行 甲骨文字识别。 3 实验过程 在我们 的前期研究 中已经建立了甲骨文 图文 资料库 ,该库中包含 6199个已经经过 甲骨文专家 标示过的甲骨文字 。我们从数据库 中 ,选择一些 异形体 出现次数较多或者样本数量较少 的甲骨文 字构造识别数据库。具体如下 : (1)从数据库 中,挑选 15个字符进行识别实 验 ‘大 ’,‘耳 ’,‘口’,‘目’,‘鸟 ’,‘女 ’,‘人 ’, ‘上 ’,‘首 ’,‘为 ’,‘西 ’,‘又 ’,‘中 ’,‘子 ’, ‘自’。 共计选择 了 1290个 甲骨字进行识别 ,每一个 挑选的样本数量如表 1所示 。 [收稿日期]2016—11—10 [基金项 目]国家 自然科 学 基 金 项 目 (项 目编 号 :61572037);河 南 省 教 育 厅 自然 科 学 研 究 重 点 项 目 (项 目编 号 : 14A520023);河南省甲骨文信息处理重点实验室资助 ;汉语海外传播河南省协同中心资助。 [作者简介 ]刘永革 (1966一),男 ,教授 ,主要从 事 甲骨文 信息处 理 、文字识 别 与文 档分 析 ;刘 国英 (1979一)男 ,教 授 ,博 士 ,主要从事计算机 图形 图像研 究
第2期 刘水革,刘国英:基于SWM的甲骨文字识别学学术期刊数据5s 表115个甲骨字符表 最后,多分类C-SVM选用一对一的投票策 大耳口目鸟女人 略进行甲骨字识别。 8185538701128 (4)实验中选用的识别步骤 首为西又中子自 21311322577431056 因-图图图圈 训练集:随机从每一个字符对应的字符集合 中选择1/3的样本作为训练样本; 鸟 测试集:整个数据集合作为测试集合。 (2)甲骨字特征的提取 在研究中,我们采用如下步骤提取甲骨文字 图1甲骨字识别步骤 特征 如图1所示,打开一幅甲骨图像,依次进行归 Stepl.原始图像归一化。试验中,采用最大 化、细化、裁剪和特征提取后,送人SⅤM进行识 最小规格化方法: 别,获得最终的识别结果。 (5)实验系统设计 min_ d hew_max_A - new_min_A)+ new_min_A 平骨字识别型系就 试验中,我们将 new min A和new_maxA分 别设置为0和1。 Step2.对归一化后的图像提取骨架。试验 中,采用数学形态学方法对图像进行细化。从而 获取只有单像素宽度的甲骨字骨架 Step3.图像裁剪。计算骨架图像中甲骨字的 最小外接矩形,并据此对图像进行裁剪,获取裁剪 后的数字图像。 图2系统界面 研究中我们开发了如图所示的甲骨字识别原 step4.文字特征提取。试验中,我们采用分型系统。一个甲骨文字识别的例子如图3。 块直方图的形式提取文字特征。具体来讲,将裁 剪后的图像划分为M*M个分块,统计每一块内 甲骨字识别原型系统 部甲骨字像素的个数,再进行归一化以后作为对 应文字的特征。 市女 (3)设计支撑向量机 再 首先,在研究中,我们用C-SVM作为分类 器。对应的目标函数为 in‖W‖2+c∑e 满足:y[wx1+b]≥1-e1且e;>0。其中,C 图3甲骨字识别示例图 为调整代价系数。 (6)实验分析 其次,我们选用径向基函数作为核函数 对测试数据进行分析,并获取对应的识别指 K(x, y)=exp(-y x-y) 标。研究中我们采用 Kappa系数和识别准确率进 接着,采用网格搜索和交叉验证的方法获取行评价。针对数据集获取的混淆矩阵如表2, SVM参数。对应试验中选用的训练样本,选 用的参数是:C=2,y=0.5
第 2期 刘 永革 ,刘目英 :基于 SVM 的甲骨文字识别 55 表 1 15个 甲骨字符表 大 耳 [j 吗 女 人 上 80 28 l8 55 38 70 ll2 8 为 两 又 由 于 自 21 3l l32 257 74 310 56 训练集 :随机从每一个字符对应 的字符集合 中选择 l/3的样本作为训练样本; 测试集 :整个数据集合作为测试集合 。 (2)甲骨 字特 征 的提取 在研究中,我们采用如下步骤提取 甲骨文字 特 征 : Step1.原始 像 归一化。试验 中,采用最大 最 小 规格化 疗法 : = l一ll~.1X!一 一 min A(、1lew_ nlax ~4 一 II~~W — nli!l4)+new—min_A 试验 中 ,我 们将 new—Illin—A和 new—max—A分 别没 置为 0和 l. Step2.对归一 化 后的图像提 取骨 架。试验 中 ,采用 数学 形 态 学 方 法 对 图像进 行细 化 。从 而 扶取 只有单像素宽度的甲骨字骨架。 Step3.图像裁剪。计算骨架图像中甲骨字的 最 d4'b接 矩 形 ,并 据此 对 图像进 行 裁剪 ,获取 裁剪 后 的数宇 像 、 Ster~l-.文字特征提取 。试验 中,我们采用分 块 直方图的形式提取 文字特 征。具体来讲 ,将裁 剪 后的 图像划 分 为 M M 个分块 ,统 计 每一 块 内 部 甲骨字像素的个数 ,再进行归一化 以后作 为对 应 文宁 的特 征 。 (3)设if‘支撑 向量机 首先 ,在研 究 中,我 们用 C—SVM 作为分类 器 .、对应的目标函数 为: l A m.1÷lWl!+C∑ , 满足:Y.[WX+b]≥1—8.且 s;>0。其 中,C 为调整代价系数。 其次 ,我们选用径 向基函数作为核函数 : K( ,Y)=exp(一 ll —yll) 接着 ,采用网格搜索和交叉验证 的方法获取 C—SVM 参 数 对 应 试验 中选 用 的训 练样 本 ,选 用的参数是 :C=2, =0.5。 最后 ,多分类 C—SVM选用一对一 的投票策 略进行 甲骨 字识 别 。 (4)实验 中选 用 的识 别步骤 因 愀 一因 费—识 一因—舷 一困 氍一 一■ 圈 嘲 讽鸟嗍 一圈剁 图 1 甲骨字识别步骤 如图 1所示 ,打开一幅甲骨图像 ,依次进行归 一 化 、细化 、裁剪和特征提取后 ,送人 SVM进行识 别,获得最终的识别结果。 (5)实 验 系统 设 计 图 2 系统 界面 研究 中我们开发了如图所示的 甲骨字识别原 型系统。一个甲骨文字识别的例子如图 3。 ■一 … 一 嚣 溅剃壤蹬礞黢 女 捌 — --. 期黼 ¨嗤蕾 嗍 IIIttt-4t 嘲 翩 嘲 嘲 {州 { .翱● 图 3 甲骨字识别示例图 (6)实验 分析 对测试数据进行 分析 ,并获取对应 的识别指 标。研究 中我们采用 Kappa系数和识别准确率进 行评价。针对数据集获取的混淆矩阵如表 2
国家哲学社会科学学术期刊数据库 tonal social sciences 6 安阳师范学院学报 2017年 表2混淆矩阵表 字符大耳|口目鸟女人上首为西又中|子自总计 女000015350 0 07170 首为西又中 000 000120200 000001 000 10252030 子00001100001020289 自 000000000 总计917154626571166142613127068366 根据该表计算得出kapa=0.86,分类准确2]马然,基于深度学习的自然场景文本识别系统的设 率acc=0.8806。 计与实现[D].长春:吉林大学,2015 4实验结果分析 [3]焦微微.脱机手写文字识别技术方法的研究[D].乌 从实验结果可以看出,研究中采用的方法虽 鲁木齐:新疆大学,2014. [4]张鹏,谢晓尧.基于改进的C-支持向量机的手写体 然有一定的准确率,但是仍然不够高,识别出的结 数字高识别率方法研究[J].贵州师范大学学报(自 果仍需要甲骨文专家进一步确认。这主要是因为 然科学版),2014(02) 甲骨文字异形体出现过于频繁造成的。在后续的5]肖明,曾莉.基于M汉字识别方法的特征分析[J 研究中,我们将针对异形体的识别问题重点攻关。 数字技术与应用,2011(10):154-155 [6]李雷.基于人工智能机器学习的文字识别方法研究 [参考文献] [D].成都:电子科技大学,2013 [1]王海燕,王红军,徐小力.基于支持向量机的纳西东7]孙华,李爱平.支持向量机的古汉字识别研究[J].电 巴象形文字符识别[J].云南大学学报(自然科学 脑知识与技术,2013(18):4296-4298 版),2016(05):730-736 Oracle Bone Inscription Recognition based on SVM LIU Yongge, LIU Guoying School of Computer and Information Engineering, An Yang Normal University, An Y ang 455000, China) Abstract: Oracle bone inscription as ancient characters has not yet entered the national standard and the inter national standard, so the characters in a publication are pictures, which bring difficulty to the retrieval process, at the same time; the interpretation of Oracle bone inscription needs annotated image which annot tion is time-consuming and only Oracle experts can complete it, based on the above two reasons, the image recognition characters become more and more important, this paper we use support vector machine classifica- tion technology to do research of Oracle bone inscription image recognition, the result of experiment is 88% accuracy accurate Key words: oracle bone inscription; SVM; recognition [责任编辑:江雪 国家哲学社会科学学术期刊数据库 National social sclences Database
56 安 阳师范学院学报 2017矩 表 2 混淆矩 阵表 字符 大 Ⅱ 口 目 鸟 女 人 上 首 为 西 又 由 子 自 总计 大 77 0 0 0 0 0 0 0 0 0 0 2 0 1 0 80 巨 0 l7 0 1 1 1 l 0 0 0 0 0 0 7 0 28 口 0 O 15 0 0 O l 0 0 O O 0 O 2 0 18 目 0 0 0 43 0 1 O 0 1 O 0 0 0 10 0 55 鸟 1 O 0 0 22 0 3 0 O 1 2 2 l 6 0 38 女 0 0 0 0 1 53 5 0 l O 1 1 O 7 1 70 人 O 0 O l 0 0 102 0 O 0 0 3 O 6 0 1l2 上 0 0 0 0 0 0 0 6 0 0 0 O 0 2 0 8 首 0 O O 1 1 0 O 0 12 0 2 0 0 5 0 21 为 0 0 0 0 O 0 2 0 O 24 O 2 O 3 O 3l 西 0 O O O 0 1 0 0 0 0 l16 3 2 10 0 132 又 0 0 0 0 O O 1 0 0 l O 252 0 3 0 257 由 0 0 0 0 0 0 1 0 0 O 1 3 65 4 0 74 子 0 0 0 0 1 1 0 O 0 0 1O 2 0 289 7 310 自 l 0 0 0 0 0 0 O 0 0 l 0 0 11 43 56 总计 79 17 15 46 26 57 l16 6 14 26 l33 270 68 366 51 1136 根据该表计算 得出 kappa=0.86,分类 准确 [2]马然.基于深度学习的自然场景文本识别系统的设 率 acc:0.8806 计与实现[D].长春:吉林大学,2015. 4 实验结果分析 [譬 ‘,脱机了文字识别技术方法的研究[D]·乌 然… 有从一 奎定 竺 的篓准量确率 !,但是仍然不 至够 ! 高 ,识别出的曼结 霎 ] 支持向量机的手写体 . 妄i 莘 果仍需要 甲骨文专家进一步确认 。这主要是 因为 然科学版),2014(02):95—98. 甲骨文字异形体出现过于频繁造成的。在后续的 E5]肖明,曾莉.基于SVM汉字识别方法的特征分析[J]. 研究 中,我们将针对异形体 的识别问题重点攻关 。 数字技术与应用,2011(10):154—155. 翱 2013. 敝 翱 别桃 [1]王海燕,王红军,徐小力.基于支持 向量机的纳西东 [7]孙华 ,李爱平.支持向量机的古汉字识别研究[J].电 巴象形文字符识别 [J].云南大学学报 (自然科学 脑知识与技术,2013(18):4296—4298. Oracle BoneInscription Recognition based on SVM LIU Yongge.LIU Guoying (SchoolofComputerandInformationEngineering,AnYangNormalUniversity,AnYang455000,China) Abstract:Oracleboneinscription asancientcharactershasnotyetentered thenationalstandardand theinternationalstandard, SO the characters in a publication are pictures, which bring dificulty to the retrieval process,atthesametime;the interpretation ofOraclebone inscription needsannotated imagewhich annota— tion istime—consuming and only Oracleexpelscan complete it,based on the abovetworeasons,theimage recognitioncharactersbecome moreand more important,thispaperweuse support vectormachineclassifica— tion technology todo research ofOracle bone inscription image recognition,theresultofexperimentis88% Key words:oracle boneinscription;SVM ;recognition