正在加载图片...
国家哲学社会科学学术期刊数据库 ational social sciences Datab 基于SVM的甲骨文字识别 刘永革,刘国英 (安阳师范学院计算机与信息工程学院,河南安阳455000) 摘要]甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这 给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时 耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向 量机分类技术研究甲骨文字图片的识别技术,通过试验证明达到88%的准确率 [关键词]甲骨文;支持向量机;识别 [中图分类]TP317.1 [文献标识码]A [文章编号]1671-5330(2017)02-0054-03 1甲骨文字识别的研究意义 很多甲骨字在已出土的甲骨片中只出现几次,因 甲骨文作为古文字还没有进入国家标准也此甲骨文字的识别需要一个满足小样本的识别方 设有进入国际标准,所以甲骨文字在出版物上是法。因此,在项目执行过程中,我们采用支撑向量 以图片出现这给检索带来了困难;同时使用大数机进行甲骨文字识别。 据进行甲骨文考释的过程中需要大量的已标注3实验过程 的甲骨图像数据库,而人工标注耗时耗力,且只有 在我们的前期研究中已经建立了甲骨文图文 甲骨文专家能够完成这项任务,基于以上两个原资料库,该库中包含6199个已经经过甲骨文专家 因,甲骨文字图片的识别变得越来越重要,国内外标示过的甲骨文字。我们从数据库中,选择一些 研究文字识别的成果很多,但是研究甲骨文图像异形体出现次数较多或者样本数量较少的甲骨文 识别的不多,一是因为甲骨文是古文字,二是甲骨字构造识别数据库。具体如下: 拓片上文字背景噪声比较大,三是甲骨文异体字 (1)从数据库中,挑选15个字符进行识别实 比较多,所以甲骨文的图像识别有一定难度。 验 支撑向量机进行甲骨文字识别 大’,耳’,口’,目’,鸟’,女’,人 支撑向量机( Support Vector Machine)是Cor 上’,首’,为’,西’,又’,中’,子’, tes和 Vapnik于1995年首先提出的,它在解决小 自 样本、非线性及高维模式识别中表现出许多特有 共计选择了1290个甲骨字进行识别,每一个 的优势,并能够推广应用到函数拟合等其他机器挑选的样本数量如表1所示。 学习问题中。甲骨文字存在大量的异形体,且有 [收稿日期]2016-11-10 [基金项目]国家自然科学基金项目(项目编号:61572037);河南省教育厅自然科学研究重点项目(项目编号 14A52023);河南省甲骨文信息处理重点实验室资助;汉语海外传播河南省协同中心资助。 [作者简介]刘永革(1966-),男,教授,主要从事甲骨文信息处理、文字识别与文档分析;刘国英(1979-)男,教授,博 士,主要从事计算机图形图像研究。 国家哲学社会科学学术期刊数据库 National social sclences Database基于 SVM的 甲骨文字识 别 刘永革 ,刘 国英 (安 阳师范 学院 计 算机与信息工程学 院 ,河南 安 阳 455000) [摘要 ]甲骨文 作为古文字还没有进入 国家标 准也没 有进 入 国际标准 ,所 以 甲骨 文字在 出版 物上是 以图片 出现 ,这 给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时 耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向 量 机分类技术研究 甲骨文字 图片 的识别技 术 ,通过试验证 明达到 88% 的准确率 。 [关键词 】甲骨文 ;支持 向量机 ;识别 [中图分 类]TP317.1 [文献标识 码]A [文章编号 ]1671—5330(2017)02—0054—03 1 甲骨文字识别 的研 究意义 甲骨文作 为古文字还没有进人国家标 准也 没有进入 国际标准 ,所 以甲骨文字在出版物上是 以图片出现 ,这给检索带来 了困难 ;同时使用大数 据进行 甲骨文考释 的过程中 ,需要大量的已标 注 的甲骨图像数据库 ,而人工标注耗时耗力 ,且 只有 甲骨文专家能够完成这项任务 ,基于 以上两个 原 因,甲骨文字图片的识别变得越来越重要 ,国内外 研究文字识别 的成果很多 ,但是研究 甲骨文图像 识别 的不多 ,一是 因为甲骨文是古文字 ,二是 甲骨 拓片上文字背景 噪声 比较大 ,三是 甲骨文异体字 比较多 ,所以甲骨文的图像识别有一定难度 。 2 支撑 向量机进行 甲骨文字识别 支撑向量机 (SupportVectorMachine)是 Cor. tes和 Vapnik于 1995年首先提 出的,它在解决小 样本 、非线性及高维模 式识别 中表现 出许多特有 的优势 ,并能够推广应用到函数拟合等其他机器 学习问题中。甲骨文字存在大量 的异形体 ,且有 很多甲骨字在已出土 的甲骨片 中只 出现几次 ,因 此 甲骨文字的识别需要一个满足小样本的识别方 法。因此 ,在项 目执行过程中,我们采用支撑 向量 机进行 甲骨文字识别。 3 实验过程 在我们 的前期研究 中已经建立了甲骨文 图文 资料库 ,该库中包含 6199个已经经过 甲骨文专家 标示过的甲骨文字 。我们从数据库 中 ,选择一些 异形体 出现次数较多或者样本数量较少 的甲骨文 字构造识别数据库。具体如下 : (1)从数据库 中,挑选 15个字符进行识别实 验 ‘大 ’,‘耳 ’,‘口’,‘目’,‘鸟 ’,‘女 ’,‘人 ’, ‘上 ’,‘首 ’,‘为 ’,‘西 ’,‘又 ’,‘中 ’,‘子 ’, ‘自’。 共计选择 了 1290个 甲骨字进行识别 ,每一个 挑选的样本数量如表 1所示 。 [收稿日期]2016—11—10 [基金项 目]国家 自然科 学 基 金 项 目 (项 目编 号 :61572037);河 南 省 教 育 厅 自然 科 学 研 究 重 点 项 目 (项 目编 号 : 14A520023);河南省甲骨文信息处理重点实验室资助 ;汉语海外传播河南省协同中心资助。 [作者简介 ]刘永革 (1966一),男 ,教授 ,主要从 事 甲骨文 信息处 理 、文字识 别 与文 档分 析 ;刘 国英 (1979一)男 ,教 授 ,博 士 ,主要从事计算机 图形 图像研 究
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有