基于 SVM的甲骨文字识别刘永革，刘国英 (安阳师范学院计

正在加载图片...

国家哲学社会科学学术期刊数据库 ational social sciences Datab 基于SVM的甲骨文字识别刘永革,刘国英 (安阳师范学院计算机与信息工程学院,河南安阳455000) 摘要]甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向量机分类技术研究甲骨文字图片的识别技术,通过试验证明达到88%的准确率 [关键词]甲骨文;支持向量机;识别 [中图分类]TP317.1 [文献标识码]A [文章编号]1671-5330(2017)02-0054-03 1甲骨文字识别的研究意义很多甲骨字在已出土的甲骨片中只出现几次,因甲骨文作为古文字还没有进入国家标准也此甲骨文字的识别需要一个满足小样本的识别方设有进入国际标准,所以甲骨文字在出版物上是法。因此,在项目执行过程中,我们采用支撑向量以图片出现这给检索带来了困难;同时使用大数机进行甲骨文字识别。据进行甲骨文考释的过程中需要大量的已标注3实验过程的甲骨图像数据库,而人工标注耗时耗力,且只有在我们的前期研究中已经建立了甲骨文图文甲骨文专家能够完成这项任务,基于以上两个原资料库,该库中包含6199个已经经过甲骨文专家因,甲骨文字图片的识别变得越来越重要,国内外标示过的甲骨文字。我们从数据库中,选择一些研究文字识别的成果很多,但是研究甲骨文图像异形体出现次数较多或者样本数量较少的甲骨文识别的不多,一是因为甲骨文是古文字,二是甲骨字构造识别数据库。具体如下: 拓片上文字背景噪声比较大,三是甲骨文异体字 (1)从数据库中,挑选15个字符进行识别实比较多,所以甲骨文的图像识别有一定难度。验支撑向量机进行甲骨文字识别大’,耳’,口’,目’,鸟’,女’,人支撑向量机( Support Vector Machine)是Cor 上’,首’,为’,西’,又’,中’,子’, tes和 Vapnik于1995年首先提出的,它在解决小自样本、非线性及高维模式识别中表现出许多特有共计选择了1290个甲骨字进行识别,每一个的优势,并能够推广应用到函数拟合等其他机器挑选的样本数量如表1所示。学习问题中。甲骨文字存在大量的异形体,且有 [收稿日期]2016-11-10 [基金项目]国家自然科学基金项目(项目编号:61572037);河南省教育厅自然科学研究重点项目(项目编号 14A52023);河南省甲骨文信息处理重点实验室资助;汉语海外传播河南省协同中心资助。 [作者简介]刘永革(1966-),男,教授,主要从事甲骨文信息处理、文字识别与文档分析;刘国英(1979-)男,教授,博士,主要从事计算机图形图像研究。国家哲学社会科学学术期刊数据库 National social sclences Database基于 SVM的甲骨文字识别刘永革，刘国英 (安阳师范学院计算机与信息工程学院，河南安阳 455000) [摘要 ]甲骨文作为古文字还没有进入国家标准也没有进入国际标准，所以甲骨文字在出版物上是以图片出现，这给检索带来了困难；同时使用大数据进行甲骨文考释的过程中，需要大量的已标注的甲骨图像数据库，而人工标注耗时耗力，且只有甲骨文专家能够完成这项任务，基于以上两个原因，甲骨文字图片的识别变得越来越重要，本文采用支持向量机分类技术研究甲骨文字图片的识别技术，通过试验证明达到 88％的准确率。 [关键词】甲骨文；支持向量机；识别 [中图分类]TP317．1 [文献标识码]A [文章编号 ]1671—5330(2017)02—0054—03 1 甲骨文字识别的研究意义甲骨文作为古文字还没有进人国家标准也没有进入国际标准，所以甲骨文字在出版物上是以图片出现，这给检索带来了困难；同时使用大数据进行甲骨文考释的过程中，需要大量的已标注的甲骨图像数据库，而人工标注耗时耗力，且只有甲骨文专家能够完成这项任务，基于以上两个原因，甲骨文字图片的识别变得越来越重要，国内外研究文字识别的成果很多，但是研究甲骨文图像识别的不多，一是因为甲骨文是古文字，二是甲骨拓片上文字背景噪声比较大，三是甲骨文异体字比较多，所以甲骨文的图像识别有一定难度。 2 支撑向量机进行甲骨文字识别支撑向量机 (SupportVectorMachine)是 Cor． tes和 Vapnik于 1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。甲骨文字存在大量的异形体，且有很多甲骨字在已出土的甲骨片中只出现几次，因此甲骨文字的识别需要一个满足小样本的识别方法。因此，在项目执行过程中，我们采用支撑向量机进行甲骨文字识别。 3 实验过程在我们的前期研究中已经建立了甲骨文图文资料库，该库中包含 6199个已经经过甲骨文专家标示过的甲骨文字。我们从数据库中，选择一些异形体出现次数较多或者样本数量较少的甲骨文字构造识别数据库。具体如下： (1)从数据库中，挑选 15个字符进行识别实验 ‘大 ’，‘耳 ’，‘口’，‘目’，‘鸟 ’，‘女 ’，‘人 ’， ‘上 ’，‘首 ’，‘为 ’，‘西 ’，‘又 ’，‘中 ’，‘子 ’， ‘自’。共计选择了 1290个甲骨字进行识别，每一个挑选的样本数量如表 1所示。 [收稿日期]2016—11—10 [基金项目]国家自然科学基金项目 (项目编号：61572037)；河南省教育厅自然科学研究重点项目 (项目编号： 14A520023)；河南省甲骨文信息处理重点实验室资助；汉语海外传播河南省协同中心资助。 [作者简介 ]刘永革 (1966一)，男，教授，主要从事甲骨文信息处理、文字识别与文档分析；刘国英 (1979一)男，教授，博士，主要从事计算机图形图像研究

向下翻页>>

点击下载：安阳师范学院：基于SVM的甲骨文字识别（刘永革、刘国英）