正在加载图片...
186 智能系统学报 第5卷 1 OCR技术使用步骤及局限 权等原因,现在学术期刊越来越多地倾向印刷作者 的肖像照片,在对这部分学术期刊进行数字化处理 光学字符识别,也可简单地称为文字识别,实际 时,肖像区域与文本区域的区分尤为重要.由于肖像 上是计算机认字,是一种文字自动输入方法.在文 与一般图像相比,具有纹理更简单、灰度变化更缓慢 献数字化中,其录人速度远远高于传统的手工输入, 的特点,故肖像与文本区分的可操作性更强、更有可 成为目前进行文献数字化的主要技术手段.虽然 能达到好的区分效果.算法主要针对作者肖像和文 OCR软件多种多样,但在进行文献数字化时,它们 本区域进行区分 的使用步骤基本相同45: 2基于小波的文本图像区分 1)文献扫描:使用扫描仪对要进行数字化的文 献进行扫描生成相应的图像; 2.1小波变换原理 2)图像处理:为了得到较好的识别效果,对1) Mallat提出了小波变换的分解与重构的快速算 得到的图像进行处理,主要包括倾斜校正、图像杂点 法「们.对二维信号(如图像)f(x,y),其分解公式为 及图像块的擦除、文献分析等; 3)文字识别:使用OCR软件对处理后的图像进 c=28. 行文字识别; 4)文稿校对:对3)中识别错误的文字进行校正, 由使用OCR技术进行文献数字化的基本步骤 成=2心 可以看出:2)和4)是人为干预部分,这2部分的存 在破坏了整个过程的自动化特性,降低了文献数字 起=26附 化的处理速度,这2部分也成了使用OCR技术进行 式中:C,代表图像的第j-1阶近似分量,Cm代表 文献数字化的效率瓶颈.由于现有的OCR软件只能 图像的第j阶近似分量(L),m代表图像的第j 识别文字不能识别图像,故在2)中需要对图像块进 阶垂直方向细节分量(LH),设代表图像的第j 行处理.为了提高识别精度,在使用OCR软件进行 阶水平方向的细节分量(HL”),m代表图像第j 文献数字化时,对图像块的处理手段主要有2个:一 阶对角方向的细节分量(HH) 是通过工作人员的人眼视觉找到图像块,然后进行 图像的重构公式为 擦除,其缺陷是速度慢、且工作人员容易疲劳;另一 Chm =2 (C.hhmd kSEZ 个手段是不擦除图像块,将其和文本一样进行处理, 设,g-2xhm-24+,ga-24gm-2x). 这样做虽然避免了手工擦除、提高了处理速度,但图 式中:h、g分别为低通滤波器和高通滤波器系数, 像块的存在会对文本识别造成干扰,且把处理文本 小波变换是空间(时间)和频率的局部变换,通 的手段用来对图像块处理有时还会得到意想不到的 过伸缩和平移等运算功能可对信号进行多尺度的细 结果.比如,在文献数字化时,往往要对文本部分进 化分析,最终达到高频处时间细分、低频处频率细 行二值化6,由于没有对图像块和文本区域进行区 分、从而可以聚焦到信号的任意细节,因而被称为 分,结果图像块也被二值化,本来颜色、灰度丰富的 “数学显微镜”.小波变换已被广泛应用于文本处 图像被简单地用黑、白2种颜色来表达,造成大量有 理、信号分析等领域.文献[7]指出通过分析文本和 用细节信息的丢失.为了对图像和文本区域进行区 图像的小波系数可以达到区分文本和图像的目的, 分,一些OCR软件虽然已具有了版面自动分析功 本文在文献[8]的基础上,通过定义小波分解不同 能,但分析效果还不够精确,有待提高 分量的能量比,得到了一个文本区域和肖像区域的 上面所说的图像块的二值化和图像块的缺失现 区分方法. 象在一些数字化文献中时有发生,这造成一些数字 2.2基于小波的文本图像区分算法 化文献不能很好地忠于原始文献.出于维护知识产 用小波对图像进行分解,所得阶分量的能量
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有