第5卷第2期 智能系统学报 Vol.5 No.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/j.issn.1673-4785.2010.02.015 小波的文本图像区分及其在文献信息 数字化中的应用 陈杰1,孙忠贵2,周书锋2 (1.聊城大学图书馆,山东聊城252059;2.聊城大学数学科学学院,山东聊城252059) 摘要:目前,OCR技术对文本图像区域自动区分的效果还不够精确,进而影响了OCR技术在文献信息数字化过程 中的工作效率.针对这一局限,提出了一种基于小波的文本图像区分方法.方法首先对扫描区域进行小波分解,然后 使用分解系数构建分解能量,最后依据分解能量大小对文本图像进行自动区分.结果表明,该方法对文本图像的区 分效果较好,诚少了在使用OC技术进行文献信息数字化时的人为干预,有利于提高文献信息数字化过程的自动化 水平.最后通过实验仿真验证了该方法的有效性 关键词:数字化文献;OCR;小波;文本图像 中图分类号:TP18;TN911.72文献标识码:A文章编号:16734785(2010)02018504 Applying image classification using wavelets to digitization of document information CHEN Jie',SUN Zhong-gui2,ZHOU Shu-feng? (1.Library of Liaocheng University,Liaocheng 252059,China;2.College of Mathematics Science,Liaocheng University,Liaocheng 252059,China) Abstract:The accuracy of optical character recognition (OCR)technology in distinguishing between text areas and image areas has remained relatively low.Unfortunately this reduces the efficiency of OCR in digitization of docu- ment information.After analyzing the main steps of OCR applied to a digital library,the authors evolved an image classification algorithm based on wavelets.Decomposing the scanning area with wavelet transform was the first step in the algorithm.The energy value of the area could then be derived from wavelet coefficients.The task of distin- guishing between text and images was accomplished by analyzing their energy values.The algorithm proved fast and automatic,characteristics increasing the efficiency of the digitization of document information.It was clear that the simulation verified the new algorithms feasibility. Keywords:digitalizing document;OCR;wavelet;text image 文献信息数字化是信息资源建设的重要内容之 时需要工作人员手工标记出文本区域和图像区域, 一,OCR技术是目前进行文献数字化的主要技术手 以至降低了文献数字化的工作效率.针对这一问题, 段[l3j.由于OCR(optical character recognition,. 提出了一种基于小波的文本图像区分方法,该方法 OCR)技术不能很好地对文献的文本区域和图像区 有助于实现文本区域和图像区域的自动区分,将其 域进行自动区分,在使用OCR技术进行文献数字化 与OCR技术相结合,有利于提高文献数字化的自动 化水平和工作效率.最后通过实验仿真验证了该方 收稿日期:2009-1205. 基金项目:聊城大学青年教师科研基金资助项目(X0810029) 法的有效性. 通信作者:孙忠贵.E-mail:altlp@vip.ina.com
186 智能系统学报 第5卷 1 OCR技术使用步骤及局限 权等原因,现在学术期刊越来越多地倾向印刷作者 的肖像照片,在对这部分学术期刊进行数字化处理 光学字符识别,也可简单地称为文字识别,实际 时,肖像区域与文本区域的区分尤为重要.由于肖像 上是计算机认字,是一种文字自动输入方法.在文 与一般图像相比,具有纹理更简单、灰度变化更缓慢 献数字化中,其录人速度远远高于传统的手工输入, 的特点,故肖像与文本区分的可操作性更强、更有可 成为目前进行文献数字化的主要技术手段.虽然 能达到好的区分效果.算法主要针对作者肖像和文 OCR软件多种多样,但在进行文献数字化时,它们 本区域进行区分 的使用步骤基本相同45: 2基于小波的文本图像区分 1)文献扫描:使用扫描仪对要进行数字化的文 献进行扫描生成相应的图像; 2.1小波变换原理 2)图像处理:为了得到较好的识别效果,对1) Mallat提出了小波变换的分解与重构的快速算 得到的图像进行处理,主要包括倾斜校正、图像杂点 法「们.对二维信号(如图像)f(x,y),其分解公式为 及图像块的擦除、文献分析等; 3)文字识别:使用OCR软件对处理后的图像进 c=28. 行文字识别; 4)文稿校对:对3)中识别错误的文字进行校正, 由使用OCR技术进行文献数字化的基本步骤 成=2心 可以看出:2)和4)是人为干预部分,这2部分的存 在破坏了整个过程的自动化特性,降低了文献数字 起=26附 化的处理速度,这2部分也成了使用OCR技术进行 式中:C,代表图像的第j-1阶近似分量,Cm代表 文献数字化的效率瓶颈.由于现有的OCR软件只能 图像的第j阶近似分量(L),m代表图像的第j 识别文字不能识别图像,故在2)中需要对图像块进 阶垂直方向细节分量(LH),设代表图像的第j 行处理.为了提高识别精度,在使用OCR软件进行 阶水平方向的细节分量(HL”),m代表图像第j 文献数字化时,对图像块的处理手段主要有2个:一 阶对角方向的细节分量(HH) 是通过工作人员的人眼视觉找到图像块,然后进行 图像的重构公式为 擦除,其缺陷是速度慢、且工作人员容易疲劳;另一 Chm =2 (C.hhmd kSEZ 个手段是不擦除图像块,将其和文本一样进行处理, 设,g-2xhm-24+,ga-24gm-2x). 这样做虽然避免了手工擦除、提高了处理速度,但图 式中:h、g分别为低通滤波器和高通滤波器系数, 像块的存在会对文本识别造成干扰,且把处理文本 小波变换是空间(时间)和频率的局部变换,通 的手段用来对图像块处理有时还会得到意想不到的 过伸缩和平移等运算功能可对信号进行多尺度的细 结果.比如,在文献数字化时,往往要对文本部分进 化分析,最终达到高频处时间细分、低频处频率细 行二值化6,由于没有对图像块和文本区域进行区 分、从而可以聚焦到信号的任意细节,因而被称为 分,结果图像块也被二值化,本来颜色、灰度丰富的 “数学显微镜”.小波变换已被广泛应用于文本处 图像被简单地用黑、白2种颜色来表达,造成大量有 理、信号分析等领域.文献[7]指出通过分析文本和 用细节信息的丢失.为了对图像和文本区域进行区 图像的小波系数可以达到区分文本和图像的目的, 分,一些OCR软件虽然已具有了版面自动分析功 本文在文献[8]的基础上,通过定义小波分解不同 能,但分析效果还不够精确,有待提高 分量的能量比,得到了一个文本区域和肖像区域的 上面所说的图像块的二值化和图像块的缺失现 区分方法. 象在一些数字化文献中时有发生,这造成一些数字 2.2基于小波的文本图像区分算法 化文献不能很好地忠于原始文献.出于维护知识产 用小波对图像进行分解,所得阶分量的能量
第2期 陈杰,等:小波的文本图像区分及其在文献信息数字化中的应用 ·187… 是指该分量系数的平方和],其具体定义如下: Euo=AC月, ELHD=∑(m)2, , E0=g(.月, E). (a)肖像! b)肖像2 索系统,如QBC tent based image re 为了对图像变化的缓慢程度进行严格数学度 需要用户自己选择 re,it needs differer 量,下面给出图像的第j阶细节分量与近似分量能 【,这使得这些检索 onding similarity me 量比的定义: 可时也存在不易扩 ed in CBIR system EC=ELH》+EHL)+EHH 我们通过实验来评 e collections are alsc ELL ntb4d仙.园 显然,若图像的灰度变化缓慢,则其细节分量的 (c)中文字符 (d)英文字符 能量小,细节分量与近似分量的能量比也小;若图像 图14个不同的图像区域采样 的灰度变化较快,则细节分量的能量大,细节分量与 Fig.1 Four image region samples 近似分量的能量比也大.由于文字的笔划特征,在整 0.018 一文本区域 0.016 个文本区域内,灰度不停地在最大值(白色)和最小 肖像区域 0.014 值(黑色)之间快速跳变;而对于人脸肖像来说,由 兰0.012 于其灰度变化比较缓慢,往往看上去比较柔和.因此 盟0.010 肖像区域细节分量和近似分量的能量比远远小于文 0.008 0.006 本区域细节分量和近似分量的能量比.这就保证了 0.004 把细节分量和近似分量的能量比作为区分文本和肖 0.002 像的分类特征的合理性, 0 102030405060前800b0 2.3仿真实验 采样编号 对图1的4个采样区域进行区分处理,在图像 图2基于小波的文本图像区分仿真 分解与重构时为了能够精确地重构原图像,滤波器 Fig.2 Simulation of image classification based on 系数需要满足对称性要求,为此选用Bior3-7小波进 wavelet 行实验,这里只进行一层小波分解, 由图2可知,在随机选取的100幅文本区域中, 采用4幅图像进行实验,其中图1(b)是随机抽 只有4幅的能量比小于0.006,且最小值为0.0043; 取自Manchester大学人脸库中编号为1a034的一幅 在随机选取的100幅肖像区域中,只有3幅的能量 肖像o1.采用Matlab仿真编程,得到图1中4个 比大于0.001,且最大值为0.0021.通过上面分析 采样的细节分量与近似分量的能量比依次为:0.002 可知,以能量比作为分类指标,这个仿真图像库是线 0、0.0001、0.0123和0.0063.在这4个样本中,文 性可分的.取能量比为0.003,能量比大于0.003的 本区域的最小能量比是肖像区域最大能量比的3倍 样本划分为文本区域,能量比小于0.003的样本划 还多.为了进一步说明用细节分量和近似分量的能 分为肖像区域,便可对仿真图像库进行合理分类. 量比能区分肖像和文本区域,进行文献数字化的可 本文仿真图像库采用的样本均为灰度图像,对 行性,随机选取5种不同的学术期刊,对每种期刊又 彩色图像可对其颜色空间进行处理.基于小波文本 随机采样20幅肖像和20幅文本区域构成图像库. 图像区分方法主要利用了人脸肖像灰度变化缓慢的 计算图像库中全部200幅图像的细节分量和近似分 特点,对于其他灰度变化缓慢的图像这一算法同样 量的能量比,所得结果如图2所示。 有效
·188 智能系统学报 第5卷 的数字化处理[J】].情报杂志,2003(5):69-70. 3结束语 SU Dongchu.An improved binarization method:introducing 小波变换与经典的傅里叶变换相比,在时域和 the digitization of documents scanning[J].Journal of Infor- 频域均据有较强的局部化功能,在图像分割中得到 mation,2003(5):69-70. 较为广泛的应用.实验表明,基于小波的文本图 [7]MALLAT S.信号处理的小波导引[M].北京:机械工业 出版社,2002:193-199. 像区分方法,能够很好地区分文献的文本区域和肖 [8]SCHETTINI R,BRAMBILLA C,CIOCCAA G.VALSAS- 像区域.算法只需要计算小波分量的能量比,不需要 NA A,De PONTI M.A hierarchical classification strategy 过多人为干预,这在一定程度上解决了OCR软件不 for digital documents[J].Patter Recognition,2002(35): 能自动区分文本区域和图像区域的局限,把该方法 1759-1769. 与OCR技术相结合,有助于快速标记文献的图像区 [9]唐远炎,王玲.小波分析与文本文字识别[M].北京: 域,从而提高文献数字化的效率.需要说明的是,该 科学出版社,2004:269-277. 算法只对区分文本和灰度变化缓慢的图像有效,对 [10]The University of Manchester.Face image library [EB/ 于一些灰度变化较快的图像,算法并不适用,这也是 OL].2005-9-1 ]http://images.ee.umist.ac.uk/ 目前图像处理领域的难点之一 danny/face.tar.gz. [11]GONZALEZ R C,WOODS R E,EDDINS S L.Digital im- 参考文献: age processing using Matlab [M].Beijng:Publishing House of Electronics Industry,2004:181-186. [1]孙洪睿.高校数据信息平台的研究与设计[J].应用科 [12]张晓威,郑雄波,郭健.小波域内背景图像的文本信 技,2009(7):4146. SUN Hongrui.The research and design platform of college 息提取研究[J].哈尔滨工程大学学报,2008(3):314 318. information J].Applied Science and Technology,2009 ZHANG Xiaowei,ZHENG Xiongbo,GUO Jian.Extracting (7):4146. [2]孙萍,苏东出.基于0CR的电子图书目录自动生成算 text information from a background image using wavelet do- mains[J].Journal of Harbin Engineering University,2008 法的实现[J].现代情报,2004(9):151-155. SUN Ping,SU Dongchu.An algorithm based on OCR for e- (3):314-318. 作者简介: book directory automatically generated[J].Modem Informa- 陈杰,女,1974年生,主要研究方 tion,2004(9):151-155. [3]梁红.高校数字图书馆信息资源建设探析[J].图书馆 向为图书馆资源建设、信息检索等.发 表学术论文10篇 工作与研究,2005(4):55-57. LIANG Hong.The analysis about the construction of univer- sity digital library information resources[J].Library Work and Study,2005(4):55-57. [4]上海中晶科技有限公司.0CR软件使用经验谈[J].电子 孙忠贵,男,1971年生,副教授,主 要研究方向为信息处理、机器学习等, 出版,2002(6):10. Shanghai Microtek Technology Co,Ltd.The applying expe- 发表学术论文15篇. rience of OCR software J].Electronic Publishing,2002 (6):10. [5]张成昱,赵仪,邹荣,等.中文电子图书系统开发和 周书锋,男,1973年生,讲师,主要 应用研究[J].大学图书馆学报,2002(4):1923. ZHANG Chenyu,ZAO Yi,ZHOU Rong,et al.Study on 研究方向为机器学习、计算机应用等。 发表学术论文13篇. the development and application of a Chinese e-book system [J].Journal of Academic Libraries,2002(4):19-23. [6]苏东出.一种政进的黑白二值化方法一谈文献扫描图像