【自然语言处理与理解】小波的文本图像区分及其在文献信息数字化中的应用

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：424.41KB

第5卷第2期智能系统学报 Vol.5 No.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/j.issn.1673-4785.2010.02.015 小波的文本图像区分及其在文献信息数字化中的应用陈杰1，孙忠贵2，周书锋2 (1.聊城大学图书馆，山东聊城252059；2.聊城大学数学科学学院，山东聊城252059) 摘要：目前，OCR技术对文本图像区域自动区分的效果还不够精确，进而影响了OCR技术在文献信息数字化过程中的工作效率.针对这一局限，提出了一种基于小波的文本图像区分方法.方法首先对扫描区域进行小波分解，然后使用分解系数构建分解能量，最后依据分解能量大小对文本图像进行自动区分.结果表明，该方法对文本图像的区分效果较好，诚少了在使用OC技术进行文献信息数字化时的人为干预，有利于提高文献信息数字化过程的自动化水平.最后通过实验仿真验证了该方法的有效性关键词：数字化文献；OCR;小波；文本图像中图分类号：TP18;TN911.72文献标识码：A文章编号：16734785(2010)02018504 Applying image classification using wavelets to digitization of document information CHEN Jie',SUN Zhong-gui2,ZHOU Shu-feng? (1.Library of Liaocheng University,Liaocheng 252059,China;2.College of Mathematics Science,Liaocheng University,Liaocheng 252059,China) Abstract:The accuracy of optical character recognition (OCR)technology in distinguishing between text areas and image areas has remained relatively low.Unfortunately this reduces the efficiency of OCR in digitization of docu- ment information.After analyzing the main steps of OCR applied to a digital library,the authors evolved an image classification algorithm based on wavelets.Decomposing the scanning area with wavelet transform was the first step in the algorithm.The energy value of the area could then be derived from wavelet coefficients.The task of distin- guishing between text and images was accomplished by analyzing their energy values.The algorithm proved fast and automatic,characteristics increasing the efficiency of the digitization of document information.It was clear that the simulation verified the new algorithms feasibility. Keywords:digitalizing document;OCR;wavelet;text image 文献信息数字化是信息资源建设的重要内容之时需要工作人员手工标记出文本区域和图像区域，一，OCR技术是目前进行文献数字化的主要技术手以至降低了文献数字化的工作效率.针对这一问题，段[l3j.由于OCR(optical character recognition,. 提出了一种基于小波的文本图像区分方法，该方法 OCR)技术不能很好地对文献的文本区域和图像区有助于实现文本区域和图像区域的自动区分，将其域进行自动区分，在使用OCR技术进行文献数字化与OCR技术相结合，有利于提高文献数字化的自动化水平和工作效率.最后通过实验仿真验证了该方收稿日期：2009-1205. 基金项目：聊城大学青年教师科研基金资助项目(X0810029) 法的有效性. 通信作者：孙忠贵.E-mail:altlp@vip.ina.com

186 智能系统学报第5卷 1 OCR技术使用步骤及局限权等原因，现在学术期刊越来越多地倾向印刷作者的肖像照片，在对这部分学术期刊进行数字化处理光学字符识别，也可简单地称为文字识别，实际时，肖像区域与文本区域的区分尤为重要.由于肖像上是计算机认字，是一种文字自动输入方法.在文与一般图像相比，具有纹理更简单、灰度变化更缓慢献数字化中，其录人速度远远高于传统的手工输入，的特点，故肖像与文本区分的可操作性更强、更有可成为目前进行文献数字化的主要技术手段.虽然能达到好的区分效果.算法主要针对作者肖像和文 OCR软件多种多样，但在进行文献数字化时，它们本区域进行区分的使用步骤基本相同45： 2基于小波的文本图像区分 1)文献扫描：使用扫描仪对要进行数字化的文献进行扫描生成相应的图像； 2.1小波变换原理 2)图像处理：为了得到较好的识别效果，对1) Mallat提出了小波变换的分解与重构的快速算得到的图像进行处理，主要包括倾斜校正、图像杂点法「们.对二维信号（如图像）f(x,y),其分解公式为及图像块的擦除、文献分析等； 3)文字识别：使用OCR软件对处理后的图像进 c=28. 行文字识别； 4)文稿校对：对3)中识别错误的文字进行校正，由使用OCR技术进行文献数字化的基本步骤成=2心可以看出：2)和4)是人为干预部分，这2部分的存在破坏了整个过程的自动化特性，降低了文献数字起=26附化的处理速度，这2部分也成了使用OCR技术进行式中：C,代表图像的第j-1阶近似分量，Cm代表文献数字化的效率瓶颈.由于现有的OCR软件只能图像的第j阶近似分量(L),m代表图像的第j 识别文字不能识别图像，故在2)中需要对图像块进阶垂直方向细节分量(LH),设代表图像的第j 行处理.为了提高识别精度，在使用OCR软件进行阶水平方向的细节分量(HL”),m代表图像第j 文献数字化时，对图像块的处理手段主要有2个：一阶对角方向的细节分量(HH) 是通过工作人员的人眼视觉找到图像块，然后进行图像的重构公式为擦除，其缺陷是速度慢、且工作人员容易疲劳；另一 Chm =2 (C.hhmd kSEZ 个手段是不擦除图像块，将其和文本一样进行处理，设，g-2xhm-24+,ga-24gm-2x）. 这样做虽然避免了手工擦除、提高了处理速度，但图式中：h、g分别为低通滤波器和高通滤波器系数，像块的存在会对文本识别造成干扰，且把处理文本小波变换是空间（时间）和频率的局部变换，通的手段用来对图像块处理有时还会得到意想不到的过伸缩和平移等运算功能可对信号进行多尺度的细结果.比如，在文献数字化时，往往要对文本部分进化分析，最终达到高频处时间细分、低频处频率细行二值化6，由于没有对图像块和文本区域进行区分、从而可以聚焦到信号的任意细节，因而被称为分，结果图像块也被二值化，本来颜色、灰度丰富的 “数学显微镜”.小波变换已被广泛应用于文本处图像被简单地用黑、白2种颜色来表达，造成大量有理、信号分析等领域.文献[7]指出通过分析文本和用细节信息的丢失.为了对图像和文本区域进行区图像的小波系数可以达到区分文本和图像的目的，分，一些OCR软件虽然已具有了版面自动分析功本文在文献[8]的基础上，通过定义小波分解不同能，但分析效果还不够精确，有待提高分量的能量比，得到了一个文本区域和肖像区域的上面所说的图像块的二值化和图像块的缺失现区分方法. 象在一些数字化文献中时有发生，这造成一些数字 2.2基于小波的文本图像区分算法化文献不能很好地忠于原始文献.出于维护知识产用小波对图像进行分解，所得阶分量的能量

第2期陈杰，等：小波的文本图像区分及其在文献信息数字化中的应用 ·187… 是指该分量系数的平方和]，其具体定义如下： Euo=AC月， ELHD=∑(m)2, , E0=g(.月， E). (a)肖像！ b)肖像2 索系统，如QBC tent based image re 为了对图像变化的缓慢程度进行严格数学度需要用户自己选择 re,it needs differer 量，下面给出图像的第j阶细节分量与近似分量能【,这使得这些检索 onding similarity me 量比的定义：可时也存在不易扩 ed in CBIR system EC=ELH》+EHL)+EHH 我们通过实验来评 e collections are alsc ELL ntb4d仙.园显然，若图像的灰度变化缓慢，则其细节分量的 (c)中文字符 (d)英文字符能量小，细节分量与近似分量的能量比也小；若图像图14个不同的图像区域采样的灰度变化较快，则细节分量的能量大，细节分量与 Fig.1 Four image region samples 近似分量的能量比也大.由于文字的笔划特征，在整 0.018 一文本区域 0.016 个文本区域内，灰度不停地在最大值（白色）和最小肖像区域 0.014 值（黑色）之间快速跳变；而对于人脸肖像来说，由兰0.012 于其灰度变化比较缓慢，往往看上去比较柔和.因此盟0.010 肖像区域细节分量和近似分量的能量比远远小于文 0.008 0.006 本区域细节分量和近似分量的能量比.这就保证了 0.004 把细节分量和近似分量的能量比作为区分文本和肖 0.002 像的分类特征的合理性， 0 102030405060前800b0 2.3仿真实验采样编号对图1的4个采样区域进行区分处理，在图像图2基于小波的文本图像区分仿真分解与重构时为了能够精确地重构原图像，滤波器 Fig.2 Simulation of image classification based on 系数需要满足对称性要求，为此选用Bior3-7小波进 wavelet 行实验，这里只进行一层小波分解，由图2可知，在随机选取的100幅文本区域中，采用4幅图像进行实验，其中图1(b)是随机抽只有4幅的能量比小于0.006，且最小值为0.0043；取自Manchester大学人脸库中编号为1a034的一幅在随机选取的100幅肖像区域中，只有3幅的能量肖像o1.采用Matlab仿真编程，得到图1中4个比大于0.001，且最大值为0.0021.通过上面分析采样的细节分量与近似分量的能量比依次为：0.002 可知，以能量比作为分类指标，这个仿真图像库是线 0、0.0001、0.0123和0.0063.在这4个样本中，文性可分的.取能量比为0.003，能量比大于0.003的本区域的最小能量比是肖像区域最大能量比的3倍样本划分为文本区域，能量比小于0.003的样本划还多.为了进一步说明用细节分量和近似分量的能分为肖像区域，便可对仿真图像库进行合理分类. 量比能区分肖像和文本区域，进行文献数字化的可本文仿真图像库采用的样本均为灰度图像，对行性，随机选取5种不同的学术期刊，对每种期刊又彩色图像可对其颜色空间进行处理.基于小波文本随机采样20幅肖像和20幅文本区域构成图像库. 图像区分方法主要利用了人脸肖像灰度变化缓慢的计算图像库中全部200幅图像的细节分量和近似分特点，对于其他灰度变化缓慢的图像这一算法同样量的能量比，所得结果如图2所示。有效

·188 智能系统学报第5卷的数字化处理[J】].情报杂志，2003(5)：69-70. 3结束语 SU Dongchu.An improved binarization method:introducing 小波变换与经典的傅里叶变换相比，在时域和 the digitization of documents scanning[J].Journal of Infor- 频域均据有较强的局部化功能，在图像分割中得到 mation,2003(5):69-70. 较为广泛的应用.实验表明，基于小波的文本图 [7]MALLAT S.信号处理的小波导引[M].北京：机械工业出版社，2002：193-199. 像区分方法，能够很好地区分文献的文本区域和肖 [8]SCHETTINI R,BRAMBILLA C,CIOCCAA G.VALSAS- 像区域.算法只需要计算小波分量的能量比，不需要 NA A,De PONTI M.A hierarchical classification strategy 过多人为干预，这在一定程度上解决了OCR软件不 for digital documents[J].Patter Recognition,2002(35): 能自动区分文本区域和图像区域的局限，把该方法 1759-1769. 与OCR技术相结合，有助于快速标记文献的图像区 [9]唐远炎，王玲.小波分析与文本文字识别[M].北京：域，从而提高文献数字化的效率.需要说明的是，该科学出版社，2004：269-277. 算法只对区分文本和灰度变化缓慢的图像有效，对 [10]The University of Manchester.Face image library [EB/ 于一些灰度变化较快的图像，算法并不适用，这也是 OL].2005-9-1 ]http://images.ee.umist.ac.uk/ 目前图像处理领域的难点之一 danny/face.tar.gz. [11]GONZALEZ R C,WOODS R E,EDDINS S L.Digital im- 参考文献： age processing using Matlab [M].Beijng:Publishing House of Electronics Industry,2004:181-186. [1]孙洪睿.高校数据信息平台的研究与设计[J].应用科 [12]张晓威，郑雄波，郭健.小波域内背景图像的文本信技，2009(7)：4146. SUN Hongrui.The research and design platform of college 息提取研究[J].哈尔滨工程大学学报，2008(3)：314 318. information J].Applied Science and Technology,2009 ZHANG Xiaowei,ZHENG Xiongbo,GUO Jian.Extracting (7):4146. [2]孙萍，苏东出.基于0CR的电子图书目录自动生成算 text information from a background image using wavelet do- mains[J].Journal of Harbin Engineering University,2008 法的实现[J].现代情报，2004(9)：151-155. SUN Ping,SU Dongchu.An algorithm based on OCR for e- (3):314-318. 作者简介： book directory automatically generated[J].Modem Informa- 陈杰，女，1974年生，主要研究方 tion,2004(9):151-155. [3]梁红.高校数字图书馆信息资源建设探析[J].图书馆向为图书馆资源建设、信息检索等.发表学术论文10篇工作与研究，2005(4)：55-57. LIANG Hong.The analysis about the construction of univer- sity digital library information resources[J].Library Work and Study,2005(4):55-57. [4]上海中晶科技有限公司.0CR软件使用经验谈[J].电子孙忠贵，男，1971年生，副教授，主要研究方向为信息处理、机器学习等，出版，2002(6)：10. Shanghai Microtek Technology Co,Ltd.The applying expe- 发表学术论文15篇. rience of OCR software J].Electronic Publishing,2002 (6):10. [5]张成昱，赵仪，邹荣，等.中文电子图书系统开发和周书锋，男，1973年生，讲师，主要应用研究[J].大学图书馆学报，2002(4)：1923. ZHANG Chenyu,ZAO Yi,ZHOU Rong,et al.Study on 研究方向为机器学习、计算机应用等。发表学术论文13篇. the development and application of a Chinese e-book system [J].Journal of Academic Libraries,2002(4):19-23. [6]苏东出.一种政进的黑白二值化方法一谈文献扫描图像

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录