正在加载图片...
第3卷第5期 智能系统学报 Vol 3 Na 5 2008年10月 CAA I Transactions on Intelligent Systems 0ct2008 数学公式图像的结构理解与重现 史广顺,肖萃,王庆人 南开大学机器智能研究所.天津300071)】 摘要:数学公式图像识别与理解是文档图像处理领域的重要组成部分,目前尚无满足一般应用的处理方法.提出 了一种鲁棒的数学公式结构理解方法,使用公式图像识别结果、语法规则和句法规则分析数学公式结构,对数学公 式的类型进行了完整的划分,对识别结果的错误进行自动的检查和纠正,能够自动分析数学公式符号的优先级和计 算顺序既可以应用于数学公式图像的识别与格式转换,也可应用于对数学公式的检索和辅助编辑.基于1000个真 实公式图像的实验结果证明了分析方法的有效性和稳定性. 关键词:数学公式识别:版面结构分析:语法结构分析:数学公式结构理解 中图分类号:TP391文献标识码:A文章编号:1673-4785(2008)05040107 Recon structing ma thema tical expressions from mage da ta SH I Guang-shun,XO Cui,WANG Q ing-ren (Institute ofMachine Intelligence,NankaiUniversity,Tianjin 300071,China) Abstract:Mathematical exp ressions appear in many kinds of scientific documents and technical reports Under- standing and reconstructing mathematical expressions has become an mportant problem in the domain of document mage analysis The authors developed a robust method for the analysis of structure in mathematical expressions After mages are processed,generating recognition results,this method analyzes the structure of mathematical ex- pressions according to syntax rules and syntactic rules Classification into different types of mathematical exp res- sions is then made Syntax errors in the recognition process are checked and corrected automatically The preferen- tial level and the computing sequences of arithmetical operation signs in mathematical expressions are also automati- cally analyzed This method can be applied to the recognition of mages containing mathematical expressions and transom ing beteen fomats,and is useful in retrieval and editing of mathematical expressions About 1000 ma- ges ofmathematical expressions fiom real documents were used for perfomance evaluation The test results proved the stability and efficiency of this method Keywords:mathematical expression recognition;layout analysis syntactic analysis mathematical expression un- derstanding 数学公式存在于各类文档之中,对其进行精确对数学公式进行结构拆解的方法,也包括使用语法 的识别和理解是文档图像处理领域的重要问题.由 规则对数学公式结构进行理解和描述的方法」 于数学公式的二维空间结构以及数学符号语义的多 Tian提出了利用基准线构建初始结构树,并利用 义性,使得对数学公式结构的描述与理解变得非常 语法和语义知识进行树转换的方法.U.Garain'采 复杂和困难,所以对其的研究具有很高的科研价值 用词法分析与句法分析相结合的方法,来提高树结 和挑战性.近20年来,研究者们提出了多种数学公 构的准确度. 式结构分析的处理方法.既包括利用版面信息】 在上述的各种方法中,单纯依靠版面信息无法 消除数学符号的歧义性,不能理解数学公式的计算 收稿日期:200804-16 含义.近年来的一些新方法中,虽然加入了语义语法 基金项目:天津市自然科学基金资助项目(05Y℉MJC01500). 规则,可只是作为辅助信息,无法有效检查并纠正数 通信作者:史广顺.Emai让gsshi@nankai edu cn 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 3卷第 5期 智 能 系 统 学 报 Vol. 3 №. 5 2008年 10月 CAA I Transactions on Intelligent System s Oct. 2008 数学公式图像的结构理解与重现 史广顺 , 肖 萃 , 王庆人 (南开大学 机器智能研究所 ,天津 300071) 摘 要 :数学公式图像识别与理解是文档图像处理领域的重要组成部分 ,目前尚无满足一般应用的处理方法. 提出 了一种鲁棒的数学公式结构理解方法 ,使用公式图像识别结果、语法规则和句法规则分析数学公式结构 ,对数学公 式的类型进行了完整的划分 ,对识别结果的错误进行自动的检查和纠正 ,能够自动分析数学公式符号的优先级和计 算顺序. 既可以应用于数学公式图像的识别与格式转换 ,也可应用于对数学公式的检索和辅助编辑. 基于 1 000个真 实公式图像的实验结果证明了分析方法的有效性和稳定性. 关键词 :数学公式识别 ;版面结构分析 ;语法结构分析 ;数学公式结构理解 中图分类号 : TP391 文献标识码 : A 文章编号 : 167324785 (2008) 0520401207 Reconstructing mathematical expressions from image data SH I Guang2shun, X IAO Cui, WANG Q ing2ren ( Institute ofMachine Intelligence,Nankai University, Tianjin 300071, China) Abstract:Mathematical exp ressions appear in many kinds of scientific documents and technical reports. Under2 standing and reconstructing mathematical exp ressions has become an important p roblem in the domain of document image analysis. The authors developed a robust method for the analysis of structure in mathematical exp ressions. After images are p rocessed, generating recognition results, this method analyzes the structure of mathematical ex2 p ressions according to syntax rules and syntactic rules. Classification into different types of mathematical exp res2 sions is then made. Syntax errors in the recognition p rocess are checked and corrected automatically. The p referen2 tial level and the computing sequences of arithmetical operation signs in mathematical exp ressions are also automati2 cally analyzed. This method can be app lied to the recognition of images containing mathematical exp ressions and transform ing between formats, and is useful in retrieval and editing of mathematical exp ressions. About 1000 ima2 ges of mathematical exp ressions from real documents were used for performance evaluation. The test results p roved the stability and efficiency of this method. Keywords:mathematical exp ression recognition; layout analysis; syntactic analysis; mathematical exp ression un2 derstanding 收稿日期 : 2008204216. 基金项目 :天津市自然科学基金资助项目 (05YFJMJC01500). 通信作者 :史广顺. E2mail: gsshi@nankai. edu. cn. 数学公式存在于各类文档之中 ,对其进行精确 的识别和理解是文档图像处理领域的重要问题. 由 于数学公式的二维空间结构以及数学符号语义的多 义性 ,使得对数学公式结构的描述与理解变得非常 复杂和困难 ,所以对其的研究具有很高的科研价值 和挑战性. 近 20年来 ,研究者们提出了多种数学公 式结构分析的处理方法. 既包括利用版面信息 [ 122 ] 对数学公式进行结构拆解的方法 ,也包括使用语法 规则 [ 325 ]对数学公式结构进行理解和描述的方法. Tian [ 6 ]提出了利用基准线构建初始结构树 ,并利用 语法和语义知识进行树转换的方法. U. Garain [ 7 ]采 用词法分析与句法分析相结合的方法 ,来提高树结 构的准确度. 在上述的各种方法中 ,单纯依靠版面信息无法 消除数学符号的歧义性 ,不能理解数学公式的计算 含义. 近年来的一些新方法中 ,虽然加入了语义语法 规则 ,可只是作为辅助信息 ,无法有效检查并纠正数
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有