正在加载图片...
第5期 史广顺,等:数学公式图像的结构理解与重现 ·403· 绝大部分符号排列在相同的HCL上,呈现一维 字符语法属性分类.语法规则可以通过对字符 版式结构; 间空间关系的判断,确定字符的惟一语法属性.图4 3)角标表达式(script exp ression) 描述了对“+进行语法判断的过程 角标是一种特殊的语法约束关系,角标符号的 组合“子表达式”定义见23节).语法规则可 HCL位于其描述符号的左上、左下、右上、右下4个 以通过作用域信息,将具有组合规则的运算符与其 方向; 附属字符合并,成为一个子表达式 4)组表达式(group exp ression) 语法规则验证.结合识别结果和版面信息,语法 一些特殊的运算符会与其他符号组合成2D结 规则还可以用来纠正识别错误、消除多语义字符的 构的版面形式,如根式、求和、积分、分式等 语法歧义、实现对树结构的校验和修改.(详见 5)矩阵表达式(matrix exp ression) 25节) 由特殊定界符包含多行多列符号组成的表达 田b+a 式,如行列式矩阵等; 6)堆叠表达式(stack expression) Right(+)-Operand & 二日操作符 Left(+)=Operand 表示加法 描述说明符号在数学公式中常以堆叠的形式出 判定规则 现,它们不是具有固定语法规则的组表达式,如帽子 Right(+)=Operand & 字符属性 Left(+)=Null 表示正号 符号等; 图3描述了不同版面类型的基础数学公式.对 该字符表示字符病性 基础类型进行准确的划分和分析,有助于对公式整 图4利用语法规则确定字符属性 体结构的分解和重构 Fig 4 Check the grammar attributes by grammar rules a z=2a+3y 1.24数学公式的句法规则 (a)基元表达式 (b)普通表达式 不同类型表达式的组合形成了多重层次的数学 (©)角标表达式 公式结构,同层次操作符之间的优先级关系决定了 数学公式的计算顺序 [fex)d女 a+xy+z 句法规则描述每个操作符的子表达式形成规 则,每一个操作符都有一个固定的树型结构模板,其 (d)组表达式 (e)矩阵表达式 (f)堆叠表达式 中子结点的个数和属性均根据语法规则预先填充, 图5描述了根据句法规则中不同的优先级关系生成 图3数学公式版面类型示例 的不同子表达式结构。 Fig 3 Visual samples of layout structures 句法规则同时负责判断操作符之间的优先级 122数学公式符号集的组成和类别 采用相对优先级的形式设计了包含所有操作符 数学公式的符号可分为操作符和操作数2类。 的矩阵结构,任意2个操作符均可通过查找矩阵以 操作符:包括运算符、函数名及某些特殊符号,在数 确定哪个操作符的优先级更高 学公式中表示对一个或多个操作数的某种操作关 公式图像:a×b-G 错误 系,或某种特殊数学规律;操作数:是指由数字、英文 正确 字母、希腊字母等代数符号构成,在数学公式中表示 数量、变量等含义.根据符号的类型可选用对应的语 法规则进行深入的子表达式分析 本文研究工作针对正体斜体英文字字母、数 字、标点、希腊字母、数学符号、三角函数共计220个 字符,覆盖了科技文献中所有数学公式的常用字符 图5优先级比较示例 1.23数学公式的语法规则 Fig 5 Sample of priority comparison 语法规则规定了数学公式中字符的语法属性, 13结构分析底层知识库 以及不同符号间的语法约束与组合关系.对数学公 以上提到的四元组是结构分析的直接依据.通 式的分析过程中,语法规则具有如下作用: 过前期大量的统计工作,对数学公式符号的操作属 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net绝大部分符号排列在相同的 HCL上 ,呈现一维 版式结构 ; 3)角标表达式 ( scrip t exp ression) 角标是一种特殊的语法约束关系 ,角标符号的 HCL位于其描述符号的左上、左下、右上、右下 4个 方向 ; 4)组表达式 ( group exp ression) 一些特殊的运算符会与其他符号组合成 2D结 构的版面形式 ,如根式、求和、积分、分式等. 5)矩阵表达式 (matrix exp ression) 由特殊定界符包含多行多列符号组成的表达 式 ,如行列式、矩阵等 ; 6)堆叠表达式 ( stack exp ression) 描述说明符号在数学公式中常以堆叠的形式出 现 ,它们不是具有固定语法规则的组表达式 ,如帽子 符号等 ; 图 3描述了不同版面类型的基础数学公式. 对 基础类型进行准确的划分和分析 ,有助于对公式整 体结构的分解和重构. 图 3 数学公式版面类型示例 Fig. 3 V isual samp les of layout structures 1. 2. 2 数学公式符号集的组成和类别 数学公式的符号可分为操作符和操作数 2类. 操作符 :包括运算符、函数名及某些特殊符号 ,在数 学公式中表示对一个或多个操作数的某种操作关 系 ,或某种特殊数学规律 ;操作数 :是指由数字、英文 字母、希腊字母等代数符号构成 ,在数学公式中表示 数量、变量等含义. 根据符号的类型可选用对应的语 法规则进行深入的子表达式分析. 本文研究工作针对正体 /斜体英文字字母、数 字、标点、希腊字母、数学符号、三角函数共计 220个 字符 ,覆盖了科技文献中所有数学公式的常用字符. 1. 2. 3 数学公式的语法规则 语法规则规定了数学公式中字符的语法属性 , 以及不同符号间的语法约束与组合关系. 对数学公 式的分析过程中 ,语法规则具有如下作用 : 字符语法属性分类. 语法规则可以通过对字符 间空间关系的判断 ,确定字符的惟一语法属性. 图 4 描述了对“ + ”进行语法判断的过程. 组合“子表达式 ”(定义见 2. 3节 ). 语法规则可 以通过作用域信息 ,将具有组合规则的运算符与其 附属字符合并 ,成为一个子表达式. 语法规则验证. 结合识别结果和版面信息 ,语法 规则还可以用来纠正识别错误、消除多语义字符的 语法歧义、实现对树结构的校验和修改. (详见 2. 5节 ) 图 4 利用语法规则确定字符属性 Fig. 4 Check the grammar attributes by grammar rules 1. 2. 4 数学公式的句法规则 不同类型表达式的组合形成了多重层次的数学 公式结构 ,同层次操作符之间的优先级关系决定了 数学公式的计算顺序. 句法规则描述每个操作符的子表达式形成规 则 ,每一个操作符都有一个固定的树型结构模板 ,其 中子结点的个数和属性均根据语法规则预先填充. 图 5描述了根据句法规则中不同的优先级关系生成 的不同子表达式结构. 句法规则同时负责判断操作符之间的优先级 , 采用“相对优先级 ”的形式设计了包含所有操作符 的矩阵结构 ,任意 2个操作符均可通过查找矩阵以 确定哪个操作符的优先级更高. 图 5 优先级比较示例 Fig. 5 Samp le of p riority comparison 1. 3 结构分析底层知识库 以上提到的四元组是结构分析的直接依据. 通 过前期大量的统计工作 ,对数学公式符号的操作属 第 5期 史广顺 ,等 :数学公式图像的结构理解与重现 ·403·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有