正在加载图片...
·406- 智能系统学报 第3卷 存在操作数和子表达式时,说明它是符号运算符」 除此之外,为了验证系统的容错性,对200个数 2)与其他运算符的组合关系.以“(为例,当其 学公式图像的识别结果进行了人工修改,得到带有 右侧出现“]”咀两者之间存在“,时,说明它是一个 噪音和误差的评测样张集,进行系统容错性测试.测 区间描述符“(,]”:当不存在“,时,它应该被理 试结果如表2所示.综合2类测试结果,应用本文提 解为一个定界运算符 出的结构分析方法,可以有效提高结构分析的正确 通过定义一系列的约束条件,可以准确地分析 性和稳定性,更好的满足各类应用的需求 每个符号的语法属性,并根据约束条件和组合关系 提取子表达式 表1结构分析测试结果 3.3句法树结构校验 Table 1 The results of syntactic ana lysis 子表达式树反映了对应公式的句法结构.由于 公式 样张 子表达 结构 平均准确率 识别及版面结构分析的误差,有可能使树结构变形, 复杂度 ●数量 式完整 正确 1 从而无法正确表达公式的信息.应用语法规则,可以 150 150 150 1.000 400 399 398 0996 通过必要条件是否存在,来判断拆分的正确性,对错 276 269 253 0946 误情况依据语法规则进行修正,得到准确的子表达 6 89 8 79 0910 式结构.图9(b)描述了对子表达式结构树的校验 7-12 85 75 64 0817 过程 Total 1000 976 944 0960 4实验 表2容错性测试结果 Table 2 The results of fault-tolerant 为验证本文研究工作的有效性,共选择使用了 500个公式样本作为训练样本.从EEE Transactions 错误类型 样张数量 纠正数量 平均纠正率 识别错误 100 82 0820 及其他学术期刊中扫描制作了500页文档图像,并 结构错误 100 85 0850 将这些图像中包含的7610个数学公式作为评测样 Total 200 167 0835 本.在评测样本中,包含90913个公式符号,覆盖了 本文使用字符集中的所有符号.由于尚无有效的数 5 学公式结构分析自动评测工具,因此采用人工观察 结论 的方法对1000个评测样本进行了性能评价.结构分 本文的研究工作,将句法结构、语法规则、版面 析的评测参数设计如下: 分析相互结合,更加完整的理解数学公式.与目前同 1)子表达式内容完整性.子表达式(一级核心 类方法相比,主要有以下方面的优点: 运算符)是否能够正确提取,语法约束元素是否能 1)定义了完整的数学公式句法结构模型,明确 够正确提取; 定义了语法规则和句法规则,可以更加准确地对数 2)句法结构正确性.公式的计算顺序是否描述 学公式进行描述和分类; 正确,子表达式的句法结构是否正确有效; 2)首次提出底层知识库概念,系统地总结、归 3)系统容错性.对于图像噪音造成的误识结果 纳并分类存储了大量先验数学属性和规则,为公式 是否能够删除,对于符号误识结果是否能够修正」 结构分析提供直接依据; 采用IMit提出的方法,以句法层次数目作 3)采用HCL聚类的骨干线提取方法,通过多参 为评价公式复杂性的标准.并按照版面结构复杂度 数确定骨干区域,提高了骨干层次划分的稳定性; 对测试公式进行分类,进行测试.测试结果如表1所 4)采用句法规则驱动的结构分析方法,从结构 示.测试结果表明,本文介绍的句法结构分析方法适 分析的最初,加入验证信息,保证了公式结构分析的 用于多种类型的公式.特别的,对于占数学公式主体 正确性.同时该结构分析过程又可准确的理解数学 的中等复杂度公式,结构分析准确率得到了非常大 公式所表达的计算含义,为语义计算等高级应用提 的提升,平均准确率达到968%,高于目前同类系 供基础信息; 统平均水平(85%~92%).而对于复杂度较高的公 5)使用语法规则进行结果验证,极大地增强了 式,结构分析的准确率也得到了相应的提高,平均准 数学公式理解系统消除符号歧义校验错误的能力, 确率为817%,达到预期的目标 提高了分析的准确率与稳定性」 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.ne存在操作数和子表达式时 ,说明它是符号运算符. 2)与其他运算符的组合关系. 以“(”为例 ,当其 右侧出现“]”且两者之间存在“, ”时 ,说明它是一个 区间描述符“( , ]”;当不存在“, ”时 ,它应该被理 解为一个定界运算符. 通过定义一系列的约束条件 ,可以准确地分析 每个符号的语法属性 ,并根据约束条件和组合关系 提取子表达式. 3. 3 句法树结构校验 子表达式树反映了对应公式的句法结构. 由于 识别及版面结构分析的误差 ,有可能使树结构变形 , 从而无法正确表达公式的信息. 应用语法规则 ,可以 通过必要条件是否存在 ,来判断拆分的正确性 ,对错 误情况依据语法规则进行修正 ,得到准确的子表达 式结构. 图 9 ( b)描述了对子表达式结构树的校验 过程. 4 实 验 为验证本文研究工作的有效性 ,共选择使用了 500个公式样本作为训练样本. 从 IEEE Transactions 及其他学术期刊中扫描制作了 500页文档图像 ,并 将这些图像中包含的 7 610个数学公式作为评测样 本. 在评测样本中 ,包含 90 913个公式符号 ,覆盖了 本文使用字符集中的所有符号. 由于尚无有效的数 学公式结构分析自动评测工具 ,因此采用人工观察 的方法对 1 000个评测样本进行了性能评价. 结构分 析的评测参数设计如下 : 1)子表达式内容完整性. 子表达式 (一级核心 运算符 )是否能够正确提取 ,语法约束元素是否能 够正确提取 ; 2)句法结构正确性. 公式的计算顺序是否描述 正确 ,子表达式的句法结构是否正确有效 ; 3)系统容错性. 对于图像噪音造成的误识结果 是否能够删除 ,对于符号误识结果是否能够修正. 采用 J. M itra [ 8 ]提出的方法 ,以句法层次数目作 为评价公式复杂性的标准. 并按照版面结构复杂度 对测试公式进行分类 ,进行测试. 测试结果如表 1所 示. 测试结果表明 ,本文介绍的句法结构分析方法适 用于多种类型的公式. 特别的 ,对于占数学公式主体 的中等复杂度公式 ,结构分析准确率得到了非常大 的提升 ,平均准确率达到 96. 8% ,高于目前同类系 统平均水平 (85% ~92% ). 而对于复杂度较高的公 式 ,结构分析的准确率也得到了相应的提高 ,平均准 确率为 81. 7% ,达到预期的目标. 除此之外 ,为了验证系统的容错性 ,对 200个数 学公式图像的识别结果进行了人工修改 ,得到带有 噪音和误差的评测样张集 ,进行系统容错性测试. 测 试结果如表 2所示. 综合 2类测试结果 ,应用本文提 出的结构分析方法 ,可以有效提高结构分析的正确 性和稳定性 ,更好的满足各类应用的需求. 表 1 结构分析测试结果 Table 1 The results of syn tactic ana lysis 公式 复杂度 样张 数量 子表达 式完整 结构 正确 平均准确率 1 150 150 150 1. 000 2~4 400 399 398 0. 996 5 276 269 253 0. 946 6 89 83 79 0. 910 7~12 85 75 64 0. 817 Total 1 000 976 944 0. 960 表 2 容错性测试结果 Table 2 The results of fault2toleran t 错误类型 样张数量 纠正数量 平均纠正率 识别错误 100 82 0. 820 结构错误 100 85 0. 850 Total 200 167 0. 835 5 结 论 本文的研究工作 ,将句法结构、语法规则、版面 分析相互结合 ,更加完整的理解数学公式. 与目前同 类方法相比 ,主要有以下方面的优点 : 1)定义了完整的数学公式句法结构模型 ,明确 定义了语法规则和句法规则 ,可以更加准确地对数 学公式进行描述和分类 ; 2)首次提出底层知识库概念 ,系统地总结、归 纳并分类存储了大量先验数学属性和规则 ,为公式 结构分析提供直接依据 ; 3)采用 HCL聚类的骨干线提取方法 ,通过多参 数确定骨干区域 ,提高了骨干层次划分的稳定性 ; 4)采用句法规则驱动的结构分析方法 ,从结构 分析的最初 ,加入验证信息 ,保证了公式结构分析的 正确性. 同时该结构分析过程又可准确的理解数学 公式所表达的计算含义 ,为语义计算等高级应用提 供基础信息 ; 5)使用语法规则进行结果验证 ,极大地增强了 数学公式理解系统消除符号歧义、校验错误的能力 , 提高了分析的准确率与稳定性. ·406· 智 能 系 统 学 报 第 3卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有