正在加载图片...
·236· 智能系统学报 第14卷 扩展数据集偏离幅度较大,FF数据集也有明显的 位置出现偏差,建立表单的映射关系缺乏准确的 降低。出现这种变化的原因有:图像缩小比率过 参考点,则重合度偏差大,准确率下降,定位不准 大时,表单图像上关键区域块纹理信息损失较 确。总体来说,算法对旋转、亮度调节、放大变 多,这将导致图匹配时可参考的正确位置少,同 换、小幅度缩小变换的表单图像的提取能保持良 时过度缩小的图像使得关键区域中对应的特征点 好的稳定性。 表1多联表单和热敏表单的平均重叠率和平均准确率 Table 1 Mean average overlap(MAO)and mean Average Precision(MAP)of TF and FF datasets 数据集 o-i b-1 b-2 d-2e-1e-2s-1s-2r1r-2 r-3 r-4 MAP0.9270.9050.8760.9260.9040.9390.9450.7980.4380.9220.8980.9290.989 多联表单(TF) MA00.9240.9160.9000.9250.9080.9370.9380.8280.5670.9220.9120.9310.937 MAP0.8280.816 0.7590.8510.8280.7930.8050.7010.6320.7930.8160.7360.862 热敏表单(FF) MA00.8550.8500.8150.8780.8550.8320.8470.8010.7720.8460.8490.8330.870 1.00 的定位。据此,图7~10所示为表单图像中用户感 《 0.80 兴趣关键区域的定位与提取结果,其中图7和 0.60 图8为TF类表单图像,图9和图10为FF类表单 0.40 ★-1+-2--1 图像。图7~10中(b)图的提取结果自上往下分别 el◆-e-2er4-bl ◆一米-2×n2e-n3h2 表示提取的收货人地址、姓名、手机号。上述 0.20 0.5 0.6 0.7 0.8 0.9 4组表单图像具有不同分辨率、亮度、方向偏转、 重叠率 (a)多联表单 面单褶皱和形变的差异,定位结果说明本文算法 能适应不同图像质量差异和不同类别的图像。由 1.00 于保证了准确定位的置信度,分割得到的表单区 0.80 域的字符较为完整、清晰、准确。此外,对表单分 量0-1 ±b-1◆b-2 ★-1 +s-2--nl 割得到的图像块进行简单的字符连通域合并,得 0.40 -e-l g--2-日-八4 到图7中4组表单相关信息的提取结果。 0.20 d1*d小2×-r29r3 0.5 0.60.7 0.8 0.9 表2多联表单和热敏表单的提取准确率 重叠率 Table 2 Extraction precision of TF and FF datasets (b)热敏表单 准确率 图6多联表单和热敏表单平均准确率 平均 数据类别 Fig.6 Mean average precision(MAP)of TF and FF I0U≥0.8 10U≥0.9 交叠率 本文实验通过计算提取结果与Lablelmg工具 多联表单(TF) 0.9741 0.8645 0.9348 标记真值交叠率来评估定位的准确性。常见目标 热敏表单(FF) 0.8393 0.6676 0.8166 检测系统中常将0.8交叠率值作为正确检测阈 值,本文在评估提取区域的准确率和平均交叠率 本文方法与文献[10,13-14中方法类似,均 时,这两组值变化趋势与映射置信度变化大致相 为采用模板匹配的方法解决表单填写内容提取的 似。因此,仅在表2中列出两类图像评估结果的 问题,该方法的关键问题是实现参考表单和待处 平均情况。对比表1和表2,说明图匹配结果越 理图像配准。文献[10,13]中采用傅里叶-梅林算 准确映射变换置信度越高,定位和提取的准确率 法以表单局部区域或全局图像为配准目标,能实 越高。当IOU阈值为0.8时,多联表单和热敏表 现不同方向的表单矫正,但该方法难以适应参考 单提取准确率分别为97.41%和83.93%,说明本 表单和待处理表单不同尺度的情况,不能准确找 文算法对这两类表单具有良好的定位与提取效果。 到表单图案的对应位置。此外文献[13]提取文本 通过图匹配结果对待处理表单的候选关键位 字符时的像素投票策略对图像噪声较为敏感,处 置进行修正,使参考表单到待处理表单的位置映 理分拣机中现实采集到的污损和局部遮挡难以达 射关系更加准确。通过对上述图匹配和映射后置 到理想的提取效果。文献[14]中预先设定表单配 信度的评估,验证了算法能对表单图像进行良好 准起始和终止参考点,作为表单方向校准的基准扩展数据集偏离幅度较大,FF 数据集也有明显的 降低。出现这种变化的原因有:图像缩小比率过 大时,表单图像上关键区域块纹理信息损失较 多,这将导致图匹配时可参考的正确位置少,同 时过度缩小的图像使得关键区域中对应的特征点 位置出现偏差,建立表单的映射关系缺乏准确的 参考点,则重合度偏差大,准确率下降,定位不准 确。总体来说,算法对旋转、亮度调节、放大变 换、小幅度缩小变换的表单图像的提取能保持良 好的稳定性。 本文实验通过计算提取结果与 LableImg 工具 标记真值交叠率来评估定位的准确性。常见目标 检测系统中常将 0.8 交叠率值作为正确检测阈 值,本文在评估提取区域的准确率和平均交叠率 时,这两组值变化趋势与映射置信度变化大致相 似。因此,仅在表 2 中列出两类图像评估结果的 平均情况。对比表 1 和表 2,说明图匹配结果越 准确映射变换置信度越高,定位和提取的准确率 越高。当 IOU 阈值为 0.8 时,多联表单和热敏表 单提取准确率分别为 97.41% 和 83.93%,说明本 文算法对这两类表单具有良好的定位与提取效果。 通过图匹配结果对待处理表单的候选关键位 置进行修正,使参考表单到待处理表单的位置映 射关系更加准确。通过对上述图匹配和映射后置 信度的评估,验证了算法能对表单图像进行良好 的定位。据此,图 7~10 所示为表单图像中用户感 兴趣关键区域的定位与提取结果,其中图 7 和 图 8 为 TF 类表单图像,图 9 和图 10 为 FF 类表单 图像。图 7~10 中 (b) 图的提取结果自上往下分别 表示提取的收货人地址、姓名、手机号。上述 4 组表单图像具有不同分辨率、亮度、方向偏转、 面单褶皱和形变的差异,定位结果说明本文算法 能适应不同图像质量差异和不同类别的图像。由 于保证了准确定位的置信度,分割得到的表单区 域的字符较为完整、清晰、准确。此外,对表单分 割得到的图像块进行简单的字符连通域合并,得 到图 7 中 4 组表单相关信息的提取结果。 本文方法与文献 [10, 13-14] 中方法类似,均 为采用模板匹配的方法解决表单填写内容提取的 问题,该方法的关键问题是实现参考表单和待处 理图像配准。文献 [10, 13] 中采用傅里叶−梅林算 法以表单局部区域或全局图像为配准目标,能实 现不同方向的表单矫正,但该方法难以适应参考 表单和待处理表单不同尺度的情况,不能准确找 到表单图案的对应位置。此外文献 [13] 提取文本 字符时的像素投票策略对图像噪声较为敏感,处 理分拣机中现实采集到的污损和局部遮挡难以达 到理想的提取效果。文献 [14] 中预先设定表单配 准起始和终止参考点,作为表单方向校准的基准 o-i b-1 b-2 d-1 d-2 s-1 s-2 r-1 r-2 r-3 e-1 e-2 r-4 o-i b-1 d-1 d-2 b-2 s-1 s-2 r-1 r-2 r-3 e-1 e-2 r-4 0.20 0.40 0.60 0.80 1.00 0.5 0.6 0.7 0.8 0.9 准确率 重叠率 0.20 0.40 0.60 0.80 1.00 0.5 0.6 0.7 0.8 0.9 准确率 重叠率 (a) 多联表单 (b) 热敏表单 图 6 多联表单和热敏表单平均准确率 Fig. 6 Mean average precision (MAP) of TF and FF 表 1 多联表单和热敏表单的平均重叠率和平均准确率 Table 1 Mean average overlap (MAO) and mean Average Precision (MAP) of TF and FF datasets 数据集 o-i b-1 b-2 d-1 d-2 e-1 e-2 s-1 s-2 r-1 r-2 r-3 r-4 多联表单(TF) MAP 0.927 0.905 0.876 0.926 0.904 0.939 0.945 0.798 0.438 0.922 0.898 0.929 0.989 MAO 0.924 0.916 0.900 0.925 0.908 0.937 0.938 0.828 0.567 0.922 0.912 0.931 0.937 热敏表单(FF) MAP 0.828 0.816 0.759 0.851 0.828 0.793 0.805 0.701 0.632 0.793 0.816 0.736 0.862 MAO 0.855 0.850 0.815 0.878 0.855 0.832 0.847 0.801 0.772 0.846 0.849 0.833 0.870 表 2 多联表单和热敏表单的提取准确率 Table 2 Extraction precision of TF and FF datasets 数据类别 准确率 平均 IOU≥0.8 IOU≥0.9 交叠率 多联表单(TF) 0.974 1 0.864 5 0.934 8 热敏表单(FF) 0.839 3 0.667 6 0.816 6 ·236· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有