正在加载图片...
·548. 智能系统学报 第9卷 口都会对应一个匹配点的数量,数量过少的窗口则 关键词窗口。 被删除。由于汉字繁简程度不同导致其自身的特征 点数量也不同,使得不同汉字的匹配点数量差异很 3实验结果和分析 大,本文采用自适应阈值来筛选窗口,即 本文实验采用CASIA提供的离线手写体文本 tn =kx Simum 图像库HWDB2.1),该图像库由300位不同作者 tn为阈值,Sm为关键词图像特征点数,k根据经验 书写,每人5封文本图像,一共1500封图像。所有 值取0.27。 的图像以300DP的分辨率扫描,以8位灰度级图像 当关键词中的某一个字出现在文本图像中时, 存储。为了避免行分割对实验的影响,同时为了便 往往匹配的点也较多,比如“食物”和“食品”、“粮 于滑动窗口的提取,我们将文本图像预先按行分割, 食”,它们之中都有“食”字,但实际上是不应该被检 每一个文本图像分为10个左右的单行图像,最终得 测出来的。对该问题采用两种策略解决,一是基于 到15000封图像。从中选取50位作者的2764封 重心偏移的判决,二是基于点分布的判决。当匹配 图像作为实验中的待测文本图像。 的特征点大部分集中在一个字上时,关键词图像特 评价实验结果的标准主要有召回率R、准确率 征点的重心横坐标和水平方向的分布会发生比较大 P和F值。召回率能体现本文方法对关键词检测能 的偏移。当前后两次偏移满足: 力,越高越好:准确率表明检测结果中正确检测结果 XCent(So)-XCent(S,)>tc 的比例,体现该方法的检测效率,越高越好:F值则 LPoi(Sp)-LPoi(S,)>tp 是对上述两个标准的综合考量。假设检测图像Z 则当前窗口被删除。其中XCent(S)表示关键词图 封,共检测到S个关键词,其中正确检测Y个,误检 像特征点的重心横坐标,LPoi(S)表示关键词图像 N个,S=Y+N,应当检测到的关键词有T个。上述3 特征点在左半侧的分布率,即左半边的点占所有点 个评价标准按照式(5)计算: 个数的比例。tc和p是两个阈值,取经验值0.15和 Y 0.18。当某一窗口特征点集合与关键词图像特征点 R=T 进行匹配时,会得到初始匹配点集和筛选后匹配点 集两个集合,若经过误匹配点筛选后剩余点的重心 P=S 横坐标和原始坐标偏移很远的时候,删除该窗口:若 2 F=1/R+1/P (5) 经过误匹配点筛选后剩余点的在关键词图像左侧分 布的比例和原始比例偏离很大的时候,删除该窗口。 首先对n和P4,P5参数进行实验。P和P5表示对 该方法能够有效判别单个字产生误匹配的情况。如 匹配点横纵坐标的约束程度,直接影响正确匹配点 图5所示,两个圆圈表示关键词图像的重心,从中间 对的数目:而n作为匹配点数目的阈值决定是否删 的位置移动到了左侧的位置,因为筛选误匹配点以 除窗口,当窗口内匹配点数超过阈值tn=k×Sm则 后,匹配点基本都集中在了汉字“食”上,虽然匹配 保留窗口。这对参数对最终关键词检测的结果影响 点数目还比较多,但经过重心偏移的判决,该窗口仍 较大,在算法中十分关键。在固定窗口大小和滑动 然会被删除,“性食”也不会当做“食物”被检测出 步长的情况下对不同的约束阈值和筛选阈值进行实 来。 验,测试结果如表1所示。从表1数据横向分析,随 殷性参物.色会猴使海状发! 着约束阈值增大,召回率逐渐升高,但准确率逐渐降 低。这是因为对匹配点对的几何约束更加严格时, 食物 会有效删除更多的误匹配点对。纵向分析,随着筛 选阈值k不断增大,召回率逐渐降低而准确率逐渐 图5关键词图像特征点的重心偏移 升高。这是因为较小的k保留了更多的正确窗口, Fig.5 The center deviation of feature points of 但随之也引入很多误检测的窗口。整体来看,F值 keyword images 在横向和纵向都呈现先升高后降低的趋势,在k为 经过筛选之后,对剩下的窗口进行合并,因为有 0.27,P4和p5为15和12时取得最大值88.02%。 些重叠的窗口均包含了同样的关键词。当两个窗口 固定筛选阈值和约束阈值为上述两个最佳值, 重叠部分占整个窗口的60%以上,则将它们合并为 再针对不同的窗口宽度和滑动步长进行实验。原始 一个窗口。合并之后的窗口就是最终检测到的候选 的窗口宽度为W=W,×Avg(Scla)/Avg(Scl),在口都会对应一个匹配点的数量,数量过少的窗口则 被删除。 由于汉字繁简程度不同导致其自身的特征 点数量也不同,使得不同汉字的匹配点数量差异很 大,本文采用自适应阈值来筛选窗口,即 tn = k × Sfnum tn 为阈值, Sfnum 为关键词图像特征点数, k 根据经验 值取 0.27。 当关键词中的某一个字出现在文本图像中时, 往往匹配的点也较多,比如“食物” 和“食品”、“粮 食”,它们之中都有“食”字,但实际上是不应该被检 测出来的。 对该问题采用两种策略解决,一是基于 重心偏移的判决,二是基于点分布的判决。 当匹配 的特征点大部分集中在一个字上时,关键词图像特 征点的重心横坐标和水平方向的分布会发生比较大 的偏移。 当前后两次偏移满足: XCent(S0 ) - XCent(Sx) > tc LPoi(S0 ) - LPoi(Sx) > tp 则当前窗口被删除。 其中 XCent(S) 表示关键词图 像特征点的重心横坐标, LPoi(S) 表示关键词图像 特征点在左半侧的分布率,即左半边的点占所有点 个数的比例。 tc 和 tp 是两个阈值,取经验值0.15和 0.18。 当某一窗口特征点集合与关键词图像特征点 进行匹配时,会得到初始匹配点集和筛选后匹配点 集两个集合,若经过误匹配点筛选后剩余点的重心 横坐标和原始坐标偏移很远的时候,删除该窗口;若 经过误匹配点筛选后剩余点的在关键词图像左侧分 布的比例和原始比例偏离很大的时候,删除该窗口。 该方法能够有效判别单个字产生误匹配的情况。 如 图 5 所示,两个圆圈表示关键词图像的重心,从中间 的位置移动到了左侧的位置,因为筛选误匹配点以 后,匹配点基本都集中在了汉字“食” 上,虽然匹配 点数目还比较多,但经过重心偏移的判决,该窗口仍 然会被删除,“性食” 也不会当做“食物” 被检测出 来。 图 5 关键词图像特征点的重心偏移 Fig.5 The center deviation of feature points of keyword images 经过筛选之后,对剩下的窗口进行合并,因为有 些重叠的窗口均包含了同样的关键词。 当两个窗口 重叠部分占整个窗口的 60%以上,则将它们合并为 一个窗口。 合并之后的窗口就是最终检测到的候选 关键词窗口。 3 实验结果和分析 本文实验采用 CASIA 提供的离线手写体文本 图像库 HWDB2.1 [11] ,该图像库由 300 位不同作者 书写,每人 5 封文本图像,一共 1 500 封图像。 所有 的图像以 300 DP 的分辨率扫描,以 8 位灰度级图像 存储。 为了避免行分割对实验的影响,同时为了便 于滑动窗口的提取,我们将文本图像预先按行分割, 每一个文本图像分为 10 个左右的单行图像,最终得 到 15 000 封图像。 从中选取 50 位作者的 2 764 封 图像作为实验中的待测文本图像。 评价实验结果的标准主要有召回率 R、准确率 P 和 F 值。 召回率能体现本文方法对关键词检测能 力,越高越好;准确率表明检测结果中正确检测结果 的比例,体现该方法的检测效率,越高越好;F 值则 是对上述两个标准的综合考量。 假设检测图像 Z 封,共检测到 S 个关键词,其中正确检测 Y 个,误检 N 个,S = Y+N,应当检测到的关键词有 T 个。 上述 3 个评价标准按照式(5)计算: R = Y T P = Y S F = 2 1 / R + 1 / P (5) 首先对 tn 和 p4 ,p5 参数进行实验。 p4 和 p5 表示对 匹配点横纵坐标的约束程度,直接影响正确匹配点 对的数目;而 tn 作为匹配点数目的阈值决定是否删 除窗口,当窗口内匹配点数超过阈值 tn = k × Sfnum 则 保留窗口。 这对参数对最终关键词检测的结果影响 较大,在算法中十分关键。 在固定窗口大小和滑动 步长的情况下对不同的约束阈值和筛选阈值进行实 验,测试结果如表 1 所示。 从表 1 数据横向分析,随 着约束阈值增大,召回率逐渐升高,但准确率逐渐降 低。 这是因为对匹配点对的几何约束更加严格时, 会有效删除更多的误匹配点对。 纵向分析,随着筛 选阈值 k 不断增大,召回率逐渐降低而准确率逐渐 升高。 这是因为较小的 k 保留了更多的正确窗口, 但随之也引入很多误检测的窗口。 整体来看,F 值 在横向和纵向都呈现先升高后降低的趋势,在 k 为 0.27,p4 和 p5 为 15 和 12 时取得最大值 88.02%。 固定筛选阈值和约束阈值为上述两个最佳值, 再针对不同的窗口宽度和滑动步长进行实验。 原始 的窗口宽度为 W = Ws × Avg(Scl d ) / Avg(Scl s) ,在 ·548· 智 能 系 统 学 报 第 9 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有