正在加载图片...
第4期 吕国宁,等:视觉感知式场景文字检测定位方法 ·567. ②如果两种极性SWT计算中均未发生边缘像 表1图模型用到的特征 素的射线越过显著性区域边界情况,则对该显著性 Tablel The feature used in graph model 区域两种极性的笔画宽度图求直方图。按照式(6) 一元代价函数特征 二元代价函数特征 计算两种极性的笔画宽度直方图的集中度,集中度 宽高比/h 颜色 较大的极性为此显著性区域的极性。 占有率N/(w*h) 笔画宽度 h)=Σ(h(0-hi-) (6) N=2 笔画特征1strokeWidth/max(w,h) 式中:h代表笔画宽度直方图,N是划分的bin数 笔画特征2var(strokewidth)/ 目,i代表bin的编号。 mean(strokewidth) 边缘强度N/八o*h) 3 基于图模型的文字候选区域验证与 文字行聚合 4 实验与分析 无向图模型通常被用于图像分割,本节尝试将 本文实验图像来自ICDAR20I3场景文字定位 其表示文字候选区域相互之间的关系,并将文字候 竞赛数据集。ICDAR2013场景文字定位竞赛数据 选区域使用最大流/最小割方法标注为文字与背景。 集是目前英语文字定位算法的主流测试数据集,它 在文字候选区域的无向图G={V,E}中,顶点 取代了2011年之前的主流数据集即ICDAR2005场 V是文字候选区域,边缘E连接着顶点V,表示着文 景文字定位竞赛数据集。ICDAR2013场景文字定 字候选区域的相互关系。当文字候选区域满足如 位竞赛数据集包含训练与测试两部分,本文随机森 式(7)关系则二者相邻。其中x:x分别代表两个文 林分类器的训练数据集来自ICDAR2013场景文字 字候选区域的位置,0:、0:分别代表两个文字候选 定位竞赛数据集的训练集,算法评估则在测试集上 区域的宽度,h:、h,分别代表两个文字候选区域的高 完成,结果如表2。表2中的R代表召回率,P代表 度,dist(x:,)分别代表两个文字候选区域的实际 准确率,F代表综合性能,评价方法按照竞赛标 距离。 准。从表2可以看出本文算法与竞赛大多数算 dist(x:,x)<2×min(max(w:,h:),max(w,h))) 法相比是具有竞争力的,3个性能指标(召回率、准 Λmin(w:.0;)/max(w:,0;)>0.4 确率与综合性能)分别比表2中算法第一名的3项 A min(hih;)/max(hi,h;)>0.4 (7) 指标分别高1.48%、0.45%与0.82%。 无向图G的代价函数如式(8)所示。 本文同时对自然场景汉字进行了测试,使用的 数据集如文献[12]描述,评价标准参照文献[11], E(A)=∑U,(A)+∑B(A) (8) p=1 (p.9]eN 实验结果如表3所示。如文献[12]是2012~2013 式中:U是一元代价函数,B是二元代价函数。一 年间国内研究者算法性能,可以看出本文算法远好 元代价函数是使用如表1中5个特征根据随机森林 于以上两种算法。值得说明,因为国际研究者鲜有 分类器输出得到。 公开的受到研究者一致认可的场景汉字数据集,所 0.5 x Diseolor +0.5 x Disatroke 以可参照的算法与数据集不多。 Bip.)exp 2×σ2 表2 ICDAR2013文字定位竞赛数据集实验结果 (9) Table2 The result in ICDAR 2013 Task2 dataset 式(9)是二元代价函数,Dis与Dis分别代表两 算法性能 方法 个相邻文字候选区域的颜色差值与笔画宽度差值。 R P 最终,图模型求解即文字候选区域的标注则采 USTB TexStar 66.45 88.47 75.90 用文献[9]的最大流/最小割算法。 TextSpotter 64.84 87.51 74.49 在进行文字候选区域验证后,根据文字高度的 CASIA NLPR 68.24 78.89 73.18 相似性、笔画宽度的相似性、颜色的相似性与相对 本文算法 67.93 88.92 76.72 位置关系采用启发规则进行文字行的聚合。②如果两种极性 SWT 计算中均未发生边缘像 素的射线越过显著性区域边界情况,则对该显著性 区域两种极性的笔画宽度图求直方图。 按照式(6) 计算两种极性的笔画宽度直方图的集中度,集中度 较大的极性为此显著性区域的极性。 f(h) = 1 N ∑ N i = 2 (h(i) - h(i - 1) ) (6) 式中: h 代表笔画宽度直方图, N 是划分的 bin 数 目, i 代表 bin 的编号。 3 基于图模型的文字候选区域验证与 文字行聚合 无向图模型通常被用于图像分割,本节尝试将 其表示文字候选区域相互之间的关系,并将文字候 选区域使用最大流/ 最小割方法标注为文字与背景。 在文字候选区域的无向图 G = {V,E} 中,顶点 V 是文字候选区域,边缘 E 连接着顶点 V ,表示着文 字候选区域的相互关系。 当文字候选区域满足如 式(7)关系则二者相邻。 其中 xi、xj 分别代表两个文 字候选区域的位置, wi、wj 分别代表两个文字候选 区域的宽度, hi、hj 分别代表两个文字候选区域的高 度, dist(xi,xj) 分别代表两个文字候选区域的实际 距离。 dist(xi,xj) < 2 × min(max(wi,hi),max(wj,hj)) ∧ min(wi,wj) / max(wi,wj) > 0.4 ∧ min(hi, hj) / max(hi,hj) > 0.4 (7) 无向图 G 的代价函数如式(8)所示。 E(A) = ∑ P p = 1 Up (A) + {p∑,q} ∈N B{p,q} (A) (8) 式中: U 是一元代价函数, B 是二元代价函数。 一 元代价函数是使用如表 1 中 5 个特征根据随机森林 分类器输出得到。 B{p,q} = exp - 0.5 × Discolor + 0.5 × Disstroke 2 × σ 2 æ è ç ö ø ÷ (9) 式(9)是二元代价函数, Discol 与 Disstroke 分别代表两 个相邻文字候选区域的颜色差值与笔画宽度差值。 最终,图模型求解即文字候选区域的标注则采 用文献[9]的最大流/ 最小割算法。 在进行文字候选区域验证后,根据文字高度的 相似性、笔画宽度的相似性、颜色的相似性与相对 位置关系采用启发规则进行文字行的聚合。 表 1 图模型用到的特征 Table1 The feature used in graph model 一元代价函数特征 二元代价函数特征 宽高比 w/ h 颜色 占有率 Ncc / (w∗h) 笔画宽度 笔画特征 1strokeWidth / max(w,h) 笔画特征 2var(strokewidth) / mean(strokewidth) 边缘强度 Nedge / (w∗h) 4 实验与分析 本文实验图像来自 ICDAR 2013 场景文字定位 竞赛数据集。 ICDAR2013 场景文字定位竞赛数据 集是目前英语文字定位算法的主流测试数据集,它 取代了 2011 年之前的主流数据集即 ICDAR 2005 场 景文字定位竞赛数据集。 ICDAR 2013 场景文字定 位竞赛数据集包含训练与测试两部分,本文随机森 林分类器的训练数据集来自 ICDAR 2013 场景文字 定位竞赛数据集的训练集,算法评估则在测试集上 完成,结果如表 2。 表 2 中的 R 代表召回率,P 代表 准确率,F 代表综合性能, 评价方法按照竞赛标 准[10] 。 从表 2 可以看出本文算法与竞赛大多数算 法相比是具有竞争力的,3 个性能指标(召回率、准 确率与综合性能)分别比表 2 中算法第一名的 3 项 指标分别高 1.48%、0.45%与 0.82%。 本文同时对自然场景汉字进行了测试,使用的 数据集如文献[12]描述,评价标准参照文献[11], 实验结果如表 3 所示。 如文献[12] 是 2012 ~ 2013 年间国内研究者算法性能,可以看出本文算法远好 于以上两种算法。 值得说明,因为国际研究者鲜有 公开的受到研究者一致认可的场景汉字数据集,所 以可参照的算法与数据集不多。 表 2 ICDAR 2013 文字定位竞赛数据集实验结果 Table2 The result in ICDAR 2013 Task2 dataset % 方法 算法性能 R P F USTB_TexStar 66.45 88.47 75.90 TextSpotter 64.84 87.51 74.49 CASIA_NLPR 68.24 78.89 73.18 本文算法 67.93 88.92 76.72 第 4 期 吕国宁,等:视觉感知式场景文字检测定位方法 ·567·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有