正在加载图片...
·1436 工程科学学报,第42卷,第11期 图2笔划宽度的定义可(a)一种典型的笔划:(b)笔划边界像素:(c)笔划束上的每个像素 Fig.2 Definition of the stroke width(a)a typical stroke (b)a pixel on the boundary of the stroke:(c)each pixel along the ray 行,然后使用文本行级分类器进一步过滤背景区 确、误差较大的问题.因此,文献[19]提出直接用 域.尽管使用笔划宽度变换处理可以提取不同比 极值区域(Extremal regions.,ER)作为文本候选区 例和方向的文本候选区域,当图像中包含一些具 域.该方法检测图片中所有的极值区域ER,而不 有不规则梯度方向的边缘时,受其干扰,传统的笔 仅仅是MSER的子集,并把文字检测问题处理为 划宽度变换方法往往不能准确地计算出笔划宽 从ER集合中进行有效序列选择的问题,达到实时 度,因此文献[l5]提出了笔划特征变换(Stroke 检测效果.考虑到获得的极值区域的数量过大会 feature transform,SFT)算子,通过合并文本像素的颜 对后续的文本分类精度产生影响,文献[20]提出 色信息扩展笔划宽度计算,有效分割字符中的不相 了对比极值区域(Contrasting extremal region,CER) 关组件,连接相关组件.此外,文献[15]依次采用文 方法.CER选取具有高对比度的极值区域,获得的 本组件分类器和文本行分类器提取文本区域.对文 候选连通区域数量远小于ER,候选范围大大缩 本笔划的启发式属性和统计特征进行编码,通过文 小,提高了算法的效率.文献21]提出颜色增强的 本行置信度图进行阈值确定,进而定位文本区域 对比极值区域(Color-enhanced CER)方法,进一步利 2.13基于最大稳定极值区域的方法 用颜色空间中的信息滤除CER中的冗余像素和噪 最大稳定极值区域(Maximally stable extremal 声.Color--enhanced CER具有视觉感知一致性且对 regions,MSER)是最为经典的文本检测算法之一I 光照不敏感,更接近人眼对颜色的判断.文献22] 其主要思想源于分水岭算法,由于文本区域往往 提出了一种基于多通道光照均衡化的MSER算 具有相似的不连通“稳定极值”,对于这些具有稳 法,解决了传统MSER算法在光照不均匀图片上 定极值的区域进行定位和分割即可获得字符笔划 的文本漏检问题,同时该文献还提出了伪字符区 的边缘信息. 域过滤算法进行多特征融合,解决了传统MSER 具体而言,MSER对灰度图像进行二值化处 算法在复杂背景图片上的漏检问题, 理,在[0,255]区间内,逐步提高阈值.类似于分水 随着自然场景图片内容的日趋复杂,往往出 岭算法中水平面的上升过程,部分“山谷”和“较矮 现文本目标不属于MSER的情况,这限制了MSER 的丘陵”会被淹没,如果从天空往下看,则整个区 方法的应用场景.尽管MSER的检测准确率低于 域被分为陆地和水域两个部分,即对应于切分字 深度学习方法,由于其具有较强的鲁棒性,且计算 符和背景的二值图像.每个阈值都会生成一个二 成本低,该方法常被应用于其它复杂文本检测方 值图.MSER方法可以很好地描述文本内部颜色 法的前期阶段,产生尽可能多的候选区域 的一致性,并且克服噪声和仿射变换的影响,一些 2.2 基于滑动检测窗的方法 文献采用MSER方法在复杂的自然场景图像上获 该类方法设计滑动检测窗,利用窗格自上而 得出色的文本检测性能.文献[I7刀提出将MSER 下扫描图像,并将每个窗格覆盖的图像区域视作 方法应用于自然场景文本检测,通过检测图像中 文本候选区域.通过对该区域提取特征,分类器可 的一些最大稳定极值区域来获得文本候选区域 得出置信度值,通过阈值比较可实现定位和背景 文献[I8]用MSER算法初始化区域,然后用自定 区域分割.考虑到文本大小和文本行长度多变的 义的距离公式合并初始区域生成一个区域集合, 情况,还可以用多尺度滑动窗口进行候选区域的 最后对集合排序,选出前几个作为文本区域.在阈 扫描 值变化过程中,MSER的尺寸长时间保持不变.在 文献[23]首先利用基础特征子对文本区域进 处理模糊、低对比度的图片时,往往存在定位不精 行建模,进而根据特征响应构建弱分类器.这些弱行,然后使用文本行级分类器进一步过滤背景区 域. 尽管使用笔划宽度变换处理可以提取不同比 例和方向的文本候选区域,当图像中包含一些具 有不规则梯度方向的边缘时,受其干扰,传统的笔 划宽度变换方法往往不能准确地计算出笔划宽 度 ,因此文 献 [15] 提出了笔划特征变换 ( Stroke feature transform, SFT)算子,通过合并文本像素的颜 色信息扩展笔划宽度计算,有效分割字符中的不相 关组件,连接相关组件. 此外,文献 [15] 依次采用文 本组件分类器和文本行分类器提取文本区域,对文 本笔划的启发式属性和统计特征进行编码,通过文 本行置信度图进行阈值确定,进而定位文本区域. 2.1.3    基于最大稳定极值区域的方法 最大稳定极值区域(Maximally stable extremal regions,MSER)是最为经典的文本检测算法之一[16] . 其主要思想源于分水岭算法,由于文本区域往往 具有相似的不连通“稳定极值”,对于这些具有稳 定极值的区域进行定位和分割即可获得字符笔划 的边缘信息. 具体而言,MSER 对灰度图像进行二值化处 理,在 [0, 255] 区间内,逐步提高阈值. 类似于分水 岭算法中水平面的上升过程,部分“山谷”和“较矮 的丘陵”会被淹没,如果从天空往下看,则整个区 域被分为陆地和水域两个部分,即对应于切分字 符和背景的二值图像. 每个阈值都会生成一个二 值图. MSER 方法可以很好地描述文本内部颜色 的一致性,并且克服噪声和仿射变换的影响,一些 文献采用 MSER 方法在复杂的自然场景图像上获 得出色的文本检测性能. 文献 [17] 提出将 MSER 方法应用于自然场景文本检测,通过检测图像中 的一些最大稳定极值区域来获得文本候选区域. 文献 [18] 用 MSER 算法初始化区域,然后用自定 义的距离公式合并初始区域生成一个区域集合, 最后对集合排序,选出前几个作为文本区域. 在阈 值变化过程中,MSER 的尺寸长时间保持不变. 在 处理模糊、低对比度的图片时,往往存在定位不精 确、误差较大的问题. 因此,文献 [19] 提出直接用 极值区域(Extremal regions, ER)作为文本候选区 域. 该方法检测图片中所有的极值区域 ER,而不 仅仅是 MSER 的子集,并把文字检测问题处理为 从 ER 集合中进行有效序列选择的问题,达到实时 检测效果. 考虑到获得的极值区域的数量过大会 对后续的文本分类精度产生影响,文献 [20] 提出 了对比极值区域(Contrasting extremal region, CER) 方法. CER 选取具有高对比度的极值区域,获得的 候选连通区域数量远小于 ER,候选范围大大缩 小,提高了算法的效率. 文献 [21] 提出颜色增强的 对比极值区域(Color-enhanced CER)方法,进一步利 用颜色空间中的信息滤除 CER 中的冗余像素和噪 声. Color-enhanced CER 具有视觉感知一致性且对 光照不敏感,更接近人眼对颜色的判断. 文献 [22] 提出了一种基于多通道光照均衡化的 MSER 算 法,解决了传统 MSER 算法在光照不均匀图片上 的文本漏检问题,同时该文献还提出了伪字符区 域过滤算法进行多特征融合,解决了传统 MSER 算法在复杂背景图片上的漏检问题. 随着自然场景图片内容的日趋复杂,往往出 现文本目标不属于 MSER 的情况,这限制了 MSER 方法的应用场景. 尽管 MSER 的检测准确率低于 深度学习方法,由于其具有较强的鲁棒性,且计算 成本低,该方法常被应用于其它复杂文本检测方 法的前期阶段,产生尽可能多的候选区域. 2.2    基于滑动检测窗的方法 该类方法设计滑动检测窗,利用窗格自上而 下扫描图像,并将每个窗格覆盖的图像区域视作 文本候选区域. 通过对该区域提取特征,分类器可 得出置信度值,通过阈值比较可实现定位和背景 区域分割. 考虑到文本大小和文本行长度多变的 情况,还可以用多尺度滑动窗口进行候选区域的 扫描. 文献 [23] 首先利用基础特征子对文本区域进 行建模,进而根据特征响应构建弱分类器. 这些弱 p q p q W (a) (b) (c) 图 2    笔划宽度的定义[13] . (a)一种典型的笔划;(b)笔划边界像素;(c)笔划束上的每个像素 Fig.2    Definition of the stroke width[13] : (a) a typical stroke; (b) a pixel on the boundary of the stroke; (c) each pixel along the ray · 1436 · 工程科学学报,第 42 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有