正在加载图片...
白志程等:自然场景文本检测技术研究综述 1437 分类器被进一步集成为强分类器,在Adaboost算 特征信号进行分析,选取重合度高的文本候选框. 法框架下,该方法在提出时取得了具有竞争力的 在此基础上,使用基于像素点采样的Monte-Carlo 文本检测性能.此外,文献[23]率先将纹理特征用 方法快速计算多边形区域,最后使用顺序协议进 于自然场景文本检测.文献[24]进一步扩充了文 行回归,实现对多边形文本的精准预测.该文提出 献[23]中的特征提取方法,提取了6种特征并分 的多边形滑窗更加契合场景中的不规则文字(如 别构建分类器,大幅度的改善了检测性能.文献25] 图3所示),大幅度提升了召回率.由于该方法采 首次提出采用多边形滑动窗口进行文本检测,该 用了卷积特征,因此也可被看作基于深度学习的 方法设计了四边形滑动窗口,在中间卷积层中对 方法 图3多边形滑动窗口和矩形滑动窗口检测结果比较(a)多边形滑窗检测结果:(b)矩形滑窗检测结果 Fig.3 Comparison of the detection results between polygon sliding windows and rectangular sliding windows(a)detection results of polygon sliding window,(b)detection result of rectangular sliding window 2.3比较与分析 测方法中,多采用“人工特征子特征提取”和“分类 基于连通域的方法采用自底向上的策略检测 器预测”两个步骤,受到人工特征子特征表示能力 文本,先检测得到单个文本,然后将相邻文本进行 的制约.深度神经网络具有在数据中自动学习特 关联形成文本行.这种方法利用笔化宽度的一致 征表示的能力,而稠密的特征向量形式有效避免 性和颜色的一致性等启发式规则构建文本候选 了稀疏特征向量可能造成的“维数灾难”,极大推 区,即进行文本粗检测,然后利用分类器进一步过 动了机器学习技术的发展. 滤背景像素.基于连通域的算法的一方面降低了 目前己经出现了大量的基于深度学习的自然 计算的复杂度,另一方面由于检测到的连通域可 场景文本检测方法,并取得了优于经典文本检测 以对文本直接进行分割,这有利于后续文本的识 方法的效果一般而言,基于深度学习的自然场 别.然而基于连通域的算法常常面临着三个问题: 景文本检测方法多采用2种深度学习图像处理策 第一,由于该算法对噪声的包容性差,因此非常容 略:1)目标检测算法中的“区域建议”的策略:2)图 易形成不正确的连通域:第二,在利用启发式规则 像语义分割策略,多数方法在这两种策略中有 过滤连通域和文本行的噪声因素时,在不同的数 所侧重,也有很多方法既采用了基于区域建议的 据集上的检测结果具有较大差异性:第三,启发式 思想回归边界框,又用到了图像分割策略学习像 滤除规则并不能百分百有效地区分文本区域与背 素级的语义信息.因此,本文分别介绍了基于区域 景,从而造成误检 建议的方法和基于分割的方法,同时在后文的“混 基于滑动检测窗的方法通过“检测窗”界定文 合方法”一节中对综合采用两种策略的方法进行 本框,因此无需像基于连通域的方法一样通过文 分析 本边缘、角点的提取来获取候选区域,可以有效避 3.1基于区域建议的方法 免粘连字符对候选区域提取的影响,该类方法的 3.1.1基本思想 主要缺陷在于对滑窗依赖极大,而窗口形状、大 该类方法以通用目标检测网络为基本模型, 小、滑窗步长设置较为困难,通用性较差 并在其基础上结合文本检测的实际应用对算法进 行改良,如将通用的多类目标检测模型调整为单 3基于深度学习的自然场景文本检测方法 类(文本)检测模型.以常见目标检测模型Faster 深度学习文本检测方法是一种特殊的基于学 R-CNN(Faster region-based convolutional network)27 习的文本检测方法.在经典的基于学习的文本检 为例,其基本流程为:1)CNN图片特征提取;2)候分类器被进一步集成为强分类器,在 Adaboost 算 法框架下,该方法在提出时取得了具有竞争力的 文本检测性能. 此外,文献 [23] 率先将纹理特征用 于自然场景文本检测. 文献 [24] 进一步扩充了文 献 [23] 中的特征提取方法,提取了 6 种特征并分 别构建分类器,大幅度的改善了检测性能. 文献 [25] 首次提出采用多边形滑动窗口进行文本检测,该 方法设计了四边形滑动窗口,在中间卷积层中对 特征信号进行分析,选取重合度高的文本候选框. 在此基础上,使用基于像素点采样的 Monte-Carlo 方法快速计算多边形区域,最后使用顺序协议进 行回归,实现对多边形文本的精准预测. 该文提出 的多边形滑窗更加契合场景中的不规则文字(如 图 3 所示),大幅度提升了召回率. 由于该方法采 用了卷积特征,因此也可被看作基于深度学习的 方法. (a) (b) 图 3    多边形滑动窗口和矩形滑动窗口检测结果比较[25] . (a)多边形滑窗检测结果;(b)矩形滑窗检测结果 Fig.3    Comparison of the detection results between polygon sliding windows and rectangular sliding windows[25] : (a) detection results of polygon sliding window; (b) detection result of rectangular sliding window 2.3    比较与分析 基于连通域的方法采用自底向上的策略检测 文本,先检测得到单个文本,然后将相邻文本进行 关联形成文本行. 这种方法利用笔化宽度的一致 性和颜色的一致性等启发式规则构建文本候选 区,即进行文本粗检测,然后利用分类器进一步过 滤背景像素. 基于连通域的算法的一方面降低了 计算的复杂度,另一方面由于检测到的连通域可 以对文本直接进行分割,这有利于后续文本的识 别. 然而基于连通域的算法常常面临着三个问题: 第一,由于该算法对噪声的包容性差,因此非常容 易形成不正确的连通域;第二,在利用启发式规则 过滤连通域和文本行的噪声因素时,在不同的数 据集上的检测结果具有较大差异性;第三,启发式 滤除规则并不能百分百有效地区分文本区域与背 景,从而造成误检. 基于滑动检测窗的方法通过“检测窗”界定文 本框,因此无需像基于连通域的方法一样通过文 本边缘、角点的提取来获取候选区域,可以有效避 免粘连字符对候选区域提取的影响. 该类方法的 主要缺陷在于对滑窗依赖极大,而窗口形状、大 小、滑窗步长设置较为困难,通用性较差. 3    基于深度学习的自然场景文本检测方法 深度学习文本检测方法是一种特殊的基于学 习的文本检测方法. 在经典的基于学习的文本检 测方法中,多采用“人工特征子特征提取”和“分类 器预测”两个步骤,受到人工特征子特征表示能力 的制约. 深度神经网络具有在数据中自动学习特 征表示的能力,而稠密的特征向量形式有效避免 了稀疏特征向量可能造成的“维数灾难”,极大推 动了机器学习技术的发展. 目前己经出现了大量的基于深度学习的自然 场景文本检测方法,并取得了优于经典文本检测 方法的效果[26] . 一般而言,基于深度学习的自然场 景文本检测方法多采用 2 种深度学习图像处理策 略:1)目标检测算法中的“区域建议”的策略;2)图 像语义分割策略. 多数方法在这两种策略中有 所侧重,也有很多方法既采用了基于区域建议的 思想回归边界框,又用到了图像分割策略学习像 素级的语义信息. 因此,本文分别介绍了基于区域 建议的方法和基于分割的方法,同时在后文的“混 合方法”一节中对综合采用两种策略的方法进行 分析. 3.1    基于区域建议的方法 3.1.1    基本思想 该类方法以通用目标检测网络为基本模型, 并在其基础上结合文本检测的实际应用对算法进 行改良,如将通用的多类目标检测模型调整为单 类(文本)检测模型. 以常见目标检测模型 Faster R-CNN(Faster region-based convolutional network) [27] 为例,其基本流程为:1)CNN 图片特征提取;2)候 白志程等: 自然场景文本检测技术研究综述 · 1437 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有