征金字塔机制与 SSD 框架相结合，对不同尺度的文本进行特征提取；另一方

正在加载图片...

白志程等：自然场景文本检测技术研究综述 1439 征金字塔机制与SSD框架相结合，对不同尺度的 2)由RPN生成候选区域(ROI)和候选框；3)通过文本进行特征提取；另一方面通过SegLink链接可 ROI Align层进行尺度转换；4)采用Fast R-CNN回检测元素，实现对不同方向、长宽比的文本进行高归最终边界框；5)采用Mask分支进行像素级的语效检测.FPN的引入扩展了SSD中特征图的尺度，义预测或实例预测能够更好地定位大文本，准确识别小文本文献[5O]于ECCV(European conference on com- 3.1.4其他基于区域建议的方法 puter vision)会议提出一种基于Mask R-CNN的Mask 文献[44]以区域全卷积网络(Region based TextSpotter网络，其主要创新点在于修改了Mask分 fully convolutional network,R-FCN)为基本结构，在支的输出结构，使其包含全局文本实例分割和字其基础上提出了特征强化网络(Feature enhance 符分割功能.该版本的Mask TextSpotter采用字符 network,FEN).FEN融合了高低两个维度的图像级的分割与识别，因而可以对任意不规则形状的语义特征，仅采用固定尺度(3像素×3像素)的滑文本（如曲线文本）进行处理，其局限性在于需要窗也可有效监测小文本，提高模型准确率、召回字符级的标注来完成模型训练.针对该问题，文率.该文中还提出一种自适应权重的位置敏感献[5I]进一步改进了Mask TextSpotter网络（为文 RoI池化层，提高特征融合能力献[50]的期刊版本)，在Mask分支中增加了空间针对文本对象长度不统一，长短差异大的情注意力模块(Spatial attentional module,SAM)支路，况，文献[45]提出“垂直参考框”策略，仅预测文本有效利用空间信息和图像上下文语义，降低网络垂直方向上的位置信息.这些参考框与Faster- 对字符级监督信息的依赖，可实现缺省字符级标 RCNN生成的参考框类似，其主要不同在于采用注情况下的文本行识别与预测了固定的16像素宽度，和11像素到273像素范围文献[52]中提出的SPC Net(Supervised pyramid 内的高度尺寸.这些固定宽度的小尺度文本经由 context network)也采用了实例分割方法，该模型循环神经网络(RNN)进一步加工、连接，得到最终在Mask R-CNN的基础上，针对曲型文本特点，添文本行.文献[46]提出一种基于自适应区域表示加改进的全局文本分割分支，还针对误检问题提的检测方法，在采用区域提取网络(Text region 出文本上下文模块和二次打分机制，使算法能够 proposal network,Text-RPN)RoI(Region of 处理各种形状的文本. interest)时，通过基于RNN的修正网络(Refinement 3.2.3基于FCN的方法 network)对Rol进行验证和改进.该RNN每次预全卷积网络FCN4I是一种端到端的语义分割测一对边界点，直至没有新的边界点出现为止.这方法，不同于Mask R-CNN等算法中带有R-CNN中一过程有效调整了文本区域的生成的区域分类模块与边界框回归模块，在FCN中，网 3.2基于分割的方法络输出是对整个图片的像素级预测 3.2.1基本思想文献[53]先利用FCN对图像进行处理，得到该类方法以语义分割为基本技术手段，通过文本区域的显著图(Salient map),并对该显著图进深度学习语义分割网络对自然场景图片进行处行连通分量分析以得到文本块：在此基础上，利用理，获取像素级别的标签预测.这些像素级的输出 MSER方法提取文本块中的候选字符区域，并结合是文本行构建的基础.常被用于文本检测的分割候选字符的边界框生成每条文本行：该文献设计网络有Mask R-CNNm、全卷积网络（Fully 了质心FCN对每条文本行中字符的质心进行预 convolutional network,FCN)1481 FCIS(Fully convo- 测，利用质心信号过滤非文本行.文献[54]提出了 lutional instance-aware semantic segmentation)49 一种灵活的文本行表征方式Text Snake,.这种 3.2.2基于Mask R-CNN的方法 “Snake”结构主要由多个有序重叠的“圆盘(disk)” Mask R-CNNs7扩展自Faster R-CNN与Fast R- 串联组成，每个圆盘由文本行区域的中心c、半径 CNN,除原检测网络的的两个分支（分类、边界框 r、方向O来表征，这些表征属性借助FCN来预测，回归)外，增加了用于语义分割的、具有像素级预如图4所示.通过对圆盘参数的准确预测及一条测功能的Mask分支.该Mask分支采用平均二值分割出来的中心线，Text Snake可以有效检测曲形交叉嫡损失，与分类损失、边界框回归损失一同组文本，并得到精确的分割区域，还可以有效避免字成网络的损失函数.Mask R-CNN的处理流程与符重叠的情况.Text Snake是一种具有较高借鉴价 Faster R-CNN类似，包括：I)CNN图片特征提取：值的文本行表示方法.文献[55]对VGG16网络进征金字塔机制与 SSD 框架相结合，对不同尺度的文本进行特征提取；另一方面通过 SegLink 链接可检测元素，实现对不同方向、长宽比的文本进行高效检测. FPN 的引入扩展了 SSD 中特征图的尺度，能够更好地定位大文本，准确识别小文本. 3.1.4 其他基于区域建议的方法文献 [44] 以区域全卷积网络（ Region based fully convolutional network，R-FCN）为基本结构，在其基础上提出了特征强化网络（ Feature enhance network，FEN）. FEN 融合了高低两个维度的图像语义特征，仅采用固定尺度（3 像素×3 像素）的滑窗也可有效监测小文本，提高模型准确率、召回率. 该文中还提出一种自适应权重的位置敏感 RoI 池化层，提高特征融合能力. 针对文本对象长度不统一，长短差异大的情况，文献 [45] 提出“垂直参考框”策略，仅预测文本垂直方向上的位置信息. 这些参考框与 FasterRCNN 生成的参考框类似，其主要不同在于采用了固定的 16 像素宽度，和 11 像素到 273 像素范围内的高度尺寸. 这些固定宽度的小尺度文本经由循环神经网络（RNN）进一步加工、连接，得到最终文本行. 文献 [46] 提出一种基于自适应区域表示的检测方法，在采用区域提取网络（ Text region proposal network， Text-RPN）提取 RoI（ Region of interest）时，通过基于 RNN 的修正网络（Refinement network）对 RoI 进行验证和改进. 该 RNN 每次预测一对边界点，直至没有新的边界点出现为止. 这一过程有效调整了文本区域的生成. 3.2 基于分割的方法 3.2.1 基本思想该类方法以语义分割为基本技术手段，通过深度学习语义分割网络对自然场景图片进行处理，获取像素级别的标签预测. 这些像素级的输出是文本行构建的基础. 常被用于文本检测的分割网络有 Mask R-CNN[47]、全卷积网络（ Fully convolutional network, FCN） [48]、 FCIS（ Fully convolutional instance-aware semantic segmentation） [49] 等. 3.2.2 基于 Mask R-CNN 的方法 Mask R-CNN[47] 扩展自 Faster R-CNN 与 Fast RCNN，除原检测网络的的两个分支（分类、边界框回归）外，增加了用于语义分割的、具有像素级预测功能的 Mask 分支. 该 Mask 分支采用平均二值交叉熵损失，与分类损失、边界框回归损失一同组成网络的损失函数. Mask R-CNN 的处理流程与 Faster R-CNN 类似，包括：1）CNN 图片特征提取； 2）由 RPN 生成候选区域（ROI）和候选框；3）通过 ROI Align 层进行尺度转换；4）采用 Fast R-CNN 回归最终边界框；5）采用 Mask 分支进行像素级的语义预测或实例预测. 文献 [50] 于 ECCV（European conference on computer vision）会议提出一种基于 Mask R-CNN 的 Mask TextSpotter 网络，其主要创新点在于修改了 Mask 分支的输出结构，使其包含全局文本实例分割和字符分割功能. 该版本的 Mask TextSpotter 采用字符级的分割与识别，因而可以对任意不规则形状的文本（如曲线文本）进行处理，其局限性在于需要字符级的标注来完成模型训练. 针对该问题，文献 [51] 进一步改进了 Mask TextSpotter 网络（为文献 [50] 的期刊版本），在 Mask 分支中增加了空间注意力模块（Spatial attentional module, SAM）支路，有效利用空间信息和图像上下文语义，降低网络对字符级监督信息的依赖，可实现缺省字符级标注情况下的文本行识别与预测. 文献 [52] 中提出的 SPC Net（Supervised pyramid context network）也采用了实例分割方法，该模型在 Mask R-CNN 的基础上，针对曲型文本特点，添加改进的全局文本分割分支，还针对误检问题提出文本上下文模块和二次打分机制，使算法能够处理各种形状的文本. 3.2.3 基于 FCN 的方法全卷积网络 FCN[48] 是一种端到端的语义分割方法，不同于 Mask R-CNN 等算法中带有 R-CNN 中的区域分类模块与边界框回归模块，在 FCN 中，网络输出是对整个图片的像素级预测. 文献 [53] 先利用 FCN 对图像进行处理，得到文本区域的显著图（Salient map），并对该显著图进行连通分量分析以得到文本块；在此基础上，利用 MSER 方法提取文本块中的候选字符区域，并结合候选字符的边界框生成每条文本行；该文献设计了质心 FCN 对每条文本行中字符的质心进行预测，利用质心信号过滤非文本行. 文献 [54] 提出了一种灵活的文本行表征方式 Text Snake，这种 “Snake”结构主要由多个有序重叠的“圆盘（disk）” 串联组成，每个圆盘由文本行区域的中心 c、半径 r、方向 θ 来表征，这些表征属性借助 FCN 来预测，如图 4 所示. 通过对圆盘参数的准确预测及一条分割出来的中心线，Text Snake 可以有效检测曲形文本，并得到精确的分割区域，还可以有效避免字符重叠的情况. Text Snake 是一种具有较高借鉴价值的文本行表示方法. 文献 [55] 对 VGG16 网络进白志程等：自然场景文本检测技术研究综述 · 1439 ·

<<向上翻页向下翻页>>

点击下载：自然场景文本检测技术研究综述