正在加载图片...
白志程等:自然场景文本检测技术研究综述 1439 征金字塔机制与SSD框架相结合,对不同尺度的 2)由RPN生成候选区域(ROI)和候选框;3)通过 文本进行特征提取;另一方面通过SegLink链接可 ROI Align层进行尺度转换;4)采用Fast R-CNN回 检测元素,实现对不同方向、长宽比的文本进行高 归最终边界框;5)采用Mask分支进行像素级的语 效检测.FPN的引入扩展了SSD中特征图的尺度, 义预测或实例预测 能够更好地定位大文本,准确识别小文本 文献[5O]于ECCV(European conference on com- 3.1.4其他基于区域建议的方法 puter vision)会议提出一种基于Mask R-CNN的Mask 文献[44]以区域全卷积网络(Region based TextSpotter网络,其主要创新点在于修改了Mask分 fully convolutional network,R-FCN)为基本结构,在 支的输出结构,使其包含全局文本实例分割和字 其基础上提出了特征强化网络(Feature enhance 符分割功能.该版本的Mask TextSpotter采用字符 network,FEN).FEN融合了高低两个维度的图像 级的分割与识别,因而可以对任意不规则形状的 语义特征,仅采用固定尺度(3像素×3像素)的滑 文本(如曲线文本)进行处理,其局限性在于需要 窗也可有效监测小文本,提高模型准确率、召回 字符级的标注来完成模型训练.针对该问题,文 率.该文中还提出一种自适应权重的位置敏感 献[5I]进一步改进了Mask TextSpotter网络(为文 RoI池化层,提高特征融合能力 献[50]的期刊版本),在Mask分支中增加了空间 针对文本对象长度不统一,长短差异大的情 注意力模块(Spatial attentional module,SAM)支路, 况,文献[45]提出“垂直参考框”策略,仅预测文本 有效利用空间信息和图像上下文语义,降低网络 垂直方向上的位置信息.这些参考框与Faster- 对字符级监督信息的依赖,可实现缺省字符级标 RCNN生成的参考框类似,其主要不同在于采用 注情况下的文本行识别与预测 了固定的16像素宽度,和11像素到273像素范围 文献[52]中提出的SPC Net(Supervised pyramid 内的高度尺寸.这些固定宽度的小尺度文本经由 context network)也采用了实例分割方法,该模型 循环神经网络(RNN)进一步加工、连接,得到最终 在Mask R-CNN的基础上,针对曲型文本特点,添 文本行.文献[46]提出一种基于自适应区域表示 加改进的全局文本分割分支,还针对误检问题提 的检测方法,在采用区域提取网络(Text region 出文本上下文模块和二次打分机制,使算法能够 proposal network,Text-RPN)RoI(Region of 处理各种形状的文本. interest)时,通过基于RNN的修正网络(Refinement 3.2.3基于FCN的方法 network)对Rol进行验证和改进.该RNN每次预 全卷积网络FCN4I是一种端到端的语义分割 测一对边界点,直至没有新的边界点出现为止.这 方法,不同于Mask R-CNN等算法中带有R-CNN中 一过程有效调整了文本区域的生成 的区域分类模块与边界框回归模块,在FCN中,网 3.2基于分割的方法 络输出是对整个图片的像素级预测 3.2.1基本思想 文献[53]先利用FCN对图像进行处理,得到 该类方法以语义分割为基本技术手段,通过 文本区域的显著图(Salient map),并对该显著图进 深度学习语义分割网络对自然场景图片进行处 行连通分量分析以得到文本块:在此基础上,利用 理,获取像素级别的标签预测.这些像素级的输出 MSER方法提取文本块中的候选字符区域,并结合 是文本行构建的基础.常被用于文本检测的分割 候选字符的边界框生成每条文本行:该文献设计 网络有Mask R-CNNm、全卷积网络(Fully 了质心FCN对每条文本行中字符的质心进行预 convolutional network,FCN)1481 FCIS(Fully convo- 测,利用质心信号过滤非文本行.文献[54]提出了 lutional instance-aware semantic segmentation)49 一种灵活的文本行表征方式Text Snake,.这种 3.2.2基于Mask R-CNN的方法 “Snake”结构主要由多个有序重叠的“圆盘(disk)” Mask R-CNNs7扩展自Faster R-CNN与Fast R- 串联组成,每个圆盘由文本行区域的中心c、半径 CNN,除原检测网络的的两个分支(分类、边界框 r、方向O来表征,这些表征属性借助FCN来预测, 回归)外,增加了用于语义分割的、具有像素级预 如图4所示.通过对圆盘参数的准确预测及一条 测功能的Mask分支.该Mask分支采用平均二值 分割出来的中心线,Text Snake可以有效检测曲形 交叉嫡损失,与分类损失、边界框回归损失一同组 文本,并得到精确的分割区域,还可以有效避免字 成网络的损失函数.Mask R-CNN的处理流程与 符重叠的情况.Text Snake是一种具有较高借鉴价 Faster R-CNN类似,包括:I)CNN图片特征提取: 值的文本行表示方法.文献[55]对VGG16网络进征金字塔机制与 SSD 框架相结合,对不同尺度的 文本进行特征提取;另一方面通过 SegLink 链接可 检测元素,实现对不同方向、长宽比的文本进行高 效检测. FPN 的引入扩展了 SSD 中特征图的尺度, 能够更好地定位大文本,准确识别小文本. 3.1.4    其他基于区域建议的方法 文 献 [44] 以区域全卷积网络 ( Region  based fully convolutional network,R-FCN)为基本结构,在 其基础上提出了特征强化网络( Feature enhance network,FEN). FEN 融合了高低两个维度的图像 语义特征,仅采用固定尺度(3 像素×3 像素)的滑 窗也可有效监测小文本,提高模型准确率、召回 率. 该文中还提出一种自适应权重的位置敏感 RoI 池化层,提高特征融合能力. 针对文本对象长度不统一,长短差异大的情 况,文献 [45] 提出“垂直参考框”策略,仅预测文本 垂直方向上的位置信息. 这些参考框与 Faster￾RCNN 生成的参考框类似,其主要不同在于采用 了固定的 16 像素宽度,和 11 像素到 273 像素范围 内的高度尺寸. 这些固定宽度的小尺度文本经由 循环神经网络(RNN)进一步加工、连接,得到最终 文本行. 文献 [46] 提出一种基于自适应区域表示 的检测方法 ,在采用区域提取网络 ( Text region proposal  network, Text-RPN) 提 取 RoI( Region  of interest)时,通过基于 RNN 的修正网络(Refinement network)对 RoI 进行验证和改进. 该 RNN 每次预 测一对边界点,直至没有新的边界点出现为止. 这 一过程有效调整了文本区域的生成. 3.2    基于分割的方法 3.2.1    基本思想 该类方法以语义分割为基本技术手段,通过 深度学习语义分割网络对自然场景图片进行处 理,获取像素级别的标签预测. 这些像素级的输出 是文本行构建的基础. 常被用于文本检测的分割 网 络 有 Mask  R-CNN[47]、 全 卷 积 网 络 ( Fully convolutional  network,  FCN) [48]、 FCIS( Fully  convo￾lutional instance-aware semantic segmentation) [49] 等. 3.2.2    基于 Mask R-CNN 的方法 Mask R-CNN[47] 扩展自 Faster R-CNN 与 Fast R￾CNN,除原检测网络的的两个分支(分类、边界框 回归)外,增加了用于语义分割的、具有像素级预 测功能的 Mask 分支. 该 Mask 分支采用平均二值 交叉熵损失,与分类损失、边界框回归损失一同组 成网络的损失函数. Mask R-CNN 的处理流程与 Faster R-CNN 类似,包括:1)CNN 图片特征提取; 2)由 RPN 生成候选区域(ROI)和候选框;3)通过 ROI Align 层进行尺度转换;4)采用 Fast R-CNN 回 归最终边界框;5)采用 Mask 分支进行像素级的语 义预测或实例预测. 文献 [50] 于 ECCV(European conference on com￾puter vision)会议提出一种基于 Mask R-CNN 的 Mask TextSpotter 网络,其主要创新点在于修改了 Mask 分 支的输出结构,使其包含全局文本实例分割和字 符分割功能. 该版本的 Mask TextSpotter 采用字符 级的分割与识别,因而可以对任意不规则形状的 文本(如曲线文本)进行处理,其局限性在于需要 字符级的标注来完成模型训练. 针对该问题,文 献 [51] 进一步改进了 Mask TextSpotter 网络(为文 献 [50] 的期刊版本),在 Mask 分支中增加了空间 注意力模块(Spatial attentional module, SAM)支路, 有效利用空间信息和图像上下文语义,降低网络 对字符级监督信息的依赖,可实现缺省字符级标 注情况下的文本行识别与预测. 文献 [52] 中提出的 SPC Net(Supervised pyramid context network)也采用了实例分割方法,该模型 在 Mask R-CNN 的基础上,针对曲型文本特点,添 加改进的全局文本分割分支,还针对误检问题提 出文本上下文模块和二次打分机制,使算法能够 处理各种形状的文本. 3.2.3    基于 FCN 的方法 全卷积网络 FCN[48] 是一种端到端的语义分割 方法,不同于 Mask R-CNN 等算法中带有 R-CNN 中 的区域分类模块与边界框回归模块,在 FCN 中,网 络输出是对整个图片的像素级预测. 文献 [53] 先利用 FCN 对图像进行处理,得到 文本区域的显著图(Salient map),并对该显著图进 行连通分量分析以得到文本块;在此基础上,利用 MSER 方法提取文本块中的候选字符区域,并结合 候选字符的边界框生成每条文本行;该文献设计 了质心 FCN 对每条文本行中字符的质心进行预 测,利用质心信号过滤非文本行. 文献 [54] 提出了 一种灵活的文本行表征方 式 Text  Snake,这种 “Snake”结构主要由多个有序重叠的“圆盘(disk)” 串联组成,每个圆盘由文本行区域的中心 c、半径 r、方向 θ 来表征,这些表征属性借助 FCN 来预测, 如图 4 所示. 通过对圆盘参数的准确预测及一条 分割出来的中心线,Text Snake 可以有效检测曲形 文本,并得到精确的分割区域,还可以有效避免字 符重叠的情况. Text Snake 是一种具有较高借鉴价 值的文本行表示方法. 文献 [55] 对 VGG16 网络进 白志程等: 自然场景文本检测技术研究综述 · 1439 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有