正在加载图片...
.1440 工程科学学报,第42卷,第11期 行修改,引入2个1×1的全卷积层替换原来的全连 预测中不仅预测出哪些像素是否为文本,还要预 接层,实现了从CNN到FCN的修改,从而可以处 测出这些像素能否连接进而组成一个好的文本 理多尺度的输入图片.修改后的网络可概括为文 框,从而输出更为精确的检测区域,其结构图如 本块级CNN和文本行级CNN.面向文本块提取 图5所示. 的CNN模型可有效提取图像中的文本区域.随后 文献[S刀将Inception结构集成于FCIS分割 文本行级CNN对该区域进一步加工,提取其中的 框架,针对自然场景下文字的特点设计网络,通过 文本行 不同尺寸的卷积核检测不同大小和宽高比的文 字:该方法设计了柔性可变的卷积层和位置敏感 Text region Text center line 的候选区域池化,用以提升任意方向文字的检测 效果.文献[58]提出的FTSN(Fused text segmentation networks)模型是FCIS和FPN的一个组合,它是基 于实例分割的端到端可训练多方向文本检测方 法,去除了中间冗余的步骤.该文献提出了融合文 本分割网络,在特征提取过程中结合了多级特征, 并利用分割模型和基于区域建议的对象检测任务 的优点同时检测和分割文本实例 相较于一般的基于分割的方法,实例分割方 法不仅可以像素级别的分类,而且可以通过聚类、 DIsk 度量学习等手段区分并定位不同的实例.这种方 图4 Text Snake表征图示网 法能够保持更好的底层特征(细节信息和位置信 Fig.4 Illustration of the proposed Text Snake representation 息),但由于泛化能力较差,因此无法应对实例类 3.2.4基于FCIS的方法 别多的复杂场景 FCIS9中采用了类似于Fast R-CNN的结构 3.2.5其他基于分割的方法 其主要区别在于FCIS去掉了原R-CNN框架中的 考虑到现有文本检测方法多基于四边形或旋 边界框回归单元.FCIS采用实例相关的位置敏感 转矩形,很难对任意形状的文本进行包闭操作,且 大多数基于分割的方法不能很好地区分邻近的文 信息为指导,进行特征提取与融合,进而利用这些 本实例,文献[59]提出了基于分割的单文本实例 特征完成实例分割与分类任务 多预测的方法,用于检测任意方向的文本.该算法 文献[56]提出PixelLink模型,通过深度学习 网络框架从特征金字塔网络中受到启发,采用了 网络预测与文字相关的像素与连接关系,采用实 U形的网络框架,先将网络提取出的特征进行融 例分割的方法,分割出文本行区域,然后直接找对 合,然后再利用分割的方式将提取出的特征进行 应文本行的外接矩形框.整个过程包括两部分:根 像素分类,最后利用像素的分类结果通过一些后 据“链接为正”的预测结果实现对“正像素”的预测 处理得到文本检测结果.该方法既能避免现有边 和连通,进而得到文本实例的分割图,然后从分割 界框回归方法所产生的对弯曲文字检测不准确的 图中直接提取文本行的边界框.由于文字检测的 缺点,也能改善现有基于分割的方法所产生的对 定位与图像分割相比要更加精确,而仅仅采用分 “文字紧靠”现象不易分割的问题.文献[60]提出 割的方法不能精确的将距离近的文本很好的定 基于像素聚合网络(Pixel aggregation network,.PAN) 位,所以文献[56]采用SegLink中link的思想,在 的文本检测方法.该方法的分割模块包含特征金 Text/non-text prediction 1×2 channels Input image CNN Instance segmentation Output bounding boxes Link prediction 8×2 channels 图5 PixelLink结构图 Fig.5 Architecture of PixelLink!s行修改,引入 2 个 1×1 的全卷积层替换原来的全连 接层,实现了从 CNN 到 FCN 的修改,从而可以处 理多尺度的输入图片. 修改后的网络可概括为文 本块级 CNN 和文本行级 CNN. 面向文本块提取 的 CNN 模型可有效提取图像中的文本区域. 随后 文本行级 CNN 对该区域进一步加工,提取其中的 文本行. 3.2.4    基于 FCIS 的方法 FCIS[49] 中采用了类似于 Fast R-CNN 的结构, 其主要区别在于 FCIS 去掉了原 R-CNN 框架中的 边界框回归单元. FCIS 采用实例相关的位置敏感 信息为指导,进行特征提取与融合,进而利用这些 特征完成实例分割与分类任务. 文献 [56] 提出 PixelLink 模型,通过深度学习 网络预测与文字相关的像素与连接关系,采用实 例分割的方法,分割出文本行区域,然后直接找对 应文本行的外接矩形框. 整个过程包括两部分:根 据“链接为正”的预测结果实现对“正像素”的预测 和连通,进而得到文本实例的分割图,然后从分割 图中直接提取文本行的边界框. 由于文字检测的 定位与图像分割相比要更加精确,而仅仅采用分 割的方法不能精确的将距离近的文本很好的定 位,所以文献 [56] 采用 SegLink 中 link 的思想,在 预测中不仅预测出哪些像素是否为文本,还要预 测出这些像素能否连接进而组成一个好的文本 框,从而输出更为精确的检测区域,其结构图如 图 5 所示. 文献 [57] 将 Inception 结构集成于 FCIS 分割 框架,针对自然场景下文字的特点设计网络,通过 不同尺寸的卷积核检测不同大小和宽高比的文 字;该方法设计了柔性可变的卷积层和位置敏感 的候选区域池化,用以提升任意方向文字的检测 效果. 文献 [58] 提出的 FTSN(Fused text segmentation networks)模型是 FCIS 和 FPN 的一个组合,它是基 于实例分割的端到端可训练多方向文本检测方 法,去除了中间冗余的步骤. 该文献提出了融合文 本分割网络,在特征提取过程中结合了多级特征, 并利用分割模型和基于区域建议的对象检测任务 的优点同时检测和分割文本实例. 相较于一般的基于分割的方法,实例分割方 法不仅可以像素级别的分类,而且可以通过聚类、 度量学习等手段区分并定位不同的实例. 这种方 法能够保持更好的底层特征(细节信息和位置信 息),但由于泛化能力较差,因此无法应对实例类 别多的复杂场景. 3.2.5    其他基于分割的方法 考虑到现有文本检测方法多基于四边形或旋 转矩形,很难对任意形状的文本进行包闭操作,且 大多数基于分割的方法不能很好地区分邻近的文 本实例,文献 [59] 提出了基于分割的单文本实例 多预测的方法,用于检测任意方向的文本. 该算法 网络框架从特征金字塔网络中受到启发,采用了 U 形的网络框架,先将网络提取出的特征进行融 合,然后再利用分割的方式将提取出的特征进行 像素分类,最后利用像素的分类结果通过一些后 处理得到文本检测结果. 该方法既能避免现有边 界框回归方法所产生的对弯曲文字检测不准确的 缺点,也能改善现有基于分割的方法所产生的对 “文字紧靠”现象不易分割的问题. 文献 [60] 提出 基于像素聚合网络(Pixel aggregation network, PAN) 的文本检测方法. 该方法的分割模块包含特征金 Text region Text center line Disk c θ r 图 4    Text Snake 表征图示[54] Fig.4    Illustration of the proposed Text Snake representation[54] Input image CNN Text/non-text prediction 1×2 channels Link prediction 8×2 channels Instance segmentation Output bounding boxes 图 5    PixelLink 结构图[56] Fig.5    Architecture of PixelLink[56] · 1440 · 工程科学学报,第 42 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有