正在加载图片...
白志程等:自然场景文本检测技术研究综述 1441 字塔增强子模块和特征融合子模块两个部分.其 文中设计了基于锚点的模块和基于像素分割的模 分割网络可预测文字区域、内核(Kernel,,区分文本 块共享主干网络提取的特征,在基于锚点的模块 实例的一组权重)以及相似向量,利用该Kernel可 中只保留小候选框和长候选框;在基于像素分割 重建完整的文字实例.为了保证网络的高效率, 的模块中移除小的候选框,保留中等大小的候选 PAN选用了更轻量级的主千网络ResNet1:86lI和更 框;然后再聚合两者的候选框,并通过一个级联 简单的后处理(Pixel aggregation)来降低上述两步 NMS来得到最终的检测结果.文献[67刀提出了一 的耗时,从而在不损失精度的情况下,极大加快了 种基于Faster-RCNN的双任务检测模型DSTD(Deep 网络的速度.文献[62]提出一种基于字符识别的 scene text detection).第一个任务为文本像素分割 文字检测方法(Character region awareness for text 预测,即区分图片中的文本像素与非文本像素,然 detection,CRAFT).该方法的思路是利用基于单字 后在此基础上利用组件连接生成候选框:第二个 符分割的方法,先检测单个字符及字符间的连接 任务为字符候选框检测,输出一组候选字符,结合 关系,然后根据字符间的连接关系确定最终的文 之前生成的候选框,通过保留有字符的候选框得 本行.文献[63]中设计了一种细分网络对文本对 到最终的检测结果 象进行互为独立的实例级分割和定位,同时在特 3.4端到端文本识别方法 征空间中进行优化,力求使得属于同一文本实例 从本质上来说,文本检测和文本识别都属于 的像素彼此靠近,不同文本实例的像素彼此疏远 分类问题.文本检测主要是区分图像中的文本和 该方法引入形状感知损失,对相邻的文本实例进 非文本区域,因此可以粗略地看作为一个二分类 行分割,并能够对任意形状的文本实例,特别是尺 问题:文本识别是要在文本检测结果中进一步区 寸较大、较长的文本实例进行有效检测 分字符,因此可以看作为一个更精细的分类任务 基于分割的文本检测方法的后处理过程往往 常见的OCR方法中往往都是把文本检测和文本 非常耗时,为此文献[64]提出Differentiable Binari- 识别拆分成两个部分独立进行研究.近年来,一些 zation module(DB module)来简化基于分割的方法 方法将文本检测和识别融合到同一个框架中完 中繁琐的后处理过程,即如何将分割结果转换为 成,同样也能达到很好的效果.一方面文本检测和 文本框或文本区域.有别于其他方法采用基于固 文本识别可以共享底层特征,这降低了检测到识 定阈值的二值化手段生成边界框,该方法采用了 别过程的运算参数:另一方面通过反向传播算法 像素级的自适应二值化过程,通过网络去预测图 利用文本识别的损失能够优化底层特征的提取和 片每个位置上的阈值,更为有效的区分出文本.由 文本检测.目前已经出现许多优秀的端到端文本 于避免了繁琐的后处理过程,该方法运行速度更 识别方法. 快,且在多个数据集上取得了目前最好的精度. 文献[68]提出一种端到端的文本检测、识别 3.3混合方法 方法Text Perceptron,这种方法通过基于分割的文 基于分割的方法由于学习到了像素级的语义 字检测方法得到文本的轮廓点,进而通过形状转 信息,其准确率较高,但由于小文本区域的特征响 换模块对文本区域进行校正,将校正后的结果输 应信号较低,容易被漏检,降低了这类方法的召回 入文本识别模型,其识别模型的误差可以回传给 率.基于区域建议的方法能够捕捉小文本,但往往 检测模型用于检测模型的进一步优化.大多数经 对文本尺寸不够敏感,易造成文本密集区域的锚 典文本检测方法和许多深度学习文本检测方法为 点匹配困雅情况.因此综合两种方法优势的混合 多步骤方法,其训练过程需要多个环节的调优.这 方法往往能够进一步提高文本检测精度 种多步结构一方面非常耗时,另一方面,每一步误 文献[65]融合了检测和分割的思路,首先通 差的累积往往会影响最终的结果.因此文献[69] 过检测过程中的回归方法获得角点,然后对角点 提出一种端到端的文本检测方法EAST(Efficient 进行采样和重组,获取候选框.之后通过对旋转位 and accurate scene text detector),省略了候选区域聚 置敏感分割图进行预测得到得分,利用分割图的 合、文本切分、后处理等中间步骤,直接对文本行 信息来辅助判断候选框的好坏,进而可以通过NMS 进行预测.该方法先利用FCN预测单词和文本 排除次优框,得到最终的文本检测结果.类似地, 行,输出旋转的矩形的文本候选框或者四边形的 文献[66]提出一种Pixel--Anchor方法,该方法结合 文本候选框,然后使用NMS算法过滤掉冗余的候 了基于锚点和基于像素分割的检测方法的特性 选框,得到最后的结果.现有的端到端方法中,检字塔增强子模块和特征融合子模块两个部分. 其 分割网络可预测文字区域、内核(Kernel,区分文本 实例的一组权重)以及相似向量,利用该 Kernel 可 重建完整的文字实例. 为了保证网络的高效率, PAN 选用了更轻量级的主干网络 ResNet18[61] 和更 简单的后处理(Pixel aggregation)来降低上述两步 的耗时,从而在不损失精度的情况下,极大加快了 网络的速度. 文献 [62] 提出一种基于字符识别的 文字检测方法 ( Character  region  awareness  for  text detection, CRAFT). 该方法的思路是利用基于单字 符分割的方法,先检测单个字符及字符间的连接 关系,然后根据字符间的连接关系确定最终的文 本行. 文献 [63] 中设计了一种细分网络对文本对 象进行互为独立的实例级分割和定位,同时在特 征空间中进行优化,力求使得属于同一文本实例 的像素彼此靠近,不同文本实例的像素彼此疏远. 该方法引入形状感知损失,对相邻的文本实例进 行分割,并能够对任意形状的文本实例,特别是尺 寸较大、较长的文本实例进行有效检测. 基于分割的文本检测方法的后处理过程往往 非常耗时,为此文献 [64] 提出 Differentiable Binari￾zation module(DB module)来简化基于分割的方法 中繁琐的后处理过程,即如何将分割结果转换为 文本框或文本区域. 有别于其他方法采用基于固 定阈值的二值化手段生成边界框,该方法采用了 像素级的自适应二值化过程,通过网络去预测图 片每个位置上的阈值,更为有效的区分出文本. 由 于避免了繁琐的后处理过程,该方法运行速度更 快,且在多个数据集上取得了目前最好的精度. 3.3    混合方法 基于分割的方法由于学习到了像素级的语义 信息,其准确率较高,但由于小文本区域的特征响 应信号较低,容易被漏检,降低了这类方法的召回 率. 基于区域建议的方法能够捕捉小文本,但往往 对文本尺寸不够敏感,易造成文本密集区域的锚 点匹配困难情况. 因此综合两种方法优势的混合 方法往往能够进一步提高文本检测精度. 文献 [65] 融合了检测和分割的思路,首先通 过检测过程中的回归方法获得角点,然后对角点 进行采样和重组,获取候选框. 之后通过对旋转位 置敏感分割图进行预测得到得分,利用分割图的 信息来辅助判断候选框的好坏,进而可以通过 NMS 排除次优框,得到最终的文本检测结果. 类似地, 文献 [66] 提出一种 Pixel-Anchor 方法,该方法结合 了基于锚点和基于像素分割的检测方法的特性. 文中设计了基于锚点的模块和基于像素分割的模 块共享主干网络提取的特征,在基于锚点的模块 中只保留小候选框和长候选框;在基于像素分割 的模块中移除小的候选框,保留中等大小的候选 框;然后再聚合两者的候选框,并通过一个级联 NMS 来得到最终的检测结果. 文献 [67] 提出了一 种基于 Faster-RCNN 的双任务检测模型 DSTD(Deep scene text detection). 第一个任务为文本像素分割 预测,即区分图片中的文本像素与非文本像素,然 后在此基础上利用组件连接生成候选框;第二个 任务为字符候选框检测,输出一组候选字符,结合 之前生成的候选框,通过保留有字符的候选框得 到最终的检测结果. 3.4    端到端文本识别方法 从本质上来说,文本检测和文本识别都属于 分类问题. 文本检测主要是区分图像中的文本和 非文本区域,因此可以粗略地看作为一个二分类 问题;文本识别是要在文本检测结果中进一步区 分字符,因此可以看作为一个更精细的分类任务. 常见的 OCR 方法中往往都是把文本检测和文本 识别拆分成两个部分独立进行研究. 近年来,一些 方法将文本检测和识别融合到同一个框架中完 成,同样也能达到很好的效果. 一方面文本检测和 文本识别可以共享底层特征,这降低了检测到识 别过程的运算参数;另一方面通过反向传播算法 利用文本识别的损失能够优化底层特征的提取和 文本检测. 目前已经出现许多优秀的端到端文本 识别方法. 文献 [68] 提出一种端到端的文本检测、识别 方法 Text Perceptron,这种方法通过基于分割的文 字检测方法得到文本的轮廓点,进而通过形状转 换模块对文本区域进行校正,将校正后的结果输 入文本识别模型,其识别模型的误差可以回传给 检测模型用于检测模型的进一步优化. 大多数经 典文本检测方法和许多深度学习文本检测方法为 多步骤方法,其训练过程需要多个环节的调优. 这 种多步结构一方面非常耗时,另一方面,每一步误 差的累积往往会影响最终的结果. 因此文献 [69] 提出一种端到端的文本检测方法 EAST(Efficient and accurate scene text detector),省略了候选区域聚 合、文本切分、后处理等中间步骤,直接对文本行 进行预测. 该方法先利用 FCN 预测单词和文本 行,输出旋转的矩形的文本候选框或者四边形的 文本候选框,然后使用 NMS 算法过滤掉冗余的候 选框,得到最后的结果. 现有的端到端方法中,检 白志程等: 自然场景文本检测技术研究综述 · 1441 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有