字塔增强子模块和特征融合子模块两个部分. 其分割网络可预测文字区域、内核

正在加载图片...

白志程等：自然场景文本检测技术研究综述 1441 字塔增强子模块和特征融合子模块两个部分.其文中设计了基于锚点的模块和基于像素分割的模分割网络可预测文字区域、内核(Kernel,,区分文本块共享主干网络提取的特征，在基于锚点的模块实例的一组权重)以及相似向量，利用该Kernel可中只保留小候选框和长候选框；在基于像素分割重建完整的文字实例.为了保证网络的高效率，的模块中移除小的候选框，保留中等大小的候选 PAN选用了更轻量级的主千网络ResNet1:86lI和更框；然后再聚合两者的候选框，并通过一个级联简单的后处理(Pixel aggregation)来降低上述两步 NMS来得到最终的检测结果.文献[67刀提出了一的耗时，从而在不损失精度的情况下，极大加快了种基于Faster-RCNN的双任务检测模型DSTD(Deep 网络的速度.文献[62]提出一种基于字符识别的 scene text detection).第一个任务为文本像素分割文字检测方法(Character region awareness for text 预测，即区分图片中的文本像素与非文本像素，然 detection,CRAFT).该方法的思路是利用基于单字后在此基础上利用组件连接生成候选框：第二个符分割的方法，先检测单个字符及字符间的连接任务为字符候选框检测，输出一组候选字符，结合关系，然后根据字符间的连接关系确定最终的文之前生成的候选框，通过保留有字符的候选框得本行.文献[63]中设计了一种细分网络对文本对到最终的检测结果象进行互为独立的实例级分割和定位，同时在特 3.4端到端文本识别方法征空间中进行优化，力求使得属于同一文本实例从本质上来说，文本检测和文本识别都属于的像素彼此靠近，不同文本实例的像素彼此疏远分类问题.文本检测主要是区分图像中的文本和该方法引入形状感知损失，对相邻的文本实例进非文本区域，因此可以粗略地看作为一个二分类行分割，并能够对任意形状的文本实例，特别是尺问题：文本识别是要在文本检测结果中进一步区寸较大、较长的文本实例进行有效检测分字符，因此可以看作为一个更精细的分类任务基于分割的文本检测方法的后处理过程往往常见的OCR方法中往往都是把文本检测和文本非常耗时，为此文献[64]提出Differentiable Binari- 识别拆分成两个部分独立进行研究.近年来，一些 zation module(DB module)来简化基于分割的方法方法将文本检测和识别融合到同一个框架中完中繁琐的后处理过程，即如何将分割结果转换为成，同样也能达到很好的效果.一方面文本检测和文本框或文本区域.有别于其他方法采用基于固文本识别可以共享底层特征，这降低了检测到识定阈值的二值化手段生成边界框，该方法采用了别过程的运算参数：另一方面通过反向传播算法像素级的自适应二值化过程，通过网络去预测图利用文本识别的损失能够优化底层特征的提取和片每个位置上的阈值，更为有效的区分出文本.由文本检测.目前已经出现许多优秀的端到端文本于避免了繁琐的后处理过程，该方法运行速度更识别方法. 快，且在多个数据集上取得了目前最好的精度. 文献[68]提出一种端到端的文本检测、识别 3.3混合方法方法Text Perceptron,这种方法通过基于分割的文基于分割的方法由于学习到了像素级的语义字检测方法得到文本的轮廓点，进而通过形状转信息，其准确率较高，但由于小文本区域的特征响换模块对文本区域进行校正，将校正后的结果输应信号较低，容易被漏检，降低了这类方法的召回入文本识别模型，其识别模型的误差可以回传给率.基于区域建议的方法能够捕捉小文本，但往往检测模型用于检测模型的进一步优化.大多数经对文本尺寸不够敏感，易造成文本密集区域的锚典文本检测方法和许多深度学习文本检测方法为点匹配困雅情况.因此综合两种方法优势的混合多步骤方法，其训练过程需要多个环节的调优.这方法往往能够进一步提高文本检测精度种多步结构一方面非常耗时，另一方面，每一步误文献[65]融合了检测和分割的思路，首先通差的累积往往会影响最终的结果.因此文献[69] 过检测过程中的回归方法获得角点，然后对角点提出一种端到端的文本检测方法EAST(Efficient 进行采样和重组，获取候选框.之后通过对旋转位 and accurate scene text detector),省略了候选区域聚置敏感分割图进行预测得到得分，利用分割图的合、文本切分、后处理等中间步骤，直接对文本行信息来辅助判断候选框的好坏，进而可以通过NMS 进行预测.该方法先利用FCN预测单词和文本排除次优框，得到最终的文本检测结果.类似地，行，输出旋转的矩形的文本候选框或者四边形的文献[66]提出一种Pixel--Anchor方法，该方法结合文本候选框，然后使用NMS算法过滤掉冗余的候了基于锚点和基于像素分割的检测方法的特性选框，得到最后的结果.现有的端到端方法中，检字塔增强子模块和特征融合子模块两个部分. 其分割网络可预测文字区域、内核（Kernel，区分文本实例的一组权重）以及相似向量，利用该 Kernel 可重建完整的文字实例. 为了保证网络的高效率， PAN 选用了更轻量级的主干网络 ResNet18[61] 和更简单的后处理（Pixel aggregation）来降低上述两步的耗时，从而在不损失精度的情况下，极大加快了网络的速度. 文献 [62] 提出一种基于字符识别的文字检测方法（ Character region awareness for text detection, CRAFT）. 该方法的思路是利用基于单字符分割的方法，先检测单个字符及字符间的连接关系，然后根据字符间的连接关系确定最终的文本行. 文献 [63] 中设计了一种细分网络对文本对象进行互为独立的实例级分割和定位，同时在特征空间中进行优化，力求使得属于同一文本实例的像素彼此靠近，不同文本实例的像素彼此疏远. 该方法引入形状感知损失，对相邻的文本实例进行分割，并能够对任意形状的文本实例，特别是尺寸较大、较长的文本实例进行有效检测. 基于分割的文本检测方法的后处理过程往往非常耗时，为此文献 [64] 提出 Differentiable Binarization module（DB module）来简化基于分割的方法中繁琐的后处理过程，即如何将分割结果转换为文本框或文本区域. 有别于其他方法采用基于固定阈值的二值化手段生成边界框，该方法采用了像素级的自适应二值化过程，通过网络去预测图片每个位置上的阈值，更为有效的区分出文本. 由于避免了繁琐的后处理过程，该方法运行速度更快，且在多个数据集上取得了目前最好的精度. 3.3 混合方法基于分割的方法由于学习到了像素级的语义信息，其准确率较高，但由于小文本区域的特征响应信号较低，容易被漏检，降低了这类方法的召回率. 基于区域建议的方法能够捕捉小文本，但往往对文本尺寸不够敏感，易造成文本密集区域的锚点匹配困难情况. 因此综合两种方法优势的混合方法往往能够进一步提高文本检测精度. 文献 [65] 融合了检测和分割的思路，首先通过检测过程中的回归方法获得角点，然后对角点进行采样和重组，获取候选框. 之后通过对旋转位置敏感分割图进行预测得到得分，利用分割图的信息来辅助判断候选框的好坏，进而可以通过 NMS 排除次优框，得到最终的文本检测结果. 类似地，文献 [66] 提出一种 Pixel-Anchor 方法，该方法结合了基于锚点和基于像素分割的检测方法的特性. 文中设计了基于锚点的模块和基于像素分割的模块共享主干网络提取的特征，在基于锚点的模块中只保留小候选框和长候选框；在基于像素分割的模块中移除小的候选框，保留中等大小的候选框；然后再聚合两者的候选框，并通过一个级联 NMS 来得到最终的检测结果. 文献 [67] 提出了一种基于 Faster-RCNN 的双任务检测模型 DSTD（Deep scene text detection）. 第一个任务为文本像素分割预测，即区分图片中的文本像素与非文本像素，然后在此基础上利用组件连接生成候选框；第二个任务为字符候选框检测，输出一组候选字符，结合之前生成的候选框，通过保留有字符的候选框得到最终的检测结果. 3.4 端到端文本识别方法从本质上来说，文本检测和文本识别都属于分类问题. 文本检测主要是区分图像中的文本和非文本区域，因此可以粗略地看作为一个二分类问题；文本识别是要在文本检测结果中进一步区分字符，因此可以看作为一个更精细的分类任务. 常见的 OCR 方法中往往都是把文本检测和文本识别拆分成两个部分独立进行研究. 近年来，一些方法将文本检测和识别融合到同一个框架中完成，同样也能达到很好的效果. 一方面文本检测和文本识别可以共享底层特征，这降低了检测到识别过程的运算参数；另一方面通过反向传播算法利用文本识别的损失能够优化底层特征的提取和文本检测. 目前已经出现许多优秀的端到端文本识别方法. 文献 [68] 提出一种端到端的文本检测、识别方法 Text Perceptron，这种方法通过基于分割的文字检测方法得到文本的轮廓点，进而通过形状转换模块对文本区域进行校正，将校正后的结果输入文本识别模型，其识别模型的误差可以回传给检测模型用于检测模型的进一步优化. 大多数经典文本检测方法和许多深度学习文本检测方法为多步骤方法，其训练过程需要多个环节的调优. 这种多步结构一方面非常耗时，另一方面，每一步误差的累积往往会影响最终的结果. 因此文献 [69] 提出一种端到端的文本检测方法 EAST（Efficient and accurate scene text detector），省略了候选区域聚合、文本切分、后处理等中间步骤，直接对文本行进行预测. 该方法先利用 FCN 预测单词和文本行，输出旋转的矩形的文本候选框或者四边形的文本候选框，然后使用 NMS 算法过滤掉冗余的候选框，得到最后的结果. 现有的端到端方法中，检白志程等：自然场景文本检测技术研究综述 · 1441 ·

<<向上翻页向下翻页>>

点击下载：自然场景文本检测技术研究综述