测和识别两个子任务被串行连接，文本检测任务和文本识别任务耦合度高，且对识

正在加载图片...

.1442 工程科学学报，第42卷，第11期测和识别两个子任务被串行连接，文本检测任务含多方向矩形包围框检测器、边界点检测器和识和文本识别任务耦合度高，且对识别噪声较为敏感别网络三个部分.多方向矩形包围框检测器在文献[70]利用并行检测-识别的方法进行端到端 RPN提取的区域中通过对目标框的中心偏移量、的场景文本提取，在检测模块和识别模块之间构宽度、高度和倾斜角度进行回归以产生多方向的建弱连接，指导模型参数更新.这种方法能够平衡矩形框，同时利用该区域特征对文字边界点进行检测和识别两个分支对系统性能的影响.文献[71] 回归.预测得到的边界信息进一步对文本区域特提出的端到端识别方法中，采用PVAnet!四代替征进行矫正，一方面能够描述精准的文本形状，消 EAST7I算法中的ResNet:500框架进行文本检测，除背景噪声所带来的负面影响；另一方面由于边得到任意方向的文本候选区域.该文中提出一种界点的表示可导，该识别结果支持对检测结果的 Text-alignment方法，将文本候选区域固定为统一梯度反向传播优化.文献[79]引入特征金字塔结大小的特征图.这些特征图经由一个递归神经网构，采用多尺度文本特征提取网络融合深层语义络进行分析处理，得到最终的文本识别结果信息、浅层位置信息，减弱了文本大小与多样性对 3.5其他基于深度学习的方法检测结果的影响.文献[80]提出了一种基于YOLO 除前文所述方法外，研究人员针对自然场景算法s11的YOLO BOX定位模型.该模型对聚类后文本检测问题，在深度学习领域还开展了很多有的边界框进行灰度化处理，然后通过计算像素灰价值的研究.如文献[74]提出一种新的实例转换度值的方差来得到文字的倾斜角度并进行角度矫网络(Instance transformation network,.ITN),它使用正，提升了倾斜文本区域定位的准确度.文献[82] 一种网内转换嵌入方法(In-network transformation 在EAST9I算法的主干网络PVANet!四中引入注 embedding),对自然场景中的文本行进行自适应表意力机制模块，使网络在特征提取时能够有效捕征，同时提出了表征文本行的特定几何结构，无需捉价值较高的信息，这有效地改善了EAST9算法后处理步骤即可实现对多尺度、多方向、多语言文在预测长文本方向信息时视野不足的问题本的端到端检测.文献[75]提出针对自然场景下 4常用数据集、OCR工具与开源项目文字检测的几何归一化网络(Geometry normalization networks,,GNNets).GNNets通过对待处理图像的 4.1常用数据集特征图进行几何变换，将几何分布差异较大的文目前比较常用的自然场景文本检测基准数据集本框归一化到一定的几何分布范围内，提高了自有CTW8、ICDAR4,3-划、MSRA-TD500H、COCO- 然场景下文本测检的效果.作者研究了几何分布 Text、RCTWIS6、Total-Text7、MLTs8I等.CTW数对场景文本检测的影响，发现基于CNN的检测器据集引是由清华大学与腾讯共同推出的中文自然只能捕获有限的文本几何分布，但充分利用所有训场景文本数据集.包含32285张图像和1018402个练的样本可以提高其泛化能力.该文还提出了一中文字符.该数据集具有高度多样性，包含了平面种新颖的几何规范化模块(Geometry normalization 文本、凸出文本、城市街景文本、乡镇街景文本、 module,GNM)用于归一化文本实例，而被归一化弱照明条件下的文本、远距离文本、部分显示文的一组实例可被用于训练共享的文本检测器.针对本等不同的文本类型.标注信息除真实字符、边不规则形状、尺度的曲线文字检测问题，文献[76] 界框外，还包含是否被遮挡、有无复杂的背景、是提出一种条件空间膨胀(Conditional spatial expansion,. 否凸出、是手写体还是打印体等属性.由于规模 CSE)机制，取代了传统的边框回归或分割策略.CSE 大，多样性强，CTW被广泛地应用于文本检测和随机在文本区域初始化种子区域，并依靠卷积网文本识别模型的训练和验证络提取的区域特征和已融合区域的上下文信息对 ICDAR系列数据集刷，3-刘由国际文档分析和临近的区域进行进一步融合，文献【7]提出自适识别会议推出.自2003年开始，ICDAR设立了和会应贝塞尔曲线网络(Adaptive bezier-curve network, 议同名的竞赛，并正式发布了ICDAR2003数据 ABCNet)对场景文本实时检测.该方法通过参数集8剧该数据集中的大部分文本是水平的，且均为英化的贝塞尔曲线以极低的计算开销自适应拟合文文.ICDAR201IB、ICDAR2013B2是对ICDAR2003 本形状.文中设计了新颖的Bezier Align层，可提取数据集8的扩展，增加了多方向场景文本和扭曲用于任意形状文本实例的卷积特征.文献[78]提形式的场景文本图片，以及视频文本、网页等出用边界点表示任意形状文本的方法，该模型包 ICDAR2013除英文外，还补充了西班牙文、法文图片.测和识别两个子任务被串行连接，文本检测任务和文本识别任务耦合度高，且对识别噪声较为敏感. 文献 [70] 利用并行检测−识别的方法进行端到端的场景文本提取，在检测模块和识别模块之间构建弱连接，指导模型参数更新. 这种方法能够平衡检测和识别两个分支对系统性能的影响. 文献 [71] 提出的端到端识别方法中，采用 PVAnet[72] 代替 EAST[73] 算法中的 ResNet50[70] 框架进行文本检测，得到任意方向的文本候选区域. 该文中提出一种 Text-alignment 方法，将文本候选区域固定为统一大小的特征图. 这些特征图经由一个递归神经网络进行分析处理，得到最终的文本识别结果. 3.5 其他基于深度学习的方法除前文所述方法外，研究人员针对自然场景文本检测问题，在深度学习领域还开展了很多有价值的研究. 如文献 [74] 提出一种新的实例转换网络（Instance transformation network, ITN），它使用一种网内转换嵌入方法（ In-network transformation embedding），对自然场景中的文本行进行自适应表征，同时提出了表征文本行的特定几何结构，无需后处理步骤即可实现对多尺度、多方向、多语言文本的端到端检测. 文献 [75] 提出针对自然场景下文字检测的几何归一化网络（Geometry normalization networks, GNNets）. GNNets 通过对待处理图像的特征图进行几何变换，将几何分布差异较大的文本框归一化到一定的几何分布范围内，提高了自然场景下文本测检的效果. 作者研究了几何分布对场景文本检测的影响，发现基于 CNN 的检测器只能捕获有限的文本几何分布，但充分利用所有训练的样本可以提高其泛化能力. 该文还提出了一种新颖的几何规范化模块（Geometry normalization module, GNM）用于归一化文本实例，而被归一化的一组实例可被用于训练共享的文本检测器. 针对不规则形状、尺度的曲线文字检测问题，文献 [76] 提出一种条件空间膨胀（Conditional spatial expansion, CSE）机制，取代了传统的边框回归或分割策略. CSE 随机在文本区域初始化种子区域，并依靠卷积网络提取的区域特征和已融合区域的上下文信息对临近的区域进行进一步融合. 文献 [77] 提出自适应贝塞尔曲线网络（Adaptive bezier-curve network, ABCNet）对场景文本实时检测. 该方法通过参数化的贝塞尔曲线以极低的计算开销自适应拟合文本形状. 文中设计了新颖的 Bezier Align 层，可提取用于任意形状文本实例的卷积特征. 文献 [78] 提出用边界点表示任意形状文本的方法，该模型包含多方向矩形包围框检测器、边界点检测器和识别网络三个部分. 多方向矩形包围框检测器在 RPN 提取的区域中通过对目标框的中心偏移量、宽度、高度和倾斜角度进行回归以产生多方向的矩形框，同时利用该区域特征对文字边界点进行回归. 预测得到的边界信息进一步对文本区域特征进行矫正，一方面能够描述精准的文本形状，消除背景噪声所带来的负面影响；另一方面由于边界点的表示可导，该识别结果支持对检测结果的梯度反向传播优化. 文献 [79] 引入特征金字塔结构，采用多尺度文本特征提取网络融合深层语义信息、浅层位置信息，减弱了文本大小与多样性对检测结果的影响. 文献 [80] 提出了一种基于 YOLO 算法[81] 的 YOLO_BOX 定位模型. 该模型对聚类后的边界框进行灰度化处理，然后通过计算像素灰度值的方差来得到文字的倾斜角度并进行角度矫正，提升了倾斜文本区域定位的准确度. 文献 [82] 在 EAST[69] 算法的主干网络 PVANet[72] 中引入注意力机制模块，使网络在特征提取时能够有效捕捉价值较高的信息，这有效地改善了 EAST[69] 算法在预测长文本方向信息时视野不足的问题. 4 常用数据集、OCR 工具与开源项目 4.1 常用数据集目前比较常用的自然场景文本检测基准数据集有 CTW[83]、ICDAR[84, 31−32]、MSRA-TD500[14]、COCOText[85]、RCTW[86]、Total-Text[87]、MLT[88] 等. CTW 数据集[83] 是由清华大学与腾讯共同推出的中文自然场景文本数据集，包含 32285 张图像和 1018402 个中文字符. 该数据集具有高度多样性，包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等不同的文本类型. 标注信息除真实字符、边界框外，还包含是否被遮挡、有无复杂的背景、是否凸出、是手写体还是打印体等属性. 由于规模大，多样性强，CTW 被广泛地应用于文本检测和文本识别模型的训练和验证. ICDAR 系列数据集[84, 31−32] 由国际文档分析和识别会议推出. 自 2003 年开始，ICDAR 设立了和会议同名的竞赛，并正式发布了 ICDAR2003 数据集[84] . 该数据集中的大部分文本是水平的，且均为英文. ICDAR2011[31]、ICDAR2013[32] 是对 ICDAR2003 数据集[84] 的扩展，增加了多方向场景文本和扭曲形式的场景文本图片，以及视频文本、网页等. ICDAR2013 除英文外，还补充了西班牙文、法文图片. · 1442 · 工程科学学报，第 42 卷，第 11 期

<<向上翻页向下翻页>>

点击下载：自然场景文本检测技术研究综述