正在加载图片...
.1442 工程科学学报,第42卷,第11期 测和识别两个子任务被串行连接,文本检测任务 含多方向矩形包围框检测器、边界点检测器和识 和文本识别任务耦合度高,且对识别噪声较为敏感 别网络三个部分.多方向矩形包围框检测器在 文献[70]利用并行检测-识别的方法进行端到端 RPN提取的区域中通过对目标框的中心偏移量、 的场景文本提取,在检测模块和识别模块之间构 宽度、高度和倾斜角度进行回归以产生多方向的 建弱连接,指导模型参数更新.这种方法能够平衡 矩形框,同时利用该区域特征对文字边界点进行 检测和识别两个分支对系统性能的影响.文献[71] 回归.预测得到的边界信息进一步对文本区域特 提出的端到端识别方法中,采用PVAnet!四代替 征进行矫正,一方面能够描述精准的文本形状,消 EAST7I算法中的ResNet:500框架进行文本检测, 除背景噪声所带来的负面影响;另一方面由于边 得到任意方向的文本候选区域.该文中提出一种 界点的表示可导,该识别结果支持对检测结果的 Text-alignment方法,将文本候选区域固定为统一 梯度反向传播优化.文献[79]引入特征金字塔结 大小的特征图.这些特征图经由一个递归神经网 构,采用多尺度文本特征提取网络融合深层语义 络进行分析处理,得到最终的文本识别结果 信息、浅层位置信息,减弱了文本大小与多样性对 3.5其他基于深度学习的方法 检测结果的影响.文献[80]提出了一种基于YOLO 除前文所述方法外,研究人员针对自然场景 算法s11的YOLO BOX定位模型.该模型对聚类后 文本检测问题,在深度学习领域还开展了很多有 的边界框进行灰度化处理,然后通过计算像素灰 价值的研究.如文献[74]提出一种新的实例转换 度值的方差来得到文字的倾斜角度并进行角度矫 网络(Instance transformation network,.ITN),它使用 正,提升了倾斜文本区域定位的准确度.文献[82] 一种网内转换嵌入方法(In-network transformation 在EAST9I算法的主干网络PVANet!四中引入注 embedding),对自然场景中的文本行进行自适应表 意力机制模块,使网络在特征提取时能够有效捕 征,同时提出了表征文本行的特定几何结构,无需 捉价值较高的信息,这有效地改善了EAST9算法 后处理步骤即可实现对多尺度、多方向、多语言文 在预测长文本方向信息时视野不足的问题 本的端到端检测.文献[75]提出针对自然场景下 4常用数据集、OCR工具与开源项目 文字检测的几何归一化网络(Geometry normalization networks,,GNNets).GNNets通过对待处理图像的 4.1常用数据集 特征图进行几何变换,将几何分布差异较大的文 目前比较常用的自然场景文本检测基准数据集 本框归一化到一定的几何分布范围内,提高了自 有CTW8、ICDAR4,3-划、MSRA-TD500H、COCO- 然场景下文本测检的效果.作者研究了几何分布 Text、RCTWIS6、Total-Text7、MLTs8I等.CTW数 对场景文本检测的影响,发现基于CNN的检测器 据集引是由清华大学与腾讯共同推出的中文自然 只能捕获有限的文本几何分布,但充分利用所有训 场景文本数据集.包含32285张图像和1018402个 练的样本可以提高其泛化能力.该文还提出了一 中文字符.该数据集具有高度多样性,包含了平面 种新颖的几何规范化模块(Geometry normalization 文本、凸出文本、城市街景文本、乡镇街景文本、 module,GNM)用于归一化文本实例,而被归一化 弱照明条件下的文本、远距离文本、部分显示文 的一组实例可被用于训练共享的文本检测器.针对 本等不同的文本类型.标注信息除真实字符、边 不规则形状、尺度的曲线文字检测问题,文献[76] 界框外,还包含是否被遮挡、有无复杂的背景、是 提出一种条件空间膨胀(Conditional spatial expansion,. 否凸出、是手写体还是打印体等属性.由于规模 CSE)机制,取代了传统的边框回归或分割策略.CSE 大,多样性强,CTW被广泛地应用于文本检测和 随机在文本区域初始化种子区域,并依靠卷积网 文本识别模型的训练和验证 络提取的区域特征和已融合区域的上下文信息对 ICDAR系列数据集刷,3-刘由国际文档分析和 临近的区域进行进一步融合,文献【7]提出自适 识别会议推出.自2003年开始,ICDAR设立了和会 应贝塞尔曲线网络(Adaptive bezier-curve network, 议同名的竞赛,并正式发布了ICDAR2003数据 ABCNet)对场景文本实时检测.该方法通过参数 集8剧该数据集中的大部分文本是水平的,且均为英 化的贝塞尔曲线以极低的计算开销自适应拟合文 文.ICDAR201IB、ICDAR2013B2是对ICDAR2003 本形状.文中设计了新颖的Bezier Align层,可提取 数据集8的扩展,增加了多方向场景文本和扭曲 用于任意形状文本实例的卷积特征.文献[78]提 形式的场景文本图片,以及视频文本、网页等 出用边界点表示任意形状文本的方法,该模型包 ICDAR2013除英文外,还补充了西班牙文、法文图片.测和识别两个子任务被串行连接,文本检测任务 和文本识别任务耦合度高,且对识别噪声较为敏感. 文献 [70] 利用并行检测−识别的方法进行端到端 的场景文本提取,在检测模块和识别模块之间构 建弱连接,指导模型参数更新. 这种方法能够平衡 检测和识别两个分支对系统性能的影响. 文献 [71] 提出的端到端识别方法中 ,采用 PVAnet[72] 代替 EAST[73] 算法中的 ResNet50[70] 框架进行文本检测, 得到任意方向的文本候选区域. 该文中提出一种 Text-alignment 方法,将文本候选区域固定为统一 大小的特征图. 这些特征图经由一个递归神经网 络进行分析处理,得到最终的文本识别结果. 3.5    其他基于深度学习的方法 除前文所述方法外,研究人员针对自然场景 文本检测问题,在深度学习领域还开展了很多有 价值的研究. 如文献 [74] 提出一种新的实例转换 网络(Instance transformation network, ITN),它使用 一种网内转换嵌入方法( In-network transformation embedding),对自然场景中的文本行进行自适应表 征,同时提出了表征文本行的特定几何结构,无需 后处理步骤即可实现对多尺度、多方向、多语言文 本的端到端检测. 文献 [75] 提出针对自然场景下 文字检测的几何归一化网络(Geometry normalization networks, GNNets). GNNets 通过对待处理图像的 特征图进行几何变换,将几何分布差异较大的文 本框归一化到一定的几何分布范围内,提高了自 然场景下文本测检的效果. 作者研究了几何分布 对场景文本检测的影响,发现基于 CNN 的检测器 只能捕获有限的文本几何分布,但充分利用所有训 练的样本可以提高其泛化能力. 该文还提出了一 种新颖的几何规范化模块(Geometry normalization module, GNM)用于归一化文本实例,而被归一化 的一组实例可被用于训练共享的文本检测器. 针对 不规则形状、尺度的曲线文字检测问题,文献 [76] 提出一种条件空间膨胀(Conditional spatial expansion, CSE)机制,取代了传统的边框回归或分割策略. CSE 随机在文本区域初始化种子区域,并依靠卷积网 络提取的区域特征和已融合区域的上下文信息对 临近的区域进行进一步融合. 文献 [77] 提出自适 应贝塞尔曲线网络(Adaptive bezier-curve network, ABCNet)对场景文本实时检测. 该方法通过参数 化的贝塞尔曲线以极低的计算开销自适应拟合文 本形状. 文中设计了新颖的 Bezier Align 层,可提取 用于任意形状文本实例的卷积特征. 文献 [78] 提 出用边界点表示任意形状文本的方法,该模型包 含多方向矩形包围框检测器、边界点检测器和识 别网络三个部分. 多方向矩形包围框检测器在 RPN 提取的区域中通过对目标框的中心偏移量、 宽度、高度和倾斜角度进行回归以产生多方向的 矩形框,同时利用该区域特征对文字边界点进行 回归. 预测得到的边界信息进一步对文本区域特 征进行矫正,一方面能够描述精准的文本形状,消 除背景噪声所带来的负面影响;另一方面由于边 界点的表示可导,该识别结果支持对检测结果的 梯度反向传播优化. 文献 [79] 引入特征金字塔结 构,采用多尺度文本特征提取网络融合深层语义 信息、浅层位置信息,减弱了文本大小与多样性对 检测结果的影响. 文献 [80] 提出了一种基于 YOLO 算法[81] 的 YOLO_BOX 定位模型. 该模型对聚类后 的边界框进行灰度化处理,然后通过计算像素灰 度值的方差来得到文字的倾斜角度并进行角度矫 正,提升了倾斜文本区域定位的准确度. 文献 [82] 在 EAST[69] 算法的主干网络 PVANet[72] 中引入注 意力机制模块,使网络在特征提取时能够有效捕 捉价值较高的信息,这有效地改善了 EAST[69] 算法 在预测长文本方向信息时视野不足的问题. 4    常用数据集、OCR 工具与开源项目 4.1    常用数据集 目前比较常用的自然场景文本检测基准数据集 有 CTW[83]、ICDAR[84, 31−32]、MSRA-TD500[14]、COCO￾Text[85]、RCTW[86]、Total-Text[87]、MLT[88] 等. CTW 数 据集[83] 是由清华大学与腾讯共同推出的中文自然 场景文本数据集,包含 32285 张图像和 1018402 个 中文字符. 该数据集具有高度多样性,包含了平面 文本、凸出文本、城市街景文本、乡镇街景文本、 弱照明条件下的文本、远距离文本、部分显示文 本等不同的文本类型. 标注信息除真实字符、边 界框外,还包含是否被遮挡、有无复杂的背景、是 否凸出、是手写体还是打印体等属性. 由于规模 大,多样性强,CTW 被广泛地应用于文本检测和 文本识别模型的训练和验证. ICDAR 系列数据集[84, 31−32] 由国际文档分析和 识别会议推出. 自 2003 年开始,ICDAR 设立了和会 议同名的竞赛 ,并正式发布了 ICDAR2003 数据 集[84] . 该数据集中的大部分文本是水平的,且均为英 文. ICDAR2011[31]、ICDAR2013[32] 是对 ICDAR2003 数据集[84] 的扩展,增加了多方向场景文本和扭曲 形式的场景文本图片,以及视频文本、网页等. ICDAR2013 除英文外,还补充了西班牙文、法文图片. · 1442 · 工程科学学报,第 42 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有