工程科学学报 Chinese Journal of Engineering 自然场景文本检测技术研究综述 白志程李擎陈鹏郭立睛 Text detection in natural scenes:a literature review BAI Zhi-cheng.LI Qing.CHEN Peng.GUO Li-qing 引用本文: 白志程,李擎,陈鹏,郭立晴.自然场景文本检测技术研究综述.工程科学学报,2020,42(11)片1433-1448.doi: 10.13374j.issn2095-9389.2020.03.24.002 BAI Zhi-cheng,LI Qing.CHEN Peng.GUO Li-qing.Text detection in natural scenes:a literature review[J].Chinese Journal of Engineering,.2020,42(11:1433-1448.doi:10.13374j.issn2095-9389.2020.03.24.002 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.03.24.002 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报.2020.42(5:557 https:doi.org10.13374.issn2095-9389.2019.03.21.003 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报.2020,42(4):399 https::1doi.org10.13374.issn2095-9389.2019.06.16.030 基于TATLNet的输电场景威胁检测 Threat detection in transmission scenario based on TATLNet 工程科学学报.2020,42(4:509 https::/1doi.org/10.13374.issn2095-9389.2019.09.15.004 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报.2019,41(9%:1208 https:1oi.org10.13374.issn2095-9389.2019.09.013 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019.41(6):817 https:/doi.org10.13374.issn2095-9389.2019.06.014 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low-illumination conditions 工程科学学报.2020.42(8:1074 https:/doi.org/10.13374.issn2095-9389.2019.08.14.003
自然场景文本检测技术研究综述 白志程 李擎 陈鹏 郭立晴 Text detection in natural scenes: a literature review BAI Zhi-cheng, LI Qing, CHEN Peng, GUO Li-qing 引用本文: 白志程, 李擎, 陈鹏, 郭立晴. 自然场景文本检测技术研究综述[J]. 工程科学学报, 2020, 42(11): 1433-1448. doi: 10.13374/j.issn2095-9389.2020.03.24.002 BAI Zhi-cheng, LI Qing, CHEN Peng, GUO Li-qing. Text detection in natural scenes: a literature review[J]. Chinese Journal of Engineering, 2020, 42(11): 1433-1448. doi: 10.13374/j.issn2095-9389.2020.03.24.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.03.24.002 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报. 2020, 42(5): 557 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报. 2020, 42(4): 399 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 基于TATLNet的输电场景威胁检测 Threat detection in transmission scenario based on TATLNet 工程科学学报. 2020, 42(4): 509 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.004 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报. 2019, 41(9): 1208 https://doi.org/10.13374/j.issn2095-9389.2019.09.013 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low-illumination conditions 工程科学学报. 2020, 42(8): 1074 https://doi.org/10.13374/j.issn2095-9389.2019.08.14.003
工程科学学报.第42卷,第11期:1433-1448.2020年11月 Chinese Journal of Engineering,Vol.42,No.11:1433-1448,November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.03.24.002;http://cje.ustb.edu.cn 自然场景文本检测技术研究综述 白志程2),李擎1,2)区,陈鹏》,郭立晴) 1)北京科技大学自动化学院,北京1000832)工业过程知识自动化教育部重点实验室,北京1000833)中国邮政储蓄银行金融科技创新 部.北京100808 ☒通信作者,E-mail:liging@ies.ustb.edu.cn 摘要文本检测在自动驾驶和跨模态图像检索中具有极为广泛的应用.该技术也是基于光学字符的文本识别任务中重要 的前置环节.目前,复杂场景下的文本检测仍极具挑战性.本文对自然场景文本检测进行综述,回顾了针对该问题的主要技 术和相关研究进展,并对研究现状进行分析.首先对问题进行概述,分析了自然场景中文本检测的主要特点:接着,介绍了经 典的基于连通域分析、基于滑动检测窗的自然场景文本检测技术:在此基础上,综述了近年来较为常用的深度学习文本检测 技术:最后,对自然场景文本检测未来可能的研究方向进行展望. 关键词文本检测:场景文本;连通域分析:图像处理:统计学习:深度学习 分类号TP18 Text detection in natural scenes:a literature review BAI Zhi-cheng2),LI Qing CHEN Peng,GUO Li-qing 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)FINTECH Innovation Division,Postal Savings Bank of China,Beijing 100808,China Corresponding author,E-mail:liqing @ies.ustb.edu.cn ABSTRACT Text detection is widely applied in the automatic driving and cross-modal image retrieval fields.This technique is also an important pre-procedure in optical character-based text recognition tasks.At present,text detection in complex natural scenes remains a challenging topic.Because text distribution and orientation are varied in different scenes and domains,there is still room for improvement in existing computer vision-based text detection methods.To complicate matters,natural scene texts,such as those in guideposts and shop signs,always contain words in different languages.Even characters are missing from some natural scene texts. These circumstances present more difficulties for feature extraction and feature description,thereby weakening the detectability of existing computer vision and image processing methods.In this context,text detection applications in natural scenes were summarized in this paper,the classical and newly presented techniques were reviewed,and the research progress and status were analyzed.First,the definitions of natural scene text detection and associated concepts were provided based on an analysis of the main characteristics of this problem.In addition,the classic natural scene text detection technologies,such as connected component analysis-based methods and sliding detection window-based methods,were introduced comprehensively.These methods were also compared and discussed. Furthermore,common deep learning models for scene text detection of the past decade were also reviewed.We divided these models into two main categories:region proposal-based models and segmentation-based models.Accordingly,the typical detection and semantic segmentation frameworks,including Faster R-CNN,SSD,Mask R-CNN,FCN,and FCIS,were integrated in the deep learning methods reviewed in this section.Moreover,hybrid algorithms that use region proposal ideas and segmentation strategies were also analyzed.As 收稿日期:2020-03-24 基金项目:国家自然科学基金资助项目(11296089)
自然场景文本检测技术研究综述 白志程1,2),李 擎1,2) 苣,陈 鹏3),郭立晴1) 1) 北京科技大学自动化学院,北京 100083 2) 工业过程知识自动化教育部重点实验室,北京 100083 3) 中国邮政储蓄银行金融科技创新 部,北京 100808 苣通信作者,E-mail:liqing@ies.ustb.edu.cn 摘 要 文本检测在自动驾驶和跨模态图像检索中具有极为广泛的应用. 该技术也是基于光学字符的文本识别任务中重要 的前置环节. 目前,复杂场景下的文本检测仍极具挑战性. 本文对自然场景文本检测进行综述,回顾了针对该问题的主要技 术和相关研究进展,并对研究现状进行分析. 首先对问题进行概述,分析了自然场景中文本检测的主要特点;接着,介绍了经 典的基于连通域分析、基于滑动检测窗的自然场景文本检测技术;在此基础上,综述了近年来较为常用的深度学习文本检测 技术;最后,对自然场景文本检测未来可能的研究方向进行展望. 关键词 文本检测;场景文本;连通域分析;图像处理;统计学习;深度学习 分类号 TP18 Text detection in natural scenes: a literature review BAI Zhi-cheng1,2) ,LI Qing1,2) 苣 ,CHEN Peng3) ,GUO Li-qing1) 1) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) FINTECH Innovation Division, Postal Savings Bank of China, Beijing 100808, China 苣 Corresponding author, E-mail: liqing@ies.ustb.edu.cn ABSTRACT Text detection is widely applied in the automatic driving and cross-modal image retrieval fields. This technique is also an important pre-procedure in optical character-based text recognition tasks. At present, text detection in complex natural scenes remains a challenging topic. Because text distribution and orientation are varied in different scenes and domains, there is still room for improvement in existing computer vision-based text detection methods. To complicate matters, natural scene texts, such as those in guideposts and shop signs, always contain words in different languages. Even characters are missing from some natural scene texts. These circumstances present more difficulties for feature extraction and feature description, thereby weakening the detectability of existing computer vision and image processing methods. In this context, text detection applications in natural scenes were summarized in this paper, the classical and newly presented techniques were reviewed, and the research progress and status were analyzed. First, the definitions of natural scene text detection and associated concepts were provided based on an analysis of the main characteristics of this problem. In addition, the classic natural scene text detection technologies, such as connected component analysis-based methods and sliding detection window-based methods, were introduced comprehensively. These methods were also compared and discussed. Furthermore, common deep learning models for scene text detection of the past decade were also reviewed. We divided these models into two main categories: region proposal-based models and segmentation-based models. Accordingly, the typical detection and semantic segmentation frameworks, including Faster R-CNN, SSD, Mask R-CNN, FCN, and FCIS, were integrated in the deep learning methods reviewed in this section. Moreover, hybrid algorithms that use region proposal ideas and segmentation strategies were also analyzed. As 收稿日期: 2020−03−24 基金项目: 国家自然科学基金资助项目(11296089) 工程科学学报,第 42 卷,第 11 期:1433−1448,2020 年 11 月 Chinese Journal of Engineering, Vol. 42, No. 11: 1433−1448, November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.03.24.002; http://cje.ustb.edu.cn
1434 工程科学学报,第42卷,第11期 a supplement,several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally,possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像 本、图片文档覆盖文本.文档图像一般为二值化 或符号.当今社会,我们的生活场景中充满了各种 图像,如文字、资料的照片和PDF文件,其黑色为 各样的文本信息.具有特定而且明确语义的文本 前景文字,背景为白色,便于文字的检测识别.图 是对自然场景极为重要的概括、说明和表达.自 片文档覆盖文本则以视频字幕、图片中经人工植 然场景文本检测是实现智能场景感知的关键技 入的说明性文本为主要形式.文档图像文本、图 术,具有重要研究意义.但由于自然场景中的文本 片覆盖文本的布局相对固定,文本区域分割相对 存在背景复杂多样、文本字体不统一、大小不一 容易.而自然场景中的文本出现形式多变,位置、 致、方向不确定等问题,目前对该任务的处理还未 对齐方式不统一.自然场景图片大多为彩色,文字 达到理想的效果.本文首先简述了文本检测问题, 区域往往产生强烈的亮度变化,使得单从像素上 分析了自然场景文本检测的研究进展和现状.接 区分文字和背景变得困难.而同一文本块内,文字 着,从经典文本检测方法与深度学习文本检测方 的字体和字号、高度和宽度以及粗细往往保持一 法两个方面,分析并比较了各类自然场景文本检 致,同一文字块当中往往具有相同的颜色,这给单 测技术的优缺点.最后,展望了自然场景文本检测 词、单字等字符单元的切分带来新的困难山图1 未来可能的研究方向 为自然场景中文本的示例图片 1问题概述:自然场景中的文本检测 IOHN LITTLE 11问题定义与基本概念 文本检测(Text detection)可被视为计算机视 觉目标检测(Object detection)任务的一种特殊形 式.该任务的输入为包含文本的图片,输出为以边 界框为主要形式的预测信息.一般目标检测任务 的输出为图片中动物、家具、汽车等对象的位置 图1自然场景示例图片 Fig.I Sample images of nature scenes 和区域,而文本检测则主要关注图片中文本的精 准定位.相较于一般的目标检测,自然场景中的文 一般来说,自然场景的文本识别由于环境更 字具有多方向、不规则形状、极端长宽比和字体、 加复杂多样,其识别难度相对困难,通常通过文本 颜色、背景多样等特点,因此,在一般目标检测上 检测和文本识别两个步骤来完成.文本检测作为 较为成功的算法往往无法直接迁移到文字检 OC℉的重要技术手段之一,也是文本识别的前提. 测中 在文本检测任务中,文本行(Text lines)检测是 与文本检测相关联的概念是文本识别,如光 一个重要的环节.文本行是由字符、部分字符或 学字符识别(Optical character recognition.,OCR).该 多字符组成的条状、不规则形状的区域.文本检 任务的输人为包含文本光学字符信号的图片或视 测在获取文本行后针对字符进行进一步切分 频,输出为对应的文字信息.目前,OC℉技术可有 1.2研究进展与现状分析 效、准确地对PDF、图片文档等形式的资料进行 文本检测与识别工作最初用于对文档图像进 识别和分析,获取文字.然而,对于自然场景中的 行分析.由于文档图像的背景简单、文字排列整 路标、车牌号、建筑标识等对象,现有OC℉技术仍 齐,其检测识别难度较小.经过几十年的发展,基 有较大的进步空间.可大致将OCR分为识别特定 于文档图像的检测识别技术已经趋于成熟.近年 场景的专用OCR和识别多种场景的通用OCR.比 来,高像素智能手机等设备的出现使越来越多的 如车牌识别是对特定场景的OCR,而对自然场景 人们开始拍摄周围的事物,积累了海量的自然场 中的文字识别则为通用场景OCR 景图像.有关自然场景图像中文本检测与识别技 与自然场景文本相关联的概念为文档图像文 术的研究逐渐成为计算机视觉领域的热点问题
a supplement, several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally, possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像 或符号. 当今社会,我们的生活场景中充满了各种 各样的文本信息. 具有特定而且明确语义的文本 是对自然场景极为重要的概括、说明和表达. 自 然场景文本检测是实现智能场景感知的关键技 术,具有重要研究意义. 但由于自然场景中的文本 存在背景复杂多样、文本字体不统一、大小不一 致、方向不确定等问题,目前对该任务的处理还未 达到理想的效果. 本文首先简述了文本检测问题, 分析了自然场景文本检测的研究进展和现状. 接 着,从经典文本检测方法与深度学习文本检测方 法两个方面,分析并比较了各类自然场景文本检 测技术的优缺点. 最后,展望了自然场景文本检测 未来可能的研究方向. 1 问题概述:自然场景中的文本检测 1.1 问题定义与基本概念 文本检测(Text detection)可被视为计算机视 觉目标检测(Object detection)任务的一种特殊形 式. 该任务的输入为包含文本的图片,输出为以边 界框为主要形式的预测信息. 一般目标检测任务 的输出为图片中动物、家具、汽车等对象的位置 和区域,而文本检测则主要关注图片中文本的精 准定位. 相较于一般的目标检测,自然场景中的文 字具有多方向、不规则形状、极端长宽比和字体、 颜色、背景多样等特点,因此,在一般目标检测上 较为成功的算法往往无法直接迁移到文字检 测中. 与文本检测相关联的概念是文本识别,如光 学字符识别(Optical character recognition,OCR). 该 任务的输入为包含文本光学字符信号的图片或视 频,输出为对应的文字信息. 目前,OCR 技术可有 效、准确地对 PDF、图片文档等形式的资料进行 识别和分析,获取文字. 然而,对于自然场景中的 路标、车牌号、建筑标识等对象,现有 OCR 技术仍 有较大的进步空间. 可大致将 OCR 分为识别特定 场景的专用 OCR 和识别多种场景的通用 OCR. 比 如车牌识别是对特定场景的 OCR,而对自然场景 中的文字识别则为通用场景 OCR. 与自然场景文本相关联的概念为文档图像文 本、图片文档覆盖文本. 文档图像一般为二值化 图像,如文字、资料的照片和 PDF 文件,其黑色为 前景文字,背景为白色,便于文字的检测识别. 图 片文档覆盖文本则以视频字幕、图片中经人工植 入的说明性文本为主要形式. 文档图像文本、图 片覆盖文本的布局相对固定,文本区域分割相对 容易. 而自然场景中的文本出现形式多变,位置、 对齐方式不统一. 自然场景图片大多为彩色,文字 区域往往产生强烈的亮度变化,使得单从像素上 区分文字和背景变得困难. 而同一文本块内,文字 的字体和字号、高度和宽度以及粗细往往保持一 致,同一文字块当中往往具有相同的颜色,这给单 词、单字等字符单元的切分带来新的困难[1] . 图 1 为自然场景中文本的示例图片. 一般来说,自然场景的文本识别由于环境更 加复杂多样,其识别难度相对困难,通常通过文本 检测和文本识别两个步骤来完成. 文本检测作为 OCR 的重要技术手段之一,也是文本识别的前提. 在文本检测任务中,文本行(Text lines)检测是 一个重要的环节. 文本行是由字符、部分字符或 多字符组成的条状、不规则形状的区域. 文本检 测在获取文本行后针对字符进行进一步切分. 1.2 研究进展与现状分析 文本检测与识别工作最初用于对文档图像进 行分析. 由于文档图像的背景简单、文字排列整 齐,其检测识别难度较小. 经过几十年的发展,基 于文档图像的检测识别技术已经趋于成熟. 近年 来,高像素智能手机等设备的出现使越来越多的 人们开始拍摄周围的事物,积累了海量的自然场 景图像. 有关自然场景图像中文本检测与识别技 术的研究逐渐成为计算机视觉领域的热点问题[2] . 图 1 自然场景示例图片 Fig.1 Sample images of nature scenes · 1434 · 工程科学学报,第 42 卷,第 11 期
白志程等:自然场景文本检测技术研究综述 1435· 外在、内在两方面的因素制约了对自然场景中文 文本候选,最后通过经验规则分析来识别文本区 本的检测效果.外在因素是指自然场景中常包含 域,并通过项目概况分析来完善文本区域.文献[10] 不同种类的对象如建筑、墙壁、动物、植物、行人 使用傅立叶-拉普拉斯滤波器过滤输入图像,同样 等,这些噪声信号会影响文本检测器的性能]在 采用K均值聚类方法基于最大差异来识别候选文 用手机拍摄图片时,过强或偏暗的光照强度影响 本区域,随后采用文本字符串的直线度和边缘密 着对图片中文本的感知能力.内在因素是指自然 度判断文本候选区域,去除背景区域.文献[11]通 场景中文本可以是任意方向的,所以需要检测的 过候选边缘重组和边缘分类两个步骤优化笔划宽 边界框通常为旋转的矩形或四边形;场景文本边 度变换方法.边缘重组步骤利用分割、区域合并 界框的长宽比变化很大,且通常会存在极端的长 等手段,将输入图像中的边缘信号处理为一组小 宽比:场景文本有字符、单词或者文本行等多种形 单元(边缘片段),利用宽度、颜色等指导信息合并 式.这些因素使算法在定位边界框时会难以判定 这些小单元,从而区分文本边缘和背景:在边界分 文本实例 类的步骤中,首先将候选边界聚合到文本行中,然 相对人脸检测等问题,自然场景文本检测研究 后使用基于字符和基于链的特征对文本行进行分 相对滞后,相关研究工作始于20世纪90年代俐 类.文献[12]基于与周围像素的有效像素强度比 早期的自然场景文本检测算法利用初级、直观的 较,提出一种易于实现的笔划检测器,首先检测特 图像特征;近年来,深度学习方法兴起,通过深度 定的笔划关键点,通过由关键点属性指导的局部 神经网络表示图像信号间,可以避免繁琐低效的 阈值提取文本片段,进而通过特征分析实现分类, 人工特征工程,同时有效提高了场景文本检测的 从而消除非文本区域.基于边缘的文本检测方法 效果 适用于背景简单的图片,在背景比较复杂时,边缘 检测算子极易受到干扰,无法获取有效边缘轮廓 2经典自然场景文本检测方法 2.1.2基于笔划宽度变换的方法 经典的文本检测方法可分为两大类:基于连 笔划宽度变换(Stroke width transform,SWT)是 通域分析的文本检测方法和基于滑动窗口的文本 一种有效的文本区域检测算法,不同于基于边缘 检测方法.连通域方法首先利用边缘提取等数字 的方法从像素梯度、角点等方面获取图片级的特 图像处理技术对输入图片进行预处理,获取文本 征信息,SWT方法更关注于字符级的笔划特征 候选区域,进而采用不同的连通域分析方法对该 如第1节中分析,OCR技术在有噪声的图像上效 区域进行细化加工,实现字符和文本的联通和定 果较差.SWT通过提取出具有一致宽度的带状目 位.根据区域生成和特征表示方法的不同,本文将 标来检测文本,有效消除了大部分噪声,得到更可 基于连通域的方法进一步划分为基于边缘的方 靠的光学字符识别结果 法、基于笔划宽度变换的方法和基于最大稳定极 笔划宽度变换算法由Epshtein等在文献[I3] 值区域的方法并分别进行介绍.基于滑动窗口的 中首次提出,该算法从高对比度边缘上的一点开 方法则采用人工特征对候选区域进行表示,并利 始,在垂直于边缘的方向上逐像素进行分析,找到 用该特征训练分类器,对候选区域进行预测和验 另一条与之平行的边缘上的一点,由这两点构成 证.这两类方法在实际应用中可以互为补充 一个笔划横截面.许多宽度相似的笔划横截面连 2.1基于连通域的方法 接构成一个完整的笔划.笔划宽度的确定过程如 2.1.1基于边缘的方法 图2所示,其中p是笔划边界上的一个像素,沿 自然场景中的文本往往具有丰富的边缘和角 p点梯度方向搜索,就可以找到笔划另一侧对应的 点信息,基于边缘的文本检测方法通过Cannym7边 像素9,w为对应笔划的宽度.在此基础上,笔划组 缘检测算子提取图片边缘和角点来获取文本的候 成字符,字符组成词汇和文本区域.SWT算法的 选区域,进而使用规则或分类器对文本候选区域 一个好处是不需要知道文本的语言和字体类型即 进行定位预测 可实现文本定位 文献[8]首先应用Sobel边缘检测算子例获得 笔划宽度变换算法提出后,文献[14、文献[15] 水平,垂直,右上和左上方向的四个边缘图,然后 对其进行了发展和改进.文献[14]通过笔划宽度 从四个边缘图中提取特征以表示文本的纹理属 变换处理获得文本候选区域,使用文本级分类器 性,进而应用K均值(K-means)聚类算法检测初始 过滤非文本区域:用文本之间的相似性连接文本
外在、内在两方面的因素制约了对自然场景中文 本的检测效果. 外在因素是指自然场景中常包含 不同种类的对象如建筑、墙壁、动物、植物、行人 等,这些噪声信号会影响文本检测器的性能[3] . 在 用手机拍摄图片时,过强或偏暗的光照强度影响 着对图片中文本的感知能力. 内在因素是指自然 场景中文本可以是任意方向的,所以需要检测的 边界框通常为旋转的矩形或四边形;场景文本边 界框的长宽比变化很大,且通常会存在极端的长 宽比;场景文本有字符、单词或者文本行等多种形 式. 这些因素使算法在定位边界框时会难以判定 文本实例. 相对人脸检测等问题,自然场景文本检测研究 相对滞后,相关研究工作始于 20 世纪 90 年代[4] . 早期的自然场景文本检测算法利用初级、直观的 图像特征;近年来,深度学习方法兴起,通过深度 神经网络表示图像信号[5] ,可以避免繁琐低效的 人工特征工程[6] ,同时有效提高了场景文本检测的 效果. 2 经典自然场景文本检测方法 经典的文本检测方法可分为两大类:基于连 通域分析的文本检测方法和基于滑动窗口的文本 检测方法. 连通域方法首先利用边缘提取等数字 图像处理技术对输入图片进行预处理,获取文本 候选区域,进而采用不同的连通域分析方法对该 区域进行细化加工,实现字符和文本的联通和定 位. 根据区域生成和特征表示方法的不同,本文将 基于连通域的方法进一步划分为基于边缘的方 法、基于笔划宽度变换的方法和基于最大稳定极 值区域的方法并分别进行介绍. 基于滑动窗口的 方法则采用人工特征对候选区域进行表示,并利 用该特征训练分类器,对候选区域进行预测和验 证. 这两类方法在实际应用中可以互为补充. 2.1 基于连通域的方法 2.1.1 基于边缘的方法 自然场景中的文本往往具有丰富的边缘和角 点信息,基于边缘的文本检测方法通过 Canny[7] 边 缘检测算子提取图片边缘和角点来获取文本的候 选区域,进而使用规则或分类器对文本候选区域 进行定位预测. 文献 [8] 首先应用 Sobel 边缘检测算子[9] 获得 水平,垂直,右上和左上方向的四个边缘图,然后 从四个边缘图中提取特征以表示文本的纹理属 性,进而应用 K 均值(K-means)聚类算法检测初始 文本候选,最后通过经验规则分析来识别文本区 域,并通过项目概况分析来完善文本区域. 文献 [10] 使用傅立叶−拉普拉斯滤波器过滤输入图像,同样 采用 K 均值聚类方法基于最大差异来识别候选文 本区域,随后采用文本字符串的直线度和边缘密 度判断文本候选区域,去除背景区域. 文献 [11] 通 过候选边缘重组和边缘分类两个步骤优化笔划宽 度变换方法. 边缘重组步骤利用分割、区域合并 等手段,将输入图像中的边缘信号处理为一组小 单元(边缘片段),利用宽度、颜色等指导信息合并 这些小单元,从而区分文本边缘和背景;在边界分 类的步骤中,首先将候选边界聚合到文本行中,然 后使用基于字符和基于链的特征对文本行进行分 类. 文献 [12] 基于与周围像素的有效像素强度比 较,提出一种易于实现的笔划检测器,首先检测特 定的笔划关键点,通过由关键点属性指导的局部 阈值提取文本片段,进而通过特征分析实现分类, 从而消除非文本区域. 基于边缘的文本检测方法 适用于背景简单的图片,在背景比较复杂时,边缘 检测算子极易受到干扰,无法获取有效边缘轮廓. 2.1.2 基于笔划宽度变换的方法 笔划宽度变换(Stroke width transform, SWT)是 一种有效的文本区域检测算法. 不同于基于边缘 的方法从像素梯度、角点等方面获取图片级的特 征信息,SWT 方法更关注于字符级的笔划特征. 如第 1 节中分析,OCR 技术在有噪声的图像上效 果较差. SWT 通过提取出具有一致宽度的带状目 标来检测文本,有效消除了大部分噪声,得到更可 靠的光学字符识别结果. 笔划宽度变换算法由 Epshtein 等在文献 [13] 中首次提出,该算法从高对比度边缘上的一点开 始,在垂直于边缘的方向上逐像素进行分析,找到 另一条与之平行的边缘上的一点,由这两点构成 一个笔划横截面. 许多宽度相似的笔划横截面连 接构成一个完整的笔划. 笔划宽度的确定过程如 图 2 所示,其中 p 是笔划边界上的一个像素,沿 p 点梯度方向搜索,就可以找到笔划另一侧对应的 像素 q,w 为对应笔划的宽度. 在此基础上,笔划组 成字符,字符组成词汇和文本区域. SWT 算法的 一个好处是不需要知道文本的语言和字体类型即 可实现文本定位. 笔划宽度变换算法提出后,文献 [14]、文献 [15] 对其进行了发展和改进. 文献 [14] 通过笔划宽度 变换处理获得文本候选区域,使用文本级分类器 过滤非文本区域;用文本之间的相似性连接文本 白志程等: 自然场景文本检测技术研究综述 · 1435 ·
·1436 工程科学学报,第42卷,第11期 图2笔划宽度的定义可(a)一种典型的笔划:(b)笔划边界像素:(c)笔划束上的每个像素 Fig.2 Definition of the stroke width(a)a typical stroke (b)a pixel on the boundary of the stroke:(c)each pixel along the ray 行,然后使用文本行级分类器进一步过滤背景区 确、误差较大的问题.因此,文献[19]提出直接用 域.尽管使用笔划宽度变换处理可以提取不同比 极值区域(Extremal regions.,ER)作为文本候选区 例和方向的文本候选区域,当图像中包含一些具 域.该方法检测图片中所有的极值区域ER,而不 有不规则梯度方向的边缘时,受其干扰,传统的笔 仅仅是MSER的子集,并把文字检测问题处理为 划宽度变换方法往往不能准确地计算出笔划宽 从ER集合中进行有效序列选择的问题,达到实时 度,因此文献[l5]提出了笔划特征变换(Stroke 检测效果.考虑到获得的极值区域的数量过大会 feature transform,SFT)算子,通过合并文本像素的颜 对后续的文本分类精度产生影响,文献[20]提出 色信息扩展笔划宽度计算,有效分割字符中的不相 了对比极值区域(Contrasting extremal region,CER) 关组件,连接相关组件.此外,文献[15]依次采用文 方法.CER选取具有高对比度的极值区域,获得的 本组件分类器和文本行分类器提取文本区域.对文 候选连通区域数量远小于ER,候选范围大大缩 本笔划的启发式属性和统计特征进行编码,通过文 小,提高了算法的效率.文献21]提出颜色增强的 本行置信度图进行阈值确定,进而定位文本区域 对比极值区域(Color-enhanced CER)方法,进一步利 2.13基于最大稳定极值区域的方法 用颜色空间中的信息滤除CER中的冗余像素和噪 最大稳定极值区域(Maximally stable extremal 声.Color--enhanced CER具有视觉感知一致性且对 regions,MSER)是最为经典的文本检测算法之一I 光照不敏感,更接近人眼对颜色的判断.文献22] 其主要思想源于分水岭算法,由于文本区域往往 提出了一种基于多通道光照均衡化的MSER算 具有相似的不连通“稳定极值”,对于这些具有稳 法,解决了传统MSER算法在光照不均匀图片上 定极值的区域进行定位和分割即可获得字符笔划 的文本漏检问题,同时该文献还提出了伪字符区 的边缘信息. 域过滤算法进行多特征融合,解决了传统MSER 具体而言,MSER对灰度图像进行二值化处 算法在复杂背景图片上的漏检问题, 理,在[0,255]区间内,逐步提高阈值.类似于分水 随着自然场景图片内容的日趋复杂,往往出 岭算法中水平面的上升过程,部分“山谷”和“较矮 现文本目标不属于MSER的情况,这限制了MSER 的丘陵”会被淹没,如果从天空往下看,则整个区 方法的应用场景.尽管MSER的检测准确率低于 域被分为陆地和水域两个部分,即对应于切分字 深度学习方法,由于其具有较强的鲁棒性,且计算 符和背景的二值图像.每个阈值都会生成一个二 成本低,该方法常被应用于其它复杂文本检测方 值图.MSER方法可以很好地描述文本内部颜色 法的前期阶段,产生尽可能多的候选区域 的一致性,并且克服噪声和仿射变换的影响,一些 2.2 基于滑动检测窗的方法 文献采用MSER方法在复杂的自然场景图像上获 该类方法设计滑动检测窗,利用窗格自上而 得出色的文本检测性能.文献[I7刀提出将MSER 下扫描图像,并将每个窗格覆盖的图像区域视作 方法应用于自然场景文本检测,通过检测图像中 文本候选区域.通过对该区域提取特征,分类器可 的一些最大稳定极值区域来获得文本候选区域 得出置信度值,通过阈值比较可实现定位和背景 文献[I8]用MSER算法初始化区域,然后用自定 区域分割.考虑到文本大小和文本行长度多变的 义的距离公式合并初始区域生成一个区域集合, 情况,还可以用多尺度滑动窗口进行候选区域的 最后对集合排序,选出前几个作为文本区域.在阈 扫描 值变化过程中,MSER的尺寸长时间保持不变.在 文献[23]首先利用基础特征子对文本区域进 处理模糊、低对比度的图片时,往往存在定位不精 行建模,进而根据特征响应构建弱分类器.这些弱
行,然后使用文本行级分类器进一步过滤背景区 域. 尽管使用笔划宽度变换处理可以提取不同比 例和方向的文本候选区域,当图像中包含一些具 有不规则梯度方向的边缘时,受其干扰,传统的笔 划宽度变换方法往往不能准确地计算出笔划宽 度 ,因此文 献 [15] 提出了笔划特征变换 ( Stroke feature transform, SFT)算子,通过合并文本像素的颜 色信息扩展笔划宽度计算,有效分割字符中的不相 关组件,连接相关组件. 此外,文献 [15] 依次采用文 本组件分类器和文本行分类器提取文本区域,对文 本笔划的启发式属性和统计特征进行编码,通过文 本行置信度图进行阈值确定,进而定位文本区域. 2.1.3 基于最大稳定极值区域的方法 最大稳定极值区域(Maximally stable extremal regions,MSER)是最为经典的文本检测算法之一[16] . 其主要思想源于分水岭算法,由于文本区域往往 具有相似的不连通“稳定极值”,对于这些具有稳 定极值的区域进行定位和分割即可获得字符笔划 的边缘信息. 具体而言,MSER 对灰度图像进行二值化处 理,在 [0, 255] 区间内,逐步提高阈值. 类似于分水 岭算法中水平面的上升过程,部分“山谷”和“较矮 的丘陵”会被淹没,如果从天空往下看,则整个区 域被分为陆地和水域两个部分,即对应于切分字 符和背景的二值图像. 每个阈值都会生成一个二 值图. MSER 方法可以很好地描述文本内部颜色 的一致性,并且克服噪声和仿射变换的影响,一些 文献采用 MSER 方法在复杂的自然场景图像上获 得出色的文本检测性能. 文献 [17] 提出将 MSER 方法应用于自然场景文本检测,通过检测图像中 的一些最大稳定极值区域来获得文本候选区域. 文献 [18] 用 MSER 算法初始化区域,然后用自定 义的距离公式合并初始区域生成一个区域集合, 最后对集合排序,选出前几个作为文本区域. 在阈 值变化过程中,MSER 的尺寸长时间保持不变. 在 处理模糊、低对比度的图片时,往往存在定位不精 确、误差较大的问题. 因此,文献 [19] 提出直接用 极值区域(Extremal regions, ER)作为文本候选区 域. 该方法检测图片中所有的极值区域 ER,而不 仅仅是 MSER 的子集,并把文字检测问题处理为 从 ER 集合中进行有效序列选择的问题,达到实时 检测效果. 考虑到获得的极值区域的数量过大会 对后续的文本分类精度产生影响,文献 [20] 提出 了对比极值区域(Contrasting extremal region, CER) 方法. CER 选取具有高对比度的极值区域,获得的 候选连通区域数量远小于 ER,候选范围大大缩 小,提高了算法的效率. 文献 [21] 提出颜色增强的 对比极值区域(Color-enhanced CER)方法,进一步利 用颜色空间中的信息滤除 CER 中的冗余像素和噪 声. Color-enhanced CER 具有视觉感知一致性且对 光照不敏感,更接近人眼对颜色的判断. 文献 [22] 提出了一种基于多通道光照均衡化的 MSER 算 法,解决了传统 MSER 算法在光照不均匀图片上 的文本漏检问题,同时该文献还提出了伪字符区 域过滤算法进行多特征融合,解决了传统 MSER 算法在复杂背景图片上的漏检问题. 随着自然场景图片内容的日趋复杂,往往出 现文本目标不属于 MSER 的情况,这限制了 MSER 方法的应用场景. 尽管 MSER 的检测准确率低于 深度学习方法,由于其具有较强的鲁棒性,且计算 成本低,该方法常被应用于其它复杂文本检测方 法的前期阶段,产生尽可能多的候选区域. 2.2 基于滑动检测窗的方法 该类方法设计滑动检测窗,利用窗格自上而 下扫描图像,并将每个窗格覆盖的图像区域视作 文本候选区域. 通过对该区域提取特征,分类器可 得出置信度值,通过阈值比较可实现定位和背景 区域分割. 考虑到文本大小和文本行长度多变的 情况,还可以用多尺度滑动窗口进行候选区域的 扫描. 文献 [23] 首先利用基础特征子对文本区域进 行建模,进而根据特征响应构建弱分类器. 这些弱 p q p q W (a) (b) (c) 图 2 笔划宽度的定义[13] . (a)一种典型的笔划;(b)笔划边界像素;(c)笔划束上的每个像素 Fig.2 Definition of the stroke width[13] : (a) a typical stroke; (b) a pixel on the boundary of the stroke; (c) each pixel along the ray · 1436 · 工程科学学报,第 42 卷,第 11 期
白志程等:自然场景文本检测技术研究综述 1437 分类器被进一步集成为强分类器,在Adaboost算 特征信号进行分析,选取重合度高的文本候选框. 法框架下,该方法在提出时取得了具有竞争力的 在此基础上,使用基于像素点采样的Monte-Carlo 文本检测性能.此外,文献[23]率先将纹理特征用 方法快速计算多边形区域,最后使用顺序协议进 于自然场景文本检测.文献[24]进一步扩充了文 行回归,实现对多边形文本的精准预测.该文提出 献[23]中的特征提取方法,提取了6种特征并分 的多边形滑窗更加契合场景中的不规则文字(如 别构建分类器,大幅度的改善了检测性能.文献25] 图3所示),大幅度提升了召回率.由于该方法采 首次提出采用多边形滑动窗口进行文本检测,该 用了卷积特征,因此也可被看作基于深度学习的 方法设计了四边形滑动窗口,在中间卷积层中对 方法 图3多边形滑动窗口和矩形滑动窗口检测结果比较(a)多边形滑窗检测结果:(b)矩形滑窗检测结果 Fig.3 Comparison of the detection results between polygon sliding windows and rectangular sliding windows(a)detection results of polygon sliding window,(b)detection result of rectangular sliding window 2.3比较与分析 测方法中,多采用“人工特征子特征提取”和“分类 基于连通域的方法采用自底向上的策略检测 器预测”两个步骤,受到人工特征子特征表示能力 文本,先检测得到单个文本,然后将相邻文本进行 的制约.深度神经网络具有在数据中自动学习特 关联形成文本行.这种方法利用笔化宽度的一致 征表示的能力,而稠密的特征向量形式有效避免 性和颜色的一致性等启发式规则构建文本候选 了稀疏特征向量可能造成的“维数灾难”,极大推 区,即进行文本粗检测,然后利用分类器进一步过 动了机器学习技术的发展. 滤背景像素.基于连通域的算法的一方面降低了 目前己经出现了大量的基于深度学习的自然 计算的复杂度,另一方面由于检测到的连通域可 场景文本检测方法,并取得了优于经典文本检测 以对文本直接进行分割,这有利于后续文本的识 方法的效果一般而言,基于深度学习的自然场 别.然而基于连通域的算法常常面临着三个问题: 景文本检测方法多采用2种深度学习图像处理策 第一,由于该算法对噪声的包容性差,因此非常容 略:1)目标检测算法中的“区域建议”的策略:2)图 易形成不正确的连通域:第二,在利用启发式规则 像语义分割策略,多数方法在这两种策略中有 过滤连通域和文本行的噪声因素时,在不同的数 所侧重,也有很多方法既采用了基于区域建议的 据集上的检测结果具有较大差异性:第三,启发式 思想回归边界框,又用到了图像分割策略学习像 滤除规则并不能百分百有效地区分文本区域与背 素级的语义信息.因此,本文分别介绍了基于区域 景,从而造成误检 建议的方法和基于分割的方法,同时在后文的“混 基于滑动检测窗的方法通过“检测窗”界定文 合方法”一节中对综合采用两种策略的方法进行 本框,因此无需像基于连通域的方法一样通过文 分析 本边缘、角点的提取来获取候选区域,可以有效避 3.1基于区域建议的方法 免粘连字符对候选区域提取的影响,该类方法的 3.1.1基本思想 主要缺陷在于对滑窗依赖极大,而窗口形状、大 该类方法以通用目标检测网络为基本模型, 小、滑窗步长设置较为困难,通用性较差 并在其基础上结合文本检测的实际应用对算法进 行改良,如将通用的多类目标检测模型调整为单 3基于深度学习的自然场景文本检测方法 类(文本)检测模型.以常见目标检测模型Faster 深度学习文本检测方法是一种特殊的基于学 R-CNN(Faster region-based convolutional network)27 习的文本检测方法.在经典的基于学习的文本检 为例,其基本流程为:1)CNN图片特征提取;2)候
分类器被进一步集成为强分类器,在 Adaboost 算 法框架下,该方法在提出时取得了具有竞争力的 文本检测性能. 此外,文献 [23] 率先将纹理特征用 于自然场景文本检测. 文献 [24] 进一步扩充了文 献 [23] 中的特征提取方法,提取了 6 种特征并分 别构建分类器,大幅度的改善了检测性能. 文献 [25] 首次提出采用多边形滑动窗口进行文本检测,该 方法设计了四边形滑动窗口,在中间卷积层中对 特征信号进行分析,选取重合度高的文本候选框. 在此基础上,使用基于像素点采样的 Monte-Carlo 方法快速计算多边形区域,最后使用顺序协议进 行回归,实现对多边形文本的精准预测. 该文提出 的多边形滑窗更加契合场景中的不规则文字(如 图 3 所示),大幅度提升了召回率. 由于该方法采 用了卷积特征,因此也可被看作基于深度学习的 方法. (a) (b) 图 3 多边形滑动窗口和矩形滑动窗口检测结果比较[25] . (a)多边形滑窗检测结果;(b)矩形滑窗检测结果 Fig.3 Comparison of the detection results between polygon sliding windows and rectangular sliding windows[25] : (a) detection results of polygon sliding window; (b) detection result of rectangular sliding window 2.3 比较与分析 基于连通域的方法采用自底向上的策略检测 文本,先检测得到单个文本,然后将相邻文本进行 关联形成文本行. 这种方法利用笔化宽度的一致 性和颜色的一致性等启发式规则构建文本候选 区,即进行文本粗检测,然后利用分类器进一步过 滤背景像素. 基于连通域的算法的一方面降低了 计算的复杂度,另一方面由于检测到的连通域可 以对文本直接进行分割,这有利于后续文本的识 别. 然而基于连通域的算法常常面临着三个问题: 第一,由于该算法对噪声的包容性差,因此非常容 易形成不正确的连通域;第二,在利用启发式规则 过滤连通域和文本行的噪声因素时,在不同的数 据集上的检测结果具有较大差异性;第三,启发式 滤除规则并不能百分百有效地区分文本区域与背 景,从而造成误检. 基于滑动检测窗的方法通过“检测窗”界定文 本框,因此无需像基于连通域的方法一样通过文 本边缘、角点的提取来获取候选区域,可以有效避 免粘连字符对候选区域提取的影响. 该类方法的 主要缺陷在于对滑窗依赖极大,而窗口形状、大 小、滑窗步长设置较为困难,通用性较差. 3 基于深度学习的自然场景文本检测方法 深度学习文本检测方法是一种特殊的基于学 习的文本检测方法. 在经典的基于学习的文本检 测方法中,多采用“人工特征子特征提取”和“分类 器预测”两个步骤,受到人工特征子特征表示能力 的制约. 深度神经网络具有在数据中自动学习特 征表示的能力,而稠密的特征向量形式有效避免 了稀疏特征向量可能造成的“维数灾难”,极大推 动了机器学习技术的发展. 目前己经出现了大量的基于深度学习的自然 场景文本检测方法,并取得了优于经典文本检测 方法的效果[26] . 一般而言,基于深度学习的自然场 景文本检测方法多采用 2 种深度学习图像处理策 略:1)目标检测算法中的“区域建议”的策略;2)图 像语义分割策略. 多数方法在这两种策略中有 所侧重,也有很多方法既采用了基于区域建议的 思想回归边界框,又用到了图像分割策略学习像 素级的语义信息. 因此,本文分别介绍了基于区域 建议的方法和基于分割的方法,同时在后文的“混 合方法”一节中对综合采用两种策略的方法进行 分析. 3.1 基于区域建议的方法 3.1.1 基本思想 该类方法以通用目标检测网络为基本模型, 并在其基础上结合文本检测的实际应用对算法进 行改良,如将通用的多类目标检测模型调整为单 类(文本)检测模型. 以常见目标检测模型 Faster R-CNN(Faster region-based convolutional network) [27] 为例,其基本流程为:1)CNN 图片特征提取;2)候 白志程等: 自然场景文本检测技术研究综述 · 1437 ·
1438 工程科学学报,第42卷,第11期 选区域Rol(Region of interest)与候选框生成;3)通 在水平和多方向文本检测任务中均取得了更高的 过分类器生成候选框得分;4)通过非最大值抑制 召回率 方法(Non-maximum suppression,NMS)排除多余候 3.1.3基于SSD的方法 选框,得到最终检测结果.被用于文本检测的常见 SSD2]将图片输入到修改后的VGG16阿得不 目标检测模型还有SSD(Single shot multi--box 同大小的特征映射,然后抽取Conv43、Conv7、 detector)21R-FCN(Region-based fully convolutional Conv82、Conv92、Convl02、Convl12这6个卷 networks)P等 积层的特征图,并分别在这些特征图上面的每一 3.l.2基于Faster R-CNN的方法 个点构造不同尺度大小的参考框,最后利用NMS FasterR-CNNP7由卷积层、区域建议网络(Region 对所有的参考框进行处理,抑制非最优参考框,输 proposal network,RPN)、Rol池化层(Rol Pooling 出最终检测结果 layer)、分类回归层4个子模块构成.卷积层用于 文献[37刀提出SegLink算法,将图片输入到SSD 提取图片特征,其输入为整张图片,输出为图片的 网络中,分别提取文本框和不同框之间的连接信 特征图;RPN用于生成与文本对象相关的多个候 息.该模型的输出不针对整个文本行或单词,而是 选框:RoI池化层将不同尺寸的候选框转化为固定 文本行或单词的一个部分,被称为“片段(Segment)” 尺寸:分类和回归层对候选区域进行预测,同时获 该片段可以是1个或多个字符,或1个单词.通过 得候选区域在图像中的精确位置 对文本框连接信息的挖掘,该算法以不同Segment 针对使用原生Fast R-CNN完成文本检测任务 的组合为最终输出,避免了连接Segment构建文本 时有可能忽略文本行尺度的问题,文献[30]提出 行的后处理过程.值得注意的是,SegLink输出的 一种基于特征融合的深度神经网络,该网络将常 参考文本框带有角度信息,同时针对特征图上每 用深度神经网络中的高层特征与低层特征相融 个点仅输出一个框,大幅度降低了计算复杂度.文 合,构建“高级语义”神经网络模型.该文中设计了 献[38]中的TextBoxes也是典型的基于SSD的算 特征融合模块,利用高层网络所抽取的高度抽象、 法.TextBoxes修改了原始SSD中卷积核的大小, 具有强语义信息的特征信号来提高网络的整体性 同时调整了参考框的形状和长宽比,使其更适用 能.此外,通过多个输出层对不同尺度的文本直接 于文本检测.文中还提出端到端的训练框架,采用 进行预测.在ICDAR201IB别和ICDAR2013数据 文本识别任务的结果进一步优化文本行检测模 集上的实验中,该方法对小尺度文本的定位效果 型,在保证效率的情况下取得了良好的结果.文 更为突出.文献[33]沿用了Faster-RCNN中RPN 献[39]提出的TextBoxes+是TextBoxes的扩展 的思想,并在此基础上进行了改进,提出一种旋转 版,同样基于SSD网络.该方法设计了一种文本 候选区域网络(Rotation对齐方式RPN).整个网络 框层(Textbox layer)结构,解决了SsD无法有效检 结构和Faster R-CNN非常相似,分成并行两路:一 测极端长宽比文本的问题,进一步提升检测性能 路用于预测类别,另一路用于回归旋转候选框,首 此外,SSD和TextBoxes仅支持水平方向的检测, 先由旋转候选区域网络生成带倾斜角的候选框, 而TextBoxes+可以产生有旋转角度的矩形文本 同时输出候选框的类别;接着通过Rol层将生成 检测框,能够有效检测旋转文本.文献[40]对 的候选框映射到特征图上.文献34提出RCNN SSD进行改良,增加角度信息来检测多方向文字 (Rotational region CNN)算法来检测自然场景下任 这一方法采用Inception!结构优化特征,并在SSD 意角度旋转的文本.该算法在原有Faster R-CNN 的特征融合层增加Attention机制,进一步强化文 的基础上使用RPN网络在文本区域坐标轴方向上 字特征.文献[42]摒弃了SSD中分类和回归共享 产生不同方向的轴对称的候选框,之后对每个方 特征图的方式,提出使用两个独立的网络分支分 向的候选区域特征使用不同的池化尺寸进行特征 别进行分类和回归.旋转不变特征用于分类,方向 融合.该融合特征被用于预测文本/啡文置信度, 敏感特征用于回归.该方法可以嵌入到任何已存 确定轴对称候选框、倾斜候选框.该算法取得了 在的目标检测框架中,并可以在提升精度的前提 F值82.54的预测结果.文献[35]提出一种无锚区 下大大减少运算时间,对多方向文本进行检测.文 域a建议网络(Anchor--free region proposal network, 献[43]综合了特征金字塔网络(Feature pyramid AF-RPN)替代Faster R-CNN中的基于参考框的区 networks,FPN)和SegLink模型,提出一种高效场 域建议方法.该方法能够摆脱复杂的参考框设计, 景文本检测模型Seg-FPN.Seg-FPN一方面将特
选区域 RoI(Region of interest)与候选框生成;3) 通 过分类器生成候选框得分;4)通过非最大值抑制 方法(Non-maximum suppression, NMS)排除多余候 选框,得到最终检测结果. 被用于文本检测的常见 目 标 检 测 模 型 还 有 SSD( Single shot multi-box detector) [28]、R-FCN(Region-based fully convolutional networks) [29] 等. 3.1.2 基于 Faster R-CNN 的方法 Faster R-CNN[27] 由卷积层、区域建议网络(Region proposal network, RPN) 、 RoI 池化层 ( RoI Pooling layer)、分类回归层 4 个子模块构成. 卷积层用于 提取图片特征,其输入为整张图片,输出为图片的 特征图;RPN 用于生成与文本对象相关的多个候 选框;RoI 池化层将不同尺寸的候选框转化为固定 尺寸;分类和回归层对候选区域进行预测,同时获 得候选区域在图像中的精确位置. 针对使用原生 Fast R-CNN 完成文本检测任务 时有可能忽略文本行尺度的问题,文献 [30] 提出 一种基于特征融合的深度神经网络,该网络将常 用深度神经网络中的高层特征与低层特征相融 合,构建“高级语义”神经网络模型. 该文中设计了 特征融合模块,利用高层网络所抽取的高度抽象、 具有强语义信息的特征信号来提高网络的整体性 能. 此外,通过多个输出层对不同尺度的文本直接 进行预测. 在 ICDAR2011[31] 和 ICDAR2013[32] 数据 集上的实验中,该方法对小尺度文本的定位效果 更为突出. 文献 [33] 沿用了 Faster-RCNN 中 RPN 的思想,并在此基础上进行了改进,提出一种旋转 候选区域网络(Rotation 对齐方式 RPN). 整个网络 结构和 Faster R-CNN 非常相似,分成并行两路:一 路用于预测类别,另一路用于回归旋转候选框. 首 先由旋转候选区域网络生成带倾斜角的候选框, 同时输出候选框的类别;接着通过 RoI 层将生成 的候选框映射到特征图上. 文献 [34] 提出 R 2CNN (Rotational region CNN)算法来检测自然场景下任 意角度旋转的文本. 该算法在原有 Faster R-CNN 的基础上使用 RPN 网络在文本区域坐标轴方向上 产生不同方向的轴对称的候选框,之后对每个方 向的候选区域特征使用不同的池化尺寸进行特征 融合. 该融合特征被用于预测文本/非文置信度, 确定轴对称候选框、倾斜候选框. 该算法取得了 F 值 82.54 的预测结果. 文献 [35] 提出一种无锚区 域建议网络 ( Anchor-free region proposal network, AF-RPN)替代 Faster R-CNN 中的基于参考框的区 域建议方法. 该方法能够摆脱复杂的参考框设计, 在水平和多方向文本检测任务中均取得了更高的 召回率. 3.1.3 基于 SSD 的方法 SSD[28] 将图片输入到修改后的 VGG16[36] 得不 同大小的特征映射 ,然后抽取 Conv4_3、 Conv7、 Conv8_2、Conv9_2、Conv10_2、Conv11_2 这 6 个卷 积层的特征图,并分别在这些特征图上面的每一 个点构造不同尺度大小的参考框,最后利用 NMS 对所有的参考框进行处理,抑制非最优参考框,输 出最终检测结果. 文献 [37] 提出 SegLink 算法,将图片输入到 SSD 网络中,分别提取文本框和不同框之间的连接信 息. 该模型的输出不针对整个文本行或单词,而是 文本行或单词的一个部分,被称为“片段(Segment)”. 该片段可以是 1 个或多个字符,或 1 个单词. 通过 对文本框连接信息的挖掘,该算法以不同 Segment 的组合为最终输出,避免了连接 Segment 构建文本 行的后处理过程. 值得注意的是,SegLink 输出的 参考文本框带有角度信息,同时针对特征图上每 个点仅输出一个框,大幅度降低了计算复杂度. 文 献 [38] 中的 TextBoxes 也是典型的基于 SSD 的算 法. TextBoxes 修改了原始 SSD 中卷积核的大小, 同时调整了参考框的形状和长宽比,使其更适用 于文本检测. 文中还提出端到端的训练框架,采用 文本识别任务的结果进一步优化文本行检测模 型,在保证效率的情况下取得了良好的结果. 文 献 [39] 提 出 的 TextBoxes++是 TextBoxes 的 扩 展 版,同样基于 SSD 网络. 该方法设计了一种文本 框层(Textbox layer)结构,解决了 SSD 无法有效检 测极端长宽比文本的问题,进一步提升检测性能. 此外,SSD 和 TextBoxes 仅支持水平方向的检测, 而 TextBoxes++可以产生有旋转角度的矩形文本 检测框 ,能够有效检测旋转文本 . 文 献 [40] 对 SSD 进行改良,增加角度信息来检测多方向文字. 这一方法采用 Inception[41] 结构优化特征,并在 SSD 的特征融合层增加 Attention 机制,进一步强化文 字特征. 文献 [42] 摒弃了 SSD 中分类和回归共享 特征图的方式,提出使用两个独立的网络分支分 别进行分类和回归. 旋转不变特征用于分类,方向 敏感特征用于回归. 该方法可以嵌入到任何已存 在的目标检测框架中,并可以在提升精度的前提 下大大减少运算时间,对多方向文本进行检测. 文 献 [43] 综合了特征金字塔网络 ( Feature pyramid networks,FPN)和 SegLink 模型,提出一种高效场 景文本检测模型 Seg−FPN. Seg−FPN 一方面将特 · 1438 · 工程科学学报,第 42 卷,第 11 期
白志程等:自然场景文本检测技术研究综述 1439 征金字塔机制与SSD框架相结合,对不同尺度的 2)由RPN生成候选区域(ROI)和候选框;3)通过 文本进行特征提取;另一方面通过SegLink链接可 ROI Align层进行尺度转换;4)采用Fast R-CNN回 检测元素,实现对不同方向、长宽比的文本进行高 归最终边界框;5)采用Mask分支进行像素级的语 效检测.FPN的引入扩展了SSD中特征图的尺度, 义预测或实例预测 能够更好地定位大文本,准确识别小文本 文献[5O]于ECCV(European conference on com- 3.1.4其他基于区域建议的方法 puter vision)会议提出一种基于Mask R-CNN的Mask 文献[44]以区域全卷积网络(Region based TextSpotter网络,其主要创新点在于修改了Mask分 fully convolutional network,R-FCN)为基本结构,在 支的输出结构,使其包含全局文本实例分割和字 其基础上提出了特征强化网络(Feature enhance 符分割功能.该版本的Mask TextSpotter采用字符 network,FEN).FEN融合了高低两个维度的图像 级的分割与识别,因而可以对任意不规则形状的 语义特征,仅采用固定尺度(3像素×3像素)的滑 文本(如曲线文本)进行处理,其局限性在于需要 窗也可有效监测小文本,提高模型准确率、召回 字符级的标注来完成模型训练.针对该问题,文 率.该文中还提出一种自适应权重的位置敏感 献[5I]进一步改进了Mask TextSpotter网络(为文 RoI池化层,提高特征融合能力 献[50]的期刊版本),在Mask分支中增加了空间 针对文本对象长度不统一,长短差异大的情 注意力模块(Spatial attentional module,SAM)支路, 况,文献[45]提出“垂直参考框”策略,仅预测文本 有效利用空间信息和图像上下文语义,降低网络 垂直方向上的位置信息.这些参考框与Faster- 对字符级监督信息的依赖,可实现缺省字符级标 RCNN生成的参考框类似,其主要不同在于采用 注情况下的文本行识别与预测 了固定的16像素宽度,和11像素到273像素范围 文献[52]中提出的SPC Net(Supervised pyramid 内的高度尺寸.这些固定宽度的小尺度文本经由 context network)也采用了实例分割方法,该模型 循环神经网络(RNN)进一步加工、连接,得到最终 在Mask R-CNN的基础上,针对曲型文本特点,添 文本行.文献[46]提出一种基于自适应区域表示 加改进的全局文本分割分支,还针对误检问题提 的检测方法,在采用区域提取网络(Text region 出文本上下文模块和二次打分机制,使算法能够 proposal network,Text-RPN)RoI(Region of 处理各种形状的文本. interest)时,通过基于RNN的修正网络(Refinement 3.2.3基于FCN的方法 network)对Rol进行验证和改进.该RNN每次预 全卷积网络FCN4I是一种端到端的语义分割 测一对边界点,直至没有新的边界点出现为止.这 方法,不同于Mask R-CNN等算法中带有R-CNN中 一过程有效调整了文本区域的生成 的区域分类模块与边界框回归模块,在FCN中,网 3.2基于分割的方法 络输出是对整个图片的像素级预测 3.2.1基本思想 文献[53]先利用FCN对图像进行处理,得到 该类方法以语义分割为基本技术手段,通过 文本区域的显著图(Salient map),并对该显著图进 深度学习语义分割网络对自然场景图片进行处 行连通分量分析以得到文本块:在此基础上,利用 理,获取像素级别的标签预测.这些像素级的输出 MSER方法提取文本块中的候选字符区域,并结合 是文本行构建的基础.常被用于文本检测的分割 候选字符的边界框生成每条文本行:该文献设计 网络有Mask R-CNNm、全卷积网络(Fully 了质心FCN对每条文本行中字符的质心进行预 convolutional network,FCN)1481 FCIS(Fully convo- 测,利用质心信号过滤非文本行.文献[54]提出了 lutional instance-aware semantic segmentation)49 一种灵活的文本行表征方式Text Snake,.这种 3.2.2基于Mask R-CNN的方法 “Snake”结构主要由多个有序重叠的“圆盘(disk)” Mask R-CNNs7扩展自Faster R-CNN与Fast R- 串联组成,每个圆盘由文本行区域的中心c、半径 CNN,除原检测网络的的两个分支(分类、边界框 r、方向O来表征,这些表征属性借助FCN来预测, 回归)外,增加了用于语义分割的、具有像素级预 如图4所示.通过对圆盘参数的准确预测及一条 测功能的Mask分支.该Mask分支采用平均二值 分割出来的中心线,Text Snake可以有效检测曲形 交叉嫡损失,与分类损失、边界框回归损失一同组 文本,并得到精确的分割区域,还可以有效避免字 成网络的损失函数.Mask R-CNN的处理流程与 符重叠的情况.Text Snake是一种具有较高借鉴价 Faster R-CNN类似,包括:I)CNN图片特征提取: 值的文本行表示方法.文献[55]对VGG16网络进
征金字塔机制与 SSD 框架相结合,对不同尺度的 文本进行特征提取;另一方面通过 SegLink 链接可 检测元素,实现对不同方向、长宽比的文本进行高 效检测. FPN 的引入扩展了 SSD 中特征图的尺度, 能够更好地定位大文本,准确识别小文本. 3.1.4 其他基于区域建议的方法 文 献 [44] 以区域全卷积网络 ( Region based fully convolutional network,R-FCN)为基本结构,在 其基础上提出了特征强化网络( Feature enhance network,FEN). FEN 融合了高低两个维度的图像 语义特征,仅采用固定尺度(3 像素×3 像素)的滑 窗也可有效监测小文本,提高模型准确率、召回 率. 该文中还提出一种自适应权重的位置敏感 RoI 池化层,提高特征融合能力. 针对文本对象长度不统一,长短差异大的情 况,文献 [45] 提出“垂直参考框”策略,仅预测文本 垂直方向上的位置信息. 这些参考框与 FasterRCNN 生成的参考框类似,其主要不同在于采用 了固定的 16 像素宽度,和 11 像素到 273 像素范围 内的高度尺寸. 这些固定宽度的小尺度文本经由 循环神经网络(RNN)进一步加工、连接,得到最终 文本行. 文献 [46] 提出一种基于自适应区域表示 的检测方法 ,在采用区域提取网络 ( Text region proposal network, Text-RPN) 提 取 RoI( Region of interest)时,通过基于 RNN 的修正网络(Refinement network)对 RoI 进行验证和改进. 该 RNN 每次预 测一对边界点,直至没有新的边界点出现为止. 这 一过程有效调整了文本区域的生成. 3.2 基于分割的方法 3.2.1 基本思想 该类方法以语义分割为基本技术手段,通过 深度学习语义分割网络对自然场景图片进行处 理,获取像素级别的标签预测. 这些像素级的输出 是文本行构建的基础. 常被用于文本检测的分割 网 络 有 Mask R-CNN[47]、 全 卷 积 网 络 ( Fully convolutional network, FCN) [48]、 FCIS( Fully convolutional instance-aware semantic segmentation) [49] 等. 3.2.2 基于 Mask R-CNN 的方法 Mask R-CNN[47] 扩展自 Faster R-CNN 与 Fast RCNN,除原检测网络的的两个分支(分类、边界框 回归)外,增加了用于语义分割的、具有像素级预 测功能的 Mask 分支. 该 Mask 分支采用平均二值 交叉熵损失,与分类损失、边界框回归损失一同组 成网络的损失函数. Mask R-CNN 的处理流程与 Faster R-CNN 类似,包括:1)CNN 图片特征提取; 2)由 RPN 生成候选区域(ROI)和候选框;3)通过 ROI Align 层进行尺度转换;4)采用 Fast R-CNN 回 归最终边界框;5)采用 Mask 分支进行像素级的语 义预测或实例预测. 文献 [50] 于 ECCV(European conference on computer vision)会议提出一种基于 Mask R-CNN 的 Mask TextSpotter 网络,其主要创新点在于修改了 Mask 分 支的输出结构,使其包含全局文本实例分割和字 符分割功能. 该版本的 Mask TextSpotter 采用字符 级的分割与识别,因而可以对任意不规则形状的 文本(如曲线文本)进行处理,其局限性在于需要 字符级的标注来完成模型训练. 针对该问题,文 献 [51] 进一步改进了 Mask TextSpotter 网络(为文 献 [50] 的期刊版本),在 Mask 分支中增加了空间 注意力模块(Spatial attentional module, SAM)支路, 有效利用空间信息和图像上下文语义,降低网络 对字符级监督信息的依赖,可实现缺省字符级标 注情况下的文本行识别与预测. 文献 [52] 中提出的 SPC Net(Supervised pyramid context network)也采用了实例分割方法,该模型 在 Mask R-CNN 的基础上,针对曲型文本特点,添 加改进的全局文本分割分支,还针对误检问题提 出文本上下文模块和二次打分机制,使算法能够 处理各种形状的文本. 3.2.3 基于 FCN 的方法 全卷积网络 FCN[48] 是一种端到端的语义分割 方法,不同于 Mask R-CNN 等算法中带有 R-CNN 中 的区域分类模块与边界框回归模块,在 FCN 中,网 络输出是对整个图片的像素级预测. 文献 [53] 先利用 FCN 对图像进行处理,得到 文本区域的显著图(Salient map),并对该显著图进 行连通分量分析以得到文本块;在此基础上,利用 MSER 方法提取文本块中的候选字符区域,并结合 候选字符的边界框生成每条文本行;该文献设计 了质心 FCN 对每条文本行中字符的质心进行预 测,利用质心信号过滤非文本行. 文献 [54] 提出了 一种灵活的文本行表征方 式 Text Snake,这种 “Snake”结构主要由多个有序重叠的“圆盘(disk)” 串联组成,每个圆盘由文本行区域的中心 c、半径 r、方向 θ 来表征,这些表征属性借助 FCN 来预测, 如图 4 所示. 通过对圆盘参数的准确预测及一条 分割出来的中心线,Text Snake 可以有效检测曲形 文本,并得到精确的分割区域,还可以有效避免字 符重叠的情况. Text Snake 是一种具有较高借鉴价 值的文本行表示方法. 文献 [55] 对 VGG16 网络进 白志程等: 自然场景文本检测技术研究综述 · 1439 ·
.1440 工程科学学报,第42卷,第11期 行修改,引入2个1×1的全卷积层替换原来的全连 预测中不仅预测出哪些像素是否为文本,还要预 接层,实现了从CNN到FCN的修改,从而可以处 测出这些像素能否连接进而组成一个好的文本 理多尺度的输入图片.修改后的网络可概括为文 框,从而输出更为精确的检测区域,其结构图如 本块级CNN和文本行级CNN.面向文本块提取 图5所示. 的CNN模型可有效提取图像中的文本区域.随后 文献[S刀将Inception结构集成于FCIS分割 文本行级CNN对该区域进一步加工,提取其中的 框架,针对自然场景下文字的特点设计网络,通过 文本行 不同尺寸的卷积核检测不同大小和宽高比的文 字:该方法设计了柔性可变的卷积层和位置敏感 Text region Text center line 的候选区域池化,用以提升任意方向文字的检测 效果.文献[58]提出的FTSN(Fused text segmentation networks)模型是FCIS和FPN的一个组合,它是基 于实例分割的端到端可训练多方向文本检测方 法,去除了中间冗余的步骤.该文献提出了融合文 本分割网络,在特征提取过程中结合了多级特征, 并利用分割模型和基于区域建议的对象检测任务 的优点同时检测和分割文本实例 相较于一般的基于分割的方法,实例分割方 法不仅可以像素级别的分类,而且可以通过聚类、 DIsk 度量学习等手段区分并定位不同的实例.这种方 图4 Text Snake表征图示网 法能够保持更好的底层特征(细节信息和位置信 Fig.4 Illustration of the proposed Text Snake representation 息),但由于泛化能力较差,因此无法应对实例类 3.2.4基于FCIS的方法 别多的复杂场景 FCIS9中采用了类似于Fast R-CNN的结构 3.2.5其他基于分割的方法 其主要区别在于FCIS去掉了原R-CNN框架中的 考虑到现有文本检测方法多基于四边形或旋 边界框回归单元.FCIS采用实例相关的位置敏感 转矩形,很难对任意形状的文本进行包闭操作,且 大多数基于分割的方法不能很好地区分邻近的文 信息为指导,进行特征提取与融合,进而利用这些 本实例,文献[59]提出了基于分割的单文本实例 特征完成实例分割与分类任务 多预测的方法,用于检测任意方向的文本.该算法 文献[56]提出PixelLink模型,通过深度学习 网络框架从特征金字塔网络中受到启发,采用了 网络预测与文字相关的像素与连接关系,采用实 U形的网络框架,先将网络提取出的特征进行融 例分割的方法,分割出文本行区域,然后直接找对 合,然后再利用分割的方式将提取出的特征进行 应文本行的外接矩形框.整个过程包括两部分:根 像素分类,最后利用像素的分类结果通过一些后 据“链接为正”的预测结果实现对“正像素”的预测 处理得到文本检测结果.该方法既能避免现有边 和连通,进而得到文本实例的分割图,然后从分割 界框回归方法所产生的对弯曲文字检测不准确的 图中直接提取文本行的边界框.由于文字检测的 缺点,也能改善现有基于分割的方法所产生的对 定位与图像分割相比要更加精确,而仅仅采用分 “文字紧靠”现象不易分割的问题.文献[60]提出 割的方法不能精确的将距离近的文本很好的定 基于像素聚合网络(Pixel aggregation network,.PAN) 位,所以文献[56]采用SegLink中link的思想,在 的文本检测方法.该方法的分割模块包含特征金 Text/non-text prediction 1×2 channels Input image CNN Instance segmentation Output bounding boxes Link prediction 8×2 channels 图5 PixelLink结构图 Fig.5 Architecture of PixelLink!s
行修改,引入 2 个 1×1 的全卷积层替换原来的全连 接层,实现了从 CNN 到 FCN 的修改,从而可以处 理多尺度的输入图片. 修改后的网络可概括为文 本块级 CNN 和文本行级 CNN. 面向文本块提取 的 CNN 模型可有效提取图像中的文本区域. 随后 文本行级 CNN 对该区域进一步加工,提取其中的 文本行. 3.2.4 基于 FCIS 的方法 FCIS[49] 中采用了类似于 Fast R-CNN 的结构, 其主要区别在于 FCIS 去掉了原 R-CNN 框架中的 边界框回归单元. FCIS 采用实例相关的位置敏感 信息为指导,进行特征提取与融合,进而利用这些 特征完成实例分割与分类任务. 文献 [56] 提出 PixelLink 模型,通过深度学习 网络预测与文字相关的像素与连接关系,采用实 例分割的方法,分割出文本行区域,然后直接找对 应文本行的外接矩形框. 整个过程包括两部分:根 据“链接为正”的预测结果实现对“正像素”的预测 和连通,进而得到文本实例的分割图,然后从分割 图中直接提取文本行的边界框. 由于文字检测的 定位与图像分割相比要更加精确,而仅仅采用分 割的方法不能精确的将距离近的文本很好的定 位,所以文献 [56] 采用 SegLink 中 link 的思想,在 预测中不仅预测出哪些像素是否为文本,还要预 测出这些像素能否连接进而组成一个好的文本 框,从而输出更为精确的检测区域,其结构图如 图 5 所示. 文献 [57] 将 Inception 结构集成于 FCIS 分割 框架,针对自然场景下文字的特点设计网络,通过 不同尺寸的卷积核检测不同大小和宽高比的文 字;该方法设计了柔性可变的卷积层和位置敏感 的候选区域池化,用以提升任意方向文字的检测 效果. 文献 [58] 提出的 FTSN(Fused text segmentation networks)模型是 FCIS 和 FPN 的一个组合,它是基 于实例分割的端到端可训练多方向文本检测方 法,去除了中间冗余的步骤. 该文献提出了融合文 本分割网络,在特征提取过程中结合了多级特征, 并利用分割模型和基于区域建议的对象检测任务 的优点同时检测和分割文本实例. 相较于一般的基于分割的方法,实例分割方 法不仅可以像素级别的分类,而且可以通过聚类、 度量学习等手段区分并定位不同的实例. 这种方 法能够保持更好的底层特征(细节信息和位置信 息),但由于泛化能力较差,因此无法应对实例类 别多的复杂场景. 3.2.5 其他基于分割的方法 考虑到现有文本检测方法多基于四边形或旋 转矩形,很难对任意形状的文本进行包闭操作,且 大多数基于分割的方法不能很好地区分邻近的文 本实例,文献 [59] 提出了基于分割的单文本实例 多预测的方法,用于检测任意方向的文本. 该算法 网络框架从特征金字塔网络中受到启发,采用了 U 形的网络框架,先将网络提取出的特征进行融 合,然后再利用分割的方式将提取出的特征进行 像素分类,最后利用像素的分类结果通过一些后 处理得到文本检测结果. 该方法既能避免现有边 界框回归方法所产生的对弯曲文字检测不准确的 缺点,也能改善现有基于分割的方法所产生的对 “文字紧靠”现象不易分割的问题. 文献 [60] 提出 基于像素聚合网络(Pixel aggregation network, PAN) 的文本检测方法. 该方法的分割模块包含特征金 Text region Text center line Disk c θ r 图 4 Text Snake 表征图示[54] Fig.4 Illustration of the proposed Text Snake representation[54] Input image CNN Text/non-text prediction 1×2 channels Link prediction 8×2 channels Instance segmentation Output bounding boxes 图 5 PixelLink 结构图[56] Fig.5 Architecture of PixelLink[56] · 1440 · 工程科学学报,第 42 卷,第 11 期
白志程等:自然场景文本检测技术研究综述 1441 字塔增强子模块和特征融合子模块两个部分.其 文中设计了基于锚点的模块和基于像素分割的模 分割网络可预测文字区域、内核(Kernel,,区分文本 块共享主干网络提取的特征,在基于锚点的模块 实例的一组权重)以及相似向量,利用该Kernel可 中只保留小候选框和长候选框;在基于像素分割 重建完整的文字实例.为了保证网络的高效率, 的模块中移除小的候选框,保留中等大小的候选 PAN选用了更轻量级的主千网络ResNet1:86lI和更 框;然后再聚合两者的候选框,并通过一个级联 简单的后处理(Pixel aggregation)来降低上述两步 NMS来得到最终的检测结果.文献[67刀提出了一 的耗时,从而在不损失精度的情况下,极大加快了 种基于Faster-RCNN的双任务检测模型DSTD(Deep 网络的速度.文献[62]提出一种基于字符识别的 scene text detection).第一个任务为文本像素分割 文字检测方法(Character region awareness for text 预测,即区分图片中的文本像素与非文本像素,然 detection,CRAFT).该方法的思路是利用基于单字 后在此基础上利用组件连接生成候选框:第二个 符分割的方法,先检测单个字符及字符间的连接 任务为字符候选框检测,输出一组候选字符,结合 关系,然后根据字符间的连接关系确定最终的文 之前生成的候选框,通过保留有字符的候选框得 本行.文献[63]中设计了一种细分网络对文本对 到最终的检测结果 象进行互为独立的实例级分割和定位,同时在特 3.4端到端文本识别方法 征空间中进行优化,力求使得属于同一文本实例 从本质上来说,文本检测和文本识别都属于 的像素彼此靠近,不同文本实例的像素彼此疏远 分类问题.文本检测主要是区分图像中的文本和 该方法引入形状感知损失,对相邻的文本实例进 非文本区域,因此可以粗略地看作为一个二分类 行分割,并能够对任意形状的文本实例,特别是尺 问题:文本识别是要在文本检测结果中进一步区 寸较大、较长的文本实例进行有效检测 分字符,因此可以看作为一个更精细的分类任务 基于分割的文本检测方法的后处理过程往往 常见的OCR方法中往往都是把文本检测和文本 非常耗时,为此文献[64]提出Differentiable Binari- 识别拆分成两个部分独立进行研究.近年来,一些 zation module(DB module)来简化基于分割的方法 方法将文本检测和识别融合到同一个框架中完 中繁琐的后处理过程,即如何将分割结果转换为 成,同样也能达到很好的效果.一方面文本检测和 文本框或文本区域.有别于其他方法采用基于固 文本识别可以共享底层特征,这降低了检测到识 定阈值的二值化手段生成边界框,该方法采用了 别过程的运算参数:另一方面通过反向传播算法 像素级的自适应二值化过程,通过网络去预测图 利用文本识别的损失能够优化底层特征的提取和 片每个位置上的阈值,更为有效的区分出文本.由 文本检测.目前已经出现许多优秀的端到端文本 于避免了繁琐的后处理过程,该方法运行速度更 识别方法. 快,且在多个数据集上取得了目前最好的精度. 文献[68]提出一种端到端的文本检测、识别 3.3混合方法 方法Text Perceptron,这种方法通过基于分割的文 基于分割的方法由于学习到了像素级的语义 字检测方法得到文本的轮廓点,进而通过形状转 信息,其准确率较高,但由于小文本区域的特征响 换模块对文本区域进行校正,将校正后的结果输 应信号较低,容易被漏检,降低了这类方法的召回 入文本识别模型,其识别模型的误差可以回传给 率.基于区域建议的方法能够捕捉小文本,但往往 检测模型用于检测模型的进一步优化.大多数经 对文本尺寸不够敏感,易造成文本密集区域的锚 典文本检测方法和许多深度学习文本检测方法为 点匹配困雅情况.因此综合两种方法优势的混合 多步骤方法,其训练过程需要多个环节的调优.这 方法往往能够进一步提高文本检测精度 种多步结构一方面非常耗时,另一方面,每一步误 文献[65]融合了检测和分割的思路,首先通 差的累积往往会影响最终的结果.因此文献[69] 过检测过程中的回归方法获得角点,然后对角点 提出一种端到端的文本检测方法EAST(Efficient 进行采样和重组,获取候选框.之后通过对旋转位 and accurate scene text detector),省略了候选区域聚 置敏感分割图进行预测得到得分,利用分割图的 合、文本切分、后处理等中间步骤,直接对文本行 信息来辅助判断候选框的好坏,进而可以通过NMS 进行预测.该方法先利用FCN预测单词和文本 排除次优框,得到最终的文本检测结果.类似地, 行,输出旋转的矩形的文本候选框或者四边形的 文献[66]提出一种Pixel--Anchor方法,该方法结合 文本候选框,然后使用NMS算法过滤掉冗余的候 了基于锚点和基于像素分割的检测方法的特性 选框,得到最后的结果.现有的端到端方法中,检
字塔增强子模块和特征融合子模块两个部分. 其 分割网络可预测文字区域、内核(Kernel,区分文本 实例的一组权重)以及相似向量,利用该 Kernel 可 重建完整的文字实例. 为了保证网络的高效率, PAN 选用了更轻量级的主干网络 ResNet18[61] 和更 简单的后处理(Pixel aggregation)来降低上述两步 的耗时,从而在不损失精度的情况下,极大加快了 网络的速度. 文献 [62] 提出一种基于字符识别的 文字检测方法 ( Character region awareness for text detection, CRAFT). 该方法的思路是利用基于单字 符分割的方法,先检测单个字符及字符间的连接 关系,然后根据字符间的连接关系确定最终的文 本行. 文献 [63] 中设计了一种细分网络对文本对 象进行互为独立的实例级分割和定位,同时在特 征空间中进行优化,力求使得属于同一文本实例 的像素彼此靠近,不同文本实例的像素彼此疏远. 该方法引入形状感知损失,对相邻的文本实例进 行分割,并能够对任意形状的文本实例,特别是尺 寸较大、较长的文本实例进行有效检测. 基于分割的文本检测方法的后处理过程往往 非常耗时,为此文献 [64] 提出 Differentiable Binarization module(DB module)来简化基于分割的方法 中繁琐的后处理过程,即如何将分割结果转换为 文本框或文本区域. 有别于其他方法采用基于固 定阈值的二值化手段生成边界框,该方法采用了 像素级的自适应二值化过程,通过网络去预测图 片每个位置上的阈值,更为有效的区分出文本. 由 于避免了繁琐的后处理过程,该方法运行速度更 快,且在多个数据集上取得了目前最好的精度. 3.3 混合方法 基于分割的方法由于学习到了像素级的语义 信息,其准确率较高,但由于小文本区域的特征响 应信号较低,容易被漏检,降低了这类方法的召回 率. 基于区域建议的方法能够捕捉小文本,但往往 对文本尺寸不够敏感,易造成文本密集区域的锚 点匹配困难情况. 因此综合两种方法优势的混合 方法往往能够进一步提高文本检测精度. 文献 [65] 融合了检测和分割的思路,首先通 过检测过程中的回归方法获得角点,然后对角点 进行采样和重组,获取候选框. 之后通过对旋转位 置敏感分割图进行预测得到得分,利用分割图的 信息来辅助判断候选框的好坏,进而可以通过 NMS 排除次优框,得到最终的文本检测结果. 类似地, 文献 [66] 提出一种 Pixel-Anchor 方法,该方法结合 了基于锚点和基于像素分割的检测方法的特性. 文中设计了基于锚点的模块和基于像素分割的模 块共享主干网络提取的特征,在基于锚点的模块 中只保留小候选框和长候选框;在基于像素分割 的模块中移除小的候选框,保留中等大小的候选 框;然后再聚合两者的候选框,并通过一个级联 NMS 来得到最终的检测结果. 文献 [67] 提出了一 种基于 Faster-RCNN 的双任务检测模型 DSTD(Deep scene text detection). 第一个任务为文本像素分割 预测,即区分图片中的文本像素与非文本像素,然 后在此基础上利用组件连接生成候选框;第二个 任务为字符候选框检测,输出一组候选字符,结合 之前生成的候选框,通过保留有字符的候选框得 到最终的检测结果. 3.4 端到端文本识别方法 从本质上来说,文本检测和文本识别都属于 分类问题. 文本检测主要是区分图像中的文本和 非文本区域,因此可以粗略地看作为一个二分类 问题;文本识别是要在文本检测结果中进一步区 分字符,因此可以看作为一个更精细的分类任务. 常见的 OCR 方法中往往都是把文本检测和文本 识别拆分成两个部分独立进行研究. 近年来,一些 方法将文本检测和识别融合到同一个框架中完 成,同样也能达到很好的效果. 一方面文本检测和 文本识别可以共享底层特征,这降低了检测到识 别过程的运算参数;另一方面通过反向传播算法 利用文本识别的损失能够优化底层特征的提取和 文本检测. 目前已经出现许多优秀的端到端文本 识别方法. 文献 [68] 提出一种端到端的文本检测、识别 方法 Text Perceptron,这种方法通过基于分割的文 字检测方法得到文本的轮廓点,进而通过形状转 换模块对文本区域进行校正,将校正后的结果输 入文本识别模型,其识别模型的误差可以回传给 检测模型用于检测模型的进一步优化. 大多数经 典文本检测方法和许多深度学习文本检测方法为 多步骤方法,其训练过程需要多个环节的调优. 这 种多步结构一方面非常耗时,另一方面,每一步误 差的累积往往会影响最终的结果. 因此文献 [69] 提出一种端到端的文本检测方法 EAST(Efficient and accurate scene text detector),省略了候选区域聚 合、文本切分、后处理等中间步骤,直接对文本行 进行预测. 该方法先利用 FCN 预测单词和文本 行,输出旋转的矩形的文本候选框或者四边形的 文本候选框,然后使用 NMS 算法过滤掉冗余的候 选框,得到最后的结果. 现有的端到端方法中,检 白志程等: 自然场景文本检测技术研究综述 · 1441 ·