正在加载图片...
白志程等:自然场景文本检测技术研究综述 1435· 外在、内在两方面的因素制约了对自然场景中文 文本候选,最后通过经验规则分析来识别文本区 本的检测效果.外在因素是指自然场景中常包含 域,并通过项目概况分析来完善文本区域.文献[10] 不同种类的对象如建筑、墙壁、动物、植物、行人 使用傅立叶-拉普拉斯滤波器过滤输入图像,同样 等,这些噪声信号会影响文本检测器的性能]在 采用K均值聚类方法基于最大差异来识别候选文 用手机拍摄图片时,过强或偏暗的光照强度影响 本区域,随后采用文本字符串的直线度和边缘密 着对图片中文本的感知能力.内在因素是指自然 度判断文本候选区域,去除背景区域.文献[11]通 场景中文本可以是任意方向的,所以需要检测的 过候选边缘重组和边缘分类两个步骤优化笔划宽 边界框通常为旋转的矩形或四边形;场景文本边 度变换方法.边缘重组步骤利用分割、区域合并 界框的长宽比变化很大,且通常会存在极端的长 等手段,将输入图像中的边缘信号处理为一组小 宽比:场景文本有字符、单词或者文本行等多种形 单元(边缘片段),利用宽度、颜色等指导信息合并 式.这些因素使算法在定位边界框时会难以判定 这些小单元,从而区分文本边缘和背景:在边界分 文本实例 类的步骤中,首先将候选边界聚合到文本行中,然 相对人脸检测等问题,自然场景文本检测研究 后使用基于字符和基于链的特征对文本行进行分 相对滞后,相关研究工作始于20世纪90年代俐 类.文献[12]基于与周围像素的有效像素强度比 早期的自然场景文本检测算法利用初级、直观的 较,提出一种易于实现的笔划检测器,首先检测特 图像特征;近年来,深度学习方法兴起,通过深度 定的笔划关键点,通过由关键点属性指导的局部 神经网络表示图像信号间,可以避免繁琐低效的 阈值提取文本片段,进而通过特征分析实现分类, 人工特征工程,同时有效提高了场景文本检测的 从而消除非文本区域.基于边缘的文本检测方法 效果 适用于背景简单的图片,在背景比较复杂时,边缘 检测算子极易受到干扰,无法获取有效边缘轮廓 2经典自然场景文本检测方法 2.1.2基于笔划宽度变换的方法 经典的文本检测方法可分为两大类:基于连 笔划宽度变换(Stroke width transform,SWT)是 通域分析的文本检测方法和基于滑动窗口的文本 一种有效的文本区域检测算法,不同于基于边缘 检测方法.连通域方法首先利用边缘提取等数字 的方法从像素梯度、角点等方面获取图片级的特 图像处理技术对输入图片进行预处理,获取文本 征信息,SWT方法更关注于字符级的笔划特征 候选区域,进而采用不同的连通域分析方法对该 如第1节中分析,OCR技术在有噪声的图像上效 区域进行细化加工,实现字符和文本的联通和定 果较差.SWT通过提取出具有一致宽度的带状目 位.根据区域生成和特征表示方法的不同,本文将 标来检测文本,有效消除了大部分噪声,得到更可 基于连通域的方法进一步划分为基于边缘的方 靠的光学字符识别结果 法、基于笔划宽度变换的方法和基于最大稳定极 笔划宽度变换算法由Epshtein等在文献[I3] 值区域的方法并分别进行介绍.基于滑动窗口的 中首次提出,该算法从高对比度边缘上的一点开 方法则采用人工特征对候选区域进行表示,并利 始,在垂直于边缘的方向上逐像素进行分析,找到 用该特征训练分类器,对候选区域进行预测和验 另一条与之平行的边缘上的一点,由这两点构成 证.这两类方法在实际应用中可以互为补充 一个笔划横截面.许多宽度相似的笔划横截面连 2.1基于连通域的方法 接构成一个完整的笔划.笔划宽度的确定过程如 2.1.1基于边缘的方法 图2所示,其中p是笔划边界上的一个像素,沿 自然场景中的文本往往具有丰富的边缘和角 p点梯度方向搜索,就可以找到笔划另一侧对应的 点信息,基于边缘的文本检测方法通过Cannym7边 像素9,w为对应笔划的宽度.在此基础上,笔划组 缘检测算子提取图片边缘和角点来获取文本的候 成字符,字符组成词汇和文本区域.SWT算法的 选区域,进而使用规则或分类器对文本候选区域 一个好处是不需要知道文本的语言和字体类型即 进行定位预测 可实现文本定位 文献[8]首先应用Sobel边缘检测算子例获得 笔划宽度变换算法提出后,文献[14、文献[15] 水平,垂直,右上和左上方向的四个边缘图,然后 对其进行了发展和改进.文献[14]通过笔划宽度 从四个边缘图中提取特征以表示文本的纹理属 变换处理获得文本候选区域,使用文本级分类器 性,进而应用K均值(K-means)聚类算法检测初始 过滤非文本区域:用文本之间的相似性连接文本外在、内在两方面的因素制约了对自然场景中文 本的检测效果. 外在因素是指自然场景中常包含 不同种类的对象如建筑、墙壁、动物、植物、行人 等,这些噪声信号会影响文本检测器的性能[3] . 在 用手机拍摄图片时,过强或偏暗的光照强度影响 着对图片中文本的感知能力. 内在因素是指自然 场景中文本可以是任意方向的,所以需要检测的 边界框通常为旋转的矩形或四边形;场景文本边 界框的长宽比变化很大,且通常会存在极端的长 宽比;场景文本有字符、单词或者文本行等多种形 式. 这些因素使算法在定位边界框时会难以判定 文本实例. 相对人脸检测等问题,自然场景文本检测研究 相对滞后,相关研究工作始于 20 世纪 90 年代[4] . 早期的自然场景文本检测算法利用初级、直观的 图像特征;近年来,深度学习方法兴起,通过深度 神经网络表示图像信号[5] ,可以避免繁琐低效的 人工特征工程[6] ,同时有效提高了场景文本检测的 效果. 2    经典自然场景文本检测方法 经典的文本检测方法可分为两大类:基于连 通域分析的文本检测方法和基于滑动窗口的文本 检测方法. 连通域方法首先利用边缘提取等数字 图像处理技术对输入图片进行预处理,获取文本 候选区域,进而采用不同的连通域分析方法对该 区域进行细化加工,实现字符和文本的联通和定 位. 根据区域生成和特征表示方法的不同,本文将 基于连通域的方法进一步划分为基于边缘的方 法、基于笔划宽度变换的方法和基于最大稳定极 值区域的方法并分别进行介绍. 基于滑动窗口的 方法则采用人工特征对候选区域进行表示,并利 用该特征训练分类器,对候选区域进行预测和验 证. 这两类方法在实际应用中可以互为补充. 2.1    基于连通域的方法 2.1.1    基于边缘的方法 自然场景中的文本往往具有丰富的边缘和角 点信息,基于边缘的文本检测方法通过 Canny[7] 边 缘检测算子提取图片边缘和角点来获取文本的候 选区域,进而使用规则或分类器对文本候选区域 进行定位预测. 文献 [8] 首先应用 Sobel 边缘检测算子[9] 获得 水平,垂直,右上和左上方向的四个边缘图,然后 从四个边缘图中提取特征以表示文本的纹理属 性,进而应用 K 均值(K-means)聚类算法检测初始 文本候选,最后通过经验规则分析来识别文本区 域,并通过项目概况分析来完善文本区域. 文献 [10] 使用傅立叶−拉普拉斯滤波器过滤输入图像,同样 采用 K 均值聚类方法基于最大差异来识别候选文 本区域,随后采用文本字符串的直线度和边缘密 度判断文本候选区域,去除背景区域. 文献 [11] 通 过候选边缘重组和边缘分类两个步骤优化笔划宽 度变换方法. 边缘重组步骤利用分割、区域合并 等手段,将输入图像中的边缘信号处理为一组小 单元(边缘片段),利用宽度、颜色等指导信息合并 这些小单元,从而区分文本边缘和背景;在边界分 类的步骤中,首先将候选边界聚合到文本行中,然 后使用基于字符和基于链的特征对文本行进行分 类. 文献 [12] 基于与周围像素的有效像素强度比 较,提出一种易于实现的笔划检测器,首先检测特 定的笔划关键点,通过由关键点属性指导的局部 阈值提取文本片段,进而通过特征分析实现分类, 从而消除非文本区域. 基于边缘的文本检测方法 适用于背景简单的图片,在背景比较复杂时,边缘 检测算子极易受到干扰,无法获取有效边缘轮廓. 2.1.2    基于笔划宽度变换的方法 笔划宽度变换(Stroke width transform, SWT)是 一种有效的文本区域检测算法. 不同于基于边缘 的方法从像素梯度、角点等方面获取图片级的特 征信息,SWT 方法更关注于字符级的笔划特征. 如第 1 节中分析,OCR 技术在有噪声的图像上效 果较差. SWT 通过提取出具有一致宽度的带状目 标来检测文本,有效消除了大部分噪声,得到更可 靠的光学字符识别结果. 笔划宽度变换算法由 Epshtein 等在文献 [13] 中首次提出,该算法从高对比度边缘上的一点开 始,在垂直于边缘的方向上逐像素进行分析,找到 另一条与之平行的边缘上的一点,由这两点构成 一个笔划横截面. 许多宽度相似的笔划横截面连 接构成一个完整的笔划. 笔划宽度的确定过程如 图 2 所示,其中 p 是笔划边界上的一个像素,沿 p 点梯度方向搜索,就可以找到笔划另一侧对应的 像素 q,w 为对应笔划的宽度. 在此基础上,笔划组 成字符,字符组成词汇和文本区域. SWT 算法的 一个好处是不需要知道文本的语言和字体类型即 可实现文本定位. 笔划宽度变换算法提出后,文献 [14]、文献 [15] 对其进行了发展和改进. 文献 [14] 通过笔划宽度 变换处理获得文本候选区域,使用文本级分类器 过滤非文本区域;用文本之间的相似性连接文本 白志程等: 自然场景文本检测技术研究综述 · 1435 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有