正在加载图片...
1434 工程科学学报,第42卷,第11期 a supplement,several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally,possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像 本、图片文档覆盖文本.文档图像一般为二值化 或符号.当今社会,我们的生活场景中充满了各种 图像,如文字、资料的照片和PDF文件,其黑色为 各样的文本信息.具有特定而且明确语义的文本 前景文字,背景为白色,便于文字的检测识别.图 是对自然场景极为重要的概括、说明和表达.自 片文档覆盖文本则以视频字幕、图片中经人工植 然场景文本检测是实现智能场景感知的关键技 入的说明性文本为主要形式.文档图像文本、图 术,具有重要研究意义.但由于自然场景中的文本 片覆盖文本的布局相对固定,文本区域分割相对 存在背景复杂多样、文本字体不统一、大小不一 容易.而自然场景中的文本出现形式多变,位置、 致、方向不确定等问题,目前对该任务的处理还未 对齐方式不统一.自然场景图片大多为彩色,文字 达到理想的效果.本文首先简述了文本检测问题, 区域往往产生强烈的亮度变化,使得单从像素上 分析了自然场景文本检测的研究进展和现状.接 区分文字和背景变得困难.而同一文本块内,文字 着,从经典文本检测方法与深度学习文本检测方 的字体和字号、高度和宽度以及粗细往往保持一 法两个方面,分析并比较了各类自然场景文本检 致,同一文字块当中往往具有相同的颜色,这给单 测技术的优缺点.最后,展望了自然场景文本检测 词、单字等字符单元的切分带来新的困难山图1 未来可能的研究方向 为自然场景中文本的示例图片 1问题概述:自然场景中的文本检测 IOHN LITTLE 11问题定义与基本概念 文本检测(Text detection)可被视为计算机视 觉目标检测(Object detection)任务的一种特殊形 式.该任务的输入为包含文本的图片,输出为以边 界框为主要形式的预测信息.一般目标检测任务 的输出为图片中动物、家具、汽车等对象的位置 图1自然场景示例图片 Fig.I Sample images of nature scenes 和区域,而文本检测则主要关注图片中文本的精 准定位.相较于一般的目标检测,自然场景中的文 一般来说,自然场景的文本识别由于环境更 字具有多方向、不规则形状、极端长宽比和字体、 加复杂多样,其识别难度相对困难,通常通过文本 颜色、背景多样等特点,因此,在一般目标检测上 检测和文本识别两个步骤来完成.文本检测作为 较为成功的算法往往无法直接迁移到文字检 OC℉的重要技术手段之一,也是文本识别的前提. 测中 在文本检测任务中,文本行(Text lines)检测是 与文本检测相关联的概念是文本识别,如光 一个重要的环节.文本行是由字符、部分字符或 学字符识别(Optical character recognition.,OCR).该 多字符组成的条状、不规则形状的区域.文本检 任务的输人为包含文本光学字符信号的图片或视 测在获取文本行后针对字符进行进一步切分 频,输出为对应的文字信息.目前,OC℉技术可有 1.2研究进展与现状分析 效、准确地对PDF、图片文档等形式的资料进行 文本检测与识别工作最初用于对文档图像进 识别和分析,获取文字.然而,对于自然场景中的 行分析.由于文档图像的背景简单、文字排列整 路标、车牌号、建筑标识等对象,现有OC℉技术仍 齐,其检测识别难度较小.经过几十年的发展,基 有较大的进步空间.可大致将OCR分为识别特定 于文档图像的检测识别技术已经趋于成熟.近年 场景的专用OCR和识别多种场景的通用OCR.比 来,高像素智能手机等设备的出现使越来越多的 如车牌识别是对特定场景的OCR,而对自然场景 人们开始拍摄周围的事物,积累了海量的自然场 中的文字识别则为通用场景OCR 景图像.有关自然场景图像中文本检测与识别技 与自然场景文本相关联的概念为文档图像文 术的研究逐渐成为计算机视觉领域的热点问题a supplement, several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally, possible research directions and prospects in this field were analyzed and discussed. KEY WORDS    text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像 或符号. 当今社会,我们的生活场景中充满了各种 各样的文本信息. 具有特定而且明确语义的文本 是对自然场景极为重要的概括、说明和表达. 自 然场景文本检测是实现智能场景感知的关键技 术,具有重要研究意义. 但由于自然场景中的文本 存在背景复杂多样、文本字体不统一、大小不一 致、方向不确定等问题,目前对该任务的处理还未 达到理想的效果. 本文首先简述了文本检测问题, 分析了自然场景文本检测的研究进展和现状. 接 着,从经典文本检测方法与深度学习文本检测方 法两个方面,分析并比较了各类自然场景文本检 测技术的优缺点. 最后,展望了自然场景文本检测 未来可能的研究方向. 1    问题概述:自然场景中的文本检测 1.1    问题定义与基本概念 文本检测(Text detection)可被视为计算机视 觉目标检测(Object detection)任务的一种特殊形 式. 该任务的输入为包含文本的图片,输出为以边 界框为主要形式的预测信息. 一般目标检测任务 的输出为图片中动物、家具、汽车等对象的位置 和区域,而文本检测则主要关注图片中文本的精 准定位. 相较于一般的目标检测,自然场景中的文 字具有多方向、不规则形状、极端长宽比和字体、 颜色、背景多样等特点,因此,在一般目标检测上 较为成功的算法往往无法直接迁移到文字检 测中. 与文本检测相关联的概念是文本识别,如光 学字符识别(Optical character recognition,OCR). 该 任务的输入为包含文本光学字符信号的图片或视 频,输出为对应的文字信息. 目前,OCR 技术可有 效、准确地对 PDF、图片文档等形式的资料进行 识别和分析,获取文字. 然而,对于自然场景中的 路标、车牌号、建筑标识等对象,现有 OCR 技术仍 有较大的进步空间. 可大致将 OCR 分为识别特定 场景的专用 OCR 和识别多种场景的通用 OCR. 比 如车牌识别是对特定场景的 OCR,而对自然场景 中的文字识别则为通用场景 OCR. 与自然场景文本相关联的概念为文档图像文 本、图片文档覆盖文本. 文档图像一般为二值化 图像,如文字、资料的照片和 PDF 文件,其黑色为 前景文字,背景为白色,便于文字的检测识别. 图 片文档覆盖文本则以视频字幕、图片中经人工植 入的说明性文本为主要形式. 文档图像文本、图 片覆盖文本的布局相对固定,文本区域分割相对 容易. 而自然场景中的文本出现形式多变,位置、 对齐方式不统一. 自然场景图片大多为彩色,文字 区域往往产生强烈的亮度变化,使得单从像素上 区分文字和背景变得困难. 而同一文本块内,文字 的字体和字号、高度和宽度以及粗细往往保持一 致,同一文字块当中往往具有相同的颜色,这给单 词、单字等字符单元的切分带来新的困难[1] . 图 1 为自然场景中文本的示例图片. 一般来说,自然场景的文本识别由于环境更 加复杂多样,其识别难度相对困难,通常通过文本 检测和文本识别两个步骤来完成. 文本检测作为 OCR 的重要技术手段之一,也是文本识别的前提. 在文本检测任务中,文本行(Text lines)检测是 一个重要的环节. 文本行是由字符、部分字符或 多字符组成的条状、不规则形状的区域. 文本检 测在获取文本行后针对字符进行进一步切分. 1.2    研究进展与现状分析 文本检测与识别工作最初用于对文档图像进 行分析. 由于文档图像的背景简单、文字排列整 齐,其检测识别难度较小. 经过几十年的发展,基 于文档图像的检测识别技术已经趋于成熟. 近年 来,高像素智能手机等设备的出现使越来越多的 人们开始拍摄周围的事物,积累了海量的自然场 景图像. 有关自然场景图像中文本检测与识别技 术的研究逐渐成为计算机视觉领域的热点问题[2] . 图 1    自然场景示例图片 Fig.1    Sample images of nature scenes · 1434 · 工程科学学报,第 42 卷,第 11 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有