a supplement, several _中国高校课件下载中心

正在加载图片...

1434 工程科学学报，第42卷，第11期 a supplement,several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally,possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像本、图片文档覆盖文本.文档图像一般为二值化或符号.当今社会，我们的生活场景中充满了各种图像，如文字、资料的照片和PDF文件，其黑色为各样的文本信息.具有特定而且明确语义的文本前景文字，背景为白色，便于文字的检测识别.图是对自然场景极为重要的概括、说明和表达.自片文档覆盖文本则以视频字幕、图片中经人工植然场景文本检测是实现智能场景感知的关键技入的说明性文本为主要形式.文档图像文本、图术，具有重要研究意义.但由于自然场景中的文本片覆盖文本的布局相对固定，文本区域分割相对存在背景复杂多样、文本字体不统一、大小不一容易.而自然场景中的文本出现形式多变，位置、致、方向不确定等问题，目前对该任务的处理还未对齐方式不统一.自然场景图片大多为彩色，文字达到理想的效果.本文首先简述了文本检测问题，区域往往产生强烈的亮度变化，使得单从像素上分析了自然场景文本检测的研究进展和现状.接区分文字和背景变得困难.而同一文本块内，文字着，从经典文本检测方法与深度学习文本检测方的字体和字号、高度和宽度以及粗细往往保持一法两个方面，分析并比较了各类自然场景文本检致，同一文字块当中往往具有相同的颜色，这给单测技术的优缺点.最后，展望了自然场景文本检测词、单字等字符单元的切分带来新的困难山图1 未来可能的研究方向为自然场景中文本的示例图片 1问题概述：自然场景中的文本检测 IOHN LITTLE 11问题定义与基本概念文本检测(Text detection)可被视为计算机视觉目标检测(Object detection)任务的一种特殊形式.该任务的输入为包含文本的图片，输出为以边界框为主要形式的预测信息.一般目标检测任务的输出为图片中动物、家具、汽车等对象的位置图1自然场景示例图片 Fig.I Sample images of nature scenes 和区域，而文本检测则主要关注图片中文本的精准定位.相较于一般的目标检测，自然场景中的文一般来说，自然场景的文本识别由于环境更字具有多方向、不规则形状、极端长宽比和字体、加复杂多样，其识别难度相对困难，通常通过文本颜色、背景多样等特点，因此，在一般目标检测上检测和文本识别两个步骤来完成.文本检测作为较为成功的算法往往无法直接迁移到文字检 OC℉的重要技术手段之一，也是文本识别的前提. 测中在文本检测任务中，文本行(Text lines)检测是与文本检测相关联的概念是文本识别，如光一个重要的环节.文本行是由字符、部分字符或学字符识别(Optical character recognition.,OCR).该多字符组成的条状、不规则形状的区域.文本检任务的输人为包含文本光学字符信号的图片或视测在获取文本行后针对字符进行进一步切分频，输出为对应的文字信息.目前，OC℉技术可有 1.2研究进展与现状分析效、准确地对PDF、图片文档等形式的资料进行文本检测与识别工作最初用于对文档图像进识别和分析，获取文字.然而，对于自然场景中的行分析.由于文档图像的背景简单、文字排列整路标、车牌号、建筑标识等对象，现有OC℉技术仍齐，其检测识别难度较小.经过几十年的发展，基有较大的进步空间.可大致将OCR分为识别特定于文档图像的检测识别技术已经趋于成熟.近年场景的专用OCR和识别多种场景的通用OCR.比来，高像素智能手机等设备的出现使越来越多的如车牌识别是对特定场景的OCR,而对自然场景人们开始拍摄周围的事物，积累了海量的自然场中的文字识别则为通用场景OCR 景图像.有关自然场景图像中文本检测与识别技与自然场景文本相关联的概念为文档图像文术的研究逐渐成为计算机视觉领域的热点问题a supplement, several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally, possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection；scene text；connected domain analysis；image processing；statistical learning；deep learning 文字是承载语言、记录思想、传递文明的图像或符号. 当今社会，我们的生活场景中充满了各种各样的文本信息. 具有特定而且明确语义的文本是对自然场景极为重要的概括、说明和表达. 自然场景文本检测是实现智能场景感知的关键技术，具有重要研究意义. 但由于自然场景中的文本存在背景复杂多样、文本字体不统一、大小不一致、方向不确定等问题，目前对该任务的处理还未达到理想的效果. 本文首先简述了文本检测问题，分析了自然场景文本检测的研究进展和现状. 接着，从经典文本检测方法与深度学习文本检测方法两个方面，分析并比较了各类自然场景文本检测技术的优缺点. 最后，展望了自然场景文本检测未来可能的研究方向. 1 问题概述：自然场景中的文本检测 1.1 问题定义与基本概念文本检测（Text detection）可被视为计算机视觉目标检测（Object detection）任务的一种特殊形式. 该任务的输入为包含文本的图片，输出为以边界框为主要形式的预测信息. 一般目标检测任务的输出为图片中动物、家具、汽车等对象的位置和区域，而文本检测则主要关注图片中文本的精准定位. 相较于一般的目标检测，自然场景中的文字具有多方向、不规则形状、极端长宽比和字体、颜色、背景多样等特点，因此，在一般目标检测上较为成功的算法往往无法直接迁移到文字检测中. 与文本检测相关联的概念是文本识别，如光学字符识别（Optical character recognition，OCR）. 该任务的输入为包含文本光学字符信号的图片或视频，输出为对应的文字信息. 目前，OCR 技术可有效、准确地对 PDF、图片文档等形式的资料进行识别和分析，获取文字. 然而，对于自然场景中的路标、车牌号、建筑标识等对象，现有 OCR 技术仍有较大的进步空间. 可大致将 OCR 分为识别特定场景的专用 OCR 和识别多种场景的通用 OCR. 比如车牌识别是对特定场景的 OCR，而对自然场景中的文字识别则为通用场景 OCR. 与自然场景文本相关联的概念为文档图像文本、图片文档覆盖文本. 文档图像一般为二值化图像，如文字、资料的照片和 PDF 文件，其黑色为前景文字，背景为白色，便于文字的检测识别. 图片文档覆盖文本则以视频字幕、图片中经人工植入的说明性文本为主要形式. 文档图像文本、图片覆盖文本的布局相对固定，文本区域分割相对容易. 而自然场景中的文本出现形式多变，位置、对齐方式不统一. 自然场景图片大多为彩色，文字区域往往产生强烈的亮度变化，使得单从像素上区分文字和背景变得困难. 而同一文本块内，文字的字体和字号、高度和宽度以及粗细往往保持一致，同一文字块当中往往具有相同的颜色，这给单词、单字等字符单元的切分带来新的困难[1] . 图 1 为自然场景中文本的示例图片. 一般来说，自然场景的文本识别由于环境更加复杂多样，其识别难度相对困难，通常通过文本检测和文本识别两个步骤来完成. 文本检测作为 OCR 的重要技术手段之一，也是文本识别的前提. 在文本检测任务中，文本行（Text lines）检测是一个重要的环节. 文本行是由字符、部分字符或多字符组成的条状、不规则形状的区域. 文本检测在获取文本行后针对字符进行进一步切分. 1.2 研究进展与现状分析文本检测与识别工作最初用于对文档图像进行分析. 由于文档图像的背景简单、文字排列整齐，其检测识别难度较小. 经过几十年的发展，基于文档图像的检测识别技术已经趋于成熟. 近年来，高像素智能手机等设备的出现使越来越多的人们开始拍摄周围的事物，积累了海量的自然场景图像. 有关自然场景图像中文本检测与识别技术的研究逐渐成为计算机视觉领域的热点问题[2] . 图 1 自然场景示例图片 Fig.1 Sample images of nature scenes · 1434 · 工程科学学报，第 42 卷，第 11 期

<<向上翻页向下翻页>>

点击下载：自然场景文本检测技术研究综述