正在加载图片...
第12卷第4期 智能系统学报 Vol.12 No.4 2017年8月 CAAI Transactions on Intelligent Systems Aug.2017 D0I:10.11992/is.201604011 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170630.2115.006.html 视觉感知式场景文字检测定位方法 吕国宁1,高敏2 (1.郑州师范学院网络管理中心,河南郑州450044:2.郑州师范学院信息科学与技术学院,河南郑州450044) 摘要:针对自然场景中复杂背景干扰检测的问题,本文提出一种基于视觉感知机制的场景文字检测定位方法。人 类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文 字检测定位方法,该方法首先通过两种视觉显著性方法进行预注意步骤,然后利用笔画特征以及文字相互关系实现 注意步骤。本文方法在ICDAR2013与场景汉字数据集中均取得较有竞争力的结果,实验表明可以较好地用于复杂 背景的自然场景英文和汉字的检测。 关键词:视觉感知:视觉显著性:笔画宽度变换:场景文字:文字检测定位:视觉注意:汉字:英文 中图分类号:TP18;TP39文献标志码:A文章编号:1673-4785(2017)04-0563-07 中文引用格式:吕国宁,高敏视觉感知式场景文字检测定位方法[J】.智能系统学报,2017,12(4):563-569. 英文引用格式:LYU Guoning,GAO Min.Scene text detection and localization scheme with visual perception mechanism[J].CAAI transactions on intelligent systems,2017,12(4):563-569. Scene text detection and localization scheme with visual perception mechanism LYU Guoning',GAO Min2 (1.Network Management Center,Zheng Zhou Normal University,Zheng Zhou 450044,China;2.School of Information Science and Technique,Zheng Zhou Normal University,Zheng Zhou 450044,China) Abstract:To solve the detection problem with respect to the interference of complex backgrounds in natural scenes, in this paper,we propose a scene text detection and localization scheme based on a visual perception mechanism. The human visual perception mechanism is commonly divided into the fast parallel pre-attention step and the slow serial attention step.In our proposed scheme,we first precedes the pre-attention step with two visual saliency methods and then implement the attention step using a stroke feature and the relationship between characters.Our experimental results show the scheme to be competitive with respect to the ICDAR 2013 and the scene Chinese- character dataset.It is also suitable for English and Chinese character detection of natural scenes under complex background conditions. Keywords:visual perception;visual saliency;swt;scene text;text detection and localization;visual attention; Chinese text;English text 互联网技术与电子技术的高速发展下,人们逐计分牌等,后者是自然场景中真实存在并通过数字 渐形成以数字图像与视频分享信息交流感情习惯, 成像设备保存在数字图像中的文字,如交通标示 因此在电子设备与网络中存在着海量的数字图像 街道名称、广告海报以及商店招牌等。场景文字的 信息。这些图像信息普遍来自人类生活的自然场 提取因为没有场景先验知识,且受到场景中周围环 景,其中存在着不计其数的关键文字信息。如何有 境、相机参数及光照因素的影响,因而它比人工文 效提取数字图像中的关键文字信息,是有效管理电 字的提取具有更大难度。 子设备与网络中的数字图像的重要手段。而有效 场景图像文字定位算法通常分为两类:基于滑 准确提取数字图像中的关键文字信息是当今一个 动窗口的方法和基于连通域的方法。文献[2-3]隶 颇具挑战性的工作,受到研究者的广泛关注。 属基于滑动窗口的方法,首先使用滑动窗口遍历图 数字图像中文字的提取根据文字种类分为人 像各个尺度,分类器判定每一个滑动窗口区域是否 工文字和场景文字山,前者是人们后期添加到图像 包含文字并给出置信度:然后将各个尺度置信度叠 上的文字,如视频字幕、电影中的说明文字及比赛 加,得到置信图:最后根据置信图分割得到文字区 域。文献[4-5]分别利用笔画与最大极值稳定区域 收稿日期:2016-04-07.网络出版日期:2017-06-30 获取连通域作为文字候选区域,然后使用分类器对 基金项目:国家自然基金河南人才培养联合基金项目(U1204703, U1304614). 文字候选区域进行验证(保留文字区域,剔除背景 通信作者:吕国宁.E-mail:sjzmdwxqzz@outlook.com, 区域),最后将单个文字聚合成文本行。基于滑动第 12 卷第 4 期 智 能 系 统 学 报 Vol.12 №.4 2017 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2017 DOI:10.11992 / tis.201604011 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170630.2115.006.html 视觉感知式场景文字检测定位方法 吕国宁1 ,高敏2 (1.郑州师范学院 网络管理中心,河南 郑州 450044; 2.郑州师范学院 信息科学与技术学院,河南 郑州 450044) 摘 要:针对自然场景中复杂背景干扰检测的问题,本文提出一种基于视觉感知机制的场景文字检测定位方法。 人 类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。 本文方法基于人类感知机制提出一种场景文 字检测定位方法,该方法首先通过两种视觉显著性方法进行预注意步骤,然后利用笔画特征以及文字相互关系实现 注意步骤。 本文方法在 ICDAR 2013 与场景汉字数据集中均取得较有竞争力的结果,实验表明可以较好地用于复杂 背景的自然场景英文和汉字的检测。 关键词:视觉感知;视觉显著性;笔画宽度变换;场景文字;文字检测定位;视觉注意;汉字;英文 中图分类号:TP18;TP39 文献标志码:A 文章编号:1673-4785(2017)04-0563-07 中文引用格式:吕国宁,高敏.视觉感知式场景文字检测定位方法[J]. 智能系统学报, 2017, 12(4): 563-569. 英文引用格式:LYU Guoning, GAO Min. Scene text detection and localization scheme with visual perception mechanism[J]. CAAI transactions on intelligent systems, 2017, 12(4): 563-569. Scene text detection and localization scheme with visual perception mechanism LYU Guoning 1 , GAO Min 2 (1.Network Management Center, Zheng Zhou Normal University, Zheng Zhou 450044, China; 2. School of Information Science and Technique, Zheng Zhou Normal University, Zheng Zhou 450044, China) Abstract:To solve the detection problem with respect to the interference of complex backgrounds in natural scenes, in this paper, we propose a scene text detection and localization scheme based on a visual perception mechanism. The human visual perception mechanism is commonly divided into the fast parallel pre⁃attention step and the slow serial attention step. In our proposed scheme, we first precedes the pre⁃attention step with two visual saliency methods and then implement the attention step using a stroke feature and the relationship between characters. Our experimental results show the scheme to be competitive with respect to the ICDAR 2013 and the scene Chinese- character dataset. It is also suitable for English and Chinese character detection of natural scenes under complex background conditions. Keywords: visual perception; visual saliency; swt; scene text; text detection and localization; visual attention; Chinese text; English text 收稿日期:2016-04-07. 网络出版日期:2017-06-30. 基金项目:国家自然基金河南人才培养联合基金项目 ( U1204703, U1304614). 通信作者:吕国宁.E⁃mail:sjzmdwxqzz@ outlook.com. 互联网技术与电子技术的高速发展下,人们逐 渐形成以数字图像与视频分享信息交流感情习惯, 因此在电子设备与网络中存在着海量的数字图像 信息。 这些图像信息普遍来自人类生活的自然场 景,其中存在着不计其数的关键文字信息。 如何有 效提取数字图像中的关键文字信息,是有效管理电 子设备与网络中的数字图像的重要手段。 而有效 准确提取数字图像中的关键文字信息是当今一个 颇具挑战性的工作,受到研究者的广泛关注。 数字图像中文字的提取根据文字种类分为人 工文字和场景文字[1] ,前者是人们后期添加到图像 上的文字,如视频字幕、电影中的说明文字及比赛 计分牌等,后者是自然场景中真实存在并通过数字 成像设备保存在数字图像中的文字,如交通标示、 街道名称、广告海报以及商店招牌等。 场景文字的 提取因为没有场景先验知识,且受到场景中周围环 境、相机参数及光照因素的影响,因而它比人工文 字的提取具有更大难度。 场景图像文字定位算法通常分为两类:基于滑 动窗口的方法和基于连通域的方法。 文献[2-3]隶 属基于滑动窗口的方法,首先使用滑动窗口遍历图 像各个尺度,分类器判定每一个滑动窗口区域是否 包含文字并给出置信度;然后将各个尺度置信度叠 加,得到置信图;最后根据置信图分割得到文字区 域。 文献[4-5]分别利用笔画与最大极值稳定区域 获取连通域作为文字候选区域,然后使用分类器对 文字候选区域进行验证(保留文字区域,剔除背景 区域),最后将单个文字聚合成文本行。 基于滑动
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有