第１２卷第４期智能系统学报Ｖｏｌ．１２ №．４２０

正在加载图片...

第12卷第4期智能系统学报 Vol.12 No.4 2017年8月 CAAI Transactions on Intelligent Systems Aug.2017 D0I:10.11992/is.201604011 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20170630.2115.006.html 视觉感知式场景文字检测定位方法吕国宁1，高敏2 (1.郑州师范学院网络管理中心，河南郑州450044：2.郑州师范学院信息科学与技术学院，河南郑州450044) 摘要：针对自然场景中复杂背景干扰检测的问题，本文提出一种基于视觉感知机制的场景文字检测定位方法。人类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文字检测定位方法，该方法首先通过两种视觉显著性方法进行预注意步骤，然后利用笔画特征以及文字相互关系实现注意步骤。本文方法在ICDAR2013与场景汉字数据集中均取得较有竞争力的结果，实验表明可以较好地用于复杂背景的自然场景英文和汉字的检测。关键词：视觉感知：视觉显著性：笔画宽度变换：场景文字：文字检测定位：视觉注意：汉字：英文中图分类号：TP18;TP39文献标志码：A文章编号：1673-4785(2017)04-0563-07 中文引用格式：吕国宁，高敏视觉感知式场景文字检测定位方法[J】.智能系统学报，2017,12(4)：563-569. 英文引用格式：LYU Guoning,GAO Min.Scene text detection and localization scheme with visual perception mechanism[J].CAAI transactions on intelligent systems,2017,12(4):563-569. Scene text detection and localization scheme with visual perception mechanism LYU Guoning',GAO Min2 (1.Network Management Center,Zheng Zhou Normal University,Zheng Zhou 450044,China;2.School of Information Science and Technique,Zheng Zhou Normal University,Zheng Zhou 450044,China) Abstract:To solve the detection problem with respect to the interference of complex backgrounds in natural scenes, in this paper,we propose a scene text detection and localization scheme based on a visual perception mechanism. The human visual perception mechanism is commonly divided into the fast parallel pre-attention step and the slow serial attention step.In our proposed scheme,we first precedes the pre-attention step with two visual saliency methods and then implement the attention step using a stroke feature and the relationship between characters.Our experimental results show the scheme to be competitive with respect to the ICDAR 2013 and the scene Chinese- character dataset.It is also suitable for English and Chinese character detection of natural scenes under complex background conditions. Keywords:visual perception;visual saliency;swt;scene text;text detection and localization;visual attention; Chinese text;English text 互联网技术与电子技术的高速发展下，人们逐计分牌等，后者是自然场景中真实存在并通过数字渐形成以数字图像与视频分享信息交流感情习惯，成像设备保存在数字图像中的文字，如交通标示因此在电子设备与网络中存在着海量的数字图像街道名称、广告海报以及商店招牌等。场景文字的信息。这些图像信息普遍来自人类生活的自然场提取因为没有场景先验知识，且受到场景中周围环景，其中存在着不计其数的关键文字信息。如何有境、相机参数及光照因素的影响，因而它比人工文效提取数字图像中的关键文字信息，是有效管理电字的提取具有更大难度。子设备与网络中的数字图像的重要手段。而有效场景图像文字定位算法通常分为两类：基于滑准确提取数字图像中的关键文字信息是当今一个动窗口的方法和基于连通域的方法。文献[2-3]隶颇具挑战性的工作，受到研究者的广泛关注。属基于滑动窗口的方法，首先使用滑动窗口遍历图数字图像中文字的提取根据文字种类分为人像各个尺度，分类器判定每一个滑动窗口区域是否工文字和场景文字山，前者是人们后期添加到图像包含文字并给出置信度：然后将各个尺度置信度叠上的文字，如视频字幕、电影中的说明文字及比赛加，得到置信图：最后根据置信图分割得到文字区域。文献[4-5]分别利用笔画与最大极值稳定区域收稿日期：2016-04-07.网络出版日期：2017-06-30 获取连通域作为文字候选区域，然后使用分类器对基金项目：国家自然基金河南人才培养联合基金项目(U1204703, U1304614). 文字候选区域进行验证（保留文字区域，剔除背景通信作者：吕国宁.E-mail:sjzmdwxqzz@outlook.com, 区域)，最后将单个文字聚合成文本行。基于滑动第１２卷第４期智能系统学报Ｖｏｌ．１２ №．４２０１７年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０４０１１网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０６３０．２１１５．００６．ｈｔｍｌ视觉感知式场景文字检测定位方法吕国宁１，高敏２（１．郑州师范学院网络管理中心，河南郑州４５００４４；２．郑州师范学院信息科学与技术学院，河南郑州４５００４４）摘要：针对自然场景中复杂背景干扰检测的问题，本文提出一种基于视觉感知机制的场景文字检测定位方法。人类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文字检测定位方法，该方法首先通过两种视觉显著性方法进行预注意步骤，然后利用笔画特征以及文字相互关系实现注意步骤。本文方法在ＩＣＤＡＲ２０１３与场景汉字数据集中均取得较有竞争力的结果，实验表明可以较好地用于复杂背景的自然场景英文和汉字的检测。关键词：视觉感知；视觉显著性；笔画宽度变换；场景文字；文字检测定位；视觉注意；汉字；英文中图分类号：ＴＰ１８；ＴＰ３９文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０４－０５６３－０７中文引用格式：吕国宁，高敏．视觉感知式场景文字检测定位方法［Ｊ］．智能系统学报，２０１７，１２（４）：５６３－５６９．英文引用格式：ＬＹＵＧｕｏｎｉｎｇ，ＧＡＯＭｉｎ．Ｓｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｓｃｈｅｍｅｗｉｔｈｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（４）：５６３－５６９．ＳｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｓｃｈｅｍｅｗｉｔｈｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍＬＹＵＧｕｏｎｉｎｇ１，ＧＡＯＭｉｎ２（１．ＮｅｔｗｏｒｋＭａｎａｇｅｍｅｎｔＣｅｎｔｅｒ，ＺｈｅｎｇＺｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＺｈｅｎｇＺｈｏｕ４５００４４，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｉｑｕｅ，ＺｈｅｎｇＺｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＺｈｅｎｇＺｈｏｕ４５００４４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏｓｏｌｖｅｔｈｅｄｅｔｅｃｔｉｏｎｐｒｏｂｌｅｍｗｉｔｈｒｅｓｐｅｃｔｔｏｔｈｅｉｎｔｅｒｆｅｒｅｎｃｅｏｆｃｏｍｐｌｅｘｂａｃｋｇｒｏｕｎｄｓｉｎｎａｔｕｒａｌｓｃｅｎｅｓ，ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｓｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｓｃｈｅｍｅｂａｓｅｄｏｎａｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍ．Ｔｈｅｈｕｍａｎｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍｉｓｃｏｍｍｏｎｌｙｄｉｖｉｄｅｄｉｎｔｏｔｈｅｆａｓｔｐａｒａｌｌｅｌｐｒｅ⁃ａｔｔｅｎｔｉｏｎｓｔｅｐａｎｄｔｈｅｓｌｏｗｓｅｒｉａｌａｔｔｅｎｔｉｏｎｓｔｅｐ．Ｉｎｏｕｒｐｒｏｐｏｓｅｄｓｃｈｅｍｅ，ｗｅｆｉｒｓｔｐｒｅｃｅｄｅｓｔｈｅｐｒｅ⁃ａｔｔｅｎｔｉｏｎｓｔｅｐｗｉｔｈｔｗｏｖｉｓｕａｌｓａｌｉｅｎｃｙｍｅｔｈｏｄｓａｎｄｔｈｅｎｉｍｐｌｅｍｅｎｔｔｈｅａｔｔｅｎｔｉｏｎｓｔｅｐｕｓｉｎｇａｓｔｒｏｋｅｆｅａｔｕｒｅａｎｄｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｃｈａｒａｃｔｅｒｓ．ＯｕｒｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈｅｓｃｈｅｍｅｔｏｂｅｃｏｍｐｅｔｉｔｉｖｅｗｉｔｈｒｅｓｐｅｃｔｔｏｔｈｅＩＣＤＡＲ２０１３ａｎｄｔｈｅｓｃｅｎｅＣｈｉｎｅｓｅ－ｃｈａｒａｃｔｅｒｄａｔａｓｅｔ．ＩｔｉｓａｌｓｏｓｕｉｔａｂｌｅｆｏｒＥｎｇｌｉｓｈａｎｄＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｄｅｔｅｃｔｉｏｎｏｆｎａｔｕｒａｌｓｃｅｎｅｓｕｎｄｅｒｃｏｍｐｌｅｘｂａｃｋｇｒｏｕｎｄｃｏｎｄｉｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ：ｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎ；ｖｉｓｕａｌｓａｌｉｅｎｃｙ；ｓｗｔ；ｓｃｅｎｅｔｅｘｔ；ｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎ；ｖｉｓｕａｌａｔｔｅｎｔｉｏｎ；Ｃｈｉｎｅｓｅｔｅｘｔ；Ｅｎｇｌｉｓｈｔｅｘｔ收稿日期：２０１６－０４－０７．网络出版日期：２０１７－０６－３０．基金项目：国家自然基金河南人才培养联合基金项目（Ｕ１２０４７０３，Ｕ１３０４６１４）．通信作者：吕国宁．Ｅ⁃ｍａｉｌ：ｓｊｚｍｄｗｘｑｚｚ＠ｏｕｔｌｏｏｋ．ｃｏｍ．互联网技术与电子技术的高速发展下，人们逐渐形成以数字图像与视频分享信息交流感情习惯，因此在电子设备与网络中存在着海量的数字图像信息。这些图像信息普遍来自人类生活的自然场景，其中存在着不计其数的关键文字信息。如何有效提取数字图像中的关键文字信息，是有效管理电子设备与网络中的数字图像的重要手段。而有效准确提取数字图像中的关键文字信息是当今一个颇具挑战性的工作，受到研究者的广泛关注。数字图像中文字的提取根据文字种类分为人工文字和场景文字［１］，前者是人们后期添加到图像上的文字，如视频字幕、电影中的说明文字及比赛计分牌等，后者是自然场景中真实存在并通过数字成像设备保存在数字图像中的文字，如交通标示、街道名称、广告海报以及商店招牌等。场景文字的提取因为没有场景先验知识，且受到场景中周围环境、相机参数及光照因素的影响，因而它比人工文字的提取具有更大难度。场景图像文字定位算法通常分为两类：基于滑动窗口的方法和基于连通域的方法。文献［２－３］隶属基于滑动窗口的方法，首先使用滑动窗口遍历图像各个尺度，分类器判定每一个滑动窗口区域是否包含文字并给出置信度；然后将各个尺度置信度叠加，得到置信图；最后根据置信图分割得到文字区域。文献［４－５］分别利用笔画与最大极值稳定区域获取连通域作为文字候选区域，然后使用分类器对文字候选区域进行验证（保留文字区域，剔除背景区域），最后将单个文字聚合成文本行。基于滑动

向下翻页>>

点击下载：【机器感知与模式识别】视觉感知式场景文字检测定位方法