【机器感知与模式识别】视觉感知式场景文字检测定位方法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：5.53MB

第12卷第4期智能系统学报 Vol.12 No.4 2017年8月 CAAI Transactions on Intelligent Systems Aug.2017 D0I:10.11992/is.201604011 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20170630.2115.006.html 视觉感知式场景文字检测定位方法吕国宁1，高敏2 (1.郑州师范学院网络管理中心，河南郑州450044：2.郑州师范学院信息科学与技术学院，河南郑州450044) 摘要：针对自然场景中复杂背景干扰检测的问题，本文提出一种基于视觉感知机制的场景文字检测定位方法。人类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文字检测定位方法，该方法首先通过两种视觉显著性方法进行预注意步骤，然后利用笔画特征以及文字相互关系实现注意步骤。本文方法在ICDAR2013与场景汉字数据集中均取得较有竞争力的结果，实验表明可以较好地用于复杂背景的自然场景英文和汉字的检测。关键词：视觉感知：视觉显著性：笔画宽度变换：场景文字：文字检测定位：视觉注意：汉字：英文中图分类号：TP18;TP39文献标志码：A文章编号：1673-4785(2017)04-0563-07 中文引用格式：吕国宁，高敏视觉感知式场景文字检测定位方法[J】.智能系统学报，2017,12(4)：563-569. 英文引用格式：LYU Guoning,GAO Min.Scene text detection and localization scheme with visual perception mechanism[J].CAAI transactions on intelligent systems,2017,12(4):563-569. Scene text detection and localization scheme with visual perception mechanism LYU Guoning',GAO Min2 (1.Network Management Center,Zheng Zhou Normal University,Zheng Zhou 450044,China;2.School of Information Science and Technique,Zheng Zhou Normal University,Zheng Zhou 450044,China) Abstract:To solve the detection problem with respect to the interference of complex backgrounds in natural scenes, in this paper,we propose a scene text detection and localization scheme based on a visual perception mechanism. The human visual perception mechanism is commonly divided into the fast parallel pre-attention step and the slow serial attention step.In our proposed scheme,we first precedes the pre-attention step with two visual saliency methods and then implement the attention step using a stroke feature and the relationship between characters.Our experimental results show the scheme to be competitive with respect to the ICDAR 2013 and the scene Chinese- character dataset.It is also suitable for English and Chinese character detection of natural scenes under complex background conditions. Keywords:visual perception;visual saliency;swt;scene text;text detection and localization;visual attention; Chinese text;English text 互联网技术与电子技术的高速发展下，人们逐计分牌等，后者是自然场景中真实存在并通过数字渐形成以数字图像与视频分享信息交流感情习惯，成像设备保存在数字图像中的文字，如交通标示因此在电子设备与网络中存在着海量的数字图像街道名称、广告海报以及商店招牌等。场景文字的信息。这些图像信息普遍来自人类生活的自然场提取因为没有场景先验知识，且受到场景中周围环景，其中存在着不计其数的关键文字信息。如何有境、相机参数及光照因素的影响，因而它比人工文效提取数字图像中的关键文字信息，是有效管理电字的提取具有更大难度。子设备与网络中的数字图像的重要手段。而有效场景图像文字定位算法通常分为两类：基于滑准确提取数字图像中的关键文字信息是当今一个动窗口的方法和基于连通域的方法。文献[2-3]隶颇具挑战性的工作，受到研究者的广泛关注。属基于滑动窗口的方法，首先使用滑动窗口遍历图数字图像中文字的提取根据文字种类分为人像各个尺度，分类器判定每一个滑动窗口区域是否工文字和场景文字山，前者是人们后期添加到图像包含文字并给出置信度：然后将各个尺度置信度叠上的文字，如视频字幕、电影中的说明文字及比赛加，得到置信图：最后根据置信图分割得到文字区域。文献[4-5]分别利用笔画与最大极值稳定区域收稿日期：2016-04-07.网络出版日期：2017-06-30 获取连通域作为文字候选区域，然后使用分类器对基金项目：国家自然基金河南人才培养联合基金项目(U1204703, U1304614). 文字候选区域进行验证（保留文字区域，剔除背景通信作者：吕国宁.E-mail:sjzmdwxqzz@outlook.com, 区域)，最后将单个文字聚合成文本行。基于滑动

第１２卷第４期智能系统学报Ｖｏｌ．１２ №．４２０１７年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０４０１１网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０６３０．２１１５．００６．ｈｔｍｌ视觉感知式场景文字检测定位方法吕国宁１，高敏２（１．郑州师范学院网络管理中心，河南郑州４５００４４；２．郑州师范学院信息科学与技术学院，河南郑州４５００４４）摘要：针对自然场景中复杂背景干扰检测的问题，本文提出一种基于视觉感知机制的场景文字检测定位方法。人类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文字检测定位方法，该方法首先通过两种视觉显著性方法进行预注意步骤，然后利用笔画特征以及文字相互关系实现注意步骤。本文方法在ＩＣＤＡＲ２０１３与场景汉字数据集中均取得较有竞争力的结果，实验表明可以较好地用于复杂背景的自然场景英文和汉字的检测。关键词：视觉感知；视觉显著性；笔画宽度变换；场景文字；文字检测定位；视觉注意；汉字；英文中图分类号：ＴＰ１８；ＴＰ３９文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０４－０５６３－０７中文引用格式：吕国宁，高敏．视觉感知式场景文字检测定位方法［Ｊ］．智能系统学报，２０１７，１２（４）：５６３－５６９．英文引用格式：ＬＹＵＧｕｏｎｉｎｇ，ＧＡＯＭｉｎ．Ｓｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｓｃｈｅｍｅｗｉｔｈｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（４）：５６３－５６９．ＳｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｓｃｈｅｍｅｗｉｔｈｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍＬＹＵＧｕｏｎｉｎｇ１，ＧＡＯＭｉｎ２（１．ＮｅｔｗｏｒｋＭａｎａｇｅｍｅｎｔＣｅｎｔｅｒ，ＺｈｅｎｇＺｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＺｈｅｎｇＺｈｏｕ４５００４４，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｉｑｕｅ，ＺｈｅｎｇＺｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＺｈｅｎｇＺｈｏｕ４５００４４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏｓｏｌｖｅｔｈｅｄｅｔｅｃｔｉｏｎｐｒｏｂｌｅｍｗｉｔｈｒｅｓｐｅｃｔｔｏｔｈｅｉｎｔｅｒｆｅｒｅｎｃｅｏｆｃｏｍｐｌｅｘｂａｃｋｇｒｏｕｎｄｓｉｎｎａｔｕｒａｌｓｃｅｎｅｓ，ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｓｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎｓｃｈｅｍｅｂａｓｅｄｏｎａｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍ．Ｔｈｅｈｕｍａｎｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎｍｅｃｈａｎｉｓｍｉｓｃｏｍｍｏｎｌｙｄｉｖｉｄｅｄｉｎｔｏｔｈｅｆａｓｔｐａｒａｌｌｅｌｐｒｅ⁃ａｔｔｅｎｔｉｏｎｓｔｅｐａｎｄｔｈｅｓｌｏｗｓｅｒｉａｌａｔｔｅｎｔｉｏｎｓｔｅｐ．Ｉｎｏｕｒｐｒｏｐｏｓｅｄｓｃｈｅｍｅ，ｗｅｆｉｒｓｔｐｒｅｃｅｄｅｓｔｈｅｐｒｅ⁃ａｔｔｅｎｔｉｏｎｓｔｅｐｗｉｔｈｔｗｏｖｉｓｕａｌｓａｌｉｅｎｃｙｍｅｔｈｏｄｓａｎｄｔｈｅｎｉｍｐｌｅｍｅｎｔｔｈｅａｔｔｅｎｔｉｏｎｓｔｅｐｕｓｉｎｇａｓｔｒｏｋｅｆｅａｔｕｒｅａｎｄｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｃｈａｒａｃｔｅｒｓ．ＯｕｒｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈｅｓｃｈｅｍｅｔｏｂｅｃｏｍｐｅｔｉｔｉｖｅｗｉｔｈｒｅｓｐｅｃｔｔｏｔｈｅＩＣＤＡＲ２０１３ａｎｄｔｈｅｓｃｅｎｅＣｈｉｎｅｓｅ－ｃｈａｒａｃｔｅｒｄａｔａｓｅｔ．ＩｔｉｓａｌｓｏｓｕｉｔａｂｌｅｆｏｒＥｎｇｌｉｓｈａｎｄＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｄｅｔｅｃｔｉｏｎｏｆｎａｔｕｒａｌｓｃｅｎｅｓｕｎｄｅｒｃｏｍｐｌｅｘｂａｃｋｇｒｏｕｎｄｃｏｎｄｉｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ：ｖｉｓｕａｌｐｅｒｃｅｐｔｉｏｎ；ｖｉｓｕａｌｓａｌｉｅｎｃｙ；ｓｗｔ；ｓｃｅｎｅｔｅｘｔ；ｔｅｘｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎ；ｖｉｓｕａｌａｔｔｅｎｔｉｏｎ；Ｃｈｉｎｅｓｅｔｅｘｔ；Ｅｎｇｌｉｓｈｔｅｘｔ收稿日期：２０１６－０４－０７．网络出版日期：２０１７－０６－３０．基金项目：国家自然基金河南人才培养联合基金项目（Ｕ１２０４７０３，Ｕ１３０４６１４）．通信作者：吕国宁．Ｅ⁃ｍａｉｌ：ｓｊｚｍｄｗｘｑｚｚ＠ｏｕｔｌｏｏｋ．ｃｏｍ．互联网技术与电子技术的高速发展下，人们逐渐形成以数字图像与视频分享信息交流感情习惯，因此在电子设备与网络中存在着海量的数字图像信息。这些图像信息普遍来自人类生活的自然场景，其中存在着不计其数的关键文字信息。如何有效提取数字图像中的关键文字信息，是有效管理电子设备与网络中的数字图像的重要手段。而有效准确提取数字图像中的关键文字信息是当今一个颇具挑战性的工作，受到研究者的广泛关注。数字图像中文字的提取根据文字种类分为人工文字和场景文字［１］，前者是人们后期添加到图像上的文字，如视频字幕、电影中的说明文字及比赛计分牌等，后者是自然场景中真实存在并通过数字成像设备保存在数字图像中的文字，如交通标示、街道名称、广告海报以及商店招牌等。场景文字的提取因为没有场景先验知识，且受到场景中周围环境、相机参数及光照因素的影响，因而它比人工文字的提取具有更大难度。场景图像文字定位算法通常分为两类：基于滑动窗口的方法和基于连通域的方法。文献［２－３］隶属基于滑动窗口的方法，首先使用滑动窗口遍历图像各个尺度，分类器判定每一个滑动窗口区域是否包含文字并给出置信度；然后将各个尺度置信度叠加，得到置信图；最后根据置信图分割得到文字区域。文献［４－５］分别利用笔画与最大极值稳定区域获取连通域作为文字候选区域，然后使用分类器对文字候选区域进行验证（保留文字区域，剔除背景区域），最后将单个文字聚合成文本行。基于滑动

.564. 智能系统学报第12卷窗口的方法因为需要遍历图像各个尺度，故速度较 1.1颜色通道的对比度视觉显著性模型慢，但抗干扰能力稍强于基于连通域的方法：基于颜色通道的对比度视觉显著性模型是建立在连通域的方法速度较快，但容易受到复杂背景干扰。以上算法各有利弊，但都存在复杂背景干扰造 Opponent Color space上。式(1)中L是Opponent 成定位效果不佳的问题，并且两类性能远不如人类 Color Space中的亮度分量，RG是Opponent Color 自身。本文思路来源于文献[6]。针对该问题，本 Space中红色-绿色分量，BY是Opponent Color 文尝试参照人类视觉感知机制设计算法。人类视 Space中蓝色-黄色分量。觉感知机制按照如下进行：首先进行快速简单的并行预注意过程，此过程能够快速获得显著性目标， L=5+g+b 3 消除复杂背景的影响：然后完成一个较慢的复杂的串行注意过程，有意识地剔除无效显著性目标，突 r-g RG= (1) 出感兴趣的显著性目标。 max(r,g,b) 参考以上两个步骤，本文方法分为3个步骤。 BY= b-min(r,g) 首先，本文方法采用颜色通道的对比度显著性算法 max(r,g,b) 与谱残差显著性算法获得显著性区域：然后，基于式中：「、g与b代表彩色图像的红色、绿色与蓝色显著性区域运用单极性笔画宽度变换获得文字候选区域：最后，根据文字候选区域自身信息与相互分量。之间信息，利用图模型筛选得到文字区域。第一个在以上三通道的基础上，针对每一个通道计算步骤对应于人类的快速简单的并行预注意过程，后对比度图。对比度图计算方法如式(2)所示是以滑两个步骤相当于较慢的复杂的串行注意过程。动窗口的方式遍历颜色通道图中每一像素，计算当本文创新点在于利用颜色通道的对比度显著性与谱残差显著性获得显著性区域以减少后续算法的虚警前像素与周围邻域像素均值的差的绝对值作为相率，并根据显著性算法设计单极性笔画宽度变换。应像素的对比度值。式(2)中C(i,)表示当前颜色通道在位置(i,j)的对比度值，I(i,)是该颜色通 1 视觉显著性算法本节结合两种显著性模型获得显著性区域，颜色道当前位置的强度值，I(i,)代表该颜色通道当前通道的对比度视觉显著性模型侧重基于颜色的对比度位置的邻域强度均值。同时，为了增加算法普适较大的区域，而谱残差显著性模型则偏重于边缘丰富性，需要考虑到滑动窗口尺寸问题。的区域。这两种偏好均符合场景文字的对比度突出和边缘丰富的特点，可以较好互补完成文字显著性区域 C(i,j)=abs(I(i,j)-I(i,j)) (2) 检测。视觉显著性算法流程图如图1。 ws=(1/2")×min(w,h) (3) 式中：σ=[45678]是滑动窗口的尺度因子，0 输人图像与h为图像的宽度与高度。最后，将不同尺寸的滑动窗口下得到的对比度颜色通道的对比谱残差显若图进行线性叠加并进行归一化得到颜色通道的显度显著性计算性计算著性图。本节选取了红色-绿色通道与蓝色-黄色颜色通道的对比谱残差显著性区通道进行对比度显著性计算，并逐像素对二者取几度显著性区域域进行单极性进行单极性SWT SWT 何平均与高斯滤波，如图2。图模型场景文宁候选区域验证文字行聚合 ESSEX 巧 SUMMER SCHOOL IN DATA ANALYSIS 场景文字检测 4311 定位完成图1算法流程图 Fig.1 Algorithm flow chart (a)原图

窗口的方法因为需要遍历图像各个尺度，故速度较慢，但抗干扰能力稍强于基于连通域的方法；基于连通域的方法速度较快，但容易受到复杂背景干扰。以上算法各有利弊，但都存在复杂背景干扰造成定位效果不佳的问题，并且两类性能远不如人类自身。本文思路来源于文献［６］。针对该问题，本文尝试参照人类视觉感知机制设计算法。人类视觉感知机制按照如下进行：首先进行快速简单的并行预注意过程，此过程能够快速获得显著性目标，消除复杂背景的影响；然后完成一个较慢的复杂的串行注意过程，有意识地剔除无效显著性目标，突出感兴趣的显著性目标。参考以上两个步骤，本文方法分为３个步骤。首先，本文方法采用颜色通道的对比度显著性算法与谱残差显著性算法获得显著性区域；然后，基于显著性区域运用单极性笔画宽度变换获得文字候选区域；最后，根据文字候选区域自身信息与相互之间信息，利用图模型筛选得到文字区域。第一个步骤对应于人类的快速简单的并行预注意过程，后两个步骤相当于较慢的复杂的串行注意过程。本文创新点在于利用颜色通道的对比度显著性与谱残差显著性获得显著性区域以减少后续算法的虚警率，并根据显著性算法设计单极性笔画宽度变换。１视觉显著性算法本节结合两种显著性模型获得显著性区域，颜色通道的对比度视觉显著性模型侧重基于颜色的对比度较大的区域，而谱残差显著性模型则偏重于边缘丰富的区域。这两种偏好均符合场景文字的对比度突出和边缘丰富的特点，可以较好互补完成文字显著性区域检测。视觉显著性算法流程图如图１。图１算法流程图Ｆｉｇ．１Ａｌｇｏｒｉｔｈｍｆｌｏｗｃｈａｒｔ１．１颜色通道的对比度视觉显著性模型颜色通道的对比度视觉显著性模型是建立在ＯｐｐｏｎｅｎｔＣｏｌｏｒｓｐａｃｅ上。式（１）中Ｌ是ＯｐｐｏｎｅｎｔＣｏｌｏｒＳｐａｃｅ中的亮度分量，ＲＧ是ＯｐｐｏｎｅｎｔＣｏｌｏｒＳｐａｃｅ中红色－绿色分量，ＢＹ是ＯｐｐｏｎｅｎｔＣｏｌｏｒＳｐａｃｅ中蓝色－黄色分量。Ｌ＝ｒ＋ｇ＋ｂ３ＲＧ＝ｒ－ｇｍａｘ（ｒ，ｇ，ｂ）ＢＹ＝ｂ－ｍｉｎ（ｒ，ｇ）ｍａｘ（ｒ，ｇ，ｂ）（１）式中：ｒ、ｇ与ｂ代表彩色图像的红色、绿色与蓝色分量。在以上三通道的基础上，针对每一个通道计算对比度图。对比度图计算方法如式（２）所示是以滑动窗口的方式遍历颜色通道图中每一像素，计算当前像素与周围邻域像素均值的差的绝对值作为相应像素的对比度值。式（２）中Ｃ（ｉ，ｊ）表示当前颜色通道在位置（ｉ，ｊ）的对比度值，Ｉ（ｉ，ｊ）是该颜色通道当前位置的强度值，Ｉ－ (ｉ，ｊ) 代表该颜色通道当前位置的邻域强度均值。同时，为了增加算法普适性，需要考虑到滑动窗口尺寸问题。Ｃ（ｉ，ｊ）＝ａｂｓ（Ｉ（ｉ，ｊ）－Ｉ－（ｉ，ｊ））（２）ｗｓ＝（１／２ σ ） × ｍｉｎ（ｗ，ｈ）（３）式中： σ ＝ [４５６７８] 是滑动窗口的尺度因子，ｗ与ｈ为图像的宽度与高度。最后，将不同尺寸的滑动窗口下得到的对比度图进行线性叠加并进行归一化得到颜色通道的显著性图。本节选取了红色－绿色通道与蓝色－黄色通道进行对比度显著性计算，并逐像素对二者取几何平均与高斯滤波，如图２。（ａ）原图 ·５６４· 智能系统学报第１２卷

第4期吕国宁，等：视觉感知式场景文字检测定位方法 ·565. 1.2谱残差视觉显著性模型谱残差视觉显著性算法[]是快速可靠且无需先验知识的显著性算法，它分为3步：1)将彩色图 ESSEX ESSEX 像灰度化并进行适当缩放和预处理：2)对前一步产 SUMMER SCHOOL SUMMER SCHOOI IN DATA ANALYSIS IN DATA ANALYSIS 生的灰度图像傅里叶幅度对数谱进行卷积均值滤 4.311 4.311 波：3)从图像傅里叶幅度对数谱中减去上一步的均值滤波结果，最终得到显著性图S。式(4)描述谱 (b)红色-绿色通道与蓝色一黄色通道原图残差视觉显著性模型的求解 S=log(A(1))-h()log(A(1))(4) 式中：A(I)表示图像的傅里叶幅度谱，log(A(I)) 生阳变表示图像的傅里叶幅度对数谱，h(I)表示均值 SUPRER SCHOOL 滤波。 NDANLSS 图3显示的是利用谱残差视觉显著性模型得到 4.3ff 的场景文字显著性图。上面一行图像是场景文字的原图，下面一行图像是对应的谱残差显著性图， (c)=5 图像亮度代表显著性程度。谱残差视觉显著性算法有效检测自然场景中包含文字的边缘丰富区域，但同时也会因为环境中其他边缘丰富的元素产生虚警率。 ESSEX ESSEX SUMMER SCHOOL SUMMER SCHOOL IN DATA ANALYSIS I时DATA ANALYSIS 4.31 431 (d)w=8 ESSEX ESSEX SUMMER SCHOOL SUMMER SCHOOL IN DATA ANALYSIS IN DATA ANALYSIS 4.311 431 (e)两个尺度结合图3谱残差显著性效果图 Fig.3 Spectral residue saliency map 1.3显著性区域以上两种显著性图的取值范围是介于0~1之间，对二者计算显著性图，本质是进行二值化。因此可以使用改进的大津法求取显著图的二值化阈值T,,二值化阈值T,将显著图分为显著性区域与非显著性区域。 1)首先采用大津法得到阈值t,然后在训练数 ()两个通道显著性图结合据集中设定显著区域中文字召回率的阈值T,初始图2颜色通道的显著性效果图化系数α为1，以0.01为步长递减系数a,直到首次 Fig.2 Saliency map of color channel 显著区域中文字召回率R首次达到阈值T即停止

（ｂ）红色－绿色通道与蓝色－黄色通道原图（ｃ）σ＝５（ｄ）σ＝８（ｅ）两个尺度结合（ｆ）两个通道显著性图结合图２颜色通道的显著性效果图Ｆｉｇ．２Ｓａｌｉｅｎｃｙｍａｐｏｆｃｏｌｏｒｃｈａｎｎｅｌ１．２谱残差视觉显著性模型谱残差视觉显著性算法［７］是快速可靠且无需先验知识的显著性算法，它分为３步：１）将彩色图像灰度化并进行适当缩放和预处理；２）对前一步产生的灰度图像傅里叶幅度对数谱进行卷积均值滤波；３）从图像傅里叶幅度对数谱中减去上一步的均值滤波结果，最终得到显著性图Ｓ。式（４）描述谱残差视觉显著性模型的求解Ｓ＝ｌｏｇ (Ａ(Ｉ) ) －ｈ(Ｉ) ∗ｌｏｇ (Ａ(Ｉ) ) （４）式中：Ａ（Ｉ）表示图像的傅里叶幅度谱，ｌｏｇ（Ａ（Ｉ））表示图像的傅里叶幅度对数谱，ｈ（Ｉ）表示均值滤波。图３显示的是利用谱残差视觉显著性模型得到的场景文字显著性图。上面一行图像是场景文字的原图，下面一行图像是对应的谱残差显著性图，图像亮度代表显著性程度。谱残差视觉显著性算法有效检测自然场景中包含文字的边缘丰富区域，但同时也会因为环境中其他边缘丰富的元素产生虚警率。图３谱残差显著性效果图Ｆｉｇ．３Ｓｐｅｃｔｒａｌｒｅｓｉｄｕｅｓａｌｉｅｎｃｙｍａｐ１．３显著性区域以上两种显著性图的取值范围是介于０～１之间，对二者计算显著性图，本质是进行二值化。因此可以使用改进的大津法求取显著图的二值化阈值Ｔ′ｓ，二值化阈值Ｔ′ｓ将显著图分为显著性区域与非显著性区域。１）首先采用大津法得到阈值ｔ，然后在训练数据集中设定显著区域中文字召回率的阈值ＴＲ，初始化系数 α 为１，以０．０１为步长递减系数 α ，直到首次显著区域中文字召回率Ｒ首次达到阈值ＴＲ即停止，第４期吕国宁，等：视觉感知式场景文字检测定位方法 ·５６５·

·566· 智能系统学报第12卷最终通过式(5)计算得到阈值T”,。颜色通道的对比度显著性算法系数为α。=1，谱残差显著性算法系数为α，=0.73。在得到两种显著性区域后，分别进行数学形态学操作，并填补去除显著性区域中的 MIDDLEBOROUCH 孔洞。 T',=a×t (5) 2 单极性笔画宽度变换算法 (b)SWT方向与文字极性不符笔画(Stroke)是图像中相邻的能够形成近似恒定宽度的条带部分)。而“笔画宽度”则被定义为近似恒定宽度的条带边缘之间的距离，即图4中P 与g像素之间的距离w。 AIDDLEBOROUCH 笔画宽度变换[s劉(SWT)为数字图像中所有像素计算对应的笔画宽度。此种变换最终结果是笔画宽度图，图中每一像素值是其笔画宽度。 (c)SWT方向与文字极性相符 2.0*10 1.8 1.6 1.4 12 1.0 0.8 图4笔画宽度计算方法图 0.6 Fig.4 Stroke width map 0.4 0 通常自然场景中的文字存在黑暗背景明亮文 o--- 5 10 15 20 字与黑暗文字明亮背景两种极性，因此在无任何先 (d)图(b)对应笔画宽度直方图验知识情况下需要沿边缘像素的梯度方向与反梯 ×104 3.0 度方向进行两次SWT。图5(b)中SWT的方向与场 2.5 景文字极性不符，图5(b)中SWT的方向与场景文字极性相符。可看出，两次SWT固然可以保证自然 2.0 场景中两种极性的文字不遗漏，但也增加大量非文字区域的虚警。对此，本节基于视觉显著性提出两种极性判断条件，并据此设计单极性SWT算法。图 05 5(d)、(e)是分别对应(b)、(c)的笔画宽度直方图，从中可看出，当极性正确情况下笔画宽度直方图更 10 15 20 25 加集中。 (e)图(c)对应笔画宽度直方图图5场景文字极性与笔画宽度直方图关系 Fig.5 The relation between the pole of scene text and stroke width histogram 极性判断条件： ①起始阶段不做极性判断，任意选择一种极性在显著性区域进行SWT。若其间，任一边缘像素的射线越过显著性区域边界，则此显著性区域为相反 (a)原图极性

最终通过式（５）计算得到阈值Ｔ′ｓ。颜色通道的对比度显著性算法系数为 αｃ＝１，谱残差显著性算法系数为 αｓ＝０．７３。在得到两种显著性区域后，分别进行数学形态学操作，并填补去除显著性区域中的孔洞。Ｔ′ｓ＝ α × ｔ（５）２单极性笔画宽度变换算法笔画（Ｓｔｒｏｋｅ）是图像中相邻的能够形成近似恒定宽度的条带部分［８］。而“笔画宽度”则被定义为近似恒定宽度的条带边缘之间的距离，即图４中ｐ与ｑ像素之间的距离ｗ。笔画宽度变换［８］（ＳＷＴ）为数字图像中所有像素计算对应的笔画宽度。此种变换最终结果是笔画宽度图，图中每一像素值是其笔画宽度。图４笔画宽度计算方法图Ｆｉｇ．４Ｓｔｒｏｋｅｗｉｄｔｈｍａｐ通常自然场景中的文字存在黑暗背景明亮文字与黑暗文字明亮背景两种极性，因此在无任何先验知识情况下需要沿边缘像素的梯度方向与反梯度方向进行两次ＳＷＴ。图５（ｂ）中ＳＷＴ的方向与场景文字极性不符，图５（ｂ）中ＳＷＴ的方向与场景文字极性相符。可看出，两次ＳＷＴ固然可以保证自然场景中两种极性的文字不遗漏，但也增加大量非文字区域的虚警。对此，本节基于视觉显著性提出两种极性判断条件，并据此设计单极性ＳＷＴ算法。图５（ｄ）、（ｅ）是分别对应（ｂ）、（ｃ）的笔画宽度直方图，从中可看出，当极性正确情况下笔画宽度直方图更加集中。（ａ）原图（ｂ）ＳＷＴ方向与文字极性不符（ｃ）ＳＷＴ方向与文字极性相符（ｄ）图（ｂ）对应笔画宽度直方图（ｅ）图（ｃ）对应笔画宽度直方图图５场景文字极性与笔画宽度直方图关系Ｆｉｇ．５Ｔｈｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｔｈｅｐｏｌｅｏｆｓｃｅｎｅｔｅｘｔａｎｄｓｔｒｏｋｅｗｉｄｔｈｈｉｓｔｏｇｒａｍ极性判断条件： ①起始阶段不做极性判断，任意选择一种极性在显著性区域进行ＳＷＴ。若其间，任一边缘像素的射线越过显著性区域边界，则此显著性区域为相反极性。 ·５６６· 智能系统学报第１２卷

第4期吕国宁，等：视觉感知式场景文字检测定位方法 ·567. ②如果两种极性SWT计算中均未发生边缘像表1图模型用到的特征素的射线越过显著性区域边界情况，则对该显著性 Tablel The feature used in graph model 区域两种极性的笔画宽度图求直方图。按照式(6) 一元代价函数特征二元代价函数特征计算两种极性的笔画宽度直方图的集中度，集中度宽高比/h 颜色较大的极性为此显著性区域的极性。占有率N/(w*h) 笔画宽度 h)=Σ(h(0-hi-) (6) N=2 笔画特征1strokeWidth/max(w,h) 式中：h代表笔画宽度直方图，N是划分的bin数笔画特征2var(strokewidth)/ 目，i代表bin的编号。 mean(strokewidth) 边缘强度N/八o*h) 3 基于图模型的文字候选区域验证与文字行聚合 4 实验与分析无向图模型通常被用于图像分割，本节尝试将本文实验图像来自ICDAR20I3场景文字定位其表示文字候选区域相互之间的关系，并将文字候竞赛数据集。ICDAR2013场景文字定位竞赛数据选区域使用最大流/最小割方法标注为文字与背景。集是目前英语文字定位算法的主流测试数据集，它在文字候选区域的无向图G={V,E}中，顶点取代了2011年之前的主流数据集即ICDAR2005场 V是文字候选区域，边缘E连接着顶点V,表示着文景文字定位竞赛数据集。ICDAR2013场景文字定字候选区域的相互关系。当文字候选区域满足如位竞赛数据集包含训练与测试两部分，本文随机森式(7)关系则二者相邻。其中x:x分别代表两个文林分类器的训练数据集来自ICDAR2013场景文字字候选区域的位置，0：、0：分别代表两个文字候选定位竞赛数据集的训练集，算法评估则在测试集上区域的宽度，h:、h,分别代表两个文字候选区域的高完成，结果如表2。表2中的R代表召回率，P代表度，dist(x:,)分别代表两个文字候选区域的实际准确率，F代表综合性能，评价方法按照竞赛标距离。准。从表2可以看出本文算法与竞赛大多数算 dist(x:,x）0.4 确率与综合性能)分别比表2中算法第一名的3项 A min(hih;)/max(hi,h;)>0.4 (7) 指标分别高1.48%、0.45%与0.82%。无向图G的代价函数如式(8)所示。本文同时对自然场景汉字进行了测试，使用的数据集如文献[12]描述，评价标准参照文献[11]， E(A)=∑U,(A)+∑B(A) (8) p=1 (p.9]eN 实验结果如表3所示。如文献[12]是2012~2013 式中：U是一元代价函数，B是二元代价函数。一年间国内研究者算法性能，可以看出本文算法远好元代价函数是使用如表1中5个特征根据随机森林于以上两种算法。值得说明，因为国际研究者鲜有分类器输出得到。公开的受到研究者一致认可的场景汉字数据集，所 0.5 x Diseolor +0.5 x Disatroke 以可参照的算法与数据集不多。 Bip.)exp 2×σ2 表2 ICDAR2013文字定位竞赛数据集实验结果 (9) Table2 The result in ICDAR 2013 Task2 dataset 式(9)是二元代价函数，Dis与Dis分别代表两算法性能方法个相邻文字候选区域的颜色差值与笔画宽度差值。 R P 最终，图模型求解即文字候选区域的标注则采 USTB TexStar 66.45 88.47 75.90 用文献[9]的最大流/最小割算法。 TextSpotter 64.84 87.51 74.49 在进行文字候选区域验证后，根据文字高度的 CASIA NLPR 68.24 78.89 73.18 相似性、笔画宽度的相似性、颜色的相似性与相对本文算法 67.93 88.92 76.72 位置关系采用启发规则进行文字行的聚合

②如果两种极性ＳＷＴ计算中均未发生边缘像素的射线越过显著性区域边界情况，则对该显著性区域两种极性的笔画宽度图求直方图。按照式（６）计算两种极性的笔画宽度直方图的集中度，集中度较大的极性为此显著性区域的极性。ｆ(ｈ) ＝１Ｎ ∑ Ｎｉ＝２（ｈ(ｉ) －ｈ(ｉ－１) ）（６）式中：ｈ代表笔画宽度直方图，Ｎ是划分的ｂｉｎ数目，ｉ代表ｂｉｎ的编号。３基于图模型的文字候选区域验证与文字行聚合无向图模型通常被用于图像分割，本节尝试将其表示文字候选区域相互之间的关系，并将文字候选区域使用最大流／最小割方法标注为文字与背景。在文字候选区域的无向图Ｇ＝｛Ｖ，Ｅ｝中，顶点Ｖ是文字候选区域，边缘Ｅ连接着顶点Ｖ，表示着文字候选区域的相互关系。当文字候选区域满足如式（７）关系则二者相邻。其中ｘｉ、ｘｊ分别代表两个文字候选区域的位置，ｗｉ、ｗｊ分别代表两个文字候选区域的宽度，ｈｉ、ｈｊ分别代表两个文字候选区域的高度，ｄｉｓｔ（ｘｉ，ｘｊ）分别代表两个文字候选区域的实际距离。ｄｉｓｔ（ｘｉ，ｘｊ）＜２ × ｍｉｎ（ｍａｘ（ｗｉ，ｈｉ），ｍａｘ（ｗｊ，ｈｊ）） ∧ ｍｉｎ（ｗｉ，ｗｊ）／ｍａｘ（ｗｉ，ｗｊ）＞０．４ ∧ ｍｉｎ（ｈｉ，ｈｊ）／ｍａｘ（ｈｉ，ｈｊ）＞０．４（７）无向图Ｇ的代价函数如式（８）所示。Ｅ(Ａ) ＝ ∑ Ｐｐ＝１Ｕｐ (Ａ) ＋ {ｐ∑，ｑ} ∈ＮＢ{ｐ，ｑ} (Ａ) （８）式中：Ｕ是一元代价函数，Ｂ是二元代价函数。一元代价函数是使用如表１中５个特征根据随机森林分类器输出得到。Ｂ{ｐ，ｑ} ＝ｅｘｐ－０．５ × Ｄｉｓｃｏｌｏｒ＋０．５ × Ｄｉｓｓｔｒｏｋｅ２ × σ ２ æ è ç ö ø ÷ （９）式（９）是二元代价函数，Ｄｉｓｃｏｌ与Ｄｉｓｓｔｒｏｋｅ分别代表两个相邻文字候选区域的颜色差值与笔画宽度差值。最终，图模型求解即文字候选区域的标注则采用文献［９］的最大流／最小割算法。在进行文字候选区域验证后，根据文字高度的相似性、笔画宽度的相似性、颜色的相似性与相对位置关系采用启发规则进行文字行的聚合。表１图模型用到的特征Ｔａｂｌｅ１Ｔｈｅｆｅａｔｕｒｅｕｓｅｄｉｎｇｒａｐｈｍｏｄｅｌ一元代价函数特征二元代价函数特征宽高比ｗ／ｈ颜色占有率Ｎｃｃ／（ｗ∗ｈ）笔画宽度笔画特征１ｓｔｒｏｋｅＷｉｄｔｈ／ｍａｘ（ｗ，ｈ）笔画特征２ｖａｒ（ｓｔｒｏｋｅｗｉｄｔｈ）／ｍｅａｎ（ｓｔｒｏｋｅｗｉｄｔｈ）边缘强度Ｎｅｄｇｅ／（ｗ∗ｈ）４实验与分析本文实验图像来自ＩＣＤＡＲ２０１３场景文字定位竞赛数据集。ＩＣＤＡＲ２０１３场景文字定位竞赛数据集是目前英语文字定位算法的主流测试数据集，它取代了２０１１年之前的主流数据集即ＩＣＤＡＲ２００５场景文字定位竞赛数据集。ＩＣＤＡＲ２０１３场景文字定位竞赛数据集包含训练与测试两部分，本文随机森林分类器的训练数据集来自ＩＣＤＡＲ２０１３场景文字定位竞赛数据集的训练集，算法评估则在测试集上完成，结果如表２。表２中的Ｒ代表召回率，Ｐ代表准确率，Ｆ代表综合性能，评价方法按照竞赛标准［１０］。从表２可以看出本文算法与竞赛大多数算法相比是具有竞争力的，３个性能指标（召回率、准确率与综合性能）分别比表２中算法第一名的３项指标分别高１．４８％、０．４５％与０．８２％。本文同时对自然场景汉字进行了测试，使用的数据集如文献［１２］描述，评价标准参照文献［１１］，实验结果如表３所示。如文献［１２］是２０１２～２０１３年间国内研究者算法性能，可以看出本文算法远好于以上两种算法。值得说明，因为国际研究者鲜有公开的受到研究者一致认可的场景汉字数据集，所以可参照的算法与数据集不多。表２ＩＣＤＡＲ２０１３文字定位竞赛数据集实验结果Ｔａｂｌｅ２ＴｈｅｒｅｓｕｌｔｉｎＩＣＤＡＲ２０１３Ｔａｓｋ２ｄａｔａｓｅｔ％方法算法性能ＲＰＦＵＳＴＢ＿ＴｅｘＳｔａｒ６６．４５８８．４７７５．９０ＴｅｘｔＳｐｏｔｔｅｒ６４．８４８７．５１７４．４９ＣＡＳＩＡ＿ＮＬＰＲ６８．２４７８．８９７３．１８本文算法６７．９３８８．９２７６．７２第４期吕国宁，等：视觉感知式场景文字检测定位方法 ·５６７·

·568. 智能系统学报第12卷表3场景汉字数据集实验结果化高度为480，每幅图像平均耗时1.2s。场景文字 Table3 The result in Chinese scene text dataset % 验证阶段的随机森林分类器由150棵树组成，采用算法性能方法交叉验证的方法进行训练，轮流用2/3训练样本训 R P F 练和1/3样本验证。文献[12] 72 88 76 文献[13] 73 68 71 图6是本文方法效果图，可以看出本文方法取本文算法 74 89 79 得不错效果，较好排除背景干扰，有效检测定位图实验在Intel E74O0/2GRAM,MATLAB混合编像中的场景英文和场景汉字。本文方法是对英文程情况下完成，实验中单幅图像均保持长宽比归一与汉字同时有效。生目移通目唱四圆 GDC正 8题刀发邑 RDR西 STARWARS 01008 配 Save 困翅 Linen actoru 8超可发因图6算法效果图 Fig.6 Algorithm result 结论与展望 in images and video:a survey [J].Pattern recognition, 5 2004,37(5):977-997. 本文提出一种视觉感知式场景文字检测定位 [2]BAI Bo,YIN Fei,LIU Chenglin.Scene text localization u- 方法。该方法首先利用颜色通道的对比度显著性 sing gradient local correlation[C]//International Conference 与谱残差显著性获得显著性区域，然后在显著兴趣 on Document Analysis and Recognition,Washington DC, 2013:1412-1416. 区域中采用单极性笔画宽度变换得到文字候选区 [3]姜维，卢朝阳，李静，等.针对场景文字的基于视觉显域，最后再根据文字候选区域自身信息与相互之间著性和提升框架的背景抑制方法[J].电子与信息学报，信息基于图模型筛选得到文字区域。第1个步骤对 2014,36(3):617-623. 应于视觉感知机制的预注意过程，后两个步骤对应 JIANG Wei,LU Zhaoyang,LI Jing,et al.Visual saliency 于视觉感知机制的注意过程。实验表明，本文方法 and boosting based background suppression for scene text 在ICDAR2013与ICDAR2005竞赛数据集中取得 []Journal of electronics information technology,2014, 较有竞争力的结果。本文创新点在于利用颜色通 36(3):617-623. 道的对比度显著性与谱残差显著性获得显著性区 [4]CONG Yao,et al.Detecting texts of arbitrary orientations in 域以减少后续算法的虚警率，并根据显著性算法设 natural images[C]//IEEE Conference on Computer Vision 计单极性笔画宽度变换。 and Pattern Recognition,Providence.2012:1083-1090. [5]LI Yao,JIA Wenjing,SHEN Chunhua,et al.Characterness: 参考文献： an indicator of text in the wild[J].IEEE transactions on image processing,2014,23(4):1666-1677. [1]JUNG K,KIM K I,JAIN A K.Text information extraction [6]赵春晖，王佳，王玉磊.采用背景抑制和自适应阈值分

表３场景汉字数据集实验结果Ｔａｂｌｅ３ＴｈｅｒｅｓｕｌｔｉｎＣｈｉｎｅｓｅｓｃｅｎｅｔｅｘｔｄａｔａｓｅｔ％方法算法性能ＲＰＦ文献［１２］７２８８７６文献［１３］７３６８７１本文算法７４８９７９实验在ＩｎｔｅｌＥ７４００／２ＧＲＡＭ，ＭＡＴＬＡＢ混合编程情况下完成，实验中单幅图像均保持长宽比归一化高度为４８０，每幅图像平均耗时１．２ｓ。场景文字验证阶段的随机森林分类器由１５０棵树组成，采用交叉验证的方法进行训练，轮流用２／３训练样本训练和１／３样本验证。图６是本文方法效果图，可以看出本文方法取得不错效果，较好排除背景干扰，有效检测定位图像中的场景英文和场景汉字。本文方法是对英文与汉字同时有效。图６算法效果图Ｆｉｇ．６Ａｌｇｏｒｉｔｈｍｒｅｓｕｌｔ５结论与展望本文提出一种视觉感知式场景文字检测定位方法。该方法首先利用颜色通道的对比度显著性与谱残差显著性获得显著性区域，然后在显著兴趣区域中采用单极性笔画宽度变换得到文字候选区域，最后再根据文字候选区域自身信息与相互之间信息基于图模型筛选得到文字区域。第１个步骤对应于视觉感知机制的预注意过程，后两个步骤对应于视觉感知机制的注意过程。实验表明，本文方法在ＩＣＤＡＲ２０１３与ＩＣＤＡＲ２００５竞赛数据集中取得较有竞争力的结果。本文创新点在于利用颜色通道的对比度显著性与谱残差显著性获得显著性区域以减少后续算法的虚警率，并根据显著性算法设计单极性笔画宽度变换。参考文献：［１］ＪＵＮＧＫ，ＫＩＭＫＩ，ＪＡＩＮＡＫ．Ｔｅｘｔｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎｉｎｉｍａｇｅｓａｎｄｖｉｄｅｏ：ａｓｕｒｖｅｙ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００４，３７（５）：９７７－９９７．［２］ＢＡＩＢｏ，ＹＩＮＦｅｉ，ＬＩＵＣｈｅｎｇｌｉｎ．Ｓｃｅｎｅｔｅｘｔｌｏｃａｌｉｚａｔｉｏｎｕ⁃ ｓｉｎｇｇｒａｄｉｅｎｔｌｏｃａｌｃｏｒｒｅｌａｔｉｏｎ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ，ＷａｓｈｉｎｇｔｏｎＤＣ，２０１３：１４１２－１４１６．［３］姜维，卢朝阳，李静，等．针对场景文字的基于视觉显著性和提升框架的背景抑制方法［Ｊ］．电子与信息学报，２０１４，３６（３）：６１７－６２３．ＪＩＡＮＧＷｅｉ，ＬＵＺｈａｏｙａｎｇ，ＬＩＪｉｎｇ，ｅｔａｌ．Ｖｉｓｕａｌｓａｌｉｅｎｃｙａｎｄｂｏｏｓｔｉｎｇｂａｓｅｄｂａｃｋｇｒｏｕｎｄｓｕｐｐｒｅｓｓｉｏｎｆｏｒｓｃｅｎｅｔｅｘｔ［Ｊ］．Ｊｏｕｒｎａｌｏｆｅｌｅｃｔｒｏｎｉｃｓ＆ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，２０１４，３６（３）：６１７－６２３．［４］ＣＯＮＧＹａｏ，ｅｔａｌ．Ｄｅｔｅｃｔｉｎｇｔｅｘｔｓｏｆａｒｂｉｔｒａｒｙｏｒｉｅｎｔａｔｉｏｎｓｉｎｎａｔｕｒａｌｉｍａｇｅｓ［Ｃ］／／ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｖｉｄｅｎｃｅ．２０１２：１０８３－１０９０．［５］ＬＩＹａｏ，ＪＩＡＷｅｎｊｉｎｇ，ＳＨＥＮＣｈｕｎｈｕａ，ｅｔａｌ．Ｃｈａｒａｃｔｅｒｎｅｓｓ：ａｎｉｎｄｉｃａｔｏｒｏｆｔｅｘｔｉｎｔｈｅｗｉｌｄ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｉｍａｇｅｐｒｏｃｅｓｓｉｎｇ，２０１４，２３（４）：１６６６－１６７７．［６］赵春晖，王佳，王玉磊．采用背景抑制和自适应阈值分 ·５６８· 智能系统学报第１２卷

第4期吕国宁，等：视觉感知式场景文字检测定位方法 ·569- 割的高光谱异常目标检测[J].哈尔滨工程大学学报， [11]LUCAS S M.ICDAR 2005 text locating competition results 2016,37(2):278-283. [C]//8th International Conference on Document Analysis ZHAO Chunhui,WANG Jia,WANG Yulei.Hyperspectral and Recognition.2005:80-84. anomaly detection based on background suppression and a- [12]姜维，卢朝阳，李静，等.基于角点类别特征和边缘幅值 daptive threshold segmentation[J].Journal of Harbin engi- 方向梯度直方图统计特征的复杂场景文字定位算法 neering university,2016,37(2):278-283.[7]HOU X [J].吉林大学学报：工学版，2013,43(1)：250-255. D,ZHANG L Q.Saliency detection:a spectral residual ap- JIANG Wei,LU Zhaoyang,LI Jing,et al.Text localization proach[C]//IEEE Conference on Computer Vision and Pat- algorithm in complex scene based on corner-type feature tern Recognition,Minneapolis,2007:1-8. and histogram of oriented gradients of edge magnitude sta- [8]EPSHTEIN B,OFEK E,WEXLER Y.Detecting text in tistical feature[J].Journal of Jilin University:engineering natural scenes with stroke width transform C//IEEE Inter- and technology edition,2013,43(1):250-255. national Conference on Computer Vision and Pattern Recog- 作者简介： nition.San Francisco,2010:2963-2970. [9]BOYKOV Y,KOLMOGOROV V.An experimental compari- 吕国宁，男，1981年生，讲师，主要 son of min-cut/max-flow algorithms for energy minimization 研究方向为人工智能和大数据。 in vision[J].IEEE transaction pattern analysis and machine intelligence,2004,26(9):1124-1137. [10]KARATZAS D,SHAFAIT F,UCHIDA S,et al.ICDAR 2013 Robust Reading Competition[C]//IEEE International Confer- ence on Document Analysis and Recognition.Washington DC, 2013:1484-1493. 2017机器人及机电一体化国际会议(ICRoM2017) 2017 the International Conference on Robotics and Mechantronics (ICRoM 2017) 2017 the International Conference on Robotics and Mechantronics(ICRoM 2017)will be held during December 12- 14,2017,Hongkong. Topics of interest include all aspects,but not limited to: Mechatronics and Robotics Lean Manufacturing Logistics Actuator design,robotic mechanisms and design, Machine Vision robot kinematics and dynamics Management of Technology Agile Manufacturing Manufacturing Mining robotics Mobile robotics Agriculture,construction,industrial automation, Modeling and Simulation Scheduling manufacturing process Nano/micro systems and applications,biological and Automation and control systems,middleware medical applications Biomedical and rehabilitation engineering,welfare Navigation,localization,manipulation robotics and mechatronics Operations Management Cellular Manufacturing Rapid Prototype Concurrent Engineering Rescue,hazardous environments Design for Manufacture and Assembly Robot intelligence and learning Distributed Control Systems Robot vision and audition Flexible Manufacturing Systems Robots and Automation FMS Artificial Intelligence Sensor design,sensor fusion,sensor networks Humanoid robots,service robots Sensor development Sensors and Applications Human-robot interaction, semi autonomous Sustainability,energy conservation,ecology systems,telerobotics Universal design and services,ubiquitous robots Information Technology Applied to and devices Knowledge Based Systems

割的高光谱异常目标检测［Ｊ］．哈尔滨工程大学学报，２０１６，３７（２）：２７８－２８３．ＺＨＡＯＣｈｕｎｈｕｉ，ＷＡＮＧＪｉａ，ＷＡＮＧＹｕｌｅｉ．Ｈｙｐｅｒｓｐｅｃｔｒａｌａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｂａｃｋｇｒｏｕｎｄｓｕｐｐｒｅｓｓｉｏｎａｎｄａ⁃ ｄａｐｔｉｖｅｔｈｒｅｓｈｏｌｄｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒｂｉｎｅｎｇｉ⁃ ｎｅｅｒｉｎｇｕｎｉｖｅｒｓｉｔｙ，２０１６，３７（２）：２７８－２８３．［７］ＨＯＵＸＤ，ＺＨＡＮＧＬＱ．Ｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎ：ａｓｐｅｃｔｒａｌｒｅｓｉｄｕａｌａｐ⁃ ｐｒｏａｃｈ［Ｃ］／／ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔ⁃ ｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｍｉｎｎｅａｐｏｌｉｓ，２００７：１－８．［８］ＥＰＳＨＴＥＩＮＢ，ＯＦＥＫＥ，ＷＥＸＬＥＲＹ．Ｄｅｔｅｃｔｉｎｇｔｅｘｔｉｎｎａｔｕｒａｌｓｃｅｎｅｓｗｉｔｈｓｔｒｏｋｅｗｉｄｔｈｔｒａｎｓｆｏｒｍ［Ｃ］／／ＩＥＥＥＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇ⁃ ｎｉｔｉｏｎ．ＳａｎＦｒａｎｃｉｓｃｏ，２０１０：２９６３－２９７０．［９］ＢＯＹＫＯＶＹ，ＫＯＬＭＯＧＯＲＯＶＶ．Ａｎｅｘｐｅｒｉｍｅｎｔａｌｃｏｍｐａｒｉ⁃ ｓｏｎｏｆｍｉｎ⁃ｃｕｔ／ｍａｘ⁃ｆｌｏｗａｌｇｏｒｉｔｈｍｓｆｏｒｅｎｅｒｇｙｍｉｎｉｍｉｚａｔｉｏｎｉｎｖｉｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００４，２６（９）：１１２４－１１３７．［１０］ＫＡＲＡＴＺＡＳＤ，ＳＨＡＦＡＩＴＦ，ＵＣＨＩＤＡＳ，ｅｔａｌ．ＩＣＤＡＲ２０１３ＲｏｂｕｓｔＲｅａｄｉｎｇＣｏｍｐｅｔｉｔｉｏｎ［Ｃ］／／ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ．ＷａｓｈｉｎｇｔｏｎＤＣ，２０１３：１４８４－１４９３．［１１］ＬＵＣＡＳＳＭ．ＩＣＤＡＲ２００５ｔｅｘｔｌｏｃａｔｉｎｇｃｏｍｐｅｔｉｔｉｏｎｒｅｓｕｌｔｓ［Ｃ］／／８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ．２００５：８０－８４．［１２］姜维，卢朝阳，李静，等．基于角点类别特征和边缘幅值方向梯度直方图统计特征的复杂场景文字定位算法［Ｊ］．吉林大学学报：工学版，２０１３，４３（１）：２５０－２５５．ＪＩＡＮＧＷｅｉ，ＬＵＺｈａｏｙａｎｇ，ＬＩＪｉｎｇ，ｅｔａｌ．Ｔｅｘｔｌｏｃａｌｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｉｎｃｏｍｐｌｅｘｓｃｅｎｅｂａｓｅｄｏｎｃｏｒｎｅｒ⁃ｔｙｐｅｆｅａｔｕｒｅａｎｄｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｏｆｅｄｇｅｍａｇｎｉｔｕｄｅｓｔａ⁃ ｔｉｓｔｉｃａｌｆｅａｔｕｒｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＪｉｌｉｎＵｎｉｖｅｒｓｉｔｙ：ｅｎｇｉｎｅｅｒｉｎｇａｎｄｔｅｃｈｎｏｌｏｇｙｅｄｉｔｉｏｎ，２０１３，４３（１）：２５０－２５５．作者简介：吕国宁，男，１９８１年生，讲师，主要研究方向为人工智能和大数据。２０１７机器人及机电一体化国际会议（ＩＣＲｏＭ２０１７）２０１７ｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＭｅｃｈａｎｔｒｏｎｉｃｓ（ＩＣＲｏＭ２０１７）２０１７ｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＭｅｃｈａｎｔｒｏｎｉｃｓ（ＩＣＲｏＭ２０１７）ｗｉｌｌｂｅｈｅｌｄｄｕｒｉｎｇＤｅｃｅｍｂｅｒ１２－１４，２０１７，Ｈｏｎｇｋｏｎｇ．Ｔｏｐｉｃｓｏｆｉｎｔｅｒｅｓｔｉｎｃｌｕｄｅａｌｌａｓｐｅｃｔｓ，ｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ：ＭｅｃｈａｔｒｏｎｉｃｓａｎｄＲｏｂｏｔｉｃｓＡｃｔｕａｔｏｒｄｅｓｉｇｎ，ｒｏｂｏｔｉｃｍｅｃｈａｎｉｓｍｓａｎｄｄｅｓｉｇｎ，ｒｏｂｏｔｋｉｎｅｍａｔｉｃｓａｎｄｄｙｎａｍｉｃｓＡｇｉｌｅＭａｎｕｆａｃｔｕｒｉｎｇＡｇｒｉｃｕｌｔｕｒｅ，ｃｏｎｓｔｒｕｃｔｉｏｎ，ｉｎｄｕｓｔｒｉａｌａｕｔｏｍａｔｉｏｎ，ｍａｎｕｆａｃｔｕｒｉｎｇｐｒｏｃｅｓｓＡｕｔｏｍａｔｉｏｎａｎｄｃｏｎｔｒｏｌｓｙｓｔｅｍｓ，ｍｉｄｄｌｅｗａｒｅＢｉｏｍｅｄｉｃａｌａｎｄｒｅｈａｂｉｌｉｔａｔｉｏｎｅｎｇｉｎｅｅｒｉｎｇ，ｗｅｌｆａｒｅｒｏｂｏｔｉｃｓａｎｄｍｅｃｈａｔｒｏｎｉｃｓＣｅｌｌｕｌａｒＭａｎｕｆａｃｔｕｒｉｎｇＣｏｎｃｕｒｒｅｎｔＥｎｇｉｎｅｅｒｉｎｇＤｅｓｉｇｎｆｏｒＭａｎｕｆａｃｔｕｒｅａｎｄＡｓｓｅｍｂｌｙＤｉｓｔｒｉｂｕｔｅｄＣｏｎｔｒｏｌＳｙｓｔｅｍｓＦｌｅｘｉｂｌｅＭａｎｕｆａｃｔｕｒｉｎｇＳｙｓｔｅｍｓＦＭＳＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＨｕｍａｎｏｉｄｒｏｂｏｔｓ，ｓｅｒｖｉｃｅｒｏｂｏｔｓＨｕｍａｎ⁃ｒｏｂｏｔｉｎｔｅｒａｃｔｉｏｎ，ｓｅｍｉ－ａｕｔｏｎｏｍｏｕｓｓｙｓｔｅｍｓ，ｔｅｌｅｒｏｂｏｔｉｃｓＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＡｐｐｌｉｅｄｔｏＫｎｏｗｌｅｄｇｅＢａｓｅｄＳｙｓｔｅｍｓＬｅａｎＭａｎｕｆａｃｔｕｒｉｎｇＬｏｇｉｓｔｉｃｓＭａｃｈｉｎｅＶｉｓｉｏｎＭａｎａｇｅｍｅｎｔｏｆＴｅｃｈｎｏｌｏｇｙＭａｎｕｆａｃｔｕｒｉｎｇＭｉｎｉｎｇｒｏｂｏｔｉｃｓＭｏｂｉｌｅｒｏｂｏｔｉｃｓＭｏｄｅｌｉｎｇａｎｄＳｉｍｕｌａｔｉｏｎＳｃｈｅｄｕｌｉｎｇＮａｎｏ／ｍｉｃｒｏｓｙｓｔｅｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，ｂｉｏｌｏｇｉｃａｌａｎｄｍｅｄｉｃａｌａｐｐｌｉｃａｔｉｏｎｓＮａｖｉｇａｔｉｏｎ，ｌｏｃａｌｉｚａｔｉｏｎ，ｍａｎｉｐｕｌａｔｉｏｎＯｐｅｒａｔｉｏｎｓＭａｎａｇｅｍｅｎｔＲａｐｉｄＰｒｏｔｏｔｙｐｅＲｅｓｃｕｅ，ｈａｚａｒｄｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓＲｏｂｏｔｉｎｔｅｌｌｉｇｅｎｃｅａｎｄｌｅａｒｎｉｎｇＲｏｂｏｔｖｉｓｉｏｎａｎｄａｕｄｉｔｉｏｎＲｏｂｏｔｓａｎｄＡｕｔｏｍａｔｉｏｎＳｅｎｓｏｒｄｅｓｉｇｎ，ｓｅｎｓｏｒｆｕｓｉｏｎ，ｓｅｎｓｏｒｎｅｔｗｏｒｋｓＳｅｎｓｏｒｄｅｖｅｌｏｐｍｅｎｔＳｅｎｓｏｒｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓＳｕｓｔａｉｎａｂｉｌｉｔｙ，ｅｎｅｒｇｙｃｏｎｓｅｒｖａｔｉｏｎ，ｅｃｏｌｏｇｙＵｎｉｖｅｒｓａｌｄｅｓｉｇｎａｎｄｓｅｒｖｉｃｅｓ，ｕｂｉｑｕｉｔｏｕｓｒｏｂｏｔｓａｎｄｄｅｖｉｃｅｓ第４期吕国宁，等：视觉感知式场景文字检测定位方法 ·５６９·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录