机器学习：几何信息与SIFT特征相结合的特定人手写关键词检测

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：750.61KB

第9卷第5期智能系统学报 Vol.9 No.5 2014年10月 CAAI Transactions on Intelligent Systems 0ct.2014 D0:10.3969/j.issn.1673-4785.201402032 几何信息与SIFT特征相结合的特定人手写关键词检测张文超，吕岳，文颖，黄志敏2 (1.华东师范大学计算机科学与技术系，上海200241：2.公安部第三研究所，上海200032) 摘要：中文汉字类别繁多，书写随意性大，使得中文的手写体关键词检测具有很大的挑战性。提出一种基于文字几何信息和ST特征相结合的手写体关键词检测方法，通过计算文本图像特征的匹配度来检测特定书写人的手写关键词。尺度不变特征转换(scale invariance feature transform,SlFT)局部特征具有良好的稳定性和独特性，既能适应同一书写人手写汉字的差异，又能区分不同书写人的书写笔迹。结合文字的几何信息，通过滑动窗口和最大团查找方法可以有效地删除误匹配点，极大地提高关键词检测的成功率。对大量手写体文本图像的实验结果表明，该方法能够有效检测同一书写人的相同关键词，具有较高的召回率和准确率。关键词：关键词检测：SFT:滑动窗口：最大团查找中图分类号：TP18文献标志码：A文章编号：1673-4785(2014)05-0544-07 中文引用格式：张文超，吕岳，文颗，等.几何信息与SFT特征相结合的特定人手写关键词检测[J].智能系统学报，2014,9(5)： 544.550. 英文引用格式：ZHANG Wenchao,LYU Yue,.WEN Ying,ctal.Specific handwritten keyword spotting using geometric information and SIFT feature[J].CAAI Transactions on Intelligent Systems,2014,9(5):544-550. Specific handwritten keyword spotting using geometric information and SIFT feature ZHANG Wenchao',LYU Yue',WEN Ying',HUANG Zhimin2 (1.Department of Computer Science and Technology,East China Normal University,Shanghai 200241,China;2.The Third Research Institute of Ministry of Public Security,Shanghai 200032,China) Abstract:Large variety of Chinese characters and handwriting styles leads to a big challenge for keyword spotting in Chinese handwritten documents.A new method combining the character geometric information and SIFT feature is proposed for detecting handwritten keywords of specific handwritten.It is proven that SIFT is a stable and distinctive local feature,which can perform well in distinguishing different handwriting styles.Combined with character geo- metric information and maximum clique matching,the proposed method can effectively remove miss-matching fea- ture points and improve the precision rate of detection.Experimental results in handwriting document images show that the method can efficiently detect keywords of particular writers and remain high recall rate and high precision rate. Keywords:keyword spotting;SIFT;sliding window;maximum clique matching;geometric information 手写关键词检测是在大量手写文本图像中检测特定书写人的特定关键词。随着机器视觉和人工智能的发展，手写关键词检测受到了越来越多的关注。收稿日期：2014-02-26. 当今社会中存在大量的手写文本，如历史文献、笔记基金项目：国家科技支撑计划资助项目(2011BAK05B04). 等，这些文本往往通过扫描以图像的形式存储，从中通信作者：张文超.E-mail:414306765@qg.com

第９卷第５期智能系统学报Ｖｏｌ．９ №．５２０１４年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４０２０３２几何信息与ＳＩＦＴ特征相结合的特定人手写关键词检测张文超１，吕岳１，文颖１，黄志敏２（１．华东师范大学计算机科学与技术系，上海２００２４１；２．公安部第三研究所，上海２０００３２）摘要：中文汉字类别繁多，书写随意性大，使得中文的手写体关键词检测具有很大的挑战性。提出一种基于文字几何信息和ＳＩＦＴ特征相结合的手写体关键词检测方法，通过计算文本图像特征的匹配度来检测特定书写人的手写关键词。尺度不变特征转换（ｓｃａｌｅｉｎｖａｒｉａｎｃｅｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ，ＳＩＦＴ）局部特征具有良好的稳定性和独特性，既能适应同一书写人手写汉字的差异，又能区分不同书写人的书写笔迹。结合文字的几何信息，通过滑动窗口和最大团查找方法可以有效地删除误匹配点，极大地提高关键词检测的成功率。对大量手写体文本图像的实验结果表明，该方法能够有效检测同一书写人的相同关键词，具有较高的召回率和准确率。关键词：关键词检测；ＳＩＦＴ；滑动窗口；最大团查找中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０５⁃０５４４⁃０７中文引用格式：张文超，吕岳，文颖，等．几何信息与ＳＩＦＴ特征相结合的特定人手写关键词检测［Ｊ］．智能系统学报，２０１４，９（５）：５４４⁃５５０．英文引用格式：ＺＨＡＮＧＷｅｎｃｈａｏ，ＬＹＵＹｕｅ，ＷＥＮＹｉｎｇ，ｅｔａｌ．ＳｐｅｃｉｆｉｃｈａｎｄｗｒｉｔｔｅｎｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇｕｓｉｎｇｇｅｏｍｅｔｒｉｃｉｎｆｏｒｍａｔｉｏｎａｎｄＳＩＦＴｆｅａｔｕｒｅ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（５）：５４４⁃５５０．ＳｐｅｃｉｆｉｃｈａｎｄｗｒｉｔｔｅｎｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇｕｓｉｎｇｇｅｏｍｅｔｒｉｃｉｎｆｏｒｍａｔｉｏｎａｎｄＳＩＦＴｆｅａｔｕｒｅＺＨＡＮＧＷｅｎｃｈａｏ１，ＬＹＵＹｕｅ１，ＷＥＮＹｉｎｇ１，ＨＵＡＮＧＺｈｉｍｉｎ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＥａｓｔＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２００２４１，Ｃｈｉｎａ；２．ＴｈｅＴｈｉｒｄＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＭｉｎｉｓｔｒｙｏｆＰｕｂｌｉｃＳｅｃｕｒｉｔｙ，Ｓｈａｎｇｈａｉ２０００３２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＬａｒｇｅｖａｒｉｅｔｙｏｆＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｓａｎｄｈａｎｄｗｒｉｔｉｎｇｓｔｙｌｅｓｌｅａｄｓｔｏａｂｉｇｃｈａｌｌｅｎｇｅｆｏｒｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇｉｎＣｈｉｎｅｓｅｈａｎｄｗｒｉｔｔｅｎｄｏｃｕｍｅｎｔｓ．ＡｎｅｗｍｅｔｈｏｄｃｏｍｂｉｎｉｎｇｔｈｅｃｈａｒａｃｔｅｒｇｅｏｍｅｔｒｉｃｉｎｆｏｒｍａｔｉｏｎａｎｄＳＩＦＴｆｅａｔｕｒｅｉｓｐｒｏｐｏｓｅｄｆｏｒｄｅｔｅｃｔｉｎｇｈａｎｄｗｒｉｔｔｅｎｋｅｙｗｏｒｄｓｏｆｓｐｅｃｉｆｉｃｈａｎｄｗｒｉｔｔｅｎ．ＩｔｉｓｐｒｏｖｅｎｔｈａｔＳＩＦＴｉｓａｓｔａｂｌｅａｎｄｄｉｓｔｉｎｃｔｉｖｅｌｏｃａｌｆｅａｔｕｒｅ，ｗｈｉｃｈｃａｎｐｅｒｆｏｒｍｗｅｌｌｉｎｄｉｓｔｉｎｇｕｉｓｈｉｎｇｄｉｆｆｅｒｅｎｔｈａｎｄｗｒｉｔｉｎｇｓｔｙｌｅｓ．Ｃｏｍｂｉｎｅｄｗｉｔｈｃｈａｒａｃｔｅｒｇｅｏ⁃ ｍｅｔｒｉｃｉｎｆｏｒｍａｔｉｏｎａｎｄｍａｘｉｍｕｍｃｌｉｑｕｅｍａｔｃｈｉｎｇ，ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｒｅｍｏｖｅｍｉｓｓ⁃ｍａｔｃｈｉｎｇｆｅａ⁃ ｔｕｒｅｐｏｉｎｔｓａｎｄｉｍｐｒｏｖｅｔｈｅｐｒｅｃｉｓｉｏｎｒａｔｅｏｆｄｅｔｅｃｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｉｎｈａｎｄｗｒｉｔｉｎｇｄｏｃｕｍｅｎｔｉｍａｇｅｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｃａｎｅｆｆｉｃｉｅｎｔｌｙｄｅｔｅｃｔｋｅｙｗｏｒｄｓｏｆｐａｒｔｉｃｕｌａｒｗｒｉｔｅｒｓａｎｄｒｅｍａｉｎｈｉｇｈｒｅｃａｌｌｒａｔｅａｎｄｈｉｇｈｐｒｅｃｉｓｉｏｎｒａｔｅ．Ｋｅｙｗｏｒｄｓ：ｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇ；ＳＩＦＴ；ｓｌｉｄｉｎｇｗｉｎｄｏｗ；ｍａｘｉｍｕｍｃｌｉｑｕｅｍａｔｃｈｉｎｇ；ｇｅｏｍｅｔｒｉｃｉｎｆｏｒｍａｔｉｏｎ收稿日期：２０１４⁃０２⁃２６．基金项目：国家科技支撑计划资助项目（２０１１ＢＡＫ０５Ｂ０４）．通信作者：张文超．Ｅ－ｍａｉｌ：４１４３０６７６５＠ｑｑ．ｃｏｍ．手写关键词检测是在大量手写文本图像中检测特定书写人的特定关键词。随着机器视觉和人工智能的发展，手写关键词检测受到了越来越多的关注。当今社会中存在大量的手写文本，如历史文献、笔记等，这些文本往往通过扫描以图像的形式存储，从中

第5期张文超，等：几何信息与SFT特征相结合的特定人手写关键词检测 ·545. 检测人们关注的关键词，有其应用需求。由于手写发展和应用。SFT特征在图像旋转、尺度变换、仿体文字随意性大，书写形式自由，容易引起文字倾射变换和视角变化条件下都有良好的不变性。SFT 斜、模糊或粘连，所以特定人手写关键词检测技术的特征包括了SFT检测算子和描述算子，前者能够检发展面临很大的困难。早期Rath和Manmatha)提测图像局部稳定的关键点，后者对检测到的关键点出的DTW(dynamic time warping)方法在英文手写邻域生成特征描述矢量。该算法主要分3步：1)尺体文本的关键词检测中取得了较好的效果。此后产度空间的建立和关键点的检测：2)关键点主方向计生了大量的基于统计和基于结构的方法[]，使得关算：3)关键点特征描述。键词检测技术得到了快速发展。近几年刘成林 Lindeberg等)已经证明了高斯核是实现尺度等3]在手写体汉字识别上做了大量工作，在汉字变换的唯一变换核，所以将图像的尺度空间表示成识别和语义分析的基础上进行关键词检测，取得了函数L(x,y,σ)，它由图像I(x,y)和一个变尺度的不错的结果。但中文汉字类别多，书写风格多变，基高斯函数G(x,y,)卷积产生，即于识别的关键词检测方法很大程度上受制于手写体 L(x,y,）=G(x,y,o）☒1(x,y）汉字识别的效果，更重要的是这种依靠识别结果的式中，☒表示在x和y两个方向进行卷积操作，方法丢失了文本图像中的笔迹信息，无法区分关键 G(x,y,)为词是来自相同书写人还是不同书写人。 1 G(x,y,0)= (x2+2)/2a2 e 2Tσ1 关键词检测的另一方法是基于图像匹配，即将 SFT算法通过对两个相邻高斯尺度空间图像相减，文本图像表述为特征，再对特征区域或者特征点进得到DoG(difference of Gaussians)图像来近似LoG 行相似度匹配，避开了手写体汉字的识别问题而将 (Laplace of Guassian)方法。通过对高斯差分图像关键词检测转化为图像匹配问题。有许多特征可以 D(x,y,σ)进行局部极值搜索，在位置空间和尺度描述文本图像，如统计特征、结构特征、局部特征等。空间定位关键点，其中尺度不变特征转换(scale invariance feature trans- D(x,y,)=L(x,y,ko)-L(x,y,) fom,SIFT)是一种旋转、尺度、光照不变的局部特式中k为相邻尺度空间尺度值的倍数。征[6)，具有良好的稳定性和独特性。从文本图像上 DoG方法是通过构建图像金字塔实现的，将图提取的SFT特征点，保留了文字局部的细节信息。像金字塔分为0组，每组S层。通过对每组上下相而结合文字的几何信息，又能够有效地避免汉字重邻两层的高斯尺度空间图像相减得到DoG结果。复结构对特征点匹配带来的影响，极大提高关键词为了寻找尺度空间的关键点，每个内部的DoG图像检测的成功率。以往对关键词检测的研究并没有对层像素点需要和它同尺度内的8邻域点和上下相邻书写人加以区分，并且目前对基于匹配方法的研究尺度空间的9×2个点一共26个点比较，确保在尺还比较初步。因此，本文提出一种基于SFT特征匹度空间和二维图像位置空间都检测到极值点。配的手写关键词检测方法，能够对特定人的中文手为了实现图像特征的旋转不变性，需要计算图写关键词进行检测，同时结合文字几何信息来提高像梯度来求取特征点的主方向。每个已经检测到特检测的准确率。该方法对预留的特定作者书写的关征点对应一个尺度值σ，在该尺度下的高斯图像键词图像和待检测文本图像分别进行SFT特征提中，以特征点为中心，计算3×1.5σ为半径区域内图取，使用滑动窗口在待检测文本图像进行滑动并将像梯度的幅值和幅角（梯度方向）：窗口内文本图像特征与关键词图像特征进行匹配， m(x,y）= 根据几何信息对匹配点建立几何约束图，通过最大 √L(x+y,y)-L(x-1,y)+L(xy+1)-(x,y-1) 团查找方法删除误匹配特征点，最终筛选和合并窗 (L(x,y+1)-L(x,y-1) 口来定位特定的手写关键词。实验表明，本方法能 0(x,y)=aretanL(x1y)-L(x-1.y)) 够有效地检测手写体关键词，并具有较高的召回率计算某一特征点邻域内高斯图像的梯度之后，使用和准确率。直方图统计梯度方向和幅值。将0°~360°的方向角分为36个区间，当梯度方向落入到某一个区间时， 1 SIFT特征提取将该方向角对应的幅值乘以圆形高斯加权函数再累 SFT6]算法由Lowe在1999年提出并在2004 加，最终形成梯度直方统计图。将其中最大峰值对年将其完善，该算法在机器视觉领域得到了迅速的应的梯度方向角作为特征点的主方向

检测人们关注的关键词，有其应用需求。由于手写体文字随意性大，书写形式自由，容易引起文字倾斜、模糊或粘连，所以特定人手写关键词检测技术的发展面临很大的困难。早期Ｒａｔｈ和Ｍａｎｍａｔｈａ［１］提出的ＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）方法在英文手写体文本的关键词检测中取得了较好的效果。此后产生了大量的基于统计和基于结构的方法［２］，使得关键词检测技术得到了快速发展。近几年刘成林等［３⁃５］在手写体汉字识别上做了大量工作，在汉字识别和语义分析的基础上进行关键词检测，取得了不错的结果。但中文汉字类别多，书写风格多变，基于识别的关键词检测方法很大程度上受制于手写体汉字识别的效果，更重要的是这种依靠识别结果的方法丢失了文本图像中的笔迹信息，无法区分关键词是来自相同书写人还是不同书写人。关键词检测的另一方法是基于图像匹配，即将文本图像表述为特征，再对特征区域或者特征点进行相似度匹配，避开了手写体汉字的识别问题而将关键词检测转化为图像匹配问题。有许多特征可以描述文本图像，如统计特征、结构特征、局部特征等。尺度不变特征转换（ｓｃａｌｅｉｎｖａｒｉａｎｃｅｆｅａｔｕｒｅｔｒａｎｓ⁃ ｆｏｒｍ，ＳＩＦＴ）是一种旋转、尺度、光照不变的局部特征［６］，具有良好的稳定性和独特性。从文本图像上提取的ＳＩＦＴ特征点，保留了文字局部的细节信息。而结合文字的几何信息，又能够有效地避免汉字重复结构对特征点匹配带来的影响，极大提高关键词检测的成功率。以往对关键词检测的研究并没有对书写人加以区分，并且目前对基于匹配方法的研究还比较初步。因此，本文提出一种基于ＳＩＦＴ特征匹配的手写关键词检测方法，能够对特定人的中文手写关键词进行检测，同时结合文字几何信息来提高检测的准确率。该方法对预留的特定作者书写的关键词图像和待检测文本图像分别进行ＳＩＦＴ特征提取，使用滑动窗口在待检测文本图像进行滑动并将窗口内文本图像特征与关键词图像特征进行匹配，根据几何信息对匹配点建立几何约束图，通过最大团查找方法删除误匹配特征点，最终筛选和合并窗口来定位特定的手写关键词。实验表明，本方法能够有效地检测手写体关键词，并具有较高的召回率和准确率。１ＳＩＦＴ特征提取ＳＩＦＴ［６］算法由Ｌｏｗｅ在１９９９年提出并在２００４年将其完善，该算法在机器视觉领域得到了迅速的发展和应用。ＳＩＦＴ特征在图像旋转、尺度变换、仿射变换和视角变化条件下都有良好的不变性。ＳＩＦＴ特征包括了ＳＩＦＴ检测算子和描述算子，前者能够检测图像局部稳定的关键点，后者对检测到的关键点邻域生成特征描述矢量。该算法主要分３步：１）尺度空间的建立和关键点的检测；２）关键点主方向计算；３）关键点特征描述。Ｌｉｎｄｅｂｅｒｇ等［７］已经证明了高斯核是实现尺度变换的唯一变换核，所以将图像的尺度空间表示成函数Ｌ（ｘ，ｙ，σ），它由图像Ｉ（ｘ，ｙ）和一个变尺度的高斯函数Ｇ（ｘ，ｙ，σ）卷积产生，即Ｌ（ｘ，ｙ，σ）＝Ｇ（ｘ，ｙ，σ） 􀱋 Ｉ（ｘ，ｙ）式中， 􀱋 表示在ｘ和ｙ两个方向进行卷积操作，Ｇ（ｘ，ｙ，σ）为Ｇ（ｘ，ｙ，σ）＝１２πσ ２ｅ－（ｘ２＋ｙ２）／２σ２ＳＩＦＴ算法通过对两个相邻高斯尺度空间图像相减，得到ＤｏＧ（ｄｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎｓ）图像来近似ＬｏＧ（ＬａｐｌａｃｅｏｆＧｕａｓｓｉａｎ）方法。通过对高斯差分图像Ｄ（ｘ，ｙ，σ）进行局部极值搜索，在位置空间和尺度空间定位关键点，其中Ｄ（ｘ，ｙ，σ）＝Ｌ（ｘ，ｙ，ｋσ）－Ｌ（ｘ，ｙ，σ）式中ｋ为相邻尺度空间尺度值的倍数。ＤｏＧ方法是通过构建图像金字塔实现的，将图像金字塔分为Ｏ组，每组Ｓ层。通过对每组上下相邻两层的高斯尺度空间图像相减得到ＤｏＧ结果。为了寻找尺度空间的关键点，每个内部的ＤｏＧ图像层像素点需要和它同尺度内的８邻域点和上下相邻尺度空间的９ × ２个点一共２６个点比较，确保在尺度空间和二维图像位置空间都检测到极值点。为了实现图像特征的旋转不变性，需要计算图像梯度来求取特征点的主方向。每个已经检测到特征点对应一个尺度值 σ ，在该尺度下的高斯图像中，以特征点为中心，计算３ × １．５σ 为半径区域内图像梯度的幅值和幅角（梯度方向）：ｍ（ｘ，ｙ）＝Ｌ（ｘ＋ｙ，ｙ）－Ｌ（ｘ－１，ｙ）＋Ｌ（ｘ，ｙ＋１）－（ｘ，ｙ－１） θ（ｘ，ｙ）＝ａｒｃｔａｎＬ（ｘ，ｙ＋１）－Ｌ（ｘ，ｙ－１）Ｌ（ｘ＋１，ｙ）－Ｌ（ｘ－１，ｙ） æ è ç ö ø ÷ 计算某一特征点邻域内高斯图像的梯度之后，使用直方图统计梯度方向和幅值。将０° ～３６０°的方向角分为３６个区间，当梯度方向落入到某一个区间时，将该方向角对应的幅值乘以圆形高斯加权函数再累加，最终形成梯度直方统计图。将其中最大峰值对应的梯度方向角作为特征点的主方向。第５期张文超，等：几何信息与ＳＩＦＴ特征相结合的特定人手写关键词检测 ·５４５·

·546· 智能系统学报第9卷 SFT描述子d是对特征点邻域内高斯图像梯 1)若W。W。,则q:=W。,即最后一段不足宽度并对每一个子区域计算梯度统计直方图。这里将也作为一个窗口。 0°~360°的方向角划分成8个区间，每45°一个区从文本图像的左侧开始到右侧末端，就像一个间。最终形成4×4×8=128维的SFT特征矢量。从左至右滑动的窗口。每次窗口内的匹配只针对横 3)为了去除光照变化的影响，对128维特征矢坐标x落在P:和g:之间的文本特征点集合。参数量进行归一化处理。窗口宽度w和移动步长s影响窗口内的特征点匹配通过上述方法，文本图像或者图像区域可以描数量。窗口过宽会失去很多正确匹配点，过窄则会述为SIFT特征点的集合S={F},每个特征点F:= 产生大量误匹配点。适当加宽窗口可以抑制更多的 (x,y,σ，0，d)由5个数据组成，分别表示特征点在误匹配点对。而移动步长过大会错过正确的匹配窗图像中的横坐标、纵坐标、尺度值、方向角和特征矢口或割开关键词，过小又会使窗口数量增多而降低量。通过对关键词图像提取SFT特征点集，存储在匹配效率。特征库文件中，便于后期对特征点的快速读取。手写体文本书写的随意性造成了汉字之间疏密 2关键词检测程度的不同，这使得窗口宽度和移动步长很难选取。经过大量实验发现，当窗口宽度与关键词图像宽度对关键词图像和文本图像提取ST特征点后，的比值等于关键词图像与文本图像特征点尺度均值需要将两者特征点进行匹配，得到相似的特征点对的比值时，匹配的结果比较好。通过特征点尺度来集合。但是由于汉字结构的相似性，使得汉字之间调节窗口宽度，可以适应图像的尺度变化。本方法的特征点相似度匹配存在不小误差，关键词图像上中0和s按照公式(2)计算：的特征，点直接在文本图像特征点集合匹配得到的结 Avg() 果错误比较多。Rodnguez等[s]通过提取滑动窗口 0=W,× Avg(,) 内的特征进行英文的手写体关键词检测，郑琪等町 (2) 10 使用滑动窗口的方法对自然场景中的文字进行定 5=6 位。利用滑动窗口算法能够缩小特征点匹配的范式中：W,为关键词图像宽度，Avg(σ)为关键词图围，进而有效增加正确匹配的特征点数量。像特征点尺度的均值，Avg(σ，)为文本图像特征点 2.1滑动窗口提取的均值。对文本图像进行滑动窗口提取，首先构造一个在每个窗口中，所有关键词图像特征点可利用高度等同于文本行，宽度为0的窗口，并将该窗口 Kd-树算法[1o]查找到文本图像中5个最近邻的特征在文本图像上从左至右滑动，滑动间隔为$。每一点，形成初始的匹配点对。汉字之间存在大量重复次滑动，窗口都会覆盖文本图像一部分特征点，关键的结构和相似的笔画，而且SFT局部特征缺乏特征词图像特征点依次与各个窗口内的特征点匹配。点在空间分布上的几何性质，这使得初始的特征点用集合Wind(p,q)表示窗口，其中p和g分别匹配结果存在大量的错误匹配。利用SFT局部特表示窗口的起始坐标和终止坐标。设文本图像宽度征本身带有的几何信息，如位置、方向、尺度信息，构为W。,窗口数量为n,如图1所示。造几何约束关系，可以进一步筛选错误匹配点对，提 W 高滑动窗口内特征点的匹配成功率。敲性食粉也会猴使爱」 2.2几何信息约束和最大团查找利用特征点的方向、尺度等信息对匹配点对进行初步的筛选，如果不考虑文本图像的旋转、扭曲和图1滑动窗口缩放，两个相似的特征点之间的方向角、尺度值差异 Fig.1 Sliding window 就不会特别大。另外，特征矢量的欧氏距离特别大按照如下方法来提取滑动窗口。的匹配点对也会被删除，因为特征矢量表示特征点

ＳＩＦＴ描述子ｄ是对特征点邻域内高斯图像梯度统计结果的一种表示。计算特征描述矢量的步骤如下：１）对某一特征点，在其所在的尺度 σ 对应的高斯图像中，以该点为中心将图像旋转 θ 角度。２）将其３σ × ３σ 的邻域划分成４ × ４个子区域，并对每一个子区域计算梯度统计直方图。这里将０° ～３６０°的方向角划分成８个区间，每４５°一个区间。最终形成４ × ４ × ８＝１２８维的ＳＩＦＴ特征矢量。３）为了去除光照变化的影响，对１２８维特征矢量进行归一化处理。通过上述方法，文本图像或者图像区域可以描述为ＳＩＦＴ特征点的集合Ｓ＝｛Ｆｉ｝，每个特征点Ｆｉ＝（ｘ，ｙ，σ，θ，ｄ）由５个数据组成，分别表示特征点在图像中的横坐标、纵坐标、尺度值、方向角和特征矢量。通过对关键词图像提取ＳＩＦＴ特征点集，存储在特征库文件中，便于后期对特征点的快速读取。２关键词检测对关键词图像和文本图像提取ＳＩＦＴ特征点后，需要将两者特征点进行匹配，得到相似的特征点对集合。但是由于汉字结构的相似性，使得汉字之间的特征点相似度匹配存在不小误差，关键词图像上的特征点直接在文本图像特征点集合匹配得到的结果错误比较多。Ｒｏｄｒıｇｕｅｚ等［８］通过提取滑动窗口内的特征进行英文的手写体关键词检测，郑琪等［９］使用滑动窗口的方法对自然场景中的文字进行定位。利用滑动窗口算法能够缩小特征点匹配的范围，进而有效增加正确匹配的特征点数量。２．１滑动窗口提取对文本图像进行滑动窗口提取，首先构造一个高度等同于文本行，宽度为ｗ的窗口，并将该窗口在文本图像上从左至右滑动，滑动间隔为ｓ。每一次滑动，窗口都会覆盖文本图像一部分特征点，关键词图像特征点依次与各个窗口内的特征点匹配。用集合Ｗｉｎｄ（ｐ，ｑ）表示窗口，其中ｐ和ｑ分别表示窗口的起始坐标和终止坐标。设文本图像宽度为Ｗｄ，窗口数量为ｎ，如图１所示。图１滑动窗口Ｆｉｇ．１Ｓｌｉｄｉｎｇｗｉｎｄｏｗ按照如下方法来提取滑动窗口。１）若Ｗｄ＜ｗ，则ｎ＝１，ｐ１＝０，ｑ１＝Ｗｄ；２）否则，按照式（１）计算窗口的坐标：ｎ＝１＋「（Ｗｄ－ｗ）／ｓ⌉ ｐｉ＝ｐｉ－１＋ｓｑｉ＝ｑｉ－１＋ｓ（１）３）若ｑｉ＞Ｗｄ，则ｑｉ＝Ｗｄ，即最后一段不足宽度也作为一个窗口。从文本图像的左侧开始到右侧末端，就像一个从左至右滑动的窗口。每次窗口内的匹配只针对横坐标ｘ落在ｐｉ和ｑｉ之间的文本特征点集合。参数窗口宽度ｗ和移动步长ｓ影响窗口内的特征点匹配数量。窗口过宽会失去很多正确匹配点，过窄则会产生大量误匹配点。适当加宽窗口可以抑制更多的误匹配点对。而移动步长过大会错过正确的匹配窗口或割开关键词，过小又会使窗口数量增多而降低匹配效率。手写体文本书写的随意性造成了汉字之间疏密程度的不同，这使得窗口宽度和移动步长很难选取。经过大量实验发现，当窗口宽度与关键词图像宽度的比值等于关键词图像与文本图像特征点尺度均值的比值时，匹配的结果比较好。通过特征点尺度来调节窗口宽度，可以适应图像的尺度变化。本方法中ｗ和ｓ按照公式（２）计算：ｗ＝Ｗｓ × Ａｖｇ（σｄ）Ａｖｇ（σｓ）ｓ＝ｗ６（２）式中：Ｗｓ为关键词图像宽度，Ａｖｇ（σｓ）为关键词图像特征点尺度的均值，Ａｖｇ（σｄ）为文本图像特征点的均值。在每个窗口中，所有关键词图像特征点可利用Ｋｄ⁃树算法［１０］查找到文本图像中５个最近邻的特征点，形成初始的匹配点对。汉字之间存在大量重复的结构和相似的笔画，而且ＳＩＦＴ局部特征缺乏特征点在空间分布上的几何性质，这使得初始的特征点匹配结果存在大量的错误匹配。利用ＳＩＦＴ局部特征本身带有的几何信息，如位置、方向、尺度信息，构造几何约束关系，可以进一步筛选错误匹配点对，提高滑动窗口内特征点的匹配成功率。２．２几何信息约束和最大团查找利用特征点的方向、尺度等信息对匹配点对进行初步的筛选，如果不考虑文本图像的旋转、扭曲和缩放，两个相似的特征点之间的方向角、尺度值差异就不会特别大。另外，特征矢量的欧氏距离特别大的匹配点对也会被删除，因为特征矢量表示特征点 ·５４６· 智能系统学报第９卷

第5期张文超，等：几何信息与SFT特征相结合的特定人手写关键词检测 ·547. 周围的梯度统计信息。利用式(3)可以对匹配特征件的几何意义是，分布于汉字上的特征点随笔画的点对进行初步筛选：随意性移动的范围不会超过一定的阈值。因为相同 |0-0.1<P1 的汉字具有相同的笔画结构和笔顺，相应的特征点 0,1 也应当具有类似的分布。 P2< (3) C p2 ‖d,-d.I2<p3 式中：0，、o,、d,和0.、0.、d.分别表示关键词图像和窗口图像的特征点方向角、尺度、特征矢量。 P1、P2、P,分别是对应的阈值。匹配点经过初步筛窗口图像选后的结果如图2所示。性也气促使症状发：关键词图像图2匹配特征点初步筛选后结果 Fig.2 Feature matching after initial selection 图3窗口内匹配点的分布信息图中截取了滑动窗口在文本图像中的一个片 Fig.3 Location information of matching points 段，矩形框为窗口的位置，下面显示的是关键词的图当存在越多的正确匹配点时，GCG图中互相连像，细直线连接了两幅图像中匹配的特征点。可以接的顶点将会越多。为了得到一个存在最多正确匹看到图中依然存在很多误匹配的点对，这是由汉字配点对的子集，就要在GCG中找到一个最大子图，重复的结构信息引起的。利用特征点在文字的空间在这个子图中所有的顶点都是互相连接的，可使用分布建立几何约束，可以进一步删除误匹配点对。最大团查找(maximal clique matching,MCM)算法来几何约束原理就是：关键词图像上存在一定位置关实现，其具体过程如下系的两个特征点，它们在窗口图像中对应的两个匹 1)初始化候选顶点集C=V,最大团顶点集为配点也具有相似的位置关系。通过这个原理可以在 M=9; 特征点对之间建立几何约束图，再通过图论中的最 2)计算V中每个顶点的度，记为集合Deg(V): 大团查找算法获得正确的匹配，点对集合。几何约束 3)选择C中Deg(V)最大的顶点to,将其加入图(geometric constraint graph,GCG)建立步骤如下 M,即M=MU{o}; 1)设S={s1,s2,…,sm}为关键词图像特征点 4)将。从C中删除，并且只在C中保留和。相集，W={01,02,…,0n}为文本图像中与之匹配的连接的顶点，即C=C\o,C=CUN(o)。其中特征点集。无向图G=(V,E)表示几何约束图。V= V()表示o的邻接顶点集。 {1,2,"}为G的顶点集合，其中：=(s,0:), 5)如课C=p,算法结束，否测转到重复上述过程。表示S和W中每一对匹配点就对应G中的一个顶通过建立几何约束图和最大团查找算法，可以点。ECV×V为G边的集合。删除大量误匹配点对，图2中的初始匹配经过几何 2)按照如下方法添加G的边，对于任意两个特约束处理后结果如图4所示。线连接了两幅图中匹征点对：=(5,0)和=(s,四)，满足约束条件配的特征点对，从图4中可以看到，笔画上的特征点基本上是正确匹配的。 |(x-x）-(x:-xg)|<p4×Avg(c,) I-y,)-(,-y)1<5×Ag(a,)(4) 性色会侯使症状袭则在顶点，和之间添加一条边。式中x,和x。表示特征点在关键词图像和窗口图像内的横坐标，而图4匹配特征点进一步筛选结果 y、y.则表示其纵坐标，参考图3示例。P4和P5是 Fig.4 Location information of matching points 两个阈值，为了适应不同关键词图像的尺寸，式(4) 2.3窗口筛选和合并中的右值应当与其平均尺度值成正比。该式约束条结合几何约束对匹配点进行筛选之后，每个窗

周围的梯度统计信息。利用式（３）可以对匹配特征点对进行初步筛选： θｓ－ θｗ＜ｐ１ｐ２＜ σｓ σｗ＜１ｐ２ ‖ ｄｓ－ｄｗ‖２＜ｐ３（３）式中： θｓ、 σｓ、ｄｓ和 θｗ、 σｗ、ｄｗ分别表示关键词图像和窗口图像的特征点方向角、尺度、特征矢量。ｐ１、ｐ２、ｐ３分别是对应的阈值。匹配点经过初步筛选后的结果如图２所示。图２匹配特征点初步筛选后结果Ｆｉｇ．２Ｆｅａｔｕｒｅｍａｔｃｈｉｎｇａｆｔｅｒｉｎｉｔｉａｌｓｅｌｅｃｔｉｏｎ图中截取了滑动窗口在文本图像中的一个片段，矩形框为窗口的位置，下面显示的是关键词的图像，细直线连接了两幅图像中匹配的特征点。可以看到图中依然存在很多误匹配的点对，这是由汉字重复的结构信息引起的。利用特征点在文字的空间分布建立几何约束，可以进一步删除误匹配点对。几何约束原理就是：关键词图像上存在一定位置关系的两个特征点，它们在窗口图像中对应的两个匹配点也具有相似的位置关系。通过这个原理可以在特征点对之间建立几何约束图，再通过图论中的最大团查找算法获得正确的匹配点对集合。几何约束图（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔｇｒａｐｈ，ＧＣＧ）建立步骤如下１）设Ｓ＝｛ｓ１，ｓ２，．．．，ｓｍ｝为关键词图像特征点集，Ｗ＝｛ｗ１，ｗ２，．．．，ｗｍ｝为文本图像中与之匹配的特征点集。无向图Ｇ＝（Ｖ，Ｅ）表示几何约束图。Ｖ＝｛ｖ１，ｖ２，．．．，ｖｍ｝为Ｇ的顶点集合，其中ｖｉ＝（ｓｉ，ｗｉ），表示Ｓ和Ｗ中每一对匹配点就对应Ｇ中的一个顶点。Ｅ ⊆ Ｖ × Ｖ为Ｇ边的集合。２）按照如下方法添加Ｇ的边，对于任意两个特征点对ｖｉ＝（ｓｉ，ｗｉ）和ｖｊ＝（ｓｊ，ｗｊ），满足约束条件（ｘｓｉ－ｘｓｊ）－（ｘｗｉ－ｘｗｊ）＜ｐ４ × Ａｖｇ（σｓ）（ｙｓｉ－ｙｓｊ）－（ｙｗｉ－ｙｗｊ）＜ｐ５ × Ａｖｇ（σｓ）（４）则在顶点ｖｉ和ｖｊ之间添加一条边。式中ｘｓ和ｘｗ表示特征点在关键词图像和窗口图像内的横坐标，而ｙｓ、ｙｗ则表示其纵坐标，参考图３示例。ｐ４和ｐ５是两个阈值，为了适应不同关键词图像的尺寸，式（４）中的右值应当与其平均尺度值成正比。该式约束条件的几何意义是，分布于汉字上的特征点随笔画的随意性移动的范围不会超过一定的阈值。因为相同的汉字具有相同的笔画结构和笔顺，相应的特征点也应当具有类似的分布。图３窗口内匹配点的分布信息Ｆｉｇ．３Ｌｏｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｏｆｍａｔｃｈｉｎｇｐｏｉｎｔｓ当存在越多的正确匹配点时，ＧＣＧ图中互相连接的顶点将会越多。为了得到一个存在最多正确匹配点对的子集，就要在ＧＣＧ中找到一个最大子图，在这个子图中所有的顶点都是互相连接的，可使用最大团查找（ｍａｘｉｍａｌｃｌｉｑｕｅｍａｔｃｈｉｎｇ，ＭＣＭ）算法来实现，其具体过程如下１）初始化候选顶点集Ｃ＝Ｖ，最大团顶点集为Ｍ＝ φ ；２）计算Ｖ中每个顶点的度，记为集合Ｄｅｇ（Ｖ）；３）选择Ｃ中Ｄｅｇ（Ｖ）最大的顶点ｖ０，将其加入Ｍ，即Ｍ＝Ｍ ∪ ｛ｖ０｝；４）将ｖ０从Ｃ中删除，并且只在Ｃ中保留和ｖ０相连接的顶点，即Ｃ＝Ｃ＼ｖ０，Ｃ＝Ｃ ∪ Ｎ（ｖ０）。其中Ｎ（ｖ０）表示ｖ０的邻接顶点集。５）如果Ｃ＝ φ ，算法结束，否则转到重复上述过程。通过建立几何约束图和最大团查找算法，可以删除大量误匹配点对，图２中的初始匹配经过几何约束处理后结果如图４所示。线连接了两幅图中匹配的特征点对，从图４中可以看到，笔画上的特征点基本上是正确匹配的。图４匹配特征点进一步筛选结果Ｆｉｇ．４Ｌｏｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｏｆｍａｔｃｈｉｎｇｐｏｉｎｔｓ２．３窗口筛选和合并结合几何约束对匹配点进行筛选之后，每个窗第５期张文超，等：几何信息与ＳＩＦＴ特征相结合的特定人手写关键词检测 ·５４７·

·548. 智能系统学报第9卷口都会对应一个匹配点的数量，数量过少的窗口则关键词窗口。被删除。由于汉字繁简程度不同导致其自身的特征点数量也不同，使得不同汉字的匹配点数量差异很 3实验结果和分析大，本文采用自适应阈值来筛选窗口，即本文实验采用CASIA提供的离线手写体文本 tn =kx Simum 图像库HWDB2.1),该图像库由300位不同作者 tn为阈值，Sm为关键词图像特征点数，k根据经验书写，每人5封文本图像，一共1500封图像。所有值取0.27。的图像以300DP的分辨率扫描，以8位灰度级图像当关键词中的某一个字出现在文本图像中时，存储。为了避免行分割对实验的影响，同时为了便往往匹配的点也较多，比如“食物”和“食品”、“粮于滑动窗口的提取，我们将文本图像预先按行分割，食”，它们之中都有“食”字，但实际上是不应该被检每一个文本图像分为10个左右的单行图像，最终得测出来的。对该问题采用两种策略解决，一是基于到15000封图像。从中选取50位作者的2764封重心偏移的判决，二是基于点分布的判决。当匹配图像作为实验中的待测文本图像。的特征点大部分集中在一个字上时，关键词图像特评价实验结果的标准主要有召回率R、准确率征点的重心横坐标和水平方向的分布会发生比较大 P和F值。召回率能体现本文方法对关键词检测能的偏移。当前后两次偏移满足：力，越高越好：准确率表明检测结果中正确检测结果 XCent(So)-XCent(S,)>tc 的比例，体现该方法的检测效率，越高越好：F值则 LPoi(Sp)-LPoi(S,)>tp 是对上述两个标准的综合考量。假设检测图像Z 则当前窗口被删除。其中XCent(S)表示关键词图封，共检测到S个关键词，其中正确检测Y个，误检像特征点的重心横坐标，LPoi(S)表示关键词图像 N个，S=Y+N,应当检测到的关键词有T个。上述3 特征点在左半侧的分布率，即左半边的点占所有点个评价标准按照式(5)计算：个数的比例。tc和p是两个阈值，取经验值0.15和 Y 0.18。当某一窗口特征点集合与关键词图像特征点 R=T 进行匹配时，会得到初始匹配点集和筛选后匹配点集两个集合，若经过误匹配点筛选后剩余点的重心 P=S 横坐标和原始坐标偏移很远的时候，删除该窗口：若 2 F=1/R+1/P (5) 经过误匹配点筛选后剩余点的在关键词图像左侧分布的比例和原始比例偏离很大的时候，删除该窗口。首先对n和P4,P5参数进行实验。P和P5表示对该方法能够有效判别单个字产生误匹配的情况。如匹配点横纵坐标的约束程度，直接影响正确匹配点图5所示，两个圆圈表示关键词图像的重心，从中间对的数目：而n作为匹配点数目的阈值决定是否删的位置移动到了左侧的位置，因为筛选误匹配点以除窗口，当窗口内匹配点数超过阈值tn=k×Sm则后，匹配点基本都集中在了汉字“食”上，虽然匹配保留窗口。这对参数对最终关键词检测的结果影响点数目还比较多，但经过重心偏移的判决，该窗口仍较大，在算法中十分关键。在固定窗口大小和滑动然会被删除，“性食”也不会当做“食物”被检测出步长的情况下对不同的约束阈值和筛选阈值进行实来。验，测试结果如表1所示。从表1数据横向分析，随殷性参物.色会猴使海状发！着约束阈值增大，召回率逐渐升高，但准确率逐渐降低。这是因为对匹配点对的几何约束更加严格时，食物会有效删除更多的误匹配点对。纵向分析，随着筛选阈值k不断增大，召回率逐渐降低而准确率逐渐图5关键词图像特征点的重心偏移升高。这是因为较小的k保留了更多的正确窗口， Fig.5 The center deviation of feature points of 但随之也引入很多误检测的窗口。整体来看，F值 keyword images 在横向和纵向都呈现先升高后降低的趋势，在k为经过筛选之后，对剩下的窗口进行合并，因为有 0.27,P4和p5为15和12时取得最大值88.02%。些重叠的窗口均包含了同样的关键词。当两个窗口固定筛选阈值和约束阈值为上述两个最佳值，重叠部分占整个窗口的60%以上，则将它们合并为再针对不同的窗口宽度和滑动步长进行实验。原始一个窗口。合并之后的窗口就是最终检测到的候选的窗口宽度为W=W,×Avg(Scla)/Avg(Scl),在

口都会对应一个匹配点的数量，数量过少的窗口则被删除。由于汉字繁简程度不同导致其自身的特征点数量也不同，使得不同汉字的匹配点数量差异很大，本文采用自适应阈值来筛选窗口，即ｔｎ＝ｋ × Ｓｆｎｕｍｔｎ为阈值，Ｓｆｎｕｍ为关键词图像特征点数，ｋ根据经验值取０．２７。当关键词中的某一个字出现在文本图像中时，往往匹配的点也较多，比如“食物” 和“食品”、“粮食”，它们之中都有“食”字，但实际上是不应该被检测出来的。对该问题采用两种策略解决，一是基于重心偏移的判决，二是基于点分布的判决。当匹配的特征点大部分集中在一个字上时，关键词图像特征点的重心横坐标和水平方向的分布会发生比较大的偏移。当前后两次偏移满足：ＸＣｅｎｔ（Ｓ０）－ＸＣｅｎｔ（Ｓｘ）＞ｔｃＬＰｏｉ（Ｓ０）－ＬＰｏｉ（Ｓｘ）＞ｔｐ则当前窗口被删除。其中ＸＣｅｎｔ（Ｓ）表示关键词图像特征点的重心横坐标，ＬＰｏｉ（Ｓ）表示关键词图像特征点在左半侧的分布率，即左半边的点占所有点个数的比例。ｔｃ和ｔｐ是两个阈值，取经验值０．１５和０．１８。当某一窗口特征点集合与关键词图像特征点进行匹配时，会得到初始匹配点集和筛选后匹配点集两个集合，若经过误匹配点筛选后剩余点的重心横坐标和原始坐标偏移很远的时候，删除该窗口；若经过误匹配点筛选后剩余点的在关键词图像左侧分布的比例和原始比例偏离很大的时候，删除该窗口。该方法能够有效判别单个字产生误匹配的情况。如图５所示，两个圆圈表示关键词图像的重心，从中间的位置移动到了左侧的位置，因为筛选误匹配点以后，匹配点基本都集中在了汉字“食” 上，虽然匹配点数目还比较多，但经过重心偏移的判决，该窗口仍然会被删除，“性食” 也不会当做“食物” 被检测出来。图５关键词图像特征点的重心偏移Ｆｉｇ．５Ｔｈｅｃｅｎｔｅｒｄｅｖｉａｔｉｏｎｏｆｆｅａｔｕｒｅｐｏｉｎｔｓｏｆｋｅｙｗｏｒｄｉｍａｇｅｓ经过筛选之后，对剩下的窗口进行合并，因为有些重叠的窗口均包含了同样的关键词。当两个窗口重叠部分占整个窗口的６０％以上，则将它们合并为一个窗口。合并之后的窗口就是最终检测到的候选关键词窗口。３实验结果和分析本文实验采用ＣＡＳＩＡ提供的离线手写体文本图像库ＨＷＤＢ２．１［１１］，该图像库由３００位不同作者书写，每人５封文本图像，一共１５００封图像。所有的图像以３００ＤＰ的分辨率扫描，以８位灰度级图像存储。为了避免行分割对实验的影响，同时为了便于滑动窗口的提取，我们将文本图像预先按行分割，每一个文本图像分为１０个左右的单行图像，最终得到１５０００封图像。从中选取５０位作者的２７６４封图像作为实验中的待测文本图像。评价实验结果的标准主要有召回率Ｒ、准确率Ｐ和Ｆ值。召回率能体现本文方法对关键词检测能力，越高越好；准确率表明检测结果中正确检测结果的比例，体现该方法的检测效率，越高越好；Ｆ值则是对上述两个标准的综合考量。假设检测图像Ｚ封，共检测到Ｓ个关键词，其中正确检测Ｙ个，误检Ｎ个，Ｓ＝Ｙ＋Ｎ，应当检测到的关键词有Ｔ个。上述３个评价标准按照式（５）计算：Ｒ＝ＹＴＰ＝ＹＳＦ＝２１／Ｒ＋１／Ｐ（５）首先对ｔｎ和ｐ４，ｐ５参数进行实验。ｐ４和ｐ５表示对匹配点横纵坐标的约束程度，直接影响正确匹配点对的数目；而ｔｎ作为匹配点数目的阈值决定是否删除窗口，当窗口内匹配点数超过阈值ｔｎ＝ｋ × Ｓｆｎｕｍ则保留窗口。这对参数对最终关键词检测的结果影响较大，在算法中十分关键。在固定窗口大小和滑动步长的情况下对不同的约束阈值和筛选阈值进行实验，测试结果如表１所示。从表１数据横向分析，随着约束阈值增大，召回率逐渐升高，但准确率逐渐降低。这是因为对匹配点对的几何约束更加严格时，会有效删除更多的误匹配点对。纵向分析，随着筛选阈值ｋ不断增大，召回率逐渐降低而准确率逐渐升高。这是因为较小的ｋ保留了更多的正确窗口，但随之也引入很多误检测的窗口。整体来看，Ｆ值在横向和纵向都呈现先升高后降低的趋势，在ｋ为０．２７，ｐ４和ｐ５为１５和１２时取得最大值８８．０２％。固定筛选阈值和约束阈值为上述两个最佳值，再针对不同的窗口宽度和滑动步长进行实验。原始的窗口宽度为Ｗ＝Ｗｓ × Ａｖｇ（Ｓｃｌｄ）／Ａｖｇ（Ｓｃｌｓ），在 ·５４８· 智能系统学报第９卷

第5期张文超，等：几何信息与SFT特征相结合的特定人手写关键词检测 .549. 此基础上分别进行增大和减小。其中S为关键词图像宽度的1/6。测试结果如表2所示。表1不同筛选阈值和约束阈值的检测结果 Table 1 Detection results of different selection thresholds and restriction thresholds 窗口宽度滑动 W-S W+S W+2S 步长及 P R F R 心分 R P W/3 77.02 85.82 81.18 81.69 89.62 85.47 78.17 93.81 85.28 77.85 94.23 85.26 W/4 86.07 82.03 84.01 86.58 90.42 88.46 83.80 92.69 88.02 74.52 93.73 83.03 W/5 83.80 86.63 85.19 83.39 86.30 84.82 81.19 91.42 86.00 77.48 93.49 84.74 W/6 89.26 82.65 85.83 86.59 85.49 86.04 86.25 92.12 89.08 77.85 92.56 84.57 W/7 86.96 82.20 84.51 86.07 88.51 87.27 84.37 89.22 86.73 77.25 93.08 84.43 表2不同窗口宽度和滑动步长的检测结果 Table 2 Detection results of different window widths and sliding steps 约束阈值P4P5 筛选阈值k 14,11 15,12 16,13 R P F R P R 2 0.24 86.58 85.84 86.21 90.47 74.09 81.46 92.69 64.46 76.04 0.25 84.73 90.44 87.49 87.13 83.92 85.49 87.88 73.63 80.13 0.26 83.38 92.56 87.73 86.39 86.17 86.28 87.27 82.47 84.80 0.27 78.12 95.80 86.06 83.80 92.69 88.02 87.27 87.43 87.35 0.28 74.79 97.18 84.52 79.65 94.60 86.49 80.53 90.15 85.07 从表2数据横向分析，随着窗口宽度的增大，召表3所示。从表3和表1的对比可以看出，所有的回率呈现先升高后降低的趋势，而准确率逐渐升高，召回率都有提高，大部分准确率下降，由于召回率提这是因为太小的窗口宽度可能损失一部分正确匹配高的幅度更大，所以整体的F值有所提高，并且在相点，而太大的窗口又会引入很多误匹配点，但是由于同的参数下取得最大值。本文方法为了提高关键词结构约束能够筛选窗口，使得准确率大幅提升。只检测的成功率，在基于SFT特征进行文字图像匹配有适当窗口大小才能得到比较好的结果。纵向分之后，利用了文字几何信息对匹配点对进行筛选。析，滑动步长的大小对召回率和准确率的影响出现为了验证文字结构信息对检测的效果，对结合文字了波动，这是由于手写体汉字间距的随意性导致。几何信息之前和之后进行了对比实验，结果如表4 整体来看，F值在横向也表现出先升高后降低的趋所示。很显然，在没有几何信息约束的情况下仅仅势，在纵向有一定波动性。在窗口宽度取W+S,滑动依靠SFT特征进行匹配，大部分图像存在误检的情步长取W/6时，F值取得最大值89.08%。况。这是由于汉字大量的重复结构造成，汉字笔画固定窗口大小和滑动步长为上述两个最佳值，类别单一，只有依靠笔画之间的结构约束才能精准再次对筛选阈值和约束阈值进行实验。测试结果如地匹配。表3固定参数后不同筛选阈值和约束阈值的检测结果 Table 3 detection results with different selection threshold and restriction threshold after parameters fixed 约束阈值P4,P5 筛选阈值k 14.11 15,12 16,13 R P F R P F R P 0.25 87.17 89.11 88.13 92.54 82.40 87.18 93.28 70.62 80.83 0.26 85.82 90.98 88.33 89.58 86.50 88.01 91.57 78.54 84.55 0.27 79.23 94.76 86.30 86.25 92.12 89.08 91.57 85.57 88.47 0.28 76.64 96.37 85.38 79.65 92.48 85.59 81.12 89.18 84.96

此基础上分别进行增大和减小。其中Ｓ为关键词图像宽度的１／６。测试结果如表２所示。表１不同筛选阈值和约束阈值的检测结果Ｔａｂｌｅ１Ｄｅｔｅｃｔｉｏｎｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔｓｅｌｅｃｔｉｏｎｔｈｒｅｓｈｏｌｄｓａｎｄｒｅｓｔｒｉｃｔｉｏｎｔｈｒｅｓｈｏｌｄｓ滑动步长窗口宽度Ｗ－ＳＷＷ＋ＳＷ＋２ＳＲＰＦＲＰＦＲＰＦＲＰＦＷ／３７７．０２８５．８２８１．１８８１．６９８９．６２８５．４７７８．１７９３．８１８５．２８７７．８５９４．２３８５．２６Ｗ／４８６．０７８２．０３８４．０１８６．５８９０．４２８８．４６８３．８０９２．６９８８．０２７４．５２９３．７３８３．０３Ｗ／５８３．８０８６．６３８５．１９８３．３９８６．３０８４．８２８１．１９９１．４２８６．００７７．４８９３．４９８４．７４Ｗ／６８９．２６８２．６５８５．８３８６．５９８５．４９８６．０４８６．２５９２．１２８９．０８７７．８５９２．５６８４．５７Ｗ／７８６．９６８２．２０８４．５１８６．０７８８．５１８７．２７８４．３７８９．２２８６．７３７７．２５９３．０８８４．４３表２不同窗口宽度和滑动步长的检测结果Ｔａｂｌｅ２Ｄｅｔｅｃｔｉｏｎｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔｗｉｎｄｏｗｗｉｄｔｈｓａｎｄｓｌｉｄｉｎｇｓｔｅｐｓ筛选阈值ｋ约束阈值ｐ４，ｐ５１４，１１ＲＰＦ１５，１２ＲＰＦ１６，１３ＲＰＦ０．２４８６．５８８５．８４８６．２１９０．４７７４．０９８１．４６９２．６９６４．４６７６．０４０．２５８４．７３９０．４４８７．４９８７．１３８３．９２８５．４９８７．８８７３．６３８０．１３０．２６８３．３８９２．５６８７．７３８６．３９８６．１７８６．２８８７．２７８２．４７８４．８００．２７７８．１２９５．８０８６．０６８３．８０９２．６９８８．０２８７．２７８７．４３８７．３５０．２８７４．７９９７．１８８４．５２７９．６５９４．６０８６．４９８０．５３９０．１５８５．０７从表２数据横向分析，随着窗口宽度的增大，召回率呈现先升高后降低的趋势，而准确率逐渐升高，这是因为太小的窗口宽度可能损失一部分正确匹配点，而太大的窗口又会引入很多误匹配点，但是由于结构约束能够筛选窗口，使得准确率大幅提升。只有适当窗口大小才能得到比较好的结果。纵向分析，滑动步长的大小对召回率和准确率的影响出现了波动，这是由于手写体汉字间距的随意性导致。整体来看，Ｆ值在横向也表现出先升高后降低的趋势，在纵向有一定波动性。在窗口宽度取Ｗ＋Ｓ，滑动步长取Ｗ／６时，Ｆ值取得最大值８９．０８％。固定窗口大小和滑动步长为上述两个最佳值，再次对筛选阈值和约束阈值进行实验。测试结果如表３所示。从表３和表１的对比可以看出，所有的召回率都有提高，大部分准确率下降，由于召回率提高的幅度更大，所以整体的Ｆ值有所提高，并且在相同的参数下取得最大值。本文方法为了提高关键词检测的成功率，在基于ＳＩＦＴ特征进行文字图像匹配之后，利用了文字几何信息对匹配点对进行筛选。为了验证文字结构信息对检测的效果，对结合文字几何信息之前和之后进行了对比实验，结果如表４所示。很显然，在没有几何信息约束的情况下仅仅依靠ＳＩＦＴ特征进行匹配，大部分图像存在误检的情况。这是由于汉字大量的重复结构造成，汉字笔画类别单一，只有依靠笔画之间的结构约束才能精准地匹配。表３固定参数后不同筛选阈值和约束阈值的检测结果Ｔａｂｌｅ３ｄｅｔｅｃｔｉｏｎｒｅｓｕｌｔｓｗｉｔｈｄｉｆｆｅｒｅｎｔｓｅｌｅｃｔｉｏｎｔｈｒｅｓｈｏｌｄａｎｄｒｅｓｔｒｉｃｔｉｏｎｔｈｒｅｓｈｏｌｄａｆｔｅｒｐａｒａｍｅｔｅｒｓｆｉｘｅｄ筛选阈值ｋ约束阈值ｐ４，ｐ５１４，１１ＲＰＦ１５，１２ＲＰＦ１６，１３ＲＰＦ０．２５８７．１７８９．１１８８．１３９２．５４８２．４０８７．１８９３．２８７０．６２８０．８３０．２６８５．８２９０．９８８８．３３８９．５８８６．５０８８．０１９１．５７７８．５４８４．５５０．２７７９．２３９４．７６８６．３０８６．２５９２．１２８９．０８９１．５７８５．５７８８．４７０．２８７６．６４９６．３７８５．３８７９．６５９２．４８８５．５９８１．１２８９．１８８４．９６第５期张文超，等：几何信息与ＳＩＦＴ特征相结合的特定人手写关键词检测 ·５４９·

.550. 智能系统学报第9卷表4结合文字几何信息之前和之后的检测结果 [7]LINDEBERG T.Detecting salient blob-like image structures Table 4 Detection results before/after geometric constraint and their scales with a scale-space primal sketch:a method R P F for focus-of-attention[J].International Journal of Computer Vision,1993,11(3):283-318. 几何约束之前 87.58 0.17 0.34 [8]RODRIGUEZ J A,PERRONNIN F.Local gradient histo- 几何约束之后 86.25 92.12 89.08 gram features for word spotting in unconstrained handwritten 4 结束语 documents[C]//2008 International Conference on Frontiers in Handwriting Recognition.Montreal,Canada,2008:18- 结合文字几何信息和SFT局部特征的关键词 25. 检测方法能够有效检测特定书写人的手写关键词， [9]郑琪，管海兵，陈凯.基于局部特征的自然场景图片中并且具有较好的召回率和准确率。该方法先通过对文字定位和识别方法的研究[D].上海：上海交通大学，文本图像提取SFT特征，再利用滑动窗口进行分块 2011. 的特征点匹配，并通过几何信息约束来筛选匹配，点， ZHENG Qi,GUAN Haibing,CHEN Kai.Research on text localization and recognition in image with complex scenes u- 最终得到检测结果。SFT特征良好的稳定性保证 sing local features[D].Shanghai:Shanghai Jiaotong Univer- 了相同书写人的相同关键词能够被检测，而利用几 sity,2011:33-45. 何关系对特征点分布的约束解决了汉字重复结构带 [10]BEIS J S,LOWE D G.Shape indexing using approximate 来的误匹配问题。但是手写体汉字的随意性和书写 nearest-neighbour search in high-dimensional spaces[C]/ 疏密程度的多变性给检测带来了不可避免的困难， Proceedings of Conference on Computer Vision and Pattern 这是造成某些关键词无法检测的主要原因。 Recognition.San Juan,Puerto Rico,1997:1000-1006. [11]LIU C L,YIN F,WANG D H,et al.CASIA online and of- 参考文献： fline Chinese handwriting databases[C]//2011 Internation- [1]RATH T M,MANMATHA R.Word image matching using al Conference on Document Analysis and Recognition.Bei- dynamic time warping[C]//Proceedings of Conference on jing,China,2011:37-41. Vision and Pattern Recognition.Madison,USA,2003:521- 作者简介： 527. 张文超，男，1988年生，硕士研究 [2]LLADOS J,RUSINOL M,FORNES A,et al.On the influ- 生，主要研究方向为图像处理与模式识 ence of word representations for handwritten word spotting in 别。 historical documents[J].International Journal of Pattern Recognition and Artificial Intelligence,2012,26(5):1-25. [3]ZHANG H,WANG D H,LIU C L.Keyword spotting from online Chinese handwritten documents using one-vs-all trained character classifier[C]//2010 International Confer- 吕岳，男，1968年生，博士，教授、博 ence on Frontiers in Handwriting Recognition.Kolkata,Indi- 士生导师，主要研究方向为模式识别、 a,2010:271-276. 图像处理、智能系统。 [4]ZHANG H,LIU C L.A lattice-based method for keyword spotting in online Chinese handwriting[C]//2011 Interna- tional Conference on Document Analysis and Recognition. Beijing,Chian,2011:1064-1068. 文颖，女，1975年生，博士，副教授， [5]ZHANG H,WANG D H,LIU C L.A confidence-based 主要研究方向为图像处理、模式识别、 method for keyword spotting in online Chinese handwritten 机器学习。 documents[C]//2012 21st International Conference on Pat- tern Recognition.Tsukuba,Japan,2012:525-528. [6]LOWE D G.Distinctive image features from scale-invariant keypoints [J].International Journal of Computer Vision, 2004,60(2):91-110

表４结合文字几何信息之前和之后的检测结果Ｔａｂｌｅ４Ｄｅｔｅｃｔｉｏｎｒｅｓｕｌｔｓｂｅｆｏｒｅ／ａｆｔｅｒｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔＲＰＦ几何约束之前８７．５８０．１７０．３４几何约束之后８６．２５９２．１２８９．０８４结束语结合文字几何信息和ＳＩＦＴ局部特征的关键词检测方法能够有效检测特定书写人的手写关键词，并且具有较好的召回率和准确率。该方法先通过对文本图像提取ＳＩＦＴ特征，再利用滑动窗口进行分块的特征点匹配，并通过几何信息约束来筛选匹配点，最终得到检测结果。ＳＩＦＴ特征良好的稳定性保证了相同书写人的相同关键词能够被检测，而利用几何关系对特征点分布的约束解决了汉字重复结构带来的误匹配问题。但是手写体汉字的随意性和书写疏密程度的多变性给检测带来了不可避免的困难，这是造成某些关键词无法检测的主要原因。参考文献：［１］ＲＡＴＨＴＭ，ＭＡＮＭＡＴＨＡＲ．Ｗｏｒｄｉｍａｇｅｍａｔｃｈｉｎｇｕｓｉｎｇｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＣｏｎｆｅｒｅｎｃｅｏｎＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｍａｄｉｓｏｎ，ＵＳＡ，２００３：５２１⁃ ５２７．［２］ＬＬＡＤＯＳＪ，ＲＵＳＩＮＯＬＭ，ＦＯＲＮＥＳＡ，ｅｔａｌ．Ｏｎｔｈｅｉｎｆｌｕ⁃ ｅｎｃｅｏｆｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｈａｎｄｗｒｉｔｔｅｎｗｏｒｄｓｐｏｔｔｉｎｇｉｎｈｉｓｔｏｒｉｃａｌｄｏｃｕｍｅｎｔｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２０１２，２６（５）：１⁃２５．［３］ＺＨＡＮＧＨ，ＷＡＮＧＤＨ，ＬＩＵＣＬ．ＫｅｙｗｏｒｄｓｐｏｔｔｉｎｇｆｒｏｍｏｎｌｉｎｅＣｈｉｎｅｓｅｈａｎｄｗｒｉｔｔｅｎｄｏｃｕｍｅｎｔｓｕｓｉｎｇｏｎｅ⁃ｖｓ⁃ａｌｌｔｒａｉｎｅｄｃｈａｒａｃｔｅｒｃｌａｓｓｉｆｉｅｒ［Ｃ］／／２０１０ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＦｒｏｎｔｉｅｒｓｉｎＨａｎｄｗｒｉｔｉｎｇＲｅｃｏｇｎｉｔｉｏｎ．Ｋｏｌｋａｔａ，Ｉｎｄｉ⁃ ａ，２０１０：２７１⁃２７６．［４］ＺＨＡＮＧＨ，ＬＩＵＣＬ．Ａｌａｔｔｉｃｅ⁃ｂａｓｅｄｍｅｔｈｏｄｆｏｒｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇｉｎｏｎｌｉｎｅＣｈｉｎｅｓｅｈａｎｄｗｒｉｔｉｎｇ［Ｃ］／／２０１１Ｉｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ．Ｂｅｉｊｉｎｇ，Ｃｈｉａｎ，２０１１：１０６４⁃１０６８．［５］ＺＨＡＮＧＨ，ＷＡＮＧＤＨ，ＬＩＵＣＬ．Ａｃｏｎｆｉｄｅｎｃｅ⁃ｂａｓｅｄｍｅｔｈｏｄｆｏｒｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇｉｎｏｎｌｉｎｅＣｈｉｎｅｓｅｈａｎｄｗｒｉｔｔｅｎｄｏｃｕｍｅｎｔｓ［Ｃ］／／２０１２２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔ⁃ ｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｔｓｕｋｕｂａ，Ｊａｐａｎ，２０１２：５２５⁃５２８．［６］ＬＯＷＥＤＧ．Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ⁃ｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００４，６０（２）：９１⁃１１０．［７］ＬＩＮＤＥＢＥＲＧＴ．Ｄｅｔｅｃｔｉｎｇｓａｌｉｅｎｔｂｌｏｂ⁃ｌｉｋｅｉｍａｇｅｓｔｒｕｃｔｕｒｅｓａｎｄｔｈｅｉｒｓｃａｌｅｓｗｉｔｈａｓｃａｌｅ⁃ｓｐａｃｅｐｒｉｍａｌｓｋｅｔｃｈ：ａｍｅｔｈｏｄｆｏｒｆｏｃｕｓ⁃ｏｆ⁃ａｔｔｅｎｔｉｏｎ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，１９９３，１１（３）：２８３⁃３１８．［８］ＲＯＤＲＩＧＵＥＺＪＡ，ＰＥＲＲＯＮＮＩＮＦ．Ｌｏｃａｌｇｒａｄｉｅｎｔｈｉｓｔｏ⁃ ｇｒａｍｆｅａｔｕｒｅｓｆｏｒｗｏｒｄｓｐｏｔｔｉｎｇｉｎｕｎｃｏｎｓｔｒａｉｎｅｄｈａｎｄｗｒｉｔｔｅｎｄｏｃｕｍｅｎｔｓ［Ｃ］／／２００８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｒｏｎｔｉｅｒｓｉｎＨａｎｄｗｒｉｔｉｎｇＲｅｃｏｇｎｉｔｉｏｎ．Ｍｏｎｔｒéａｌ，Ｃａｎａｄａ，２００８：１８⁃ ２５．［９］郑琪，管海兵，陈凯．基于局部特征的自然场景图片中文字定位和识别方法的研究［Ｄ］．上海：上海交通大学，２０１１．ＺＨＥＮＧＱｉ，ＧＵＡＮＨａｉｂｉｎｇ，ＣＨＥＮＫａｉ．Ｒｅｓｅａｒｃｈｏｎｔｅｘｔｌｏｃａｌｉｚａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎｉｎｉｍａｇｅｗｉｔｈｃｏｍｐｌｅｘｓｃｅｎｅｓｕ⁃ ｓｉｎｇｌｏｃａｌｆｅａｔｕｒｅｓ［Ｄ］．Ｓｈａｎｇｈａｉ：ＳｈａｎｇｈａｉＪｉａｏｔｏｎｇＵｎｉｖｅｒ⁃ ｓｉｔｙ，２０１１：３３⁃４５．［１０］ＢＥＩＳＪＳ，ＬＯＷＥＤＧ．Ｓｈａｐｅｉｎｄｅｘｉｎｇｕｓｉｎｇａｐｐｒｏｘｉｍａｔｅｎｅａｒｅｓｔ⁃ｎｅｉｇｈｂｏｕｒｓｅａｒｃｈｉｎｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎａｌｓｐａｃｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＳａｎＪｕａｎ，ＰｕｅｒｔｏＲｉｃｏ，１９９７：１０００⁃１００６．［１１］ＬＩＵＣＬ，ＹＩＮＦ，ＷＡＮＧＤＨ，ｅｔａｌ．ＣＡＳＩＡｏｎｌｉｎｅａｎｄｏｆ⁃ ｆｌｉｎｅＣｈｉｎｅｓｅｈａｎｄｗｒｉｔｉｎｇｄａｔａｂａｓｅｓ［Ｃ］／／２０１１Ｉｎｔｅｒｎａｔｉｏｎ⁃ ａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ．Ｂｅｉ⁃ ｊｉｎｇ，Ｃｈｉｎａ，２０１１：３７⁃４１．作者简介：张文超，男，１９８８年生，硕士研究生，主要研究方向为图像处理与模式识别。吕岳，男，１９６８年生，博士，教授、博士生导师，主要研究方向为模式识别、图像处理、智能系统。文颖，女，１９７５年生，博士，副教授，主要研究方向为图像处理、模式识别、机器学习。 ·５５０· 智能系统学报第９卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录