第9卷第5期 智能系统学报 Vol.9 No.5 2014年10月 CAAI Transactions on Intelligent Systems 0ct.2014 D0:10.3969/j.issn.1673-4785.201402032 几何信息与SIFT特征相结合的 特定人手写关键词检测 张文超,吕岳,文颖,黄志敏2 (1.华东师范大学计算机科学与技术系,上海200241:2.公安部第三研究所,上海200032) 摘要:中文汉字类别繁多,书写随意性大,使得中文的手写体关键词检测具有很大的挑战性。提出一种基于文字 几何信息和ST特征相结合的手写体关键词检测方法,通过计算文本图像特征的匹配度来检测特定书写人的手写 关键词。尺度不变特征转换(scale invariance feature transform,SlFT)局部特征具有良好的稳定性和独特性,既能适应 同一书写人手写汉字的差异,又能区分不同书写人的书写笔迹。结合文字的几何信息,通过滑动窗口和最大团查找 方法可以有效地删除误匹配点,极大地提高关键词检测的成功率。对大量手写体文本图像的实验结果表明,该方法 能够有效检测同一书写人的相同关键词,具有较高的召回率和准确率。 关键词:关键词检测:SFT:滑动窗口:最大团查找 中图分类号:TP18文献标志码:A文章编号:1673-4785(2014)05-0544-07 中文引用格式:张文超,吕岳,文颗,等.几何信息与SFT特征相结合的特定人手写关键词检测[J].智能系统学报,2014,9(5): 544.550. 英文引用格式:ZHANG Wenchao,LYU Yue,.WEN Ying,ctal.Specific handwritten keyword spotting using geometric information and SIFT feature[J].CAAI Transactions on Intelligent Systems,2014,9(5):544-550. Specific handwritten keyword spotting using geometric information and SIFT feature ZHANG Wenchao',LYU Yue',WEN Ying',HUANG Zhimin2 (1.Department of Computer Science and Technology,East China Normal University,Shanghai 200241,China;2.The Third Research Institute of Ministry of Public Security,Shanghai 200032,China) Abstract:Large variety of Chinese characters and handwriting styles leads to a big challenge for keyword spotting in Chinese handwritten documents.A new method combining the character geometric information and SIFT feature is proposed for detecting handwritten keywords of specific handwritten.It is proven that SIFT is a stable and distinctive local feature,which can perform well in distinguishing different handwriting styles.Combined with character geo- metric information and maximum clique matching,the proposed method can effectively remove miss-matching fea- ture points and improve the precision rate of detection.Experimental results in handwriting document images show that the method can efficiently detect keywords of particular writers and remain high recall rate and high precision rate. Keywords:keyword spotting;SIFT;sliding window;maximum clique matching;geometric information 手写关键词检测是在大量手写文本图像中检测 特定书写人的特定关键词。随着机器视觉和人工智 能的发展,手写关键词检测受到了越来越多的关注。 收稿日期:2014-02-26. 当今社会中存在大量的手写文本,如历史文献、笔记 基金项目:国家科技支撑计划资助项目(2011BAK05B04). 等,这些文本往往通过扫描以图像的形式存储,从中 通信作者:张文超.E-mail:414306765@qg.com
第 9 卷第 5 期 智 能 系 统 学 报 Vol.9 №.5 2014 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2014 DOI:10.3969 / j.issn.1673⁃4785.201402032 几何信息与 SIFT 特征相结合的 特定人手写关键词检测 张文超1 , 吕岳1 , 文颖1 , 黄志敏2 (1.华东师范大学 计算机科学与技术系,上海 200241; 2.公安部第三研究所,上海 200032) 摘 要:中文汉字类别繁多,书写随意性大,使得中文的手写体关键词检测具有很大的挑战性。 提出一种基于文字 几何信息和 SIFT 特征相结合的手写体关键词检测方法,通过计算文本图像特征的匹配度来检测特定书写人的手写 关键词。 尺度不变特征转换(scale invariance feature transform,SIFT)局部特征具有良好的稳定性和独特性,既能适应 同一书写人手写汉字的差异,又能区分不同书写人的书写笔迹。 结合文字的几何信息,通过滑动窗口和最大团查找 方法可以有效地删除误匹配点,极大地提高关键词检测的成功率。 对大量手写体文本图像的实验结果表明,该方法 能够有效检测同一书写人的相同关键词,具有较高的召回率和准确率。 关键词:关键词检测;SIFT;滑动窗口;最大团查找 中图分类号: TP18 文献标志码:A 文章编号:1673⁃4785(2014)05⁃0544⁃07 中文引用格式:张文超, 吕岳, 文颖,等. 几何信息与 SIFT 特征相结合的特定人手写关键词检测[ J]. 智能系统学报, 2014, 9(5): 544⁃550. 英文引用格式:ZHANG Wenchao,LYU Yue,WEN Ying,et al. Specific handwritten keyword spotting using geometric information and SIFT feature[J]. CAAI Transactions on Intelligent Systems, 2014, 9(5): 544⁃550. Specific handwritten keyword spotting using geometric information and SIFT feature ZHANG Wenchao 1 , LYU Yue 1 , WEN Ying 1 , HUANG Zhimin 2 (1. Department of Computer Science and Technology, East China Normal University, Shanghai 200241, China; 2. The Third Research Institute of Ministry of Public Security, Shanghai 200032, China) Abstract:Large variety of Chinese characters and handwriting styles leads to a big challenge for keyword spotting in Chinese handwritten documents. A new method combining the character geometric information and SIFT feature is proposed for detecting handwritten keywords of specific handwritten. It is proven that SIFT is a stable and distinctive local feature, which can perform well in distinguishing different handwriting styles. Combined with character geo⁃ metric information and maximum clique matching, the proposed method can effectively remove miss⁃matching fea⁃ ture points and improve the precision rate of detection. Experimental results in handwriting document images show that the method can efficiently detect keywords of particular writers and remain high recall rate and high precision rate. Keywords:keyword spotting; SIFT; sliding window; maximum clique matching; geometric information 收稿日期:2014⁃02⁃26. 基金项目:国家科技支撑计划资助项目(2011BAK05B04). 通信作者:张文超.E-mail:414306765@ qq.com. 手写关键词检测是在大量手写文本图像中检测 特定书写人的特定关键词。 随着机器视觉和人工智 能的发展,手写关键词检测受到了越来越多的关注。 当今社会中存在大量的手写文本,如历史文献、笔记 等,这些文本往往通过扫描以图像的形式存储,从中
第5期 张文超,等:几何信息与SFT特征相结合的特定人手写关键词检测 ·545. 检测人们关注的关键词,有其应用需求。由于手写 发展和应用。SFT特征在图像旋转、尺度变换、仿 体文字随意性大,书写形式自由,容易引起文字倾 射变换和视角变化条件下都有良好的不变性。SFT 斜、模糊或粘连,所以特定人手写关键词检测技术的 特征包括了SFT检测算子和描述算子,前者能够检 发展面临很大的困难。早期Rath和Manmatha)提 测图像局部稳定的关键点,后者对检测到的关键点 出的DTW(dynamic time warping)方法在英文手写 邻域生成特征描述矢量。该算法主要分3步:1)尺 体文本的关键词检测中取得了较好的效果。此后产 度空间的建立和关键点的检测:2)关键点主方向计 生了大量的基于统计和基于结构的方法[],使得关 算:3)关键点特征描述。 键词检测技术得到了快速发展。近几年刘成林 Lindeberg等)已经证明了高斯核是实现尺度 等3]在手写体汉字识别上做了大量工作,在汉字 变换的唯一变换核,所以将图像的尺度空间表示成 识别和语义分析的基础上进行关键词检测,取得了 函数L(x,y,σ),它由图像I(x,y)和一个变尺度的 不错的结果。但中文汉字类别多,书写风格多变,基 高斯函数G(x,y,)卷积产生,即 于识别的关键词检测方法很大程度上受制于手写体 L(x,y,)=G(x,y,o)☒1(x,y) 汉字识别的效果,更重要的是这种依靠识别结果的 式中,☒表示在x和y两个方向进行卷积操作, 方法丢失了文本图像中的笔迹信息,无法区分关键 G(x,y,)为 词是来自相同书写人还是不同书写人。 1 G(x,y,0)= (x2+2)/2a2 e 2Tσ1 关键词检测的另一方法是基于图像匹配,即将 SFT算法通过对两个相邻高斯尺度空间图像相减, 文本图像表述为特征,再对特征区域或者特征点进 得到DoG(difference of Gaussians)图像来近似LoG 行相似度匹配,避开了手写体汉字的识别问题而将 (Laplace of Guassian)方法。通过对高斯差分图像 关键词检测转化为图像匹配问题。有许多特征可以 D(x,y,σ)进行局部极值搜索,在位置空间和尺度 描述文本图像,如统计特征、结构特征、局部特征等。 空间定位关键点,其中 尺度不变特征转换(scale invariance feature trans- D(x,y,)=L(x,y,ko)-L(x,y,) fom,SIFT)是一种旋转、尺度、光照不变的局部特 式中k为相邻尺度空间尺度值的倍数。 征[6),具有良好的稳定性和独特性。从文本图像上 DoG方法是通过构建图像金字塔实现的,将图 提取的SFT特征点,保留了文字局部的细节信息。 像金字塔分为0组,每组S层。通过对每组上下相 而结合文字的几何信息,又能够有效地避免汉字重 邻两层的高斯尺度空间图像相减得到DoG结果。 复结构对特征点匹配带来的影响,极大提高关键词 为了寻找尺度空间的关键点,每个内部的DoG图像 检测的成功率。以往对关键词检测的研究并没有对 层像素点需要和它同尺度内的8邻域点和上下相邻 书写人加以区分,并且目前对基于匹配方法的研究 尺度空间的9×2个点一共26个点比较,确保在尺 还比较初步。因此,本文提出一种基于SFT特征匹 度空间和二维图像位置空间都检测到极值点。 配的手写关键词检测方法,能够对特定人的中文手 为了实现图像特征的旋转不变性,需要计算图 写关键词进行检测,同时结合文字几何信息来提高 像梯度来求取特征点的主方向。每个已经检测到特 检测的准确率。该方法对预留的特定作者书写的关 征点对应一个尺度值σ,在该尺度下的高斯图像 键词图像和待检测文本图像分别进行SFT特征提 中,以特征点为中心,计算3×1.5σ为半径区域内图 取,使用滑动窗口在待检测文本图像进行滑动并将 像梯度的幅值和幅角(梯度方向): 窗口内文本图像特征与关键词图像特征进行匹配, m(x,y)= 根据几何信息对匹配点建立几何约束图,通过最大 √L(x+y,y)-L(x-1,y)+L(xy+1)-(x,y-1) 团查找方法删除误匹配特征点,最终筛选和合并窗 (L(x,y+1)-L(x,y-1) 口来定位特定的手写关键词。实验表明,本方法能 0(x,y)=aretanL(x1y)-L(x-1.y)) 够有效地检测手写体关键词,并具有较高的召回率 计算某一特征点邻域内高斯图像的梯度之后,使用 和准确率。 直方图统计梯度方向和幅值。将0°~360°的方向角 分为36个区间,当梯度方向落入到某一个区间时, 1 SIFT特征提取 将该方向角对应的幅值乘以圆形高斯加权函数再累 SFT6]算法由Lowe在1999年提出并在2004 加,最终形成梯度直方统计图。将其中最大峰值对 年将其完善,该算法在机器视觉领域得到了迅速的 应的梯度方向角作为特征点的主方向
检测人们关注的关键词,有其应用需求。 由于手写 体文字随意性大,书写形式自由,容易引起文字倾 斜、模糊或粘连,所以特定人手写关键词检测技术的 发展面临很大的困难。 早期 Rath 和 Manmatha [1] 提 出的 DTW( dynamic time warping) 方法在英文手写 体文本的关键词检测中取得了较好的效果。 此后产 生了大量的基于统计和基于结构的方法[2] ,使得关 键词检测技术得到了快速发展。 近几年刘成林 等[3⁃5]在手写体汉字识别上做了大量工作,在汉字 识别和语义分析的基础上进行关键词检测,取得了 不错的结果。 但中文汉字类别多,书写风格多变,基 于识别的关键词检测方法很大程度上受制于手写体 汉字识别的效果,更重要的是这种依靠识别结果的 方法丢失了文本图像中的笔迹信息,无法区分关键 词是来自相同书写人还是不同书写人。 关键词检测的另一方法是基于图像匹配,即将 文本图像表述为特征,再对特征区域或者特征点进 行相似度匹配,避开了手写体汉字的识别问题而将 关键词检测转化为图像匹配问题。 有许多特征可以 描述文本图像,如统计特征、结构特征、局部特征等。 尺度不变特征转换 ( scale invariance feature trans⁃ form,SIFT)是一种旋转、尺度、光照不变的局部特 征[6] ,具有良好的稳定性和独特性。 从文本图像上 提取的 SIFT 特征点,保留了文字局部的细节信息。 而结合文字的几何信息,又能够有效地避免汉字重 复结构对特征点匹配带来的影响,极大提高关键词 检测的成功率。 以往对关键词检测的研究并没有对 书写人加以区分,并且目前对基于匹配方法的研究 还比较初步。 因此,本文提出一种基于 SIFT 特征匹 配的手写关键词检测方法,能够对特定人的中文手 写关键词进行检测,同时结合文字几何信息来提高 检测的准确率。 该方法对预留的特定作者书写的关 键词图像和待检测文本图像分别进行 SIFT 特征提 取,使用滑动窗口在待检测文本图像进行滑动并将 窗口内文本图像特征与关键词图像特征进行匹配, 根据几何信息对匹配点建立几何约束图,通过最大 团查找方法删除误匹配特征点,最终筛选和合并窗 口来定位特定的手写关键词。 实验表明,本方法能 够有效地检测手写体关键词,并具有较高的召回率 和准确率。 1 SIFT 特征提取 SIFT [6] 算法由 Lowe 在 1999 年提出并在 2004 年将其完善,该算法在机器视觉领域得到了迅速的 发展和应用。 SIFT 特征在图像旋转、尺度变换、仿 射变换和视角变化条件下都有良好的不变性。 SIFT 特征包括了 SIFT 检测算子和描述算子,前者能够检 测图像局部稳定的关键点,后者对检测到的关键点 邻域生成特征描述矢量。 该算法主要分 3 步:1)尺 度空间的建立和关键点的检测;2)关键点主方向计 算;3)关键点特征描述。 Lindeberg 等[7]已经证明了高斯核是实现尺度 变换的唯一变换核,所以将图像的尺度空间表示成 函数 L(x,y,σ) ,它由图像 I(x,y) 和一个变尺度的 高斯函数 G(x,y,σ) 卷积产生,即 L(x,y,σ) = G(x,y,σ) I(x,y) 式中, 表示在 x 和 y 两个方向进行卷积操作, G(x,y,σ) 为 G(x,y,σ) = 1 2πσ 2 e -(x 2+y 2) / 2σ2 SIFT 算法通过对两个相邻高斯尺度空间图像相减, 得到 DoG( difference of Gaussians) 图像来近似 LoG (Laplace of Guassian) 方法。 通过对高斯差分图像 D(x,y,σ) 进行局部极值搜索,在位置空间和尺度 空间定位关键点,其中 D(x,y,σ) = L(x,y,kσ) - L(x,y,σ) 式中 k 为相邻尺度空间尺度值的倍数。 DoG 方法是通过构建图像金字塔实现的,将图 像金字塔分为 O 组,每组 S 层。 通过对每组上下相 邻两层的高斯尺度空间图像相减得到 DoG 结果。 为了寻找尺度空间的关键点,每个内部的 DoG 图像 层像素点需要和它同尺度内的 8 邻域点和上下相邻 尺度空间的 9 × 2 个点一共 26 个点比较,确保在尺 度空间和二维图像位置空间都检测到极值点。 为了实现图像特征的旋转不变性,需要计算图 像梯度来求取特征点的主方向。 每个已经检测到特 征点对应一个尺度值 σ ,在该尺度下的高斯图像 中,以特征点为中心,计算 3 × 1.5σ 为半径区域内图 像梯度的幅值和幅角(梯度方向): m(x,y) = L(x + y,y) - L(x - 1,y) + L(x,y + 1) - (x,y - 1) θ(x,y) = arctan L(x,y + 1) - L(x,y - 1) L(x + 1,y) - L(x - 1,y) æ è ç ö ø ÷ 计算某一特征点邻域内高斯图像的梯度之后,使用 直方图统计梯度方向和幅值。 将 0° ~ 360°的方向角 分为 36 个区间,当梯度方向落入到某一个区间时, 将该方向角对应的幅值乘以圆形高斯加权函数再累 加,最终形成梯度直方统计图。 将其中最大峰值对 应的梯度方向角作为特征点的主方向。 第 5 期 张文超,等:几何信息与 SIFT 特征相结合的特定人手写关键词检测 ·545·
·546· 智能系统学报 第9卷 SFT描述子d是对特征点邻域内高斯图像梯 1)若W。W。,则q:=W。,即最后一段不足宽度 并对每一个子区域计算梯度统计直方图。这里将 也作为一个窗口。 0°~360°的方向角划分成8个区间,每45°一个区 从文本图像的左侧开始到右侧末端,就像一个 间。最终形成4×4×8=128维的SFT特征矢量。 从左至右滑动的窗口。每次窗口内的匹配只针对横 3)为了去除光照变化的影响,对128维特征矢 坐标x落在P:和g:之间的文本特征点集合。参数 量进行归一化处理。 窗口宽度w和移动步长s影响窗口内的特征点匹配 通过上述方法,文本图像或者图像区域可以描 数量。窗口过宽会失去很多正确匹配点,过窄则会 述为SIFT特征点的集合S={F},每个特征点F:= 产生大量误匹配点。适当加宽窗口可以抑制更多的 (x,y,σ,0,d)由5个数据组成,分别表示特征点在 误匹配点对。而移动步长过大会错过正确的匹配窗 图像中的横坐标、纵坐标、尺度值、方向角和特征矢 口或割开关键词,过小又会使窗口数量增多而降低 量。通过对关键词图像提取SFT特征点集,存储在 匹配效率。 特征库文件中,便于后期对特征点的快速读取。 手写体文本书写的随意性造成了汉字之间疏密 2关键词检测 程度的不同,这使得窗口宽度和移动步长很难选取。 经过大量实验发现,当窗口宽度与关键词图像宽度 对关键词图像和文本图像提取ST特征点后, 的比值等于关键词图像与文本图像特征点尺度均值 需要将两者特征点进行匹配,得到相似的特征点对 的比值时,匹配的结果比较好。通过特征点尺度来 集合。但是由于汉字结构的相似性,使得汉字之间 调节窗口宽度,可以适应图像的尺度变化。本方法 的特征点相似度匹配存在不小误差,关键词图像上 中0和s按照公式(2)计算: 的特征,点直接在文本图像特征点集合匹配得到的结 Avg() 果错误比较多。Rodnguez等[s]通过提取滑动窗口 0=W,× Avg(,) 内的特征进行英文的手写体关键词检测,郑琪等町 (2) 10 使用滑动窗口的方法对自然场景中的文字进行定 5=6 位。利用滑动窗口算法能够缩小特征点匹配的范 式中:W,为关键词图像宽度,Avg(σ)为关键词图 围,进而有效增加正确匹配的特征点数量。 像特征点尺度的均值,Avg(σ,)为文本图像特征点 2.1滑动窗口提取 的均值。 对文本图像进行滑动窗口提取,首先构造一个 在每个窗口中,所有关键词图像特征点可利用 高度等同于文本行,宽度为0的窗口,并将该窗口 Kd-树算法[1o]查找到文本图像中5个最近邻的特征 在文本图像上从左至右滑动,滑动间隔为$。每一 点,形成初始的匹配点对。汉字之间存在大量重复 次滑动,窗口都会覆盖文本图像一部分特征点,关键 的结构和相似的笔画,而且SFT局部特征缺乏特征 词图像特征点依次与各个窗口内的特征点匹配。 点在空间分布上的几何性质,这使得初始的特征点 用集合Wind(p,q)表示窗口,其中p和g分别 匹配结果存在大量的错误匹配。利用SFT局部特 表示窗口的起始坐标和终止坐标。设文本图像宽度 征本身带有的几何信息,如位置、方向、尺度信息,构 为W。,窗口数量为n,如图1所示。 造几何约束关系,可以进一步筛选错误匹配点对,提 W 高滑动窗口内特征点的匹配成功率。 敲性食粉也会猴使爱」 2.2几何信息约束和最大团查找 利用特征点的方向、尺度等信息对匹配点对进 行初步的筛选,如果不考虑文本图像的旋转、扭曲和 图1滑动窗口 缩放,两个相似的特征点之间的方向角、尺度值差异 Fig.1 Sliding window 就不会特别大。另外,特征矢量的欧氏距离特别大 按照如下方法来提取滑动窗口。 的匹配点对也会被删除,因为特征矢量表示特征点
SIFT 描述子 d 是对特征点邻域内高斯图像梯 度统计结果的一种表示。 计算特征描述矢量的步骤 如下: 1)对某一特征点,在其所在的尺度 σ 对应的高 斯图像中,以该点为中心将图像旋转 θ 角度。 2)将其 3σ × 3σ 的邻域划分成 4 × 4 个子区域, 并对每一个子区域计算梯度统计直方图。 这里将 0° ~ 360°的方向角划分成 8 个区间,每 45°一个区 间。 最终形成 4 × 4 × 8 = 128 维的 SIFT 特征矢量。 3)为了去除光照变化的影响,对 128 维特征矢 量进行归一化处理。 通过上述方法,文本图像或者图像区域可以描 述为 SIFT 特征点的集合 S = {Fi} ,每个特征点 Fi = (x,y,σ,θ,d) 由 5 个数据组成,分别表示特征点在 图像中的横坐标、纵坐标、尺度值、方向角和特征矢 量。 通过对关键词图像提取 SIFT 特征点集,存储在 特征库文件中,便于后期对特征点的快速读取。 2 关键词检测 对关键词图像和文本图像提取 SIFT 特征点后, 需要将两者特征点进行匹配,得到相似的特征点对 集合。 但是由于汉字结构的相似性,使得汉字之间 的特征点相似度匹配存在不小误差,关键词图像上 的特征点直接在文本图像特征点集合匹配得到的结 果错误比较多。 Rodrıguez 等[8] 通过提取滑动窗口 内的特征进行英文的手写体关键词检测,郑琪等[9] 使用滑动窗口的方法对自然场景中的文字进行定 位。 利用滑动窗口算法能够缩小特征点匹配的范 围,进而有效增加正确匹配的特征点数量。 2.1 滑动窗口提取 对文本图像进行滑动窗口提取,首先构造一个 高度等同于文本行,宽度为 w 的窗口,并将该窗口 在文本图像上从左至右滑动,滑动间隔为 s 。 每一 次滑动,窗口都会覆盖文本图像一部分特征点,关键 词图像特征点依次与各个窗口内的特征点匹配。 用集合 Wind(p,q) 表示窗口,其中 p 和 q 分别 表示窗口的起始坐标和终止坐标。 设文本图像宽度 为 Wd ,窗口数量为 n ,如图 1 所示。 图 1 滑动窗口 Fig.1 Sliding window 按照如下方法来提取滑动窗口。 1)若 Wd < w ,则 n = 1,p1 = 0,q1 = Wd ; 2)否则,按照式(1)计算窗口的坐标: n = 1 + 「(Wd - w) / s⌉ pi = pi-1 + s qi = qi-1 + s (1) 3)若 qi > Wd ,则 qi = Wd ,即最后一段不足宽度 也作为一个窗口。 从文本图像的左侧开始到右侧末端,就像一个 从左至右滑动的窗口。 每次窗口内的匹配只针对横 坐标 x 落在 pi 和 qi 之间的文本特征点集合。 参数 窗口宽度 w 和移动步长 s 影响窗口内的特征点匹配 数量。 窗口过宽会失去很多正确匹配点,过窄则会 产生大量误匹配点。 适当加宽窗口可以抑制更多的 误匹配点对。 而移动步长过大会错过正确的匹配窗 口或割开关键词,过小又会使窗口数量增多而降低 匹配效率。 手写体文本书写的随意性造成了汉字之间疏密 程度的不同,这使得窗口宽度和移动步长很难选取。 经过大量实验发现,当窗口宽度与关键词图像宽度 的比值等于关键词图像与文本图像特征点尺度均值 的比值时,匹配的结果比较好。 通过特征点尺度来 调节窗口宽度,可以适应图像的尺度变化。 本方法 中 w 和 s 按照公式(2)计算: w = Ws × Avg(σd ) Avg(σs) s = w 6 (2) 式中: Ws 为关键词图像宽度, Avg(σs) 为关键词图 像特征点尺度的均值, Avg(σd ) 为文本图像特征点 的均值。 在每个窗口中,所有关键词图像特征点可利用 Kd⁃树算法[10]查找到文本图像中 5 个最近邻的特征 点,形成初始的匹配点对。 汉字之间存在大量重复 的结构和相似的笔画,而且 SIFT 局部特征缺乏特征 点在空间分布上的几何性质,这使得初始的特征点 匹配结果存在大量的错误匹配。 利用 SIFT 局部特 征本身带有的几何信息,如位置、方向、尺度信息,构 造几何约束关系,可以进一步筛选错误匹配点对,提 高滑动窗口内特征点的匹配成功率。 2.2 几何信息约束和最大团查找 利用特征点的方向、尺度等信息对匹配点对进 行初步的筛选,如果不考虑文本图像的旋转、扭曲和 缩放,两个相似的特征点之间的方向角、尺度值差异 就不会特别大。 另外,特征矢量的欧氏距离特别大 的匹配点对也会被删除,因为特征矢量表示特征点 ·546· 智 能 系 统 学 报 第 9 卷
第5期 张文超,等:几何信息与SFT特征相结合的特定人手写关键词检测 ·547. 周围的梯度统计信息。利用式(3)可以对匹配特征 件的几何意义是,分布于汉字上的特征点随笔画的 点对进行初步筛选: 随意性移动的范围不会超过一定的阈值。因为相同 |0-0.1<P1 的汉字具有相同的笔画结构和笔顺,相应的特征点 0,1 也应当具有类似的分布。 P2< (3) C p2 ‖d,-d.I2<p3 式中:0,、o,、d,和0.、0.、d.分别表示关键词图 像和窗口图像的特征点方向角、尺度、特征矢量。 P1、P2、P,分别是对应的阈值。匹配点经过初步筛 窗口图像 选后的结果如图2所示。 性 也气促使症状发: 关键词图像 图2匹配特征点初步筛选后结果 Fig.2 Feature matching after initial selection 图3窗口内匹配点的分布信息 图中截取了滑动窗口在文本图像中的一个片 Fig.3 Location information of matching points 段,矩形框为窗口的位置,下面显示的是关键词的图 当存在越多的正确匹配点时,GCG图中互相连 像,细直线连接了两幅图像中匹配的特征点。可以 接的顶点将会越多。为了得到一个存在最多正确匹 看到图中依然存在很多误匹配的点对,这是由汉字 配点对的子集,就要在GCG中找到一个最大子图, 重复的结构信息引起的。利用特征点在文字的空间 在这个子图中所有的顶点都是互相连接的,可使用 分布建立几何约束,可以进一步删除误匹配点对。 最大团查找(maximal clique matching,MCM)算法来 几何约束原理就是:关键词图像上存在一定位置关 实现,其具体过程如下 系的两个特征点,它们在窗口图像中对应的两个匹 1)初始化候选顶点集C=V,最大团顶点集为 配点也具有相似的位置关系。通过这个原理可以在 M=9; 特征点对之间建立几何约束图,再通过图论中的最 2)计算V中每个顶点的度,记为集合Deg(V): 大团查找算法获得正确的匹配,点对集合。几何约束 3)选择C中Deg(V)最大的顶点to,将其加入 图(geometric constraint graph,GCG)建立步骤如下 M,即M=MU{o}; 1)设S={s1,s2,…,sm}为关键词图像特征点 4)将。从C中删除,并且只在C中保留和。相 集,W={01,02,…,0n}为文本图像中与之匹配的 连接的顶点,即C=C\o,C=CUN(o)。其中 特征点集。无向图G=(V,E)表示几何约束图。V= V()表示o的邻接顶点集。 {1,2,"}为G的顶点集合,其中:=(s,0:), 5)如课C=p,算法结束,否测转到重复上述过程。 表示S和W中每一对匹配点就对应G中的一个顶 通过建立几何约束图和最大团查找算法,可以 点。ECV×V为G边的集合。 删除大量误匹配点对,图2中的初始匹配经过几何 2)按照如下方法添加G的边,对于任意两个特 约束处理后结果如图4所示。线连接了两幅图中匹 征点对:=(5,0)和=(s,四),满足约束条件 配的特征点对,从图4中可以看到,笔画上的特征点 基本上是正确匹配的。 |(x-x)-(x:-xg)|<p4×Avg(c,) I-y,)-(,-y)1<5×Ag(a,)(4) 性 色会侯使症状袭 则在顶点,和之间添加一条边。式中x,和x。表 示特征点在关键词图像和窗口图像内的横坐标,而 图4匹配特征点进一步筛选结果 y、y.则表示其纵坐标,参考图3示例。P4和P5是 Fig.4 Location information of matching points 两个阈值,为了适应不同关键词图像的尺寸,式(4) 2.3窗口筛选和合并 中的右值应当与其平均尺度值成正比。该式约束条 结合几何约束对匹配点进行筛选之后,每个窗
周围的梯度统计信息。 利用式(3)可以对匹配特征 点对进行初步筛选: θs - θw < p1 p2 < σs σw < 1 p2 ‖ ds - dw‖2 < p3 (3) 式中: θs 、 σs 、 ds 和 θw 、 σw 、 dw 分别表示关键词图 像和窗口图像的特征点方向角、尺度、特征矢量。 p1 、 p2 、 p3 分别是对应的阈值。 匹配点经过初步筛 选后的结果如图 2 所示。 图 2 匹配特征点初步筛选后结果 Fig.2 Feature matching after initial selection 图中截取了滑动窗口在文本图像中的一个片 段,矩形框为窗口的位置,下面显示的是关键词的图 像,细直线连接了两幅图像中匹配的特征点。 可以 看到图中依然存在很多误匹配的点对,这是由汉字 重复的结构信息引起的。 利用特征点在文字的空间 分布建立几何约束,可以进一步删除误匹配点对。 几何约束原理就是:关键词图像上存在一定位置关 系的两个特征点,它们在窗口图像中对应的两个匹 配点也具有相似的位置关系。 通过这个原理可以在 特征点对之间建立几何约束图,再通过图论中的最 大团查找算法获得正确的匹配点对集合。 几何约束 图(geometric constraint graph,GCG)建立步骤如下 1)设 S = {s1 ,s2 ,...,sm } 为关键词图像特征点 集, W = {w1 ,w2 ,...,wm } 为文本图像中与之匹配的 特征点集。 无向图 G = (V,E) 表示几何约束图。 V = {v1 ,v2 ,...,vm } 为 G 的顶点集合,其中 vi = (si,wi) , 表示 S 和 W 中每一对匹配点就对应 G 中的一个顶 点。 E ⊆ V × V 为 G 边的集合。 2)按照如下方法添加 G 的边,对于任意两个特 征点对 vi = (si,wi) 和 vj = (sj,wj) ,满足约束条件 (xs i - xs j ) - (xwi - xwj ) < p4 × Avg(σs) (ys i - ys j ) - (ywi - ywj ) < p5 × Avg(σs) (4) 则在顶点 vi 和 vj 之间添加一条边。 式中 xs 和 xw 表 示特征点在关键词图像和窗口图像内的横坐标,而 ys 、 yw 则表示其纵坐标,参考图 3 示例。 p4 和 p5 是 两个阈值,为了适应不同关键词图像的尺寸,式(4) 中的右值应当与其平均尺度值成正比。 该式约束条 件的几何意义是,分布于汉字上的特征点随笔画的 随意性移动的范围不会超过一定的阈值。 因为相同 的汉字具有相同的笔画结构和笔顺,相应的特征点 也应当具有类似的分布。 图 3 窗口内匹配点的分布信息 Fig.3 Location information of matching points 当存在越多的正确匹配点时,GCG 图中互相连 接的顶点将会越多。 为了得到一个存在最多正确匹 配点对的子集,就要在 GCG 中找到一个最大子图, 在这个子图中所有的顶点都是互相连接的,可使用 最大团查找(maximal clique matching,MCM)算法来 实现,其具体过程如下 1)初始化候选顶点集 C = V ,最大团顶点集为 M = φ ; 2)计算 V 中每个顶点的度,记为集合 Deg(V); 3)选择 C 中 Deg(V) 最大的顶点 v0 ,将其加入 M,即 M = M ∪ {v0 } ; 4)将 v0 从 C 中删除,并且只在 C 中保留和 v0 相 连接的顶点,即 C = C \v0 , C = C ∪ N(v0 ) 。 其中 N(v0 ) 表示 v0 的邻接顶点集。 5)如果C = φ ,算法结束,否则转到重复上述过程。 通过建立几何约束图和最大团查找算法,可以 删除大量误匹配点对,图 2 中的初始匹配经过几何 约束处理后结果如图 4 所示。 线连接了两幅图中匹 配的特征点对,从图 4 中可以看到,笔画上的特征点 基本上是正确匹配的。 图 4 匹配特征点进一步筛选结果 Fig.4 Location information of matching points 2.3 窗口筛选和合并 结合几何约束对匹配点进行筛选之后,每个窗 第 5 期 张文超,等:几何信息与 SIFT 特征相结合的特定人手写关键词检测 ·547·
·548. 智能系统学报 第9卷 口都会对应一个匹配点的数量,数量过少的窗口则 关键词窗口。 被删除。由于汉字繁简程度不同导致其自身的特征 点数量也不同,使得不同汉字的匹配点数量差异很 3实验结果和分析 大,本文采用自适应阈值来筛选窗口,即 本文实验采用CASIA提供的离线手写体文本 tn =kx Simum 图像库HWDB2.1),该图像库由300位不同作者 tn为阈值,Sm为关键词图像特征点数,k根据经验 书写,每人5封文本图像,一共1500封图像。所有 值取0.27。 的图像以300DP的分辨率扫描,以8位灰度级图像 当关键词中的某一个字出现在文本图像中时, 存储。为了避免行分割对实验的影响,同时为了便 往往匹配的点也较多,比如“食物”和“食品”、“粮 于滑动窗口的提取,我们将文本图像预先按行分割, 食”,它们之中都有“食”字,但实际上是不应该被检 每一个文本图像分为10个左右的单行图像,最终得 测出来的。对该问题采用两种策略解决,一是基于 到15000封图像。从中选取50位作者的2764封 重心偏移的判决,二是基于点分布的判决。当匹配 图像作为实验中的待测文本图像。 的特征点大部分集中在一个字上时,关键词图像特 评价实验结果的标准主要有召回率R、准确率 征点的重心横坐标和水平方向的分布会发生比较大 P和F值。召回率能体现本文方法对关键词检测能 的偏移。当前后两次偏移满足: 力,越高越好:准确率表明检测结果中正确检测结果 XCent(So)-XCent(S,)>tc 的比例,体现该方法的检测效率,越高越好:F值则 LPoi(Sp)-LPoi(S,)>tp 是对上述两个标准的综合考量。假设检测图像Z 则当前窗口被删除。其中XCent(S)表示关键词图 封,共检测到S个关键词,其中正确检测Y个,误检 像特征点的重心横坐标,LPoi(S)表示关键词图像 N个,S=Y+N,应当检测到的关键词有T个。上述3 特征点在左半侧的分布率,即左半边的点占所有点 个评价标准按照式(5)计算: 个数的比例。tc和p是两个阈值,取经验值0.15和 Y 0.18。当某一窗口特征点集合与关键词图像特征点 R=T 进行匹配时,会得到初始匹配点集和筛选后匹配点 集两个集合,若经过误匹配点筛选后剩余点的重心 P=S 横坐标和原始坐标偏移很远的时候,删除该窗口:若 2 F=1/R+1/P (5) 经过误匹配点筛选后剩余点的在关键词图像左侧分 布的比例和原始比例偏离很大的时候,删除该窗口。 首先对n和P4,P5参数进行实验。P和P5表示对 该方法能够有效判别单个字产生误匹配的情况。如 匹配点横纵坐标的约束程度,直接影响正确匹配点 图5所示,两个圆圈表示关键词图像的重心,从中间 对的数目:而n作为匹配点数目的阈值决定是否删 的位置移动到了左侧的位置,因为筛选误匹配点以 除窗口,当窗口内匹配点数超过阈值tn=k×Sm则 后,匹配点基本都集中在了汉字“食”上,虽然匹配 保留窗口。这对参数对最终关键词检测的结果影响 点数目还比较多,但经过重心偏移的判决,该窗口仍 较大,在算法中十分关键。在固定窗口大小和滑动 然会被删除,“性食”也不会当做“食物”被检测出 步长的情况下对不同的约束阈值和筛选阈值进行实 来。 验,测试结果如表1所示。从表1数据横向分析,随 殷性参物.色会猴使海状发! 着约束阈值增大,召回率逐渐升高,但准确率逐渐降 低。这是因为对匹配点对的几何约束更加严格时, 食物 会有效删除更多的误匹配点对。纵向分析,随着筛 选阈值k不断增大,召回率逐渐降低而准确率逐渐 图5关键词图像特征点的重心偏移 升高。这是因为较小的k保留了更多的正确窗口, Fig.5 The center deviation of feature points of 但随之也引入很多误检测的窗口。整体来看,F值 keyword images 在横向和纵向都呈现先升高后降低的趋势,在k为 经过筛选之后,对剩下的窗口进行合并,因为有 0.27,P4和p5为15和12时取得最大值88.02%。 些重叠的窗口均包含了同样的关键词。当两个窗口 固定筛选阈值和约束阈值为上述两个最佳值, 重叠部分占整个窗口的60%以上,则将它们合并为 再针对不同的窗口宽度和滑动步长进行实验。原始 一个窗口。合并之后的窗口就是最终检测到的候选 的窗口宽度为W=W,×Avg(Scla)/Avg(Scl),在
口都会对应一个匹配点的数量,数量过少的窗口则 被删除。 由于汉字繁简程度不同导致其自身的特征 点数量也不同,使得不同汉字的匹配点数量差异很 大,本文采用自适应阈值来筛选窗口,即 tn = k × Sfnum tn 为阈值, Sfnum 为关键词图像特征点数, k 根据经验 值取 0.27。 当关键词中的某一个字出现在文本图像中时, 往往匹配的点也较多,比如“食物” 和“食品”、“粮 食”,它们之中都有“食”字,但实际上是不应该被检 测出来的。 对该问题采用两种策略解决,一是基于 重心偏移的判决,二是基于点分布的判决。 当匹配 的特征点大部分集中在一个字上时,关键词图像特 征点的重心横坐标和水平方向的分布会发生比较大 的偏移。 当前后两次偏移满足: XCent(S0 ) - XCent(Sx) > tc LPoi(S0 ) - LPoi(Sx) > tp 则当前窗口被删除。 其中 XCent(S) 表示关键词图 像特征点的重心横坐标, LPoi(S) 表示关键词图像 特征点在左半侧的分布率,即左半边的点占所有点 个数的比例。 tc 和 tp 是两个阈值,取经验值0.15和 0.18。 当某一窗口特征点集合与关键词图像特征点 进行匹配时,会得到初始匹配点集和筛选后匹配点 集两个集合,若经过误匹配点筛选后剩余点的重心 横坐标和原始坐标偏移很远的时候,删除该窗口;若 经过误匹配点筛选后剩余点的在关键词图像左侧分 布的比例和原始比例偏离很大的时候,删除该窗口。 该方法能够有效判别单个字产生误匹配的情况。 如 图 5 所示,两个圆圈表示关键词图像的重心,从中间 的位置移动到了左侧的位置,因为筛选误匹配点以 后,匹配点基本都集中在了汉字“食” 上,虽然匹配 点数目还比较多,但经过重心偏移的判决,该窗口仍 然会被删除,“性食” 也不会当做“食物” 被检测出 来。 图 5 关键词图像特征点的重心偏移 Fig.5 The center deviation of feature points of keyword images 经过筛选之后,对剩下的窗口进行合并,因为有 些重叠的窗口均包含了同样的关键词。 当两个窗口 重叠部分占整个窗口的 60%以上,则将它们合并为 一个窗口。 合并之后的窗口就是最终检测到的候选 关键词窗口。 3 实验结果和分析 本文实验采用 CASIA 提供的离线手写体文本 图像库 HWDB2.1 [11] ,该图像库由 300 位不同作者 书写,每人 5 封文本图像,一共 1 500 封图像。 所有 的图像以 300 DP 的分辨率扫描,以 8 位灰度级图像 存储。 为了避免行分割对实验的影响,同时为了便 于滑动窗口的提取,我们将文本图像预先按行分割, 每一个文本图像分为 10 个左右的单行图像,最终得 到 15 000 封图像。 从中选取 50 位作者的 2 764 封 图像作为实验中的待测文本图像。 评价实验结果的标准主要有召回率 R、准确率 P 和 F 值。 召回率能体现本文方法对关键词检测能 力,越高越好;准确率表明检测结果中正确检测结果 的比例,体现该方法的检测效率,越高越好;F 值则 是对上述两个标准的综合考量。 假设检测图像 Z 封,共检测到 S 个关键词,其中正确检测 Y 个,误检 N 个,S = Y+N,应当检测到的关键词有 T 个。 上述 3 个评价标准按照式(5)计算: R = Y T P = Y S F = 2 1 / R + 1 / P (5) 首先对 tn 和 p4 ,p5 参数进行实验。 p4 和 p5 表示对 匹配点横纵坐标的约束程度,直接影响正确匹配点 对的数目;而 tn 作为匹配点数目的阈值决定是否删 除窗口,当窗口内匹配点数超过阈值 tn = k × Sfnum 则 保留窗口。 这对参数对最终关键词检测的结果影响 较大,在算法中十分关键。 在固定窗口大小和滑动 步长的情况下对不同的约束阈值和筛选阈值进行实 验,测试结果如表 1 所示。 从表 1 数据横向分析,随 着约束阈值增大,召回率逐渐升高,但准确率逐渐降 低。 这是因为对匹配点对的几何约束更加严格时, 会有效删除更多的误匹配点对。 纵向分析,随着筛 选阈值 k 不断增大,召回率逐渐降低而准确率逐渐 升高。 这是因为较小的 k 保留了更多的正确窗口, 但随之也引入很多误检测的窗口。 整体来看,F 值 在横向和纵向都呈现先升高后降低的趋势,在 k 为 0.27,p4 和 p5 为 15 和 12 时取得最大值 88.02%。 固定筛选阈值和约束阈值为上述两个最佳值, 再针对不同的窗口宽度和滑动步长进行实验。 原始 的窗口宽度为 W = Ws × Avg(Scl d ) / Avg(Scl s) ,在 ·548· 智 能 系 统 学 报 第 9 卷
第5期 张文超,等:几何信息与SFT特征相结合的特定人手写关键词检测 .549. 此基础上分别进行增大和减小。其中S为关键词图 像宽度的1/6。测试结果如表2所示。 表1不同筛选阈值和约束阈值的检测结果 Table 1 Detection results of different selection thresholds and restriction thresholds 窗口宽度 滑动 W-S W+S W+2S 步长 及 P R F R 心 分 R P W/3 77.02 85.82 81.18 81.69 89.62 85.47 78.17 93.81 85.28 77.85 94.23 85.26 W/4 86.07 82.03 84.01 86.58 90.42 88.46 83.80 92.69 88.02 74.52 93.73 83.03 W/5 83.80 86.63 85.19 83.39 86.30 84.82 81.19 91.42 86.00 77.48 93.49 84.74 W/6 89.26 82.65 85.83 86.59 85.49 86.04 86.25 92.12 89.08 77.85 92.56 84.57 W/7 86.96 82.20 84.51 86.07 88.51 87.27 84.37 89.22 86.73 77.25 93.08 84.43 表2不同窗口宽度和滑动步长的检测结果 Table 2 Detection results of different window widths and sliding steps 约束阈值P4P5 筛选阈值k 14,11 15,12 16,13 R P F R P R 2 0.24 86.58 85.84 86.21 90.47 74.09 81.46 92.69 64.46 76.04 0.25 84.73 90.44 87.49 87.13 83.92 85.49 87.88 73.63 80.13 0.26 83.38 92.56 87.73 86.39 86.17 86.28 87.27 82.47 84.80 0.27 78.12 95.80 86.06 83.80 92.69 88.02 87.27 87.43 87.35 0.28 74.79 97.18 84.52 79.65 94.60 86.49 80.53 90.15 85.07 从表2数据横向分析,随着窗口宽度的增大,召 表3所示。从表3和表1的对比可以看出,所有的 回率呈现先升高后降低的趋势,而准确率逐渐升高, 召回率都有提高,大部分准确率下降,由于召回率提 这是因为太小的窗口宽度可能损失一部分正确匹配 高的幅度更大,所以整体的F值有所提高,并且在相 点,而太大的窗口又会引入很多误匹配点,但是由于 同的参数下取得最大值。本文方法为了提高关键词 结构约束能够筛选窗口,使得准确率大幅提升。只 检测的成功率,在基于SFT特征进行文字图像匹配 有适当窗口大小才能得到比较好的结果。纵向分 之后,利用了文字几何信息对匹配点对进行筛选。 析,滑动步长的大小对召回率和准确率的影响出现 为了验证文字结构信息对检测的效果,对结合文字 了波动,这是由于手写体汉字间距的随意性导致。 几何信息之前和之后进行了对比实验,结果如表4 整体来看,F值在横向也表现出先升高后降低的趋 所示。很显然,在没有几何信息约束的情况下仅仅 势,在纵向有一定波动性。在窗口宽度取W+S,滑动 依靠SFT特征进行匹配,大部分图像存在误检的情 步长取W/6时,F值取得最大值89.08%。 况。这是由于汉字大量的重复结构造成,汉字笔画 固定窗口大小和滑动步长为上述两个最佳值, 类别单一,只有依靠笔画之间的结构约束才能精准 再次对筛选阈值和约束阈值进行实验。测试结果如 地匹配。 表3固定参数后不同筛选阈值和约束阈值的检测结果 Table 3 detection results with different selection threshold and restriction threshold after parameters fixed 约束阈值P4,P5 筛选阈值k 14.11 15,12 16,13 R P F R P F R P 0.25 87.17 89.11 88.13 92.54 82.40 87.18 93.28 70.62 80.83 0.26 85.82 90.98 88.33 89.58 86.50 88.01 91.57 78.54 84.55 0.27 79.23 94.76 86.30 86.25 92.12 89.08 91.57 85.57 88.47 0.28 76.64 96.37 85.38 79.65 92.48 85.59 81.12 89.18 84.96
此基础上分别进行增大和减小。 其中 S 为关键词图 像宽度的 1 / 6。 测试结果如表 2 所示。 表 1 不同筛选阈值和约束阈值的检测结果 Table 1 Detection results of different selection thresholds and restriction thresholds 滑动 步长 窗口宽度 W-S W W+S W+2S R P F R P F R P F R P F W/ 3 77.02 85.82 81.18 81.69 89.62 85.47 78.17 93.81 85.28 77.85 94.23 85.26 W/ 4 86.07 82.03 84.01 86.58 90.42 88.46 83.80 92.69 88.02 74.52 93.73 83.03 W/ 5 83.80 86.63 85.19 83.39 86.30 84.82 81.19 91.42 86.00 77.48 93.49 84.74 W/ 6 89.26 82.65 85.83 86.59 85.49 86.04 86.25 92.12 89.08 77.85 92.56 84.57 W/ 7 86.96 82.20 84.51 86.07 88.51 87.27 84.37 89.22 86.73 77.25 93.08 84.43 表 2 不同窗口宽度和滑动步长的检测结果 Table 2 Detection results of different window widths and sliding steps 筛选阈值 k 约束阈值 p4 ,p5 14,11 R P F 15,12 R P F 16,13 R P F 0.24 86.58 85.84 86.21 90.47 74.09 81.46 92.69 64.46 76.04 0.25 84.73 90.44 87.49 87.13 83.92 85.49 87.88 73.63 80.13 0.26 83.38 92.56 87.73 86.39 86.17 86.28 87.27 82.47 84.80 0.27 78.12 95.80 86.06 83.80 92.69 88.02 87.27 87.43 87.35 0.28 74.79 97.18 84.52 79.65 94.60 86.49 80.53 90.15 85.07 从表 2 数据横向分析,随着窗口宽度的增大,召 回率呈现先升高后降低的趋势,而准确率逐渐升高, 这是因为太小的窗口宽度可能损失一部分正确匹配 点,而太大的窗口又会引入很多误匹配点,但是由于 结构约束能够筛选窗口,使得准确率大幅提升。 只 有适当窗口大小才能得到比较好的结果。 纵向分 析,滑动步长的大小对召回率和准确率的影响出现 了波动,这是由于手写体汉字间距的随意性导致。 整体来看,F 值在横向也表现出先升高后降低的趋 势,在纵向有一定波动性。 在窗口宽度取 W+S,滑动 步长取 W/ 6 时,F 值取得最大值 89.08%。 固定窗口大小和滑动步长为上述两个最佳值, 再次对筛选阈值和约束阈值进行实验。 测试结果如 表 3 所示。 从表 3 和表 1 的对比可以看出,所有的 召回率都有提高,大部分准确率下降,由于召回率提 高的幅度更大,所以整体的 F 值有所提高,并且在相 同的参数下取得最大值。 本文方法为了提高关键词 检测的成功率,在基于 SIFT 特征进行文字图像匹配 之后,利用了文字几何信息对匹配点对进行筛选。 为了验证文字结构信息对检测的效果,对结合文字 几何信息之前和之后进行了对比实验,结果如表 4 所示。 很显然,在没有几何信息约束的情况下仅仅 依靠 SIFT 特征进行匹配,大部分图像存在误检的情 况。 这是由于汉字大量的重复结构造成,汉字笔画 类别单一,只有依靠笔画之间的结构约束才能精准 地匹配。 表 3 固定参数后不同筛选阈值和约束阈值的检测结果 Table 3 detection results with different selection threshold and restriction threshold after parameters fixed 筛选阈值 k 约束阈值 p4 ,p5 14,11 R P F 15,12 R P F 16,13 R P F 0.25 87.17 89.11 88.13 92.54 82.40 87.18 93.28 70.62 80.83 0.26 85.82 90.98 88.33 89.58 86.50 88.01 91.57 78.54 84.55 0.27 79.23 94.76 86.30 86.25 92.12 89.08 91.57 85.57 88.47 0.28 76.64 96.37 85.38 79.65 92.48 85.59 81.12 89.18 84.96 第 5 期 张文超,等:几何信息与 SIFT 特征相结合的特定人手写关键词检测 ·549·
.550. 智能系统学报 第9卷 表4结合文字几何信息之前和之后的检测结果 [7]LINDEBERG T.Detecting salient blob-like image structures Table 4 Detection results before/after geometric constraint and their scales with a scale-space primal sketch:a method R P F for focus-of-attention[J].International Journal of Computer Vision,1993,11(3):283-318. 几何约束之前 87.58 0.17 0.34 [8]RODRIGUEZ J A,PERRONNIN F.Local gradient histo- 几何约束之后 86.25 92.12 89.08 gram features for word spotting in unconstrained handwritten 4 结束语 documents[C]//2008 International Conference on Frontiers in Handwriting Recognition.Montreal,Canada,2008:18- 结合文字几何信息和SFT局部特征的关键词 25. 检测方法能够有效检测特定书写人的手写关键词, [9]郑琪,管海兵,陈凯.基于局部特征的自然场景图片中 并且具有较好的召回率和准确率。该方法先通过对 文字定位和识别方法的研究[D].上海:上海交通大学, 文本图像提取SFT特征,再利用滑动窗口进行分块 2011. 的特征点匹配,并通过几何信息约束来筛选匹配,点, ZHENG Qi,GUAN Haibing,CHEN Kai.Research on text localization and recognition in image with complex scenes u- 最终得到检测结果。SFT特征良好的稳定性保证 sing local features[D].Shanghai:Shanghai Jiaotong Univer- 了相同书写人的相同关键词能够被检测,而利用几 sity,2011:33-45. 何关系对特征点分布的约束解决了汉字重复结构带 [10]BEIS J S,LOWE D G.Shape indexing using approximate 来的误匹配问题。但是手写体汉字的随意性和书写 nearest-neighbour search in high-dimensional spaces[C]/ 疏密程度的多变性给检测带来了不可避免的困难, Proceedings of Conference on Computer Vision and Pattern 这是造成某些关键词无法检测的主要原因。 Recognition.San Juan,Puerto Rico,1997:1000-1006. [11]LIU C L,YIN F,WANG D H,et al.CASIA online and of- 参考文献: fline Chinese handwriting databases[C]//2011 Internation- [1]RATH T M,MANMATHA R.Word image matching using al Conference on Document Analysis and Recognition.Bei- dynamic time warping[C]//Proceedings of Conference on jing,China,2011:37-41. Vision and Pattern Recognition.Madison,USA,2003:521- 作者简介: 527. 张文超,男,1988年生,硕士研究 [2]LLADOS J,RUSINOL M,FORNES A,et al.On the influ- 生,主要研究方向为图像处理与模式识 ence of word representations for handwritten word spotting in 别。 historical documents[J].International Journal of Pattern Recognition and Artificial Intelligence,2012,26(5):1-25. [3]ZHANG H,WANG D H,LIU C L.Keyword spotting from online Chinese handwritten documents using one-vs-all trained character classifier[C]//2010 International Confer- 吕岳,男,1968年生,博士,教授、博 ence on Frontiers in Handwriting Recognition.Kolkata,Indi- 士生导师,主要研究方向为模式识别、 a,2010:271-276. 图像处理、智能系统。 [4]ZHANG H,LIU C L.A lattice-based method for keyword spotting in online Chinese handwriting[C]//2011 Interna- tional Conference on Document Analysis and Recognition. Beijing,Chian,2011:1064-1068. 文颖,女,1975年生,博士,副教授, [5]ZHANG H,WANG D H,LIU C L.A confidence-based 主要研究方向为图像处理、模式识别、 method for keyword spotting in online Chinese handwritten 机器学习。 documents[C]//2012 21st International Conference on Pat- tern Recognition.Tsukuba,Japan,2012:525-528. [6]LOWE D G.Distinctive image features from scale-invariant keypoints [J].International Journal of Computer Vision, 2004,60(2):91-110
表 4 结合文字几何信息之前和之后的检测结果 Table 4 Detection results before / after geometric constraint R P F 几何约束之前 87.58 0.17 0.34 几何约束之后 86.25 92.12 89.08 4 结束语 结合文字几何信息和 SIFT 局部特征的关键词 检测方法能够有效检测特定书写人的手写关键词, 并且具有较好的召回率和准确率。 该方法先通过对 文本图像提取 SIFT 特征,再利用滑动窗口进行分块 的特征点匹配,并通过几何信息约束来筛选匹配点, 最终得到检测结果。 SIFT 特征良好的稳定性保证 了相同书写人的相同关键词能够被检测,而利用几 何关系对特征点分布的约束解决了汉字重复结构带 来的误匹配问题。 但是手写体汉字的随意性和书写 疏密程度的多变性给检测带来了不可避免的困难, 这是造成某些关键词无法检测的主要原因。 参考文献: [1]RATH T M, MANMATHA R. Word image matching using dynamic time warping [ C] / / Proceedings of Conference on Vision and Pattern Recognition. Madison, USA, 2003: 521⁃ 527. [2]LLADOS J, RUSINOL M, FORNES A, et al. On the influ⁃ ence of word representations for handwritten word spotting in historical documents [ J ]. International Journal of Pattern Recognition and Artificial Intelligence, 2012, 26(5): 1⁃25. [3]ZHANG H, WANG D H, LIU C L. Keyword spotting from online Chinese handwritten documents using one⁃vs⁃all trained character classifier[C] / / 2010 International Confer⁃ ence on Frontiers in Handwriting Recognition. Kolkata, Indi⁃ a, 2010: 271⁃276. [4]ZHANG H, LIU C L. A lattice⁃based method for keyword spotting in online Chinese handwriting [ C] / / 2011 Interna⁃ tional Conference on Document Analysis and Recognition. Beijing, Chian, 2011: 1064⁃1068. [5] ZHANG H, WANG D H, LIU C L. A confidence⁃based method for keyword spotting in online Chinese handwritten documents[C] / / 2012 21st International Conference on Pat⁃ tern Recognition. Tsukuba, Japan, 2012: 525⁃528. [6]LOWE D G. Distinctive image features from scale⁃invariant keypoints [ J ]. International Journal of Computer Vision, 2004, 60(2): 91⁃110. [7]LINDEBERG T. Detecting salient blob⁃like image structures and their scales with a scale⁃space primal sketch: a method for focus⁃of⁃attention[ J]. International Journal of Computer Vision, 1993, 11(3): 283⁃318. [8] RODRIGUEZ J A, PERRONNIN F. Local gradient histo⁃ gram features for word spotting in unconstrained handwritten documents[C] / / 2008 International Conference on Frontiers in Handwriting Recognition. Montréal, Canada, 2008: 18⁃ 25. [9]郑琪, 管海兵, 陈凯. 基于局部特征的自然场景图片中 文字定位和识别方法的研究[D]. 上海:上海交通大学, 2011. ZHENG Qi, GUAN Haibing, CHEN Kai. Research on text localization and recognition in image with complex scenes u⁃ sing local features[D]. Shanghai: Shanghai Jiaotong Univer⁃ sity, 2011: 33⁃45. [10]BEIS J S, LOWE D G. Shape indexing using approximate nearest⁃neighbour search in high⁃dimensional spaces[C] / / Proceedings of Conference on Computer Vision and Pattern Recognition. San Juan, Puerto Rico, 1997: 1000⁃1006. [11]LIU C L, YIN F, WANG D H, et al. CASIA online and of⁃ fline Chinese handwriting databases[C] / / 2011 Internation⁃ al Conference on Document Analysis and Recognition. Bei⁃ jing, China, 2011: 37⁃41. 作者简介: 张文超,男, 1988 年生,硕士研究 生,主要研究方向为图像处理与模式识 别。 吕岳,男,1968 年生,博士,教授、博 士生导师,主要研究方向为模式识别、 图像处理、智能系统。 文颖,女,1975 年生,博士,副教授, 主要研究方向为图像处理、模式识别、 机器学习。 ·550· 智 能 系 统 学 报 第 9 卷