口都会对应一个匹配点的数量，数量过少的窗口则被删除。由于汉字繁简程度不

正在加载图片...

·548. 智能系统学报第9卷口都会对应一个匹配点的数量，数量过少的窗口则关键词窗口。被删除。由于汉字繁简程度不同导致其自身的特征点数量也不同，使得不同汉字的匹配点数量差异很 3实验结果和分析大，本文采用自适应阈值来筛选窗口，即本文实验采用CASIA提供的离线手写体文本 tn =kx Simum 图像库HWDB2.1),该图像库由300位不同作者 tn为阈值，Sm为关键词图像特征点数，k根据经验书写，每人5封文本图像，一共1500封图像。所有值取0.27。的图像以300DP的分辨率扫描，以8位灰度级图像当关键词中的某一个字出现在文本图像中时，存储。为了避免行分割对实验的影响，同时为了便往往匹配的点也较多，比如“食物”和“食品”、“粮于滑动窗口的提取，我们将文本图像预先按行分割，食”，它们之中都有“食”字，但实际上是不应该被检每一个文本图像分为10个左右的单行图像，最终得测出来的。对该问题采用两种策略解决，一是基于到15000封图像。从中选取50位作者的2764封重心偏移的判决，二是基于点分布的判决。当匹配图像作为实验中的待测文本图像。的特征点大部分集中在一个字上时，关键词图像特评价实验结果的标准主要有召回率R、准确率征点的重心横坐标和水平方向的分布会发生比较大 P和F值。召回率能体现本文方法对关键词检测能的偏移。当前后两次偏移满足：力，越高越好：准确率表明检测结果中正确检测结果 XCent(So)-XCent(S,)>tc 的比例，体现该方法的检测效率，越高越好：F值则 LPoi(Sp)-LPoi(S,)>tp 是对上述两个标准的综合考量。假设检测图像Z 则当前窗口被删除。其中XCent(S)表示关键词图封，共检测到S个关键词，其中正确检测Y个，误检像特征点的重心横坐标，LPoi(S)表示关键词图像 N个，S=Y+N,应当检测到的关键词有T个。上述3 特征点在左半侧的分布率，即左半边的点占所有点个评价标准按照式(5)计算：个数的比例。tc和p是两个阈值，取经验值0.15和 Y 0.18。当某一窗口特征点集合与关键词图像特征点 R=T 进行匹配时，会得到初始匹配点集和筛选后匹配点集两个集合，若经过误匹配点筛选后剩余点的重心 P=S 横坐标和原始坐标偏移很远的时候，删除该窗口：若 2 F=1/R+1/P (5) 经过误匹配点筛选后剩余点的在关键词图像左侧分布的比例和原始比例偏离很大的时候，删除该窗口。首先对n和P4,P5参数进行实验。P和P5表示对该方法能够有效判别单个字产生误匹配的情况。如匹配点横纵坐标的约束程度，直接影响正确匹配点图5所示，两个圆圈表示关键词图像的重心，从中间对的数目：而n作为匹配点数目的阈值决定是否删的位置移动到了左侧的位置，因为筛选误匹配点以除窗口，当窗口内匹配点数超过阈值tn=k×Sm则后，匹配点基本都集中在了汉字“食”上，虽然匹配保留窗口。这对参数对最终关键词检测的结果影响点数目还比较多，但经过重心偏移的判决，该窗口仍较大，在算法中十分关键。在固定窗口大小和滑动然会被删除，“性食”也不会当做“食物”被检测出步长的情况下对不同的约束阈值和筛选阈值进行实来。验，测试结果如表1所示。从表1数据横向分析，随殷性参物.色会猴使海状发！着约束阈值增大，召回率逐渐升高，但准确率逐渐降低。这是因为对匹配点对的几何约束更加严格时，食物会有效删除更多的误匹配点对。纵向分析，随着筛选阈值k不断增大，召回率逐渐降低而准确率逐渐图5关键词图像特征点的重心偏移升高。这是因为较小的k保留了更多的正确窗口， Fig.5 The center deviation of feature points of 但随之也引入很多误检测的窗口。整体来看，F值 keyword images 在横向和纵向都呈现先升高后降低的趋势，在k为经过筛选之后，对剩下的窗口进行合并，因为有 0.27,P4和p5为15和12时取得最大值88.02%。些重叠的窗口均包含了同样的关键词。当两个窗口固定筛选阈值和约束阈值为上述两个最佳值，重叠部分占整个窗口的60%以上，则将它们合并为再针对不同的窗口宽度和滑动步长进行实验。原始一个窗口。合并之后的窗口就是最终检测到的候选的窗口宽度为W=W,×Avg(Scla)/Avg(Scl),在口都会对应一个匹配点的数量，数量过少的窗口则被删除。由于汉字繁简程度不同导致其自身的特征点数量也不同，使得不同汉字的匹配点数量差异很大，本文采用自适应阈值来筛选窗口，即ｔｎ＝ｋ × Ｓｆｎｕｍｔｎ为阈值，Ｓｆｎｕｍ为关键词图像特征点数，ｋ根据经验值取０．２７。当关键词中的某一个字出现在文本图像中时，往往匹配的点也较多，比如“食物” 和“食品”、“粮食”，它们之中都有“食”字，但实际上是不应该被检测出来的。对该问题采用两种策略解决，一是基于重心偏移的判决，二是基于点分布的判决。当匹配的特征点大部分集中在一个字上时，关键词图像特征点的重心横坐标和水平方向的分布会发生比较大的偏移。当前后两次偏移满足：ＸＣｅｎｔ（Ｓ０）－ＸＣｅｎｔ（Ｓｘ）＞ｔｃＬＰｏｉ（Ｓ０）－ＬＰｏｉ（Ｓｘ）＞ｔｐ则当前窗口被删除。其中ＸＣｅｎｔ（Ｓ）表示关键词图像特征点的重心横坐标，ＬＰｏｉ（Ｓ）表示关键词图像特征点在左半侧的分布率，即左半边的点占所有点个数的比例。ｔｃ和ｔｐ是两个阈值，取经验值０．１５和０．１８。当某一窗口特征点集合与关键词图像特征点进行匹配时，会得到初始匹配点集和筛选后匹配点集两个集合，若经过误匹配点筛选后剩余点的重心横坐标和原始坐标偏移很远的时候，删除该窗口；若经过误匹配点筛选后剩余点的在关键词图像左侧分布的比例和原始比例偏离很大的时候，删除该窗口。该方法能够有效判别单个字产生误匹配的情况。如图５所示，两个圆圈表示关键词图像的重心，从中间的位置移动到了左侧的位置，因为筛选误匹配点以后，匹配点基本都集中在了汉字“食” 上，虽然匹配点数目还比较多，但经过重心偏移的判决，该窗口仍然会被删除，“性食” 也不会当做“食物” 被检测出来。图５关键词图像特征点的重心偏移Ｆｉｇ．５Ｔｈｅｃｅｎｔｅｒｄｅｖｉａｔｉｏｎｏｆｆｅａｔｕｒｅｐｏｉｎｔｓｏｆｋｅｙｗｏｒｄｉｍａｇｅｓ经过筛选之后，对剩下的窗口进行合并，因为有些重叠的窗口均包含了同样的关键词。当两个窗口重叠部分占整个窗口的６０％以上，则将它们合并为一个窗口。合并之后的窗口就是最终检测到的候选关键词窗口。３实验结果和分析本文实验采用ＣＡＳＩＡ提供的离线手写体文本图像库ＨＷＤＢ２．１［１１］，该图像库由３００位不同作者书写，每人５封文本图像，一共１５００封图像。所有的图像以３００ＤＰ的分辨率扫描，以８位灰度级图像存储。为了避免行分割对实验的影响，同时为了便于滑动窗口的提取，我们将文本图像预先按行分割，每一个文本图像分为１０个左右的单行图像，最终得到１５０００封图像。从中选取５０位作者的２７６４封图像作为实验中的待测文本图像。评价实验结果的标准主要有召回率Ｒ、准确率Ｐ和Ｆ值。召回率能体现本文方法对关键词检测能力，越高越好；准确率表明检测结果中正确检测结果的比例，体现该方法的检测效率，越高越好；Ｆ值则是对上述两个标准的综合考量。假设检测图像Ｚ封，共检测到Ｓ个关键词，其中正确检测Ｙ个，误检Ｎ个，Ｓ＝Ｙ＋Ｎ，应当检测到的关键词有Ｔ个。上述３个评价标准按照式（５）计算：Ｒ＝ＹＴＰ＝ＹＳＦ＝２１／Ｒ＋１／Ｐ（５）首先对ｔｎ和ｐ４，ｐ５参数进行实验。ｐ４和ｐ５表示对匹配点横纵坐标的约束程度，直接影响正确匹配点对的数目；而ｔｎ作为匹配点数目的阈值决定是否删除窗口，当窗口内匹配点数超过阈值ｔｎ＝ｋ × Ｓｆｎｕｍ则保留窗口。这对参数对最终关键词检测的结果影响较大，在算法中十分关键。在固定窗口大小和滑动步长的情况下对不同的约束阈值和筛选阈值进行实验，测试结果如表１所示。从表１数据横向分析，随着约束阈值增大，召回率逐渐升高，但准确率逐渐降低。这是因为对匹配点对的几何约束更加严格时，会有效删除更多的误匹配点对。纵向分析，随着筛选阈值ｋ不断增大，召回率逐渐降低而准确率逐渐升高。这是因为较小的ｋ保留了更多的正确窗口，但随之也引入很多误检测的窗口。整体来看，Ｆ值在横向和纵向都呈现先升高后降低的趋势，在ｋ为０．２７，ｐ４和ｐ５为１５和１２时取得最大值８８．０２％。固定筛选阈值和约束阈值为上述两个最佳值，再针对不同的窗口宽度和滑动步长进行实验。原始的窗口宽度为Ｗ＝Ｗｓ × Ａｖｇ（Ｓｃｌｄ）／Ａｖｇ（Ｓｃｌｓ），在 ·５４８· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：机器学习：几何信息与SIFT特征相结合的特定人手写关键词检测