·304· 智能系统学报 第14卷 征点减少。因此改造后的数据库都会对检索精度 图像检索研究进一步推进。文中通过不同阈值条 有或多或少影响。本文分别从匹配数目、匹配距 件下检测SURF特征,分析多种阈值对其影响。 离这两个方面进行测试,其检索实验结果如表8、9 因此,为提高特征阈值适应性及快速检测特征 所示。 点,将FAST角点检测与SURF描述相结合,使特 表8对剪切文档图像库进行检索实验的统计结果 征检测时间压缩到50~1425倍。文中笔者对选取 Table 8 The statistical results of the sheared Uyghur docu- 的64维特征向量运用两种匹配,并在尺寸、旋 ment image retrieval experiment 转、光照变换条件下实验统计匹配率,对两种匹 检索性能指标检索率%总检索时间/s平均索引时间/s 配性能进行对比分析。最后,分别对原始100幅 匹配数目检素 100 1000 1 文档图像、压缩1000幅图像、剪切1000幅文档 欧式距离检索 100 854 0.854 图像,基于多种距离度量特征向量间的相似性, 余弦距离检索 检索目标文档图像,将其检索率与基于匹配数目 100 861 0.861 的检索率对比,亮出以匹配数目为检索依据的搜 表9对压缩文档图像库进行检索实验的统计结果 索系统优越性。系统最高检索率都达到100%。 Table 9 The statistical results of the compressed Uyghur 但是,由于原始文档图像篇幅较大,提取的特 document image retrieval experiment 征点数目较多,特征点之间的匹配点数目也会增 检索性能指标检索率%总检索时间/s平均索引时间s 大,因此基于匹配数目的检索系统耗用时间比基 匹配数目检索 100 1636 1.636 于距离的检索系统较长,系统检索所占用时间都 欧式距离检索 100 599 0.599 不太理想。在保证系统较高的检索率的前提下, 余弦距离检索 怎样进一步降低时间开销是下一步研究重点。 100 607 0.607 由表8可以得出,由于剪切文档图像是从原 参考文献: 始文档图像上分割的一部分,因此检测到的特征 [1]张敬丽,张会清,代汝勇.基于MIC-SURF的快速图像匹 点数目也会减少。当输入裁剪图像,在剪切构造 配算法.计算机工程,2016,42(1:210-214. 的维文复杂文档数据库中,基于3种方法检索,其 ZHANG Jingli,ZHANG Huiqing,DAI Ruyong.Fast im- 检索率都达到100%,但检索占用时间不同。匹配 age matching algorithm based on MIC-SURF[J].Com 数目检索时需要先比较最近邻的特征点之间距 puter engineering,2016,42(1):210-214 离,看距离比值是否在设定的阈值范围内,若是, [2]ALFANINDYA A,HASHIM N,ESWARAN C.Content 则相匹配,反之不匹配,这就导致检索时耗时较长。 based image retrieval and classification using speeded-up robust features(SURF)and grouped bag-of-visual-words 由于压缩文档只是对原始文档图像的缩小, (GBoVW)[C]//Proceedings of 2013 International Confer- 因此其内容包含整体图像内容。由表9可知,在 ence on Technology,Informatics,Management,Engineer- 时间损耗上,基于匹配数目的检索系统较多,而 ing,and Environment.Bandung,Indonesia,2013:77-82. 基于距离相似性度量的检索时间较少。对于剪切 [3]王澍,吕学强,张凯,等.基于快速鲁棒特征集合统计特 文档和压缩文档这两种数据库,基于匹配数目的 征的图像分类方法[J].计算机应用,2015,35(1): 检索中提取的特征点数目越多,匹配时的匹配点 224230 数目也会增多,则匹配时间也会随之变化。基于 WANG Shu,LYU Xueqiang,ZHANG Kai,et al.Image 距离相似性的检索中,剪切的文档图像篇幅较 classification approach based on statistical features of 少,比压缩的文档图像检索用时更短。由于人工剪 speed up robust feature set[J].Journal of computer applica- 切采集图像,易受人主观因素的影响;此外原始 tions..2015,35(1224-230 图像库是由不同分辨率图像构成,采集时分辨率 [4]赵璐璐,耿国华,李康,等.基于SURF和快速近似最近 越大则图像获取内容越少,使得图像失去完整性, 邻搜索的图像匹配算法[J】.计算机应用研究,2013」 因此压缩图像检索时间比剪切图像检索时间短。 30(3):921-923. ZHAO Lulu,GENG Guohua,LI Kang,et al.Images 5结束语 matching algorithm based on SURF and fast approximate nearest neighbor search[J].Application research of com- 本文为弥补维吾尔文复杂文档图像在检索领 puters,.2013,30(3):921-923 域中的空白,在维吾尔文文档图像检索匹配中运 [5]CHEON S H,EOM I K,HA S W,et al.An enhanced 用SURF与改进SURF特征,使得少数民族文档 SURF algorithm based on new interest point detection pro-征点减少。因此改造后的数据库都会对检索精度 有或多或少影响。本文分别从匹配数目、匹配距 离这两个方面进行测试,其检索实验结果如表 8、9 所示。 表 8 对剪切文档图像库进行检索实验的统计结果 Table 8 The statistical results of the sheared Uyghur document image retrieval experiment 检索性能指标 检索率/% 总检索时间/s 平均索引时间/s 匹配数目检索 100 1 000 1 欧式距离检索 100 854 0.854 余弦距离检索 100 861 0.861 表 9 对压缩文档图像库进行检索实验的统计结果 Table 9 The statistical results of the compressed Uyghur document image retrieval experiment 检索性能指标 检索率/% 总检索时间/s 平均索引时间/s 匹配数目检索 100 1 636 1.636 欧式距离检索 100 599 0.599 余弦距离检索 100 607 0.607 由表 8 可以得出,由于剪切文档图像是从原 始文档图像上分割的一部分,因此检测到的特征 点数目也会减少。当输入裁剪图像,在剪切构造 的维文复杂文档数据库中,基于 3 种方法检索,其 检索率都达到 100%,但检索占用时间不同。匹配 数目检索时需要先比较最近邻的特征点之间距 离,看距离比值是否在设定的阈值范围内,若是, 则相匹配,反之不匹配,这就导致检索时耗时较长。 由于压缩文档只是对原始文档图像的缩小, 因此其内容包含整体图像内容。由表 9 可知,在 时间损耗上,基于匹配数目的检索系统较多,而 基于距离相似性度量的检索时间较少。对于剪切 文档和压缩文档这两种数据库,基于匹配数目的 检索中提取的特征点数目越多,匹配时的匹配点 数目也会增多,则匹配时间也会随之变化。基于 距离相似性的检索中,剪切的文档图像篇幅较 少,比压缩的文档图像检索用时更短。由于人工剪 切采集图像,易受人主观因素的影响;此外原始 图像库是由不同分辨率图像构成,采集时分辨率 越大则图像获取内容越少,使得图像失去完整性, 因此压缩图像检索时间比剪切图像检索时间短。 5 结束语 本文为弥补维吾尔文复杂文档图像在检索领 域中的空白,在维吾尔文文档图像检索匹配中运 用 SURF 与改进 SURF 特征,使得少数民族文档 图像检索研究进一步推进。文中通过不同阈值条 件下检测 SURF 特征,分析多种阈值对其影响。 因此,为提高特征阈值适应性及快速检测特征 点,将 FAST 角点检测与 SURF 描述相结合,使特 征检测时间压缩到 50~1 425 倍。文中笔者对选取 的 64 维特征向量运用两种匹配,并在尺寸、旋 转、光照变换条件下实验统计匹配率,对两种匹 配性能进行对比分析。最后,分别对原始 100 幅 文档图像、压缩 1 000 幅图像、剪切 1 000 幅文档 图像,基于多种距离度量特征向量间的相似性, 检索目标文档图像,将其检索率与基于匹配数目 的检索率对比,亮出以匹配数目为检索依据的搜 索系统优越性。系统最高检索率都达到 100%。 但是,由于原始文档图像篇幅较大,提取的特 征点数目较多,特征点之间的匹配点数目也会增 大,因此基于匹配数目的检索系统耗用时间比基 于距离的检索系统较长,系统检索所占用时间都 不太理想。在保证系统较高的检索率的前提下, 怎样进一步降低时间开销是下一步研究重点。 参考文献: 张敬丽, 张会清, 代汝勇. 基于 MIC-SURF 的快速图像匹 配算法[J]. 计算机工程, 2016, 42(1): 210–214. ZHANG Jingli, ZHANG Huiqing, DAI Ruyong. Fast image matching algorithm based on MIC-SURF[J]. Computer engineering, 2016, 42(1): 210–214. [1] ALFANINDYA A, HASHIM N, ESWARAN C. Content based image retrieval and classification using speeded-up robust features (SURF) and grouped bag-of-visual-words (GBoVW)[C]//Proceedings of 2013 International Conference on Technology, Informatics, Management, Engineering, and Environment. Bandung, Indonesia, 2013: 77–82. [2] 王澍, 吕学强, 张凯, 等. 基于快速鲁棒特征集合统计特 征的图像分类方法[J]. 计算机应用, 2015, 35(1): 224–230. WANG Shu, LYU Xueqiang, ZHANG Kai, et al. Image classification approach based on statistical features of speed up robust feature set[J]. Journal of computer applications, 2015, 35(1): 224–230. [3] 赵璐璐, 耿国华, 李康, 等. 基于 SURF 和快速近似最近 邻搜索的图像匹配算法[J]. 计算机应用研究, 2013, 30(3): 921–923. ZHAO Lulu, GENG Guohua, LI Kang, et al. Images matching algorithm based on SURF and fast approximate nearest neighbor search[J]. Application research of computers, 2013, 30(3): 921–923. [4] CHEON S H, EOM I K, HA S W, et al. An enhanced SURF algorithm based on new interest point detection pro- [5] ·304· 智 能 系 统 学 报 第 14 卷