第11卷第5期 智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201601001 网络出版地址:htp:/nww.cnki.net/kcms/detail/23.1538.TP.20160718.1521.004.html 基于感受野学习的特征词袋模型简化算法 赵骞,李敏,赵晓杰,陈雪勇 (电子科技大学计算机科学与工程学院,四川成都611731) 摘要:本文研究了在图像识别任务中,感受野学习对于特征词袋模型的影响。在特征词袋模型中,一个特征的感 受野主要取决于视觉词典中的视觉单词和池化过程中所使用的区域。视觉单词决定了特征的选择性,池化区域则 影响特征的局部性。文中提出了一种改进的感受野学习算法,用于寻找针对具体的图像识别任务最具有效性的感 受野,同时考虑到了视觉单词数量增长所带来的冗余问题。通过学习,低效、冗余的视觉单词和池化区域会被发现, 并从特征词袋模型中移除,从而产生一个针对具体分类任务更精简的、更具可分性的图像表达。最后,通过实验显 示了该算法的有效性,学习到的模型除了结构精简,在识别精度上相比原有方法也能有一定提升。 关键词:视觉词袋模型;感受野学习:目标识别;图像分类;特征学习 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2016)05-0663-07 中文引用格式:赵赛,李敏,赵晓杰,等.基于感受野学习的特征词袋模型简化算法[J].智能系统学报,2016,11(5):663-669., 英文引用格式:ZHAO Qian,LI Min,ZHAO Xiaojie,etal.Learning receptive fields for compact bag-of-feature model[J].CAAl transactions on intelligent systems,2016,11(5):663-669. Learning receptive fields for compact bag-of-feature model ZHAO Qian,LI Min,ZHAO Xiaojie,CHEN Xueyong (School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China) Abstract:In this work,the effects of receptive field learning on a bag-of-features pipeline were investigated for an image identification task.In a bag-of-features model,the receptive field of a feature depends mostly on use of visual words in a visual dictionary and the region used during the pooling process.Codewords make the feature respond to specific image patches and the pooling regions determine the spatial scope of the features.A modified graft feature selecting algorithm was proposed to find the most efficient receptive fields for identification purposes;this considers the redundancy problem created by simultaneously increasing visual words.Using learning receptive fields,ineffi- cient and redundant codewords and pooling regions were found and subsequently eliminated from the pooling re- gion,this made the pipeline more compact and separable for the specified classification task.The experiments show that the modified learning algorithm is effective and the learned pipeline useful for both structural simplification and improving classification accuracy compared with the baseline method. Keywords:bag-of-features model;receptive field learning;object recognition;image classification;feature learn- ing 在计算机视觉和模式识别领域,图像识别是一BoF)是一种常用的简洁而高效的图像中级特征 类相当常见的问题。它的作用是预测一幅图像的类(mid-level feature)学习模型。一个基本的BoF模型 别标签,或者标注出图像内容的属性。在使用分类 通常包含5个部分,提取图像块、描述图像块、视觉 器对图像所属类别进行预测之前,一般会使用合适 词典学习编码(coding)和池化(pooling)山。其中, 的特征对图像进行描述。特征词袋(bag-of-features, 视觉词典学习作为BoF模型的核心,集中了大量的 研究工作,有不少基于监督)和无监督[)的视觉词 收稿日期:2016-01-01.网络出版日期:2016-07-18 典学习算法被提出,比如K-means4、稀疏编码]等 基金项目:国家自然科学基金项目(61371182). 通信作者:赵骞.E-mail:zhokyia@gmail.com. 都可作为词典学习算法被集成在BoF模型中。对第 11 卷第 5 期 智 能 系 统 学 报 Vol.11 №.5 2016 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2016 DOI:10.11992 / tis.201601001 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160718.1521.004.html 基于感受野学习的特征词袋模型简化算法 赵骞,李敏,赵晓杰,陈雪勇 (电子科技大学 计算机科学与工程学院,四川 成都 611731) 摘 要:本文研究了在图像识别任务中,感受野学习对于特征词袋模型的影响。 在特征词袋模型中,一个特征的感 受野主要取决于视觉词典中的视觉单词和池化过程中所使用的区域。 视觉单词决定了特征的选择性,池化区域则 影响特征的局部性。 文中提出了一种改进的感受野学习算法,用于寻找针对具体的图像识别任务最具有效性的感 受野,同时考虑到了视觉单词数量增长所带来的冗余问题。 通过学习,低效、冗余的视觉单词和池化区域会被发现, 并从特征词袋模型中移除,从而产生一个针对具体分类任务更精简的、更具可分性的图像表达。 最后,通过实验显 示了该算法的有效性,学习到的模型除了结构精简,在识别精度上相比原有方法也能有一定提升。 关键词:视觉词袋模型; 感受野学习;目标识别;图像分类;特征学习 中图分类号:TP391.4 文献标志码:A 文章编号:1673⁃4785(2016)05⁃0663⁃07 中文引用格式:赵骞,李敏,赵晓杰,等.基于感受野学习的特征词袋模型简化算法[J]. 智能系统学报, 2016, 11(5):663⁃669. 英文引用格式:ZHAO Qian, LI Min, ZHAO Xiaojie, et al. Learning receptive fields for compact bag⁃of⁃feature model[J]. CAAI transactions on intelligent systems, 2016,11(5):663⁃669. Learning receptive fields for compact bag⁃of⁃feature model ZHAO Qian, LI Min, ZHAO Xiaojie, CHEN Xueyong (School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China) Abstract:In this work, the effects of receptive field learning on a bag⁃of⁃features pipeline were investigated for an image identification task. In a bag⁃of⁃features model, the receptive field of a feature depends mostly on use of visual words in a visual dictionary and the region used during the pooling process. Codewords make the feature respond to specific image patches and the pooling regions determine the spatial scope of the features. A modified graft feature selecting algorithm was proposed to find the most efficient receptive fields for identification purposes; this considers the redundancy problem created by simultaneously increasing visual words. Using learning receptive fields, ineffi⁃ cient and redundant codewords and pooling regions were found and subsequently eliminated from the pooling re⁃ gion, this made the pipeline more compact and separable for the specified classification task. The experiments show that the modified learning algorithm is effective and the learned pipeline useful for both structural simplification and improving classification accuracy compared with the baseline method. Keywords:bag⁃of⁃features model; receptive field learning; object recognition; image classification; feature learn⁃ ing 收稿日期:2016⁃01⁃01. 网络出版日期:2016⁃07⁃18. 基金项目:国家自然科学基金项目(61371182). 通信作者:赵骞. E⁃mail:zhokyia@ gmail.com. 在计算机视觉和模式识别领域,图像识别是一 类相当常见的问题。 它的作用是预测一幅图像的类 别标签,或者标注出图像内容的属性。 在使用分类 器对图像所属类别进行预测之前,一般会使用合适 的特征对图像进行描述。 特征词袋(bag⁃of⁃features, BoF)是一种常用的简洁而高效的图像中级特征 (mid⁃level feature)学习模型。 一个基本的 BoF 模型 通常包含 5 个部分,提取图像块、描述图像块、视觉 词典学习编码( coding)和池化( pooling) [1] 。 其中, 视觉词典学习作为 BoF 模型的核心, 集中了大量的 研究工作,有不少基于监督[2] 和无监督[3] 的视觉词 典学习算法被提出,比如 K⁃means [4] 、稀疏编码[5]等 都可作为词典学习算法被集成在 BoF 模型中。 对
©2008-现在 cucdc.com 高等教育资讯网 版权所有