第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０

正在加载图片...

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201601001 网络出版地址：htp:/nww.cnki.net/kcms/detail/23.1538.TP.20160718.1521.004.html 基于感受野学习的特征词袋模型简化算法赵骞，李敏，赵晓杰，陈雪勇 (电子科技大学计算机科学与工程学院，四川成都611731) 摘要：本文研究了在图像识别任务中，感受野学习对于特征词袋模型的影响。在特征词袋模型中，一个特征的感受野主要取决于视觉词典中的视觉单词和池化过程中所使用的区域。视觉单词决定了特征的选择性，池化区域则影响特征的局部性。文中提出了一种改进的感受野学习算法，用于寻找针对具体的图像识别任务最具有效性的感受野，同时考虑到了视觉单词数量增长所带来的冗余问题。通过学习，低效、冗余的视觉单词和池化区域会被发现，并从特征词袋模型中移除，从而产生一个针对具体分类任务更精简的、更具可分性的图像表达。最后，通过实验显示了该算法的有效性，学习到的模型除了结构精简，在识别精度上相比原有方法也能有一定提升。关键词：视觉词袋模型；感受野学习：目标识别；图像分类；特征学习中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)05-0663-07 中文引用格式：赵赛，李敏，赵晓杰，等.基于感受野学习的特征词袋模型简化算法[J].智能系统学报，2016,11(5)：663-669.，英文引用格式：ZHAO Qian,LI Min,ZHAO Xiaojie,etal.Learning receptive fields for compact bag-of-feature model[J].CAAl transactions on intelligent systems,2016,11(5):663-669. Learning receptive fields for compact bag-of-feature model ZHAO Qian,LI Min,ZHAO Xiaojie,CHEN Xueyong (School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China) Abstract:In this work,the effects of receptive field learning on a bag-of-features pipeline were investigated for an image identification task.In a bag-of-features model,the receptive field of a feature depends mostly on use of visual words in a visual dictionary and the region used during the pooling process.Codewords make the feature respond to specific image patches and the pooling regions determine the spatial scope of the features.A modified graft feature selecting algorithm was proposed to find the most efficient receptive fields for identification purposes;this considers the redundancy problem created by simultaneously increasing visual words.Using learning receptive fields,ineffi- cient and redundant codewords and pooling regions were found and subsequently eliminated from the pooling re- gion,this made the pipeline more compact and separable for the specified classification task.The experiments show that the modified learning algorithm is effective and the learned pipeline useful for both structural simplification and improving classification accuracy compared with the baseline method. Keywords:bag-of-features model;receptive field learning;object recognition;image classification;feature learn- ing 在计算机视觉和模式识别领域，图像识别是一BoF)是一种常用的简洁而高效的图像中级特征类相当常见的问题。它的作用是预测一幅图像的类(mid-level feature)学习模型。一个基本的BoF模型别标签，或者标注出图像内容的属性。在使用分类通常包含5个部分，提取图像块、描述图像块、视觉器对图像所属类别进行预测之前，一般会使用合适词典学习编码(coding)和池化(pooling)山。其中，的特征对图像进行描述。特征词袋(bag-of-features, 视觉词典学习作为BoF模型的核心，集中了大量的研究工作，有不少基于监督)和无监督[)的视觉词收稿日期：2016-01-01.网络出版日期：2016-07-18 典学习算法被提出，比如K-means4、稀疏编码]等基金项目：国家自然科学基金项目(61371182). 通信作者：赵骞.E-mail:zhokyia@gmail.com. 都可作为词典学习算法被集成在BoF模型中。对第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０１００１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０７１８．１５２１．００４．ｈｔｍｌ基于感受野学习的特征词袋模型简化算法赵骞，李敏，赵晓杰，陈雪勇（电子科技大学计算机科学与工程学院，四川成都６１１７３１）摘要：本文研究了在图像识别任务中，感受野学习对于特征词袋模型的影响。在特征词袋模型中，一个特征的感受野主要取决于视觉词典中的视觉单词和池化过程中所使用的区域。视觉单词决定了特征的选择性，池化区域则影响特征的局部性。文中提出了一种改进的感受野学习算法，用于寻找针对具体的图像识别任务最具有效性的感受野，同时考虑到了视觉单词数量增长所带来的冗余问题。通过学习，低效、冗余的视觉单词和池化区域会被发现，并从特征词袋模型中移除，从而产生一个针对具体分类任务更精简的、更具可分性的图像表达。最后，通过实验显示了该算法的有效性，学习到的模型除了结构精简，在识别精度上相比原有方法也能有一定提升。关键词：视觉词袋模型；感受野学习；目标识别；图像分类；特征学习中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０６６３⁃０７中文引用格式：赵骞，李敏，赵晓杰，等．基于感受野学习的特征词袋模型简化算法［Ｊ］．智能系统学报，２０１６，１１（５）：６６３⁃６６９．英文引用格式：ＺＨＡＯＱｉａｎ，ＬＩＭｉｎ，ＺＨＡＯＸｉａｏｊｉｅ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｆｏｒｃｏｍｐａｃｔｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｍｏｄｅｌ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：６６３⁃６６９．Ｌｅａｒｎｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｆｏｒｃｏｍｐａｃｔｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｍｏｄｅｌＺＨＡＯＱｉａｎ，ＬＩＭｉｎ，ＺＨＡＯＸｉａｏｊｉｅ，ＣＨＥＮＸｕｅｙｏｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＵｎｉｖｅｒｓｉｔｙｏｆＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｃｈｅｎｇｄｕ６１１７３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｉｓｗｏｒｋ，ｔｈｅｅｆｆｅｃｔｓｏｆｒｅｃｅｐｔｉｖｅｆｉｅｌｄｌｅａｒｎｉｎｇｏｎａｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｐｉｐｅｌｉｎｅｗｅｒｅｉｎｖｅｓｔｉｇａｔｅｄｆｏｒａｎｉｍａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｔａｓｋ．Ｉｎａｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｍｏｄｅｌ，ｔｈｅｒｅｃｅｐｔｉｖｅｆｉｅｌｄｏｆａｆｅａｔｕｒｅｄｅｐｅｎｄｓｍｏｓｔｌｙｏｎｕｓｅｏｆｖｉｓｕａｌｗｏｒｄｓｉｎａｖｉｓｕａｌｄｉｃｔｉｏｎａｒｙａｎｄｔｈｅｒｅｇｉｏｎｕｓｅｄｄｕｒｉｎｇｔｈｅｐｏｏｌｉｎｇｐｒｏｃｅｓｓ．Ｃｏｄｅｗｏｒｄｓｍａｋｅｔｈｅｆｅａｔｕｒｅｒｅｓｐｏｎｄｔｏｓｐｅｃｉｆｉｃｉｍａｇｅｐａｔｃｈｅｓａｎｄｔｈｅｐｏｏｌｉｎｇｒｅｇｉｏｎｓｄｅｔｅｒｍｉｎｅｔｈｅｓｐａｔｉａｌｓｃｏｐｅｏｆｔｈｅｆｅａｔｕｒｅｓ．Ａｍｏｄｉｆｉｅｄｇｒａｆｔｆｅａｔｕｒｅｓｅｌｅｃｔｉｎｇａｌｇｏｒｉｔｈｍｗａｓｐｒｏｐｏｓｅｄｔｏｆｉｎｄｔｈｅｍｏｓｔｅｆｆｉｃｉｅｎｔｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｆｏｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｐｕｒｐｏｓｅｓ；ｔｈｉｓｃｏｎｓｉｄｅｒｓｔｈｅｒｅｄｕｎｄａｎｃｙｐｒｏｂｌｅｍｃｒｅａｔｅｄｂｙｓｉｍｕｌｔａｎｅｏｕｓｌｙｉｎｃｒｅａｓｉｎｇｖｉｓｕａｌｗｏｒｄｓ．Ｕｓｉｎｇｌｅａｒｎｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓ，ｉｎｅｆｆｉ⁃ ｃｉｅｎｔａｎｄｒｅｄｕｎｄａｎｔｃｏｄｅｗｏｒｄｓａｎｄｐｏｏｌｉｎｇｒｅｇｉｏｎｓｗｅｒｅｆｏｕｎｄａｎｄｓｕｂｓｅｑｕｅｎｔｌｙｅｌｉｍｉｎａｔｅｄｆｒｏｍｔｈｅｐｏｏｌｉｎｇｒｅ⁃ ｇｉｏｎ，ｔｈｉｓｍａｄｅｔｈｅｐｉｐｅｌｉｎｅｍｏｒｅｃｏｍｐａｃｔａｎｄｓｅｐａｒａｂｌｅｆｏｒｔｈｅｓｐｅｃｉｆｉｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｍｏｄｉｆｉｅｄｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｉｓｅｆｆｅｃｔｉｖｅａｎｄｔｈｅｌｅａｒｎｅｄｐｉｐｅｌｉｎｅｕｓｅｆｕｌｆｏｒｂｏｔｈｓｔｒｕｃｔｕｒａｌｓｉｍｐｌｉｆｉｃａｔｉｏｎａｎｄｉｍｐｒｏｖｉｎｇｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｂａｓｅｌｉｎｅｍｅｔｈｏｄ．Ｋｅｙｗｏｒｄｓ：ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｍｏｄｅｌ；ｒｅｃｅｐｔｉｖｅｆｉｅｌｄｌｅａｒｎｉｎｇ；ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ；ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｆｅａｔｕｒｅｌｅａｒｎ⁃ ｉｎｇ收稿日期：２０１６⁃０１⁃０１．网络出版日期：２０１６⁃０７⁃１８．基金项目：国家自然科学基金项目（６１３７１１８２）．通信作者：赵骞．Ｅ⁃ｍａｉｌ：ｚｈｏｋｙｉａ＠ｇｍａｉｌ．ｃｏｍ．在计算机视觉和模式识别领域，图像识别是一类相当常见的问题。它的作用是预测一幅图像的类别标签，或者标注出图像内容的属性。在使用分类器对图像所属类别进行预测之前，一般会使用合适的特征对图像进行描述。特征词袋（ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓ，ＢｏＦ）是一种常用的简洁而高效的图像中级特征（ｍｉｄ⁃ｌｅｖｅｌｆｅａｔｕｒｅ）学习模型。一个基本的ＢｏＦ模型通常包含５个部分，提取图像块、描述图像块、视觉词典学习编码（ｃｏｄｉｎｇ）和池化（ｐｏｏｌｉｎｇ）［１］。其中，视觉词典学习作为ＢｏＦ模型的核心，集中了大量的研究工作，有不少基于监督［２］和无监督［３］的视觉词典学习算法被提出，比如Ｋ⁃ｍｅａｎｓ［４］、稀疏编码［５］等都可作为词典学习算法被集成在ＢｏＦ模型中。对

向下翻页>>

点击下载：【自然语言处理与理解】基于感受野学习的特征词袋模型简化算法