【自然语言处理与理解】基于感受野学习的特征词袋模型简化算法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.26MB

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201601001 网络出版地址：htp:/nww.cnki.net/kcms/detail/23.1538.TP.20160718.1521.004.html 基于感受野学习的特征词袋模型简化算法赵骞，李敏，赵晓杰，陈雪勇 (电子科技大学计算机科学与工程学院，四川成都611731) 摘要：本文研究了在图像识别任务中，感受野学习对于特征词袋模型的影响。在特征词袋模型中，一个特征的感受野主要取决于视觉词典中的视觉单词和池化过程中所使用的区域。视觉单词决定了特征的选择性，池化区域则影响特征的局部性。文中提出了一种改进的感受野学习算法，用于寻找针对具体的图像识别任务最具有效性的感受野，同时考虑到了视觉单词数量增长所带来的冗余问题。通过学习，低效、冗余的视觉单词和池化区域会被发现，并从特征词袋模型中移除，从而产生一个针对具体分类任务更精简的、更具可分性的图像表达。最后，通过实验显示了该算法的有效性，学习到的模型除了结构精简，在识别精度上相比原有方法也能有一定提升。关键词：视觉词袋模型；感受野学习：目标识别；图像分类；特征学习中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)05-0663-07 中文引用格式：赵赛，李敏，赵晓杰，等.基于感受野学习的特征词袋模型简化算法[J].智能系统学报，2016,11(5)：663-669.，英文引用格式：ZHAO Qian,LI Min,ZHAO Xiaojie,etal.Learning receptive fields for compact bag-of-feature model[J].CAAl transactions on intelligent systems,2016,11(5):663-669. Learning receptive fields for compact bag-of-feature model ZHAO Qian,LI Min,ZHAO Xiaojie,CHEN Xueyong (School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China) Abstract:In this work,the effects of receptive field learning on a bag-of-features pipeline were investigated for an image identification task.In a bag-of-features model,the receptive field of a feature depends mostly on use of visual words in a visual dictionary and the region used during the pooling process.Codewords make the feature respond to specific image patches and the pooling regions determine the spatial scope of the features.A modified graft feature selecting algorithm was proposed to find the most efficient receptive fields for identification purposes;this considers the redundancy problem created by simultaneously increasing visual words.Using learning receptive fields,ineffi- cient and redundant codewords and pooling regions were found and subsequently eliminated from the pooling re- gion,this made the pipeline more compact and separable for the specified classification task.The experiments show that the modified learning algorithm is effective and the learned pipeline useful for both structural simplification and improving classification accuracy compared with the baseline method. Keywords:bag-of-features model;receptive field learning;object recognition;image classification;feature learn- ing 在计算机视觉和模式识别领域，图像识别是一BoF)是一种常用的简洁而高效的图像中级特征类相当常见的问题。它的作用是预测一幅图像的类(mid-level feature)学习模型。一个基本的BoF模型别标签，或者标注出图像内容的属性。在使用分类通常包含5个部分，提取图像块、描述图像块、视觉器对图像所属类别进行预测之前，一般会使用合适词典学习编码(coding)和池化(pooling)山。其中，的特征对图像进行描述。特征词袋(bag-of-features, 视觉词典学习作为BoF模型的核心，集中了大量的研究工作，有不少基于监督)和无监督[)的视觉词收稿日期：2016-01-01.网络出版日期：2016-07-18 典学习算法被提出，比如K-means4、稀疏编码]等基金项目：国家自然科学基金项目(61371182). 通信作者：赵骞.E-mail:zhokyia@gmail.com. 都可作为词典学习算法被集成在BoF模型中。对

第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０１００１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０７１８．１５２１．００４．ｈｔｍｌ基于感受野学习的特征词袋模型简化算法赵骞，李敏，赵晓杰，陈雪勇（电子科技大学计算机科学与工程学院，四川成都６１１７３１）摘要：本文研究了在图像识别任务中，感受野学习对于特征词袋模型的影响。在特征词袋模型中，一个特征的感受野主要取决于视觉词典中的视觉单词和池化过程中所使用的区域。视觉单词决定了特征的选择性，池化区域则影响特征的局部性。文中提出了一种改进的感受野学习算法，用于寻找针对具体的图像识别任务最具有效性的感受野，同时考虑到了视觉单词数量增长所带来的冗余问题。通过学习，低效、冗余的视觉单词和池化区域会被发现，并从特征词袋模型中移除，从而产生一个针对具体分类任务更精简的、更具可分性的图像表达。最后，通过实验显示了该算法的有效性，学习到的模型除了结构精简，在识别精度上相比原有方法也能有一定提升。关键词：视觉词袋模型；感受野学习；目标识别；图像分类；特征学习中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０６６３⁃０７中文引用格式：赵骞，李敏，赵晓杰，等．基于感受野学习的特征词袋模型简化算法［Ｊ］．智能系统学报，２０１６，１１（５）：６６３⁃６６９．英文引用格式：ＺＨＡＯＱｉａｎ，ＬＩＭｉｎ，ＺＨＡＯＸｉａｏｊｉｅ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｆｏｒｃｏｍｐａｃｔｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｍｏｄｅｌ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：６６３⁃６６９．Ｌｅａｒｎｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｆｏｒｃｏｍｐａｃｔｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｍｏｄｅｌＺＨＡＯＱｉａｎ，ＬＩＭｉｎ，ＺＨＡＯＸｉａｏｊｉｅ，ＣＨＥＮＸｕｅｙｏｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＵｎｉｖｅｒｓｉｔｙｏｆＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｃｈｅｎｇｄｕ６１１７３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｉｓｗｏｒｋ，ｔｈｅｅｆｆｅｃｔｓｏｆｒｅｃｅｐｔｉｖｅｆｉｅｌｄｌｅａｒｎｉｎｇｏｎａｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｐｉｐｅｌｉｎｅｗｅｒｅｉｎｖｅｓｔｉｇａｔｅｄｆｏｒａｎｉｍａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｔａｓｋ．Ｉｎａｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｍｏｄｅｌ，ｔｈｅｒｅｃｅｐｔｉｖｅｆｉｅｌｄｏｆａｆｅａｔｕｒｅｄｅｐｅｎｄｓｍｏｓｔｌｙｏｎｕｓｅｏｆｖｉｓｕａｌｗｏｒｄｓｉｎａｖｉｓｕａｌｄｉｃｔｉｏｎａｒｙａｎｄｔｈｅｒｅｇｉｏｎｕｓｅｄｄｕｒｉｎｇｔｈｅｐｏｏｌｉｎｇｐｒｏｃｅｓｓ．Ｃｏｄｅｗｏｒｄｓｍａｋｅｔｈｅｆｅａｔｕｒｅｒｅｓｐｏｎｄｔｏｓｐｅｃｉｆｉｃｉｍａｇｅｐａｔｃｈｅｓａｎｄｔｈｅｐｏｏｌｉｎｇｒｅｇｉｏｎｓｄｅｔｅｒｍｉｎｅｔｈｅｓｐａｔｉａｌｓｃｏｐｅｏｆｔｈｅｆｅａｔｕｒｅｓ．Ａｍｏｄｉｆｉｅｄｇｒａｆｔｆｅａｔｕｒｅｓｅｌｅｃｔｉｎｇａｌｇｏｒｉｔｈｍｗａｓｐｒｏｐｏｓｅｄｔｏｆｉｎｄｔｈｅｍｏｓｔｅｆｆｉｃｉｅｎｔｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｆｏｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｐｕｒｐｏｓｅｓ；ｔｈｉｓｃｏｎｓｉｄｅｒｓｔｈｅｒｅｄｕｎｄａｎｃｙｐｒｏｂｌｅｍｃｒｅａｔｅｄｂｙｓｉｍｕｌｔａｎｅｏｕｓｌｙｉｎｃｒｅａｓｉｎｇｖｉｓｕａｌｗｏｒｄｓ．Ｕｓｉｎｇｌｅａｒｎｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓ，ｉｎｅｆｆｉ⁃ ｃｉｅｎｔａｎｄｒｅｄｕｎｄａｎｔｃｏｄｅｗｏｒｄｓａｎｄｐｏｏｌｉｎｇｒｅｇｉｏｎｓｗｅｒｅｆｏｕｎｄａｎｄｓｕｂｓｅｑｕｅｎｔｌｙｅｌｉｍｉｎａｔｅｄｆｒｏｍｔｈｅｐｏｏｌｉｎｇｒｅ⁃ ｇｉｏｎ，ｔｈｉｓｍａｄｅｔｈｅｐｉｐｅｌｉｎｅｍｏｒｅｃｏｍｐａｃｔａｎｄｓｅｐａｒａｂｌｅｆｏｒｔｈｅｓｐｅｃｉｆｉｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｍｏｄｉｆｉｅｄｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｉｓｅｆｆｅｃｔｉｖｅａｎｄｔｈｅｌｅａｒｎｅｄｐｉｐｅｌｉｎｅｕｓｅｆｕｌｆｏｒｂｏｔｈｓｔｒｕｃｔｕｒａｌｓｉｍｐｌｉｆｉｃａｔｉｏｎａｎｄｉｍｐｒｏｖｉｎｇｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｂａｓｅｌｉｎｅｍｅｔｈｏｄ．Ｋｅｙｗｏｒｄｓ：ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｍｏｄｅｌ；ｒｅｃｅｐｔｉｖｅｆｉｅｌｄｌｅａｒｎｉｎｇ；ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ；ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｆｅａｔｕｒｅｌｅａｒｎ⁃ ｉｎｇ收稿日期：２０１６⁃０１⁃０１．网络出版日期：２０１６⁃０７⁃１８．基金项目：国家自然科学基金项目（６１３７１１８２）．通信作者：赵骞．Ｅ⁃ｍａｉｌ：ｚｈｏｋｙｉａ＠ｇｍａｉｌ．ｃｏｍ．在计算机视觉和模式识别领域，图像识别是一类相当常见的问题。它的作用是预测一幅图像的类别标签，或者标注出图像内容的属性。在使用分类器对图像所属类别进行预测之前，一般会使用合适的特征对图像进行描述。特征词袋（ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓ，ＢｏＦ）是一种常用的简洁而高效的图像中级特征（ｍｉｄ⁃ｌｅｖｅｌｆｅａｔｕｒｅ）学习模型。一个基本的ＢｏＦ模型通常包含５个部分，提取图像块、描述图像块、视觉词典学习编码（ｃｏｄｉｎｇ）和池化（ｐｏｏｌｉｎｇ）［１］。其中，视觉词典学习作为ＢｏＦ模型的核心，集中了大量的研究工作，有不少基于监督［２］和无监督［３］的视觉词典学习算法被提出，比如Ｋ⁃ｍｅａｎｓ［４］、稀疏编码［５］等都可作为词典学习算法被集成在ＢｏＦ模型中。对

·664. 智能系统学报第11卷于如何找到更好的池化区域，来生成包含更多局部通常将输入图像（或低级特征，比如SIFT、HOG 性信息的图像特征，同样吸引了众多研究者的目光。等)使用视觉词典中的视觉单词进行编码，从而得其中，空间金字塔模型(spatial pyramid matching)是到一组特征响应的分布图。相对于BoF模型在图一种常用的区域选取策略，他将特征图分割成为一像检索领域的应用，局部空间的特征直方图对于图个一个逐层细化的空间子区域，之后在这些子区域像识别具有更重要的作用。因此对于特征图进行分上分别进行池化操作6)。Coates等]通过对特征图块池化操作，可以使特征表达中包含多个区域、多个之间相似性的分析，使用贪婪方法，将相似性较高的尺度上的特征统计信息。特征图分为一组，从而使得特征表达获得了一定的 1.1词典学习旋转不变性，Ja等]对于空间金字塔模型进行了进建立BF模型的第一步就是使用学习算法获一步的扩展，定义了一组超完备(over-complete)的得一个视觉词典(codebook)。为此，要从训练样本池化区域，该区域是由所有在特征图上可能存在的中随机提取图像块(patch)。然后选择一个学习算矩形区域组成，并在此基础上提出了感受野学习法，使用这些图像块作为算法的训练样本。常用的 (receptive field learning)的概，念，通过在超完备词典词典学习算法有很多，总体上可分为有监督和无监生成的特征图上的超完备区域中选择那些最为有效督2类。在这里介绍两种高效的无监督词典学习方区域。在这些被选择的池化区域上计算图像的特征案，K-means和OMP-K学习算法[io 表达。本文的工作正是基于Jia等[)提出的超完备区 minmin (1) =1 域的感受野学习方法的进一步改进，在感受野学习 K-means聚类算法[)是一种快速而且易实现的同时考虑对视觉词典规模进行限制，同时实现的学习算法，其通过最小化式(1)中的平方距离来 BoF模型中的视觉单词和池化区域的精简，从而到搜索训练数据的K个聚类中心，从而可以得到一个达优化BoF模型结构的目的。另外，与其他的词典简化方法相比，该方法充分考虑到了池化的作用和大小为K的词典。在式(1)中，x⊙是由输入的图像分类任务对视觉单词的需求。块或者初级特征组成的向量，d)是所求的聚类中心，每一个聚类中心可以被视为一个视觉单词，他们 Bag-of-features模型共同构成了一个完整的大小为K的词典D。 BoF模型的核心思想是将图像表示成为一组无 OMP-K是另外一种无监督学习算法，该算法通序特征的集合，通过统计每一种特征的响应强度来过交叉迭代公式(2)中的损失函数，在服从约束条构造一个描述图像的直方图，即图像的中级特征表件的前提下最小化重构误差，来获得词典D。它与达。利用图像特征响应的直方图统计，可以训练分 K-means算法的主要区别在于，在学习阶段每个图类器对图像中所表达的内容进行识别。BoF模型具像块最多使用K个视觉单词计算最小误差，而K 有简洁、高效等特点，但同时BoF模型在最初提出 means算法每个图像块仅属于一个视觉单词（聚类时是为了解决图像检索问题，对每种特征在整幅图中心)。像中的出现次数进行统计，无法对结构信息和空间信息进行有效表示。 m∑IDsw-r0E BoF模型图像分类框架如图1所示。 subject to‖dwl匠=l,j (2) e and ll s@lo≤k,Hi 词典式中：‖s⊙。使用0范数表示编码s0中非零元素的数量，每个视觉单词d0为词典D中一列。使用编码池化 OMP-K算法计算式(2)，可以得到词典D。输入图像 1.2特征编码特征表达在完成词典学习之后，需要对输入的数据（图 “小狗”· 分类器预测像或者初级特征)进行编码。软阈值(soft threshol- 图1面向图像识别的Bag-of-features模型框架图 dig)编码通过计算数据与视觉单词之间的内积对 Fig.1 Bag-of-features pipeline for image classification 数据进行编码，如式(3)。其中，阈值α的引入，为编码后的特征带来一定的稀疏性[]

于如何找到更好的池化区域，来生成包含更多局部性信息的图像特征，同样吸引了众多研究者的目光。其中，空间金字塔模型（ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇ）是一种常用的区域选取策略，他将特征图分割成为一个一个逐层细化的空间子区域，之后在这些子区域上分别进行池化操作［６］。Ｃｏａｔｅｓ等［７］通过对特征图之间相似性的分析，使用贪婪方法，将相似性较高的特征图分为一组，从而使得特征表达获得了一定的旋转不变性，Ｊｉａ等［８］对于空间金字塔模型进行了进一步的扩展，定义了一组超完备（ｏｖｅｒ⁃ｃｏｍｐｌｅｔｅ）的池化区域，该区域是由所有在特征图上可能存在的矩形区域组成，并在此基础上提出了感受野学习（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄｌｅａｒｎｉｎｇ）的概念，通过在超完备词典生成的特征图上的超完备区域中选择那些最为有效区域。在这些被选择的池化区域上计算图像的特征表达。本文的工作正是基于Ｊｉａ等［９］提出的超完备区域的感受野学习方法的进一步改进，在感受野学习的同时考虑对视觉词典规模进行限制，同时实现ＢｏＦ模型中的视觉单词和池化区域的精简，从而到达优化ＢｏＦ模型结构的目的。另外，与其他的词典简化方法相比，该方法充分考虑到了池化的作用和分类任务对视觉单词的需求。１Ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓ模型ＢｏＦ模型的核心思想是将图像表示成为一组无序特征的集合，通过统计每一种特征的响应强度来构造一个描述图像的直方图，即图像的中级特征表达。利用图像特征响应的直方图统计，可以训练分类器对图像中所表达的内容进行识别。ＢｏＦ模型具有简洁、高效等特点，但同时ＢｏＦ模型在最初提出时是为了解决图像检索问题，对每种特征在整幅图像中的出现次数进行统计，无法对结构信息和空间信息进行有效表示［９］。ＢｏＦ模型图像分类框架如图１所示。图１面向图像识别的Ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓ模型框架图Ｆｉｇ．１Ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓｐｉｐｅｌｉｎｅｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ通常将输入图像（或低级特征，比如ＳＩＦＴ、ＨＯＧ等）使用视觉词典中的视觉单词进行编码，从而得到一组特征响应的分布图。相对于ＢｏＦ模型在图像检索领域的应用，局部空间的特征直方图对于图像识别具有更重要的作用。因此对于特征图进行分块池化操作，可以使特征表达中包含多个区域、多个尺度上的特征统计信息。１．１词典学习建立ＢｏＦ模型的第一步就是使用学习算法获得一个视觉词典（ｃｏｄｅｂｏｏｋ）。为此，要从训练样本中随机提取图像块（ｐａｔｃｈ）。然后选择一个学习算法，使用这些图像块作为算法的训练样本。常用的词典学习算法有很多，总体上可分为有监督和无监督２类。在这里介绍两种高效的无监督词典学习方案，Ｋ⁃ｍｅａｎｓ和ＯＭＰ⁃Ｋ学习算法［１０］。ｍｉｎＤ∑ Ｋｉ＝１ｍｉｎｊ‖ ｄ（ｊ）－ｘ（ｉ）‖ （１）Ｋ⁃ｍｅａｎｓ聚类算法［１１］是一种快速而且易实现的学习算法，其通过最小化式（１）中的平方距离来搜索训练数据的Ｋ个聚类中心，从而可以得到一个大小为Ｋ的词典。在式（１）中，ｘ（ｉ）是由输入的图像块或者初级特征组成的向量，ｄ（ｊ）是所求的聚类中心，每一个聚类中心可以被视为一个视觉单词，他们共同构成了一个完整的大小为Ｋ的词典Ｄ。ＯＭＰ⁃Ｋ是另外一种无监督学习算法，该算法通过交叉迭代公式（２）中的损失函数，在服从约束条件的前提下最小化重构误差，来获得词典Ｄ。它与Ｋ⁃ｍｅａｎｓ算法的主要区别在于，在学习阶段每个图像块最多使用Ｋ个视觉单词计算最小误差，而Ｋ⁃ ｍｅａｎｓ算法每个图像块仅属于一个视觉单词（聚类中心）。ｍｉｎＤ，ｓ（ｉ）∑ｉ ‖Ｄｓ（ｉ）－ｘ（ｉ）‖２２ｓｕｂｊｅｃｔｔｏ‖ ｄ（ｊ）‖２２＝１，∀ｊａｎｄ‖ ｓ（ｉ）‖０≤ ｋ，∀ｉ（２）式中：‖ｓ（ｉ） ‖０使用０范数表示编码ｓ（ｉ）中非零元素的数量，每个视觉单词ｄ（ｊ）为词典Ｄ中一列。使用ＯＭＰ⁃Ｋ算法计算式（２），可以得到词典Ｄ。１．２特征编码在完成词典学习之后，需要对输入的数据（图像或者初级特征）进行编码。软阈值（ｓｏｆｔｔｈｒｅｓｈｏｌ⁃ ｄｉｎｇ）编码通过计算数据与视觉单词之间的内积对数据进行编码，如式（３）。其中，阈值 α 的引入，为编码后的特征带来一定的稀疏性［１２］。 ·６６４· 智能系统学报第１１卷

第5期赵骞，等：基于感受野学习的特征词袋模型简化算法 ·665. f=max(10,dx -a (3) 判断，grafting全称梯度特征测试(gradient feature 但是，软阈值方法需要手工指定阈值α，为了克 testing),需要候选特征的梯度值作为重要性判断的服手工指定参数对编码效果的影响。Coates等[)提依据，因此要首先定义分类器及其目标函数。出了一种三角编码算法(triangle)。该方法中，当数 2.1分类器据x到视觉单词d,的距离大于数据x)到所有视本文定义了一个多类线性分类器，使用BoF模觉单词d的平均距离u(z)时，特征对应的值为0，型特征对标签进行预测」 f=max{0,u(z)-2.} (4) y=Wx+b (6) 式中：=‖x)-d)‖，表示数据到视觉单词的欧式中：x是输入图像的特征表达向量，W和b分别为式距离，(z)是4的平均值。权值矩阵和偏置，y为分类器的预测结果。式(7)定每一个样本在进行编码后，会得到K个特征义了分类器的目标函数，通过最优化算法求出目标图。这里，K为词典中视觉单词的个数。函数的最优解，来确定参数W和b 1.3池化池化作为BoF模型中的一个关键步骤，它通过 N∑1(wx.+b)+AIwI 聚合运算（比如：计算最大值或均值）将一个矩形区式中：x。和yn分别表示训练样本和对应的标签，N 域内的特征转换成为一个标量值，从而减少特征的是用于训练的样本总数。‖WI是权值矩阵W 数量。除了降低特征表达的维数之外，池化能够为特的F-范数的平方，用于限制权值矩阵中元素值的大征表达带来一些非常有用的特性，比如平移不变性。小，起到了降低结构复杂度和抑制过拟合的作用。另外，为获得更加丰富的特征空间分布的统计上式第一项中的(·)表示多类扩展二项负对数似信息，规则网格结构、空间金字塔、超完备（如图2）然函数(BNLL),用于衡量线性分类器对于训练数等池化区域方案被相继提出，使BoF特征保留了更据的适应程度，其具体定义为多的局部统计信息。 (8) 口恒凹四旧四阿S l(Wx +b,y)=>In(1+e-W) i=l 式(8)中的ln(·)表示自然对数函数，P是指 U四何Ug 标签的类别总数，W表示矩阵W中的一列。 2.2感受野学习 ◇ 为了找到最为合适的感受野，将通过计算目标回四函数相对于每个特征对应的权值矩阵元素的梯度值中E■69回阿■ 来判断特征的重要性。首先，初始化一个空集合S 来保存已选择的特征，所有没有被选择的特征组成 (a)超完备 (b)规则网格一个候选集合S。在每次迭代中，针对候选集合S。图2 Pooling区域中每个特征计算一个分值，如式(9)所示。选择分 Fig.2 Pooling regions 通常，池化可以用如式(5)的形式进行表示值最大的特征加入集合S,并将其从S.中移除。直到集合S中特征的数量达到一个指定的值，迭代停 x:=op(Ag) (5) 止。此时集合S中特征所对应的感受野既是针对该式中：x是池化后得到的特征，c和R,分别表示特分类任务最为有效的感受野。征图对应的视觉单词的下标，以及特征图上的池化与a等人提出的感受野学习方法[8]不同，本的区域，A%表示池化区域内的一组特征的集合，方法在计算特征分值的基础上进一步对特征图进行 p(·)表示在A.之上进行的聚合。了区分，将未被选人的特征图所包含特征的分值进 2改进的感受野学习算法行衰减，使感受野学习的过程更加倾向于选取已被选择的特征图上的特征，如式(9)》本节的算法是在Ja等[]的基础上，增加对于 aL(W.b) 视觉词汇数量增长的限制，从而实现感受野学习和 score(0)=‖aw, Im·(1-nM(j)(9) 选择有效视觉单词的双重效果。算法中使用了Pr- 式中：L(W,b)是式(6)中所定义的目标函数，W表 kins等I4提出的grafting方法对特征的重要性进行示矩阵W中的一行，？是针对未选中特征图中候选

ｆｉ＝ｍａｘｄ（ｊ）∈Ｄ｛０，ｄ（ｊ）Ｔｘ－ α｝（３）但是，软阈值方法需要手工指定阈值 α，为了克服手工指定参数对编码效果的影响。Ｃｏａｔｅｓ等［４］提出了一种三角编码算法（ｔｒｉａｎｇｌｅ）。该方法中，当数据ｘ（ｉ）到视觉单词ｄ（ｋ）的距离大于数据ｘ（ｉ）到所有视觉单词ｄ（ｋ）的平均距离 μ（ｚ）时，特征对应的值为０，ｆｋ＝ｍａｘ｛０，μ（ｚ）－ｚｋ｝（４）式中：ｚｋ＝ ‖ｘ（ｉ）－ｄ（ｋ） ‖２表示数据到视觉单词的欧式距离，μ（ｚ）是ｚｋ的平均值。每一个样本在进行编码后，会得到Ｋ个特征图。这里，Ｋ为词典中视觉单词的个数。１．３池化池化作为ＢｏＦ模型中的一个关键步骤，它通过聚合运算（比如：计算最大值或均值）将一个矩形区域内的特征转换成为一个标量值，从而减少特征的数量。除了降低特征表达的维数之外，池化能够为特征表达带来一些非常有用的特性，比如平移不变性。另外，为获得更加丰富的特征空间分布的统计信息，规则网格结构、空间金字塔、超完备（如图２）等池化区域方案被相继提出，使ＢｏＦ特征保留了更多的局部统计信息。（ａ）超完备（ｂ）规则网格图２Ｐｏｏｌｉｎｇ区域Ｆｉｇ．２Ｐｏｏｌｉｎｇｒｅｇｉｏｎｓ通常，池化可以用如式（５）的形式进行表示［１３］ｘｃｉ＝ｏｐ（ＡｃＲｉ）（５）式中：ｘｃｉ是池化后得到的特征，ｃ和Ｒｉ分别表示特征图对应的视觉单词的下标，以及特征图上的池化的区域，ＡｃＲｉ表示池化区域内的一组特征的集合，ｏｐ（·）表示在ＡｃＲｉ之上进行的聚合。２改进的感受野学习算法本节的算法是在Ｊｉａ等［８］的基础上，增加对于视觉词汇数量增长的限制，从而实现感受野学习和选择有效视觉单词的双重效果。算法中使用了Ｐｅｒ⁃ ｋｉｎｓ等［１４］提出的ｇｒａｆｔｉｎｇ方法对特征的重要性进行判断，ｇｒａｆｔｉｎｇ全称梯度特征测试（ｇｒａｄｉｅｎｔｆｅａｔｕｒｅｔｅｓｔｉｎｇ），需要候选特征的梯度值作为重要性判断的依据，因此要首先定义分类器及其目标函数。２．１分类器本文定义了一个多类线性分类器，使用ＢｏＦ模型特征对标签进行预测，ｙ＝ＷＴｘ＋ｂ（６）式中：ｘ是输入图像的特征表达向量，Ｗ和ｂ分别为权值矩阵和偏置，ｙ为分类器的预测结果。式（７）定义了分类器的目标函数，通过最优化算法求出目标函数的最优解，来确定参数Ｗ和ｂｍｉｎＷ，ｂ１Ｎ∑ Ｎｎ＝１ｌ（ＷＴｘｎ＋ｂ，ｙｎ）＋ λ‖Ｗ‖２Ｆｒｏ（７）式中：ｘｎ和ｙｎ分别表示训练样本和对应的标签，Ｎ是用于训练的样本总数。 ‖Ｗ‖２Ｆｒｏ是权值矩阵Ｗ的Ｆ⁃范数的平方，用于限制权值矩阵中元素值的大小，起到了降低结构复杂度和抑制过拟合的作用。上式第一项中的ｌ（·）表示多类扩展二项负对数似然函数（ＢＮＬＬ），用于衡量线性分类器对于训练数据的适应程度，其具体定义为ｌ（ＷＴｘ＋ｂ，ｙ）＝ ∑ Ｐｉ＝１ｌｎ（１＋ｅ－ｙｉ（ＷＴ．，ｉ＋ｂｉ））（８）式（８）中的ｌｎ（·）表示自然对数函数，Ｐ是指标签的类别总数，Ｗ．，ｉ表示矩阵Ｗ中的一列。２．２感受野学习为了找到最为合适的感受野，将通过计算目标函数相对于每个特征对应的权值矩阵元素的梯度值来判断特征的重要性。首先，初始化一个空集合Ｓ来保存已选择的特征，所有没有被选择的特征组成一个候选集合Ｓｃ。在每次迭代中，针对候选集合Ｓｃ中每个特征计算一个分值，如式（９）所示。选择分值最大的特征加入集合Ｓ，并将其从Ｓｃ中移除。直到集合Ｓ中特征的数量达到一个指定的值，迭代停止。此时集合Ｓ中特征所对应的感受野既是针对该分类任务最为有效的感受野。与Ｊｉａ等人提出的感受野学习方法［８］不同，本方法在计算特征分值的基础上进一步对特征图进行了区分，将未被选入的特征图所包含特征的分值进行衰减，使感受野学习的过程更加倾向于选取已被选择的特征图上的特征，如式（９）ｓｃｏｒｅ（ｊ）＝ ‖ ∂Ｌ（Ｗ，ｂ） ∂ Ｗｊ，． ‖２Ｆｒｏ·（１－ ηＭ（ｊ））（９）式中：Ｌ（Ｗ，ｂ）是式（６）中所定义的目标函数，Ｗｊ，．表示矩阵Ｗ中的一行，η 是针对未选中特征图中候选第５期赵骞，等：基于感受野学习的特征词袋模型简化算法 ·６６５·

·666. 智能系统学报第11卷特征的衰减因子，其取值范围为[0,1)，M(G)用于表1多种pooling策略的比较表示当前第j个特征是否在选中的特征图之上，其 Table 1 Comparison between different pooling strategies 表示为池化区域特征数词典规模衰减因子精度/% (1,特征广在已选特征图 MG)=0,其他 (10) 2×2 800 200 65.73 式中：如果特征图上含有已选中特征，则认为该图被 4×4 3200 200 73.25 选取，其M(G)值为1。 SPM 4800 200 74.01 在每一次迭代后，新的特征被加入集合S。在此特征集合之上，需要对分类器参数W和b进行重 OC[s] 20000 200 76.44 新计算。将上次迭代计算出的W和b作为重新计 0C+学习到 6400 200 76.72 算时的初始状态，以有效地减少计算参数所消耗的 OC+改进算法 4408 200(400)】 0.7 76.95 时间。 OC+改进算法 5370 200(800) 0.8 77.89 3实验与分析在未使用学习策略的池化方案中，由于超完备感受野能够较好地捕获特征图中的空间信息，因此 3.1实现过程得到了较高的分类精度。在增加学习策略之后冗余实验中主要使用了CIFAR-10数据库[]对文中被消除，超完备感受野又获得了0.28%的提升。在提出的算法进行训练和验证。CIFAR-I0是由加拿此基础上使用本文方法，以一个较大的词典作为初大多伦多大学教授Hinton等发布的一个用于图像始词典，同时在学习过程中对词典规模的增长进行识别算法评估的数据库，该数据库中包含了50000 了限制。例如在表1中，分别以400和800为初始个训练样本和10000个测试样本，共分为10类。词典大小，将衰减因子7设为0.7和0.8，在词典规在使用样本训练和测试前，都要对样本数据进模为200时，学习到了4408和5370个特征。尽管行归一化和白化处理，这样能够提高BF模型特征使用的特征数有所减少，但是分类结果却比原有算的预测性能。法提高了0.23%和1.27%。该结果说明了改进算法从训练样本中随机提取5×5的图像块用于词的有效性。典学习，选择K-means作为词典学习的算法，以及 3.3参数7的影响 triangle作为编码算法。输入图像经编码后会形成本节实验中，在CIFAR-10数据库上比较了3种 28×28的特征图，然后最大值池化会将每张特征图衰减因子刀值下，学习算法所受到的影响（如图3）。上7×7相邻但不重叠的空间区域聚合成为一个特首先，使用K-means算法得到一个大小为1600的征，因此每张特征图被降维到4×4的大小。超完备词典。然后，以该词典生成的特征图为基础，分别将的池化区域以及对照实验都将基于这些池化后的特 7值设为0,0.3和0.7，观察和比较在学习过程中，征图。精度和词典规模的增长。其中，当η值设为0时在训练分类器时，式(7)中的参数入固定为0. (即不对词典的增长进行衰减)，则本方法与Ja等 01,用于超完备池化区域和感受野学习实验。对于提出的学习方法[)等价。其他预定义的池化区域（比如网格结构和空间金字 821 塔)，在实验中使用L2-SVM作为分类器，其参数通过五折交叉验证的方式搜索确定。 3.2算法性能测试表1将本文提出的改进的感受野学习算法，同原有方法[8]以及几种常用的池化策略进行了比较。 4月=0 表中包括网格结构的池化区域(2×2,4×4)，空间金 —1=0.3 字塔(spatial pyramid matching,SPM),超完备感受 ---=0.7 7 3 4 5 6 2*10 野(over-complete,OC),基于超完备感受野的感受感受野数量野学习(0C+学习)，本文方法是在超完备感受野上 (a)样本数量对分类精度的影响的实验结果(OC+改进算法)

特征的衰减因子，其取值范围为［０，１），Ｍ（ｊ）用于表示当前第ｊ个特征是否在选中的特征图之上，其表示为Ｍ（ｊ）＝１，特征ｊ在已选特征图 {０，其他（１０）式中：如果特征图上含有已选中特征，则认为该图被选取，其Ｍ（ｊ）值为１。在每一次迭代后，新的特征被加入集合Ｓ。在此特征集合之上，需要对分类器参数Ｗ和ｂ进行重新计算。将上次迭代计算出的Ｗ和ｂ作为重新计算时的初始状态，以有效地减少计算参数所消耗的时间。３实验与分析３．１实现过程实验中主要使用了ＣＩＦＡＲ⁃１０数据库［１９］对文中提出的算法进行训练和验证。ＣＩＦＡＲ⁃１０是由加拿大多伦多大学教授Ｈｉｎｔｏｎ等发布的一个用于图像识别算法评估的数据库，该数据库中包含了５００００个训练样本和１００００个测试样本，共分为１０类。在使用样本训练和测试前，都要对样本数据进行归一化和白化处理，这样能够提高ＢｏＦ模型特征的预测性能。从训练样本中随机提取５×５的图像块用于词典学习，选择Ｋ⁃ｍｅａｎｓ作为词典学习的算法，以及ｔｒｉａｎｇｌｅ作为编码算法。输入图像经编码后会形成２８×２８的特征图，然后最大值池化会将每张特征图上７×７相邻但不重叠的空间区域聚合成为一个特征，因此每张特征图被降维到４×４的大小。超完备的池化区域以及对照实验都将基于这些池化后的特征图。在训练分类器时，式（７）中的参数 λ 固定为０．０１，用于超完备池化区域和感受野学习实验。对于其他预定义的池化区域（比如网格结构和空间金字塔），在实验中使用Ｌ２⁃ＳＶＭ作为分类器，其参数通过五折交叉验证的方式搜索确定。３．２算法性能测试表１将本文提出的改进的感受野学习算法，同原有方法［８］以及几种常用的池化策略进行了比较。表中包括网格结构的池化区域（２×２，４×４），空间金字塔（ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇ，ＳＰＭ），超完备感受野（ｏｖｅｒ⁃ｃｏｍｐｌｅｔｅ，ＯＣ），基于超完备感受野的感受野学习（ＯＣ＋学习），本文方法是在超完备感受野上的实验结果（ＯＣ＋改进算法）。表１多种ｐｏｏｌｉｎｇ策略的比较Ｔａｂｌｅ１Ｃｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎｄｉｆｆｅｒｅｎｔｐｏｏｌｉｎｇｓｔｒａｔｅｇｉｅｓ池化区域特征数词典规模衰减因子精度／％２×２８００２００－６５．７３４×４３２００２００－７３．２５ＳＰＭ４８００２００－７４．０１ＯＣ［８］２００００２００－７６．４４ＯＣ＋学习［８］６４００２００－７６．７２ＯＣ＋改进算法４４０８２００（４００）０．７７６．９５ＯＣ＋改进算法５３７０２００（８００）０．８７７．８９在未使用学习策略的池化方案中，由于超完备感受野能够较好地捕获特征图中的空间信息，因此得到了较高的分类精度。在增加学习策略之后冗余被消除，超完备感受野又获得了０．２８％的提升。在此基础上使用本文方法，以一个较大的词典作为初始词典，同时在学习过程中对词典规模的增长进行了限制。例如在表１中，分别以４００和８００为初始词典大小，将衰减因子 η 设为０．７和０．８，在词典规模为２００时，学习到了４４０８和５３７０个特征。尽管使用的特征数有所减少，但是分类结果却比原有算法提高了０．２３％和１．２７％。该结果说明了改进算法的有效性。３．３参数 η 的影响本节实验中，在ＣＩＦＡＲ⁃１０数据库上比较了３种衰减因子 η 值下，学习算法所受到的影响（如图３）。首先，使用Ｋ⁃ｍｅａｎｓ算法得到一个大小为１６００的词典。然后，以该词典生成的特征图为基础，分别将 η 值设为０、０．３和０．７，观察和比较在学习过程中，精度和词典规模的增长。其中，当 η 值设为０时（即不对词典的增长进行衰减），则本方法与Ｊｉａ等提出的学习方法［８］等价。（ａ）样本数量对分类精度的影响 ·６６６· 智能系统学报第１１卷

第5期赵赛，等：基于感受野学习的特征词袋模型简化算法 ·667· 2oor 经网络(convolutional neural networks.,CNW)IIs),与本文中提出的算法进行对比。表3CFAR-100数据库的实验结果 1.5 …1=0 -1=0.3 4 Table 3 Results on CIFAR-100 1=0.7 1.0 词典规模衰减因子精度/% 1273(1600) 0 54.88 0.5 821(1600) 0.1 55.04 ×10 313(6400) 54.28 0 2 3 4 5 6 7 0.3 感受野数量 95 (b)样本数量对词典规模的影响 -8-CNN 图3不同，值对应的分类精度及词典规模增长曲线 90 --算法1 Fig.3 The curve of classification accuracy and code 甲 6一算法2 book scale with different n 80 0 在图3(a)是分类精度跟随感受野数量（即感受野对应的特征数)增长的曲线，图3(b)是视觉单词 ò 量随感受野数量增长的曲线。可以看出，在这3种 65 ×10 50 20 10 5 0 )值情况下，精度的增长受到的影响不大，而视觉单训练样本数词数量却受到了明显抑制，说明算法能够对于分类 (a)样本数量对分类精度的影响贡献较低的视觉单词进行识别。 ×103 在表2中，池化区域为0C,比较了图3中的实 2.0 验在学习6400个感受野时的状态。从表中可以看 1.8 --算法1 一算法2 出，随着？值的增加，所需的视觉单词的数量不断 1.6 下降。而且对于特征图数量增长一定程度上的限 1.4 制，对分类结果也会有一些提高。现象也说明了基 12 G. 1.0 于梯度的贪婪算法并不能确保针对分类任务获得一 0.8 个最优的特征集合。 ×10 10 0 表2CFAR-10数据库的实验结果训练样本数 Table 2 Results on CIFAR-10 (b)样本数量对词典规模的影响词典规模衰减因子精度/% 图4训练样本数量对分类精度和词典规模的影响 1477(1600) 0 79.80 Fig.4 Effects of training sample size on classification 963(1600) 0.3 80.13 accuracy and codebook scale 357(1600) 0.7 79.39 作为参照对象的CNN使用了Lin等人提出的使用CIFAR-IO0数据库重复上述实验。这里， Network in Network模型16]。该模型曾在CIFAR-l0 由于数据库有100类对象，更大的权值矩阵W使得数据库上获得了准确率89.21%的最好成绩。在实算法对η值变得更敏感，因此实验中选择的η值为验中，逐渐的减少训练样本的数量，使用了完整的 00.1和0.3。在表3中，可以看到与CIFAR-10上类 50000个样本，以及随机抽取的20000、10000和似的实验结果。 5000个样本分别进行试验。在本文算法的实现过 3.4样本数量的影响程中，一组实验采用相同的初始词典大小，对于不同为了研究训练样本数量对本文所描述的算法的大小的训练集均取1600个视觉单词，称为算法1。影响程度，随机从CIFAR-10数据库中选择出多个另一组随着样本数量的减少逐步扩大初始词典的规样本子集作为训练数据，使用这些子集学习词典和模，分别使用1600,3200,4800和6400个视觉单感受野。除此之外，使用同样样本子集训练卷积神词，称为算法2。实验中的n被固定为0.3

（ｂ）样本数量对词典规模的影响图３不同 η 值对应的分类精度及词典规模增长曲线Ｆｉｇ．３Ｔｈｅｃｕｒｖｅｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄｃｏｄｅ⁃ ｂｏｏｋｓｃａｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔ η 在图３（ａ）是分类精度跟随感受野数量（即感受野对应的特征数）增长的曲线，图３（ｂ）是视觉单词量随感受野数量增长的曲线。可以看出，在这３种 η 值情况下，精度的增长受到的影响不大，而视觉单词数量却受到了明显抑制，说明算法能够对于分类贡献较低的视觉单词进行识别。在表２中，池化区域为ＯＣ，比较了图３中的实验在学习６４００个感受野时的状态。从表中可以看出，随着 η 值的增加，所需的视觉单词的数量不断下降。而且对于特征图数量增长一定程度上的限制，对分类结果也会有一些提高。现象也说明了基于梯度的贪婪算法并不能确保针对分类任务获得一个最优的特征集合。表２ＣＩＦＡＲ⁃１０数据库的实验结果Ｔａｂｌｅ２ＲｅｓｕｌｔｓｏｎＣＩＦＡＲ⁃１０词典规模衰减因子精度／％１４７７（１６００）０７９．８０９６３（１６００）０．３８０．１３３５７（１６００）０．７７９．３９使用ＣＩＦＡＲ⁃１００数据库重复上述实验。这里，由于数据库有１００类对象，更大的权值矩阵Ｗ使得算法对 η 值变得更敏感，因此实验中选择的 η 值为０、０．１和０．３。在表３中，可以看到与ＣＩＦＡＲ⁃１０上类似的实验结果。３．４样本数量的影响为了研究训练样本数量对本文所描述的算法的影响程度，随机从ＣＩＦＡＲ⁃１０数据库中选择出多个样本子集作为训练数据，使用这些子集学习词典和感受野。除此之外，使用同样样本子集训练卷积神经网络（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＣＮＮ）［１５］，与本文中提出的算法进行对比。表３ＣＩＦＡＲ⁃１００数据库的实验结果Ｔａｂｌｅ３ＲｅｓｕｌｔｓｏｎＣＩＦＡＲ⁃１００词典规模衰减因子精度／％１２７３（１６００）０５４．８８８２１（１６００）０．１５５．０４３１３（６４００）０．３５４．２８（ａ）样本数量对分类精度的影响（ｂ）样本数量对词典规模的影响图４训练样本数量对分类精度和词典规模的影响Ｆｉｇ．４Ｅｆｆｅｃｔｓｏｆｔｒａｉｎｉｎｇｓａｍｐｌｅｓｉｚｅｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄｃｏｄｅｂｏｏｋｓｃａｌｅ作为参照对象的ＣＮＮ使用了Ｌｉｎ等人提出的ＮｅｔｗｏｒｋｉｎＮｅｔｗｏｒｋ模型［１６］。该模型曾在ＣＩＦＡＲ⁃１０数据库上获得了准确率８９．２１％的最好成绩。在实验中，逐渐的减少训练样本的数量，使用了完整的５００００个样本，以及随机抽取的２００００、１００００和５０００个样本分别进行试验。在本文算法的实现过程中，一组实验采用相同的初始词典大小，对于不同大小的训练集均取１６００个视觉单词，称为算法１。另一组随着样本数量的减少逐步扩大初始词典的规模，分别使用１６００，３２００，４８００和６４００个视觉单词，称为算法２。实验中的 η 被固定为０．３。第５期赵骞，等：基于感受野学习的特征词袋模型简化算法 ·６６７·

·668. 智能系统学报第11卷在图4(a)中，可以发现在训练集规模较大的情况下，CNN模型具有更高的分类精度。伴随着训练参考文献：样本数量的减少CNN模型的性能逐渐下降。当训 [1]HUANG Yongzhen,WU Zifeng,WANG Liang,et al.Fea- 练样本数量为10000时，CNN模型同本文中的BoF ture coding in image classification:a comprehensive study 模型性能相当。另外，算法2由于逐步提高了初始 [J].IEEE transactions on pattern analysis and machine in- 词典的大小，对于分类性能的损失产生了一定的补 telligence,2013,36(3):493-506】 [2]YANG Jianchao,YU Kai,GONG Yihong,et al.Linear 偿作用，因此略好于使用固定初始词典大小的算法 spatial pyramid matching using sparse coding for image 1的结果。 classification[C]//Proceedings of the IEEE Conference on 在图4(b)中，学习后的词典规模稳定在一定范 Computer Vision and Pattern Recognition.Miami,FL, 围内。尽管算法2的初始词典大小在不断增加，但 2009:1794-1801. 是实际使用的词典并没有随着初始词典而膨胀。因 [3]YU Kai,ZHANG Tong,GONG Yihong.Nonlinear learning 此，在计算能力允许的情况下，可以使用较大的初始 using local coordinate coding[C]//Advances in Neural In- 字典，本文提出的方法可以学习到一个大小合适的 formation Processing Systems 22:23rd Annual Conference 模型。 on Neural Information Processing Systems.Vancouver, British Columbia,Canada,2009:2223-2231. 通过以上分析，认为针对小样本集的目标识别 [4]COATES A,NG A,LEE H.An analysis of single-layer net- 问题，BoF模型依然是一种十分有效的工具。 works in unsupervised feature learning[J].Journal of ma- 3.5分析讨论 chine learning research,2011,15:215-223. 实验验证了方法的有效性，可将感受野学习和 [5]GREGOR K,LECUN Y.Learning fast approximations of 选择有效视觉单词相结合，用于对BF模型的精 sparse coding[C]//Proceedings of the 27th International 简。尽管对于词典进行了大量的删减，但是对于精 Conference on Machine Learning.Haifa,Israel,2010. 度仅产生了较小影响，从侧面说明了模型中包含了 [6]LAZEBNIK S,SCHMID C,Ponce J.Beyond bags of fea- 很多与分类无关的冗余参数。 tures:spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of the IEEE Computer 然而，本文提出的方法仍有几点不足需要进一 Society Conference on Computer Vision and Pattern Recog- 步改进。首先，通常对于参数)的调节缺少指导性 nition.New York,NY,USA,2006,2:2169-2178. 的原则，只能通过尝试多个η值来估计合适的取 [7]COATES A,NG A Y.Selecting receptive fields in deep net- 值。其次，如何指定一个合适的特征数，同样缺乏指 works[C]//Advances in Neural Information Processing Sys- 导原则。一般来说，可以指定一个较大的特征数，观 tems 24:25th Annual Conference on Neural Information 测算法在验证集上的效果，从而做出判断。 Processing Systems.Granada,Spain,2011:2528-2536. []JIA Yangqing,HUANG Chang,DARRELL T.Beyond spa- 4结束语 tial pyramids:receptive field learning for pooled image fea- tures [C]//Proceedings of the 2012 IEEE Conference on 本文通过对现有的感受野学习方法的分析和研 Computer Vision and Pattern Recognition.Providence,RI, 究的基础上，提出了一种改进型的感受野学习算法。 2012:3370-3377 相比于原有算法，本文提出的方法除了考虑生成特 [9]SIVIC J,ZISSERMAN A.Video google:a text retrieval ap- 征的空间区域和词典对于分类的影响之外，还将去 proach to object matching in videos[C]//Proceedings of the 除词典中低效的视觉单词纳入学习过程。使用此方 Ninth IEEE International Conference on Computer Vision. 法，从词典大小和池化区域两方面对BF模型的规 Nice,France,2003:1470-1477. 模进行了精简。实验结果表明，本文提出的方法能 [10]COATES A,NG A Y.The importance of encoding versus 够利用更少的词典规模形成更有效的特征表达，即 training with sparse coding and vector quantization[C]/ Proceedings of the 28th International Conference on Ma- 使在使用相同初始词典的情况下，也可以较少冗余 chine Learning.Bellevue,WA,USA,2011. 成分对于分类任务的千扰，提高BoF模型生成的特 [11]JAIN A K.Data clustering:50 years beyond K-means[J]. 征表达的表达能力，从而提高分类精度。特别是在 Pattern recognition letters,2010,31(8):651-666. 训练样本较小的情况下，具有一定的应用价值。 [12]汪启伟.图像直方图特征及其应用研究[D].合肥：中

在图４（ａ）中，可以发现在训练集规模较大的情况下，ＣＮＮ模型具有更高的分类精度。伴随着训练样本数量的减少ＣＮＮ模型的性能逐渐下降。当训练样本数量为１００００时，ＣＮＮ模型同本文中的ＢｏＦ模型性能相当。另外，算法２由于逐步提高了初始词典的大小，对于分类性能的损失产生了一定的补偿作用，因此略好于使用固定初始词典大小的算法１的结果。在图４（ｂ）中，学习后的词典规模稳定在一定范围内。尽管算法２的初始词典大小在不断增加，但是实际使用的词典并没有随着初始词典而膨胀。因此，在计算能力允许的情况下，可以使用较大的初始字典，本文提出的方法可以学习到一个大小合适的模型。通过以上分析，认为针对小样本集的目标识别问题，ＢｏＦ模型依然是一种十分有效的工具。３．５分析讨论实验验证了方法的有效性，可将感受野学习和选择有效视觉单词相结合，用于对ＢｏＦ模型的精简。尽管对于词典进行了大量的删减，但是对于精度仅产生了较小影响，从侧面说明了模型中包含了很多与分类无关的冗余参数。然而，本文提出的方法仍有几点不足需要进一步改进。首先，通常对于参数 η 的调节缺少指导性的原则，只能通过尝试多个 η 值来估计合适的取值。其次，如何指定一个合适的特征数，同样缺乏指导原则。一般来说，可以指定一个较大的特征数，观测算法在验证集上的效果，从而做出判断。４结束语本文通过对现有的感受野学习方法的分析和研究的基础上，提出了一种改进型的感受野学习算法。相比于原有算法，本文提出的方法除了考虑生成特征的空间区域和词典对于分类的影响之外，还将去除词典中低效的视觉单词纳入学习过程。使用此方法，从词典大小和池化区域两方面对ＢｏＦ模型的规模进行了精简。实验结果表明，本文提出的方法能够利用更少的词典规模形成更有效的特征表达，即使在使用相同初始词典的情况下，也可以较少冗余成分对于分类任务的干扰，提高ＢｏＦ模型生成的特征表达的表达能力，从而提高分类精度。特别是在训练样本较小的情况下，具有一定的应用价值。参考文献：［１］ＨＵＡＮＧＹｏｎｇｚｈｅｎ，ＷＵＺｉｆｅｎｇ，ＷＡＮＧＬｉａｎｇ，ｅｔａｌ．Ｆｅａ⁃ ｔｕｒｅｃｏｄｉｎｇｉｎｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｃｏｍｐｒｅｈｅｎｓｉｖｅｓｔｕｄｙ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎ⁃ ｔｅｌｌｉｇｅｎｃｅ，２０１３，３６（３）：４９３⁃５０６．［２］ＹＡＮＧＪｉａｎｃｈａｏ，ＹＵＫａｉ，ＧＯＮＧＹｉｈｏｎｇ，ｅｔａｌ．Ｌｉｎｅａｒｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｕｓｉｎｇｓｐａｒｓｅｃｏｄｉｎｇｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｍｉａｍｉ，ＦＬ，２００９：１７９４⁃１８０１．［３］ＹＵＫａｉ，ＺＨＡＮＧＴｏｎｇ，ＧＯＮＧＹｉｈｏｎｇ．Ｎｏｎｌｉｎｅａｒｌｅａｒｎｉｎｇｕｓｉｎｇｌｏｃａｌｃｏｏｒｄｉｎａｔｅｃｏｄｉｎｇ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎ⁃ ｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２２：２３ｒｄＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，Ｃａｎａｄａ，２００９：２２２３⁃２２３１．［４］ＣＯＡＴＥＳＡ，ＮＧＡ，ＬＥＥＨ．Ａｎａｎａｌｙｓｉｓｏｆｓｉｎｇｌｅ⁃ｌａｙｅｒｎｅｔ⁃ ｗｏｒｋｓｉｎｕｎｓｕｐｅｒｖｉｓｅｄｆｅａｔｕｒｅｌｅａｒｎｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａ⁃ ｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１１，１５：２１５⁃２２３．［５］ＧＲＥＧＯＲＫ，ＬＥＣＵＮＹ．Ｌｅａｒｎｉｎｇｆａｓｔａｐｐｒｏｘｉｍａｔｉｏｎｓｏｆｓｐａｒｓｅｃｏｄｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｈａｉｆａ，Ｉｓｒａｅｌ，２０１０．［６］ＬＡＺＥＢＮＩＫＳ，ＳＣＨＭＩＤＣ，ＰｏｎｃｅＪ．Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａ⁃ ｔｕｒｅｓ：ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇ⁃ ｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００６，２：２１６９⁃２１７８．［７］ＣＯＡＴＥＳＡ，ＮＧＡＹ．Ｓｅｌｅｃｔｉｎｇｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓｉｎｄｅｅｐｎｅｔ⁃ ｗｏｒｋｓ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ⁃ ｔｅｍｓ２４：２５ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｇｒａｎａｄａ，Ｓｐａｉｎ，２０１１：２５２８⁃２５３６．［８］ＪＩＡＹａｎｇｑｉｎｇ，ＨＵＡＮＧＣｈａｎｇ，ＤＡＲＲＥＬＬＴ．Ｂｅｙｏｎｄｓｐａ⁃ ｔｉａｌｐｙｒａｍｉｄｓ：ｒｅｃｅｐｔｉｖｅｆｉｅｌｄｌｅａｒｎｉｎｇｆｏｒｐｏｏｌｅｄｉｍａｇｅｆｅａ⁃ ｔｕｒｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１２ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｒｏｖｉｄｅｎｃｅ，ＲＩ，２０１２：３３７０⁃３３７７．［９］ＳＩＶＩＣＪ，ＺＩＳＳＥＲＭＡＮＡ．Ｖｉｄｅｏｇｏｏｇｌｅ：ａｔｅｘｔｒｅｔｒｉｅｖａｌａｐ⁃ ｐｒｏａｃｈｔｏｏｂｊｅｃｔｍａｔｃｈｉｎｇｉｎｖｉｄｅｏｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮｉｎｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｎｉｃｅ，Ｆｒａｎｃｅ，２００３：１４７０⁃１４７７．［１０］ＣＯＡＴＥＳＡ，ＮＧＡＹ．Ｔｈｅｉｍｐｏｒｔａｎｃｅｏｆｅｎｃｏｄｉｎｇｖｅｒｓｕｓｔｒａｉｎｉｎｇｗｉｔｈｓｐａｒｓｅｃｏｄｉｎｇａｎｄｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａ⁃ ｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｂｅｌｌｅｖｕｅ，ＷＡ，ＵＳＡ，２０１１．［１１］ＪＡＩＮＡＫ．Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：５０ｙｅａｒｓｂｅｙｏｎｄＫ⁃ｍｅａｎｓ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔｔｅｒｓ，２０１０，３１（８）：６５１⁃６６６．［１２］汪启伟．图像直方图特征及其应用研究［Ｄ］．合肥：中 ·６６８· 智能系统学报第１１卷

第5期赵骞，等：基于感受野学习的特征词袋模型简化算法 ·669· 国科学技术大学，2014。作者简介： WANG Qiwei.Study on image histogram feature and appli- 赵骞，男，1986年生，博士研究生， cation[D].Hefei,China:University of Science and Tech- 主要研究方向为计算机视觉、神经网 nology of China,2014. 络。参与“863”项目1项，国家自然科 [13]BOUREAU Y L,ROUX N L,BACH F,et al.Ask the lo- 学基金项目1项。 cals:multi-way local pooling for image recognition[C]// Proceedings of the 2011 International Conference on Com- puter Vision.Barcelona,Spain,2011:2651-2658 [14]PERKINS S,LACKER K,THEILER J.Grafting:fast,in- 李敏，男，1981年生，讲师，博士，主 cremental feature selection by gradient descent in function 要研究方向为仿生机器人、外骨骼机器 space[J].Journal of machine leaming research,2003,3: 人。参与“863”项目2项。曾获得教 1333-1356 育部技术发明奖一等奖1项，授权国家 [15]LECUN Y,BOSER B E,DENKER J S,et al.Handwritten 发明专利5项，发表学术论文7篇。 digit recognition with a back-propagation network [C] Advances in Neural Information Processing Systems 2:3rd Annual Conference on Neural Information Processing Sys- 赵晓杰，男，1972年生，博士研究 tems.Vancouver,British Columbia,Canada.San Francis- 生，主要研究方向为航迹规划、传感器 c0,CA,LUSA,1989:396-404. 网络，参与“973”项目1项。 [16]KRIZHEVSKY A.Learning multiple layers of features from tiny images[D].Toronto,Canada:University of Toronto, 2009. 2017第2届IEEE大数据分析国际会议 2017 the 2nd IEEE International Conference on Big Data Analysis (ICBDA 2017) 我国已全面迈人4G时代，大数据、云计算等产业关键技术演进和应用创新加速发展，产业支持政策规划纷纷出台，数据开放共享机制不断推进，产业发展基础环境初步具备，产业生态体系逐步完善建立，大数据产业将进入理性发展、落地应用阶段，并有望在通信、互联网、金融、医疗等重点行业率先取得突破，将成为全球最重要的大数据市场。大数据带来了全新的变革与机遇，但我国大数据产业还处于发展初期，总体战略规划仍有待部署，行业标准化和规模化应用还未实现，核心技术和数据资源开放有待突破，行业协作和商业模式瓶颈尚待解决，数据安全与隐私保护形势严峻等诸多挑战。为了迎接大数据时代的到来，更好地交流大数据的实践经验，进一步推进大数据技术创新与应用，展示国内外大数据领域的最新科研成果。2017年第二届大数据分析国际会议将于2017年3月10日-12日在中国北京召开。本届ICBDA20I7由IEEE和西交利物浦大学大数据分析研究所联合主办，University of Texas at Dallas,USA协办，由西交利物浦大学的关圣威教授，和University of Texas at Dallas张康教授担任联合大会主席。会议旨在促进大数据分析等领域的学术交流与合作，热忱欢迎从事相关技术研究的专家、学者和专业技术人员踊跃投稿并参加大会。会议网站：htp:/www.icbda.org/index..html

国科学技术大学，２０１４．ＷＡＮＧＱｉｗｅｉ．Ｓｔｕｄｙｏｎｉｍａｇｅｈｉｓｔｏｇｒａｍｆｅａｔｕｒｅａｎｄａｐｐｌｉ⁃ ｃａｔｉｏｎ［Ｄ］．Ｈｅｆｅｉ，Ｃｈｉｎａ：ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈ⁃ ｎｏｌｏｇｙｏｆＣｈｉｎａ，２０１４．［１３］ＢＯＵＲＥＡＵＹＬ，ＲＯＵＸＮＬ，ＢＡＣＨＦ，ｅｔａｌ．Ａｓｋｔｈｅｌｏ⁃ ｃａｌｓ：ｍｕｌｔｉ⁃ｗａｙｌｏｃａｌｐｏｏｌｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１１ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍ⁃ ｐｕｔｅｒＶｉｓｉｏｎ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ，２０１１：２６５１⁃２６５８．［１４］ＰＥＲＫＩＮＳＳ，ＬＡＣＫＥＲＫ，ＴＨＥＩＬＥＲＪ．Ｇｒａｆｔｉｎｇ：ｆａｓｔ，ｉｎ⁃ ｃｒｅｍｅｎｔａｌｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂｙｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｉｎｆｕｎｃｔｉｏｎｓｐａｃｅ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３，３：１３３３⁃１３５６．［１５］ＬＥＣＵＮＹ，ＢＯＳＥＲＢＥ，ＤＥＮＫＥＲＪＳ，ｅｔａｌ．Ｈａｎｄｗｒｉｔｔｅｎｄｉｇｉｔｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈａｂａｃｋ⁃ｐｒｏｐａｇａｔｉｏｎｎｅｔｗｏｒｋ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２：３ｒｄＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ⁃ ｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，Ｃａｎａｄａ．ＳａｎＦｒａｎｃｉｓ⁃ ｃｏ，ＣＡ，ＵＳＡ，１９８９：３９６⁃４０４．［１６］ＫＲＩＺＨＥＶＳＫＹＡ．Ｌｅａｒｎｉｎｇｍｕｌｔｉｐｌｅｌａｙｅｒｓｏｆｆｅａｔｕｒｅｓｆｒｏｍｔｉｎｙｉｍａｇｅｓ［Ｄ］．Ｔｏｒｏｎｔｏ，Ｃａｎａｄａ：ＵｎｉｖｅｒｓｉｔｙｏｆＴｏｒｏｎｔｏ，２００９．作者简介：赵骞，男，１９８６年生，博士研究生，主要研究方向为计算机视觉、神经网络。参与“８６３” 项目１项，国家自然科学基金项目１项。李敏，男，１９８１年生，讲师，博士，主要研究方向为仿生机器人、外骨骼机器人。参与 “ ８６３” 项目２项。曾获得教育部技术发明奖一等奖１项，授权国家发明专利５项，发表学术论文７篇。赵晓杰，男，１９７２年生，博士研究生，主要研究方向为航迹规划、传感器网络，参与“９７３”项目１项。２０１７第２届ＩＥＥＥ大数据分析国际会议２０１７ｔｈｅ２ｎｄＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＢｉｇＤａｔａＡｎａｌｙｓｉｓ（ＩＣＢＤＡ２０１７）我国已全面迈入４Ｇ时代，大数据、云计算等产业关键技术演进和应用创新加速发展，产业支持政策规划纷纷出台，数据开放共享机制不断推进，产业发展基础环境初步具备，产业生态体系逐步完善建立，大数据产业将进入理性发展、落地应用阶段，并有望在通信、互联网、金融、医疗等重点行业率先取得突破，将成为全球最重要的大数据市场。大数据带来了全新的变革与机遇，但我国大数据产业还处于发展初期，总体战略规划仍有待部署，行业标准化和规模化应用还未实现，核心技术和数据资源开放有待突破，行业协作和商业模式瓶颈尚待解决，数据安全与隐私保护形势严峻等诸多挑战。为了迎接大数据时代的到来，更好地交流大数据的实践经验，进一步推进大数据技术创新与应用，展示国内外大数据领域的最新科研成果。２０１７年第二届大数据分析国际会议将于２０１７年３月１０日－１２日在中国北京召开。本届ＩＣＢＤＡ２０１７由ＩＥＥＥ和西交利物浦大学大数据分析研究所联合主办，ＵｎｉｖｅｒｓｉｔｙｏｆＴｅｘａｓａｔＤａｌｌａｓ，ＵＳＡ协办，由西交利物浦大学的关圣威教授，和ＵｎｉｖｅｒｓｉｔｙｏｆＴｅｘａｓａｔＤａｌｌａｓ张康教授担任联合大会主席。会议旨在促进大数据分析等领域的学术交流与合作，热忱欢迎从事相关技术研究的专家、学者和专业技术人员踊跃投稿并参加大会。会议网站：ｈｔｔｐ：／／ｗｗｗ．ｉｃｂｄａ．ｏｒｇ／ｉｎｄｅｘ．ｈｔｍｌ第５期赵骞，等：基于感受野学习的特征词袋模型简化算法 ·６６９·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录