【机器学习】一种局部聚合描述符和组显著编码相结合的编码方法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.23MB

第12卷第2期智能系统学报 Vol.12 No.2 2017年4月 CAAI Transactions on Intelligent Systems Apr.2017 D0I:10.11992/is.201602010 网络出版地址：http://www.cmki.net/kcms/detail,/23.1538.tp.20170116.1115.002.html 一种局部聚合描述符和组显著编码相结合的编码方法费宇杰，吴小俊 (江南大学物联网工程学院，江苏无锡214122) 摘要：局部聚合描述符(vector of local山y aggregated descriptors.,VLAD)的特征编码方法在大规模图像检索上取得了较好的效果。但是，VLD存在硬分配难以准确描述局部特征向量与视觉词汇隶属关系的问题，本文将两种软分配编码与VLAD相结合来增强局部特征向量与视觉词汇的隶属关系。新的编码方法在15 Scenes、Cor阳lI0和UIC Sports Event数据库上的实验结果表明：l)在VLAD中加入局部软分配能够提高分类准确率，而且对比Fisher编码在分类准确率上也有一定的优越性：2)除了软分配，显著性对提高分类准确率也起到了一定的作用。关键词：图像分类：特征编码：词袋：局部聚合描述符：软分配：显著性中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)02-0172-07 中文引用格式：费宇杰，吴小俊.一种局部聚合描述符和组显著编码相结合的编码方法[J].智能系统学报，2017,12(2)：172-178. 英文引用格式：FEI Yujie,WU Xiaojun..A new feature coding algorithm based on the combination of group salient coding and VLAD[J].CAAI transactions on intelligent systems,2017,12(2):172-178. A new feature coding algorithm based on the combination of group salient coding and VLAD FEI Yujie,WU Xiaojun (School of loT Engineering,Jiangnan University,Wuxi 214122,China) Abstract:The vector of locally aggregated descriptors VLAD)has achieved good results in addressing large-scale image retrieval problems;however,VLAD has a defect in that the relationship between local descriptors and visual words cannot be accurately described using hard assignments.In this paper,we therefore combine two kinds of soft assignment coding methods with VLAD to enhance the relationship between local feature vectors and visual words. We applied our method to 15 scenes from the Corel 10 and UIUC Sports Event datasets,with our experimental re- sults showing that our combined partial soft assignment coding method and VLAD was able to enhance classification accuracy and achieve better classification accuracy than the well-known Fisher Coding approach.In addition to soft assignment,saliency also plays an important role in enhancing classification accuracy. Keywords:image classification;feature coding;bag-of-features;VLAD;soft assignment;saliency 图像分类是计算机视觉和模式识别中的一个重框架。要的研究方向，它有广泛的应用，例如：视频监控山、图像检索]】、网页内容分析)。从文本分析 1问题提出中的BoW(bag-of-words)模型[)发展而来的BoF 如图1所示，BoF模型通常包含5个步骤，特征 (bag-of-features)模型[s)是当前最有效的图像分类提取、字典生成、特征编码、特征池化和分类。所谓特征编码是用字典中的视觉词汇来表示图像中的局收稿日期：2016-03-01.网络出版日期：2017-01-16. 部特征向量，局部特征在视觉词汇上的响应被称为基金项目：国家自然科学基金项目(61373055,61672265)：江苏省教育厅科技成果产业化推进项目(H10-28). 编码系数，将不同视觉词汇的编码系数组合在一起通信作者：吴小俊.E-mail:xiaojun._wu_jmu@163.com 就是编码向量。特征编码是整个BoF模型的关键

第１２卷第２期智能系统学报Ｖｏｌ．１２ №．２２０１７年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０２０１０网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１７０１１６．１１１５．００２．ｈｔｍｌ一种局部聚合描述符和组显著编码相结合的编码方法费宇杰，吴小俊（江南大学物联网工程学院，江苏无锡２１４１２２）摘要：局部聚合描述符（ｖｅｃｔｏｒｏｆｌｏｃａｌｌｙａｇｇｒｅｇａｔｅｄｄｅｓｃｒｉｐｔｏｒｓ，ＶＬＡＤ）的特征编码方法在大规模图像检索上取得了较好的效果。但是，ＶＬＡＤ存在硬分配难以准确描述局部特征向量与视觉词汇隶属关系的问题，本文将两种软分配编码与ＶＬＡＤ相结合来增强局部特征向量与视觉词汇的隶属关系。新的编码方法在１５Ｓｃｅｎｅｓ、Ｃｏｒｅｌ１０和ＵＩＩＣＳｐｏｒｔｓＥｖｅｎｔ数据库上的实验结果表明：１）在ＶＬＡＤ中加入局部软分配能够提高分类准确率，而且对比Ｆｉｓｈｅｒ编码在分类准确率上也有一定的优越性；２）除了软分配，显著性对提高分类准确率也起到了一定的作用。关键词：图像分类；特征编码；词袋；局部聚合描述符；软分配；显著性中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０２－０１７２－０７中文引用格式：费宇杰，吴小俊．一种局部聚合描述符和组显著编码相结合的编码方法［Ｊ］．智能系统学报，２０１７，１２（２）：１７２－１７８．英文引用格式：ＦＥＩＹｕｊｉｅ，ＷＵＸｉａｏｊｕｎ．ＡｎｅｗｆｅａｔｕｒｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆｇｒｏｕｐｓａｌｉｅｎｔｃｏｄｉｎｇａｎｄＶＬＡＤ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（２）：１７２－１７８．ＡｎｅｗｆｅａｔｕｒｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆｇｒｏｕｐｓａｌｉｅｎｔｃｏｄｉｎｇａｎｄＶＬＡＤＦＥＩＹｕｊｉｅ，ＷＵＸｉａｏｊｕｎ（ＳｃｈｏｏｌｏｆＩｏＴＥｎｇｉｎｅｅｒｉｎｇ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｖｅｃｔｏｒｏｆｌｏｃａｌｌｙａｇｇｒｅｇａｔｅｄｄｅｓｃｒｉｐｔｏｒｓ（ＶＬＡＤ）ｈａｓａｃｈｉｅｖｅｄｇｏｏｄｒｅｓｕｌｔｓｉｎａｄｄｒｅｓｓｉｎｇｌａｒｇｅ⁃ｓｃａｌｅｉｍａｇｅｒｅｔｒｉｅｖａｌｐｒｏｂｌｅｍｓ；ｈｏｗｅｖｅｒ，ＶＬＡＤｈａｓａｄｅｆｅｃｔｉｎｔｈａｔｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌｏｃａｌｄｅｓｃｒｉｐｔｏｒｓａｎｄｖｉｓｕａｌｗｏｒｄｓｃａｎｎｏｔｂｅａｃｃｕｒａｔｅｌｙｄｅｓｃｒｉｂｅｄｕｓｉｎｇｈａｒｄａｓｓｉｇｎｍｅｎｔｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｔｈｅｒｅｆｏｒｅｃｏｍｂｉｎｅｔｗｏｋｉｎｄｓｏｆｓｏｆｔａｓｓｉｇｎｍｅｎｔｃｏｄｉｎｇｍｅｔｈｏｄｓｗｉｔｈＶＬＡＤｔｏｅｎｈａｎｃｅｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌｏｃａｌｆｅａｔｕｒｅｖｅｃｔｏｒｓａｎｄｖｉｓｕａｌｗｏｒｄｓ．Ｗｅａｐｐｌｉｅｄｏｕｒｍｅｔｈｏｄｔｏ１５ｓｃｅｎｅｓｆｒｏｍｔｈｅＣｏｒｅｌ１０ａｎｄＵＩＵＣＳｐｏｒｔｓＥｖｅｎｔｄａｔａｓｅｔｓ，ｗｉｔｈｏｕｒｅｘｐｅｒｉｍｅｎｔａｌｒｅ⁃ ｓｕｌｔｓｓｈｏｗｉｎｇｔｈａｔｏｕｒｃｏｍｂｉｎｅｄｐａｒｔｉａｌｓｏｆｔａｓｓｉｇｎｍｅｎｔｃｏｄｉｎｇｍｅｔｈｏｄａｎｄＶＬＡＤｗａｓａｂｌｅｔｏｅｎｈａｎｃｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄａｃｈｉｅｖｅｂｅｔｔｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｔｈａｎｔｈｅｗｅｌｌ⁃ｋｎｏｗｎＦｉｓｈｅｒＣｏｄｉｎｇａｐｐｒｏａｃｈ．Ｉｎａｄｄｉｔｉｏｎｔｏｓｏｆｔａｓｓｉｇｎｍｅｎｔ，ｓａｌｉｅｎｃｙａｌｓｏｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｅｎｈａｎｃｉｎｇｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙ．Ｋｅｙｗｏｒｄｓ：ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｆｅａｔｕｒｅｃｏｄｉｎｇ；ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓ；ＶＬＡＤ；ｓｏｆｔａｓｓｉｇｎｍｅｎｔ；ｓａｌｉｅｎｃｙ收稿日期：２０１６－０３－０１．网络出版日期：２０１７－０１－１６．基金项目：国家自然科学基金项目（６１３７３０５５，６１６７２２６５）；江苏省教育厅科技成果产业化推进项目（ＪＨ１０⁃２８）．通信作者：吴小俊．Ｅ⁃ｍａｉｌ：ｘｉａｏｊｕｎ＿ｗｕ＿ｊｎｕ＠１６３．ｃｏｍ．图像分类是计算机视觉和模式识别中的一个重要的研究方向，它有广泛的应用，例如：视频监控［１］、图像检索［２］、网页内容分析［３］。从文本分析中的ＢｏＷ（ｂａｇ⁃ｏｆ⁃ｗｏｒｄｓ）模型［４］发展而来的ＢｏＦ（ｂａｇ⁃ｏｆ⁃ｆｅａｔｕｒｅｓ）模型［５］是当前最有效的图像分类框架。１问题提出如图１所示，ＢｏＦ模型通常包含５个步骤，特征提取、字典生成、特征编码、特征池化和分类。所谓特征编码是用字典中的视觉词汇来表示图像中的局部特征向量，局部特征在视觉词汇上的响应被称为编码系数，将不同视觉词汇的编码系数组合在一起就是编码向量。特征编码是整个ＢｏＦ模型的关键

第2期费宇杰，等：一种局部聚合描述符和组显著编码相结合的编码方法 ·173· 编码的好坏会对分类效果产生巨大的影响。根据文性。但是，并不是任意的软分配都能提高分类正确献[6]，我们将编码方法分为4类，如图2所示。编率，只有局部的软分配（这里局部的意思是特征向码方法中，最简单的方法是将局部特征向量指定到量只有在离它最近的几个视觉词汇上有响应系数) 离它最近的视觉词汇上并设置其编码系数为非零的才能提高VLAD的分类正确率：2)除了软分配，显值，用这个视觉词汇来代表该特征向量，这种“硬指著性对提高分类正确率也起到了一定的作用，我们定(Hard-assignment)[)”的编码方法没有考虑到特认为这是因为显著编码考虑到了不同视觉词汇之间征向量隶属视觉词汇的模糊性)，并且会产生巨大的联系。的量化误差。文献[8]提出一种“软指定(Sofi-as 2相关工作 signment)”的编码方法，通过指定特征向量到所有视觉词汇上从而减轻了“硬指定”编码带来的问题。在这一章节中介绍一些编码方法。基于重构的编码方法是选择一些视觉词汇来重构局 b,(b∈R)表示第i个视觉词汇；d是局部特征向部特征向量。例如：稀疏编码[](sparse coding)是使量的维数：视觉词汇的总个数为n,矩阵Bx= 编码向量稀疏，而LLCT10](local-constraint linear cod- [b,b2…bn]表示视觉字典；x,(x∈R)表 ig)是选择局部的视觉词汇来重构特征向量。高维示一幅图像中第i个局部特征，矩阵IxN= 的编码方法，像Fisher核编码(fisher kernel cod- [xx2…xv]表示一幅图像中的N个局部特 ing)和SVC(super vector coding)只需少量的视觉征；，(w:∈R")表示局部特征x:的编码向量。u 词汇就能获得较好的分类结果。VLAD编码1)可表示局部特征x在视觉词汇b,上的编码系数。以看作是Fisher核编码的简化版，下一节将对它详 1)Harding-assignment Coding。局部特征x:只细介绍。最近，由于显著编码的高效性和有效性，它在离它最近的视觉词汇上有编码系数。得到了很多关注。显著编码认为显著性是特征编码 1, j=arg.min lx:-b;ll 2 的重要特性。SaCa(salient coding)将显著系数作 j=12,n (1) 0 其他为编码系数，显著系数是通过局部特征到不同视觉词汇间的距离计算得来的。GSC)(gruop salient 2)Sof-assignment Coding。u,可以理解为局部特征x:在视觉词汇b:上的隶属度。 coding)是SaC的改进版，它的思想是将视觉词汇分 exp(-B llx:-b;ll 2) 成不同的组，不同的组得到不同的编码系数。 (2) 硬指定编码。分类 exp(-B Ix-b.ll) 基于“投票的编码 B是平滑因子控制着函数的变化率，K=n是原软指定编码池化稀疏编码始的Soft-assignment编码，局部特征在所有的视觉基于重构的特征编码词汇上都有响应系数。根据文献[16]，当K设置为编码局部性线性编码小于n的数时([b,b2…b]表示x:的K近 Fisher编码字典生成高维编码邻视觉词汇)，这种编码方法能获得更高的分类正超级向量编码特征提取确率。显著编码显著编码 3)Saliency Coding。显著编码(SaC)是将局部图像组显著编码特征与离它最近的视觉词汇和其他视觉词汇的距离图1BoF模型流程图图2编码方法分类的比值作为该局部特征的编码结果。 Fig.1 The general pipeline Fig.2 A taxonomy of ()j=argminlxll: of the BoF framework coding methods 0 其他通过对编码方法的回顾可以发现，无论是从 (3) Hard-assignment到Soft-assignment,还是从SaC到 GSC都是通过软分配的思想来增加局部特征与视觉 (1x,-b2-1,-b1) 9(x)= (4) 词汇之间的隶属关系信息，从而提高了分类的正确率。我们将软分配的思想加入VLAD中来改进原始 Ix,-Blla 的VLAD。在不同的数据集上的实验结果表明：1) 式中：p(x)表示x:的显著系数，K表示计算显著软分配能够提高原始VLAD的分类准确率，并且对系数时所包含的视觉词汇的个数，b:表示离x:第k 比Fisher核编码在分类正确率上也有一定的优越近的视觉词汇

编码的好坏会对分类效果产生巨大的影响。根据文献［６］，我们将编码方法分为４类，如图２所示。编码方法中，最简单的方法是将局部特征向量指定到离它最近的视觉词汇上并设置其编码系数为非零的值，用这个视觉词汇来代表该特征向量，这种“硬指定（Ｈａｒｄ⁃ａｓｓｉｇｎｍｅｎｔ）［５］ ”的编码方法没有考虑到特征向量隶属视觉词汇的模糊性［７］，并且会产生巨大的量化误差。文献［８］提出一种“软指定（Ｓｏｆｔ⁃ａｓ⁃ ｓｉｇｎｍｅｎｔ）”的编码方法，通过指定特征向量到所有视觉词汇上从而减轻了“硬指定”编码带来的问题。基于重构的编码方法是选择一些视觉词汇来重构局部特征向量。例如：稀疏编码［９］（ｓｐａｒｓｅｃｏｄｉｎｇ）是使编码向量稀疏，而ＬＬＣ［１０］（ｌｏｃａｌ⁃ｃｏｎｓｔｒａｉｎｔｌｉｎｅａｒｃｏｄ⁃ ｉｎｇ）是选择局部的视觉词汇来重构特征向量。高维的编码方法，像Ｆｉｓｈｅｒ核编码［１１］（ｆｉｓｈｅｒｋｅｒｎｅｌｃｏｄ⁃ ｉｎｇ）和ＳＶＣ［１２］（ｓｕｐｅｒｖｅｃｔｏｒｃｏｄｉｎｇ）只需少量的视觉词汇就能获得较好的分类结果。ＶＬＡＤ编码［１３］可以看作是Ｆｉｓｈｅｒ核编码的简化版，下一节将对它详细介绍。最近，由于显著编码的高效性和有效性，它得到了很多关注。显著编码认为显著性是特征编码的重要特性。ＳａＣ［１４］（ｓａｌｉｅｎｔｃｏｄｉｎｇ）将显著系数作为编码系数，显著系数是通过局部特征到不同视觉词汇间的距离计算得来的。ＧＳＣ［１５］（ｇｒｕｏｐｓａｌｉｅｎｔｃｏｄｉｎｇ）是ＳａＣ的改进版，它的思想是将视觉词汇分成不同的组，不同的组得到不同的编码系数。图１ＢｏＦ模型流程图图２编码方法分类Ｆｉｇ．１ＴｈｅｇｅｎｅｒａｌｐｉｐｅｌｉｎｅＦｉｇ．２ＡｔａｘｏｎｏｍｙｏｆｏｆｔｈｅＢｏＦｆｒａｍｅｗｏｒｋｃｏｄｉｎｇｍｅｔｈｏｄｓ通过对编码方法的回顾可以发现，无论是从Ｈａｒｄ⁃ａｓｓｉｇｎｍｅｎｔ到Ｓｏｆｔ⁃ａｓｓｉｇｎｍｅｎｔ，还是从ＳａＣ到ＧＳＣ都是通过软分配的思想来增加局部特征与视觉词汇之间的隶属关系信息，从而提高了分类的正确率。我们将软分配的思想加入ＶＬＡＤ中来改进原始的ＶＬＡＤ。在不同的数据集上的实验结果表明：１）软分配能够提高原始ＶＬＡＤ的分类准确率，并且对比Ｆｉｓｈｅｒ核编码在分类正确率上也有一定的优越性。但是，并不是任意的软分配都能提高分类正确率，只有局部的软分配（这里局部的意思是特征向量只有在离它最近的几个视觉词汇上有响应系数）才能提高ＶＬＡＤ的分类正确率；２）除了软分配，显著性对提高分类正确率也起到了一定的作用，我们认为这是因为显著编码考虑到了不同视觉词汇之间的联系。２相关工作在这一章节中介绍一些编码方法。ｂｉｂｉ ∈ Ｒｄ ( ) 表示第ｉ个视觉词汇；ｄ是局部特征向量的维数；视觉词汇的总个数为ｎ，矩阵Ｂｄ×ｎ＝ｂ１ｂ２ … ｂｎ [ ] 表示视觉字典；ｘｉｘｉ ∈ Ｒｄ ( ) 表示一幅图像中第ｉ个局部特征，矩阵Ｉｄ×Ｎ＝ｘ１ｘ２ … ｘＮ [ ] 表示一幅图像中的Ｎ个局部特征；ｕｉｕｉ ∈ Ｒｎ ( ) 表示局部特征ｘｉ的编码向量。ｕｉｊ表示局部特征ｘｉ在视觉词汇ｂｊ上的编码系数。１）Ｈａｒｄｉｎｇ⁃ａｓｓｉｇｎｍｅｎｔＣｏｄｉｎｇ。局部特征ｘｉ只在离它最近的视觉词汇上有编码系数。ｕｉｊ＝１，ｊ＝ａｒｇｍｉｎｊ＝１，２，…，ｎ ‖ｘｉ－ｂｊ‖２０，其他 { （１）２）Ｓｏｆｔ⁃ａｓｓｉｇｎｍｅｎｔＣｏｄｉｎｇ。ｕｉｊ可以理解为局部特征ｘｉ在视觉词汇ｂｊ上的隶属度。ｕｉｊ＝ｅｘｐ－ β ‖ｘｉ－ｂｊ‖２ ( ) ∑ Ｋｋ＝１ｅｘｐ－ β ‖ｘｉ－ｂｋ‖２ ( ) （２） β 是平滑因子控制着函数的变化率，Ｋ＝ｎ是原始的Ｓｏｆｔ⁃ａｓｓｉｇｎｍｅｎｔ编码，局部特征在所有的视觉词汇上都有响应系数。根据文献［１６］，当Ｋ设置为小于ｎ的数时（ｂ１ｂ２ … ｂＫ [ ] 表示ｘｉ的Ｋ近邻视觉词汇），这种编码方法能获得更高的分类正确率。３）ＳａｌｉｅｎｃｙＣｏｄｉｎｇ。显著编码（ＳａＣ）是将局部特征与离它最近的视觉词汇和其他视觉词汇的距离的比值作为该局部特征的编码结果。ｕｉｊ＝ φ ｘｉ ( ) ，ｊ＝ａｒｇｍｉｎｊ＝１，２，…，ｎ ‖ｘｉ－ｂｊ‖２０，其他 { （３） φ ｘｉ ( ) ＝ ∑ Ｋｋ＝２ ‖ｘｉ－ 􀭹ｂｋ‖２－ ‖ｘｉ－ 􀭹ｂ１‖２ ( ) ∑ Ｋｋ＝２ ‖ｘｉ－ 􀭹ｂｋ‖２（４）式中： φ ｘｉ ( ) 表示ｘｉ的显著系数，Ｋ表示计算显著系数时所包含的视觉词汇的个数， 􀭹ｂｋ表示离ｘｉ第ｋ近的视觉词汇。第２期费宇杰，等：一种局部聚合描述符和组显著编码相结合的编码方法 ·１７３·

·174 智能系统学报第12卷 4)Group Saliency Coding。GSC可以看做SaC 觉词汇的隶属度。的“软分配版本”，它把视觉词汇分成不同的组，局 exp(-B ll x;-b;ll 2) 部特征在不同组上得到不同的响应系数，图3描绘 KsA -,b∈g(x,Ksa) 了组显著编码的思想。 exp(-BIx,-bl) k=1 0 其他 (9) b max y=∑，x,-b,) (10) bb,b, 式中：g(x,K)表示距离局部特征x:最近的KA 个视觉词汇。 2)GSC_VLAD。GSC_VLAD编码是将GSC编码中组显著性的思想加入到原始VLAD中来解决局图3组显著编码部特征向量与视觉词汇的隶属关系问题。GSC编码 Fig.3 Group saliency coding 中用显著性来表示局部特征向量与视觉词汇的隶属度，同时显著性考虑到了不同视觉词汇之间的联系。 (5) (11) big(x;,k) (6) (()(x;),b;Eg(x;,k) (0,其他 ud)= (12) 0,其他 p(x)= 中(x:)= 艺x-Bl-1x-D Kcsc+1-k (7) （‖x:-bk:‖2-‖x:-bI2)(13) 式中：K表示共有K个组，u,)表示第k组的编码向量，p)(x)表示第k组x:的显著系数， y=立4，x,-b) (14) g(c:,k)表示距离局部特征x,最近的k个视觉词汇。式中：Kc表示有编码系数的视觉词汇的个数，即 5)VLAD。VLAD编码可以看作Fisher编码的 Ksc个视觉词汇会有响应系数。简化版本，Fisher编码的详细描述请参考文献[1l], 3)SaC_VLAD。SaC中用显著系数作为编码系本文不作介绍。VLAD是将局部特征与视觉词汇的数，显著系数是指局部特征与离它最近的视觉词汇差的总和作为最后的特征向量。，(y∈R)表示和其他视觉词汇的距离的比值，显著系数考虑到了第j个视觉词汇的VLAD编码向量。V= 不同视觉词汇之间的联系。将SaC与原始VLAD相 [v…v]T(v∈R)是VLAD编码的最结合，使VLAD在编码过程中考虑不同视觉词汇之终形式，表示整个图像的VLAD编码向量。间潜在的联系。 y=∑正-b (8) p(r:), j=arg.min‖x:-bl2 uj= j=1.2,…,n 式中：NN(x,)=b,表示距离局部特征x,最近的视觉 \0 其他词汇是b。 (15) 3改进的VLAD编码方法觉(1x-b::-1天-b, 根据上一章节的介绍，我们发现原始的VLAD p(x:)= 存在硬分配难以准确描述局部特征向量与视觉词汇名x-a1 隶属关系的问题。在这一章节中，提出3种新的 (16) VLAD编码方法，分别是SA_VLAD编码方法，GSC_ VLAD编码方法以及SaC_VLAD编码方法。 y=∑，x-b,) (17) i=1 1)SA_VLAD。SA_VLAD编码是将Soft-assigr- 式中：Ksc表示有Ksc个视觉词汇用来计算局部特 ment编码中解决局部特征与视觉词汇隶属关系的征的显著系数。方法加入到原始VLAD编码中。Sof-assignment编算法1改进的VLAD编码方法码中是用高斯核函数的值来表示局部特征向量与视输入IxN=[x1x2…xv】是从图像中

４）ＧｒｏｕｐＳａｌｉｅｎｃｙＣｏｄｉｎｇ。ＧＳＣ可以看做ＳａＣ的“软分配版本”，它把视觉词汇分成不同的组，局部特征在不同组上得到不同的响应系数，图３描绘了组显著编码的思想。图３组显著编码Ｆｉｇ．３Ｇｒｏｕｐｓａｌｉｅｎｃｙｃｏｄｉｎｇｕｉ＝ｍａｘｋ＝１，２，…，Ｋｕ (ｋ ) ｉ（５）ｕ (ｋ ) ｉｊ＝ φ (ｋ ) ｘｉ ( ) ，ｂｊ ∈ ｇ(ｘｉ，ｋ) ０，其他 { （６） φ (ｋ ) ｘｉ ( ) ＝ ∑ Ｋ＋１－ｋｔ＝１ ‖ｘｉ－ 􀭹ｂｋ＋ｔ‖２－ ‖ｘｉ－ 􀭹ｂｋ‖２ ( ) （７）式中：Ｋ表示共有Ｋ个组，ｕ (ｋ ) ｉ表示第ｋ组的编码向量， φ (ｋ ) ｘｉ ( ) 表示第ｋ组ｘｉ的显著系数，ｇ(ｘｉ，ｋ) 表示距离局部特征ｘｉ最近的ｋ个视觉词汇。５）ＶＬＡＤ。ＶＬＡＤ编码可以看作Ｆｉｓｈｅｒ编码的简化版本，Ｆｉｓｈｅｒ编码的详细描述请参考文献［１１］，本文不作介绍。ＶＬＡＤ是将局部特征与视觉词汇的差的总和作为最后的特征向量。ｖｊｖｊ ∈ Ｒｄ ( ) 表示第ｊ个视觉词汇的ＶＬＡＤ编码向量。Ｖ＝ｖＴ１ｖＴ２ … ｖＴｎ [ ] Ｔｖ ∈ Ｒｎｄ ( ) 是ＶＬＡＤ编码的最终形式，表示整个图像的ＶＬＡＤ编码向量。ｖｊ＝ ∑ｘｉ：ＮＮｘｉ ( ) ＝ｂｊｘｉ－ｂｊ（８）式中：ＮＮｘｉ ( ) ＝ｂｊ表示距离局部特征ｘｉ最近的视觉词汇是ｂｊ。３改进的ＶＬＡＤ编码方法根据上一章节的介绍，我们发现原始的ＶＬＡＤ存在硬分配难以准确描述局部特征向量与视觉词汇隶属关系的问题。在这一章节中，提出３种新的ＶＬＡＤ编码方法，分别是ＳＡ＿ＶＬＡＤ编码方法，ＧＳＣ＿ＶＬＡＤ编码方法以及ＳａＣ＿ＶＬＡＤ编码方法。１）ＳＡ＿ＶＬＡＤ。ＳＡ＿ＶＬＡＤ编码是将Ｓｏｆｔ⁃ａｓｓｉｇｎ⁃ ｍｅｎｔ编码中解决局部特征与视觉词汇隶属关系的方法加入到原始ＶＬＡＤ编码中。Ｓｏｆｔ⁃ａｓｓｉｇｎｍｅｎｔ编码中是用高斯核函数的值来表示局部特征向量与视觉词汇的隶属度。ｕｉｊ＝ｅｘｐ－ β ‖ｘｉ－ｂｊ‖２ ( ) ∑ ＫＳＡｋ＝１ｅｘｐ－ β ‖ｘｉ－ｂｋ‖２ ( ) ，ｂｊ ∈ ｇｘｉ，ＫＳＡ ( ) ０，其他 ì î í ï ïï ï ï （９）ｖｊ＝ ∑ Ｎｉ＝１ｕｉｊｘｉ－ｂｊ ( ) （１０）式中：ｇｘｉ，ＫＳＡ ( ) 表示距离局部特征ｘｉ最近的ＫＳＡ个视觉词汇。２）ＧＳＣ＿ＶＬＡＤ。ＧＳＣ＿ＶＬＡＤ编码是将ＧＳＣ编码中组显著性的思想加入到原始ＶＬＡＤ中来解决局部特征向量与视觉词汇的隶属关系问题。ＧＳＣ编码中用显著性来表示局部特征向量与视觉词汇的隶属度，同时显著性考虑到了不同视觉词汇之间的联系。ｕｉ＝ｍａｘｋ＝１，２，…，ＫＧＳＣｕ (ｋ ) ｉ（１１）ｕ (ｋ ) ｉｊ＝ φ (ｋ ) ｘｉ ( ) ，ｂｊ ∈ ｇ(ｘｉ，ｋ) ０，其他 { （１２） ϕ （ｋ）ｘｉ ( ) ＝ ∑ ＫＧＳＣ＋１－ｋｔ＝１ ‖ｘｉ－ 􀭹ｂｋ＋ｔ‖２－ ‖ｘｉ－ 􀭹ｂｋ‖２ ( ) （１３）ｖｊ＝ ∑ Ｎｉ＝１ｕｉｊｘｉ－ｂｊ ( ) （１４）式中：ＫＧＳＣ表示有编码系数的视觉词汇的个数，即ＫＧＳＣ个视觉词汇会有响应系数。３）ＳａＣ＿ＶＬＡＤ。ＳａＣ中用显著系数作为编码系数，显著系数是指局部特征与离它最近的视觉词汇和其他视觉词汇的距离的比值，显著系数考虑到了不同视觉词汇之间的联系。将ＳａＣ与原始ＶＬＡＤ相结合，使ＶＬＡＤ在编码过程中考虑不同视觉词汇之间潜在的联系。ｕｉｊ＝ φ ｘｉ ( ) ，ｊ＝ａｒｇｍｉｎｊ＝１，２，…，ｎ ‖ｘｉ－ｂｊ‖２０，其他 { （１５） φ ｘｉ ( ) ＝ ∑ ＫＳａＣｋ＝２ ‖ｘｉ－ 􀭹ｂｋ‖２－ ‖ｘｉ－ 􀭹ｂ１‖２ ( ) ∑ Ｋｋ＝２ ‖ｘｉ－ 􀭹ｂｋ‖２（１６）ｖｊ＝ ∑ Ｎｉ＝１ｕｉｊｘｉ－ｂｊ ( ) （１７）式中：ＫＳａＣ表示有ＫＳａＣ个视觉词汇用来计算局部特征的显著系数。算法１改进的ＶＬＡＤ编码方法输入Ｉｄ×Ｎ＝ｘ１ｘ２ … ｘＮ [ ] 是从图像中 ·１７４· 智能系统学报第１２卷

第2期费宇杰，等：一种局部聚合描述符和组显著编码相结合的编码方法 ·175. 得到的N个局部特征，B4xn=[b,b2…bn]表中的B和K,分别设置其值为10和10。对于式示视觉字典，u:表示局部特征x:在视觉词汇b,上的 (11)中的Kcsc设置其值为10。关于Ka和Kcc对编码系数：实验结果的影响，将在4.2节中详细讨论。输出VLAD向量。 4.1新的编码对比原始的VLAD和Fisher编码 V=[…v]T(V∈R)%初始化将4种编码方法SA_VLAD、GSC_VLAD、VLAD fori=1,2,…,n 和Fisher编码进行对比。 :=04,4:=0n 1)15 Scenes。该数据集由15个场景类别构成， end 总共4485张图片。每个类别都是相似场景图片的 %计算每个局部特征向量在各个视觉词汇上的一个集合，大约包含200~400张图片，每张图片的编码系数平均尺寸为300×250。我们采用Lazebnik等2)的 fori=1,2,…,N 实验设置，从每类场景中随机选择100张图片作为根据式(9)或者式(11)或者式(15)计算相训练集，其余图片作为测试集。分别在不同的视觉应的字典大小下进行了实验，实验结果如图4。 end 82 %计算VLAD向量呢 78 forj=1,2,…,n 76 fori=1,2,…,N 74 y,=”+ug(x:-b) ……VLAD --Fisher编码 end 70 -e…SA VLAD GSC_VLAD end 68 16 32 64128 256512 %根据文献[17]，对最终的VLAD向量进行能视觉字典大小量范数和L2范数归一化图44种不同编码方法在l5 Scenes上的分类结果 fori=1,2,…,nd Fig.4 Performance comparison on the 15 Scenes v:=sign(v)va 从图4中可以看出，软分配的VLAD比原始的 end VLAD编码有显著的提升，当视觉字典的大小为512 V=V/Iv‖2 时，VLAD的分类正确率为76.66%，SA_VLAD和GSC _VLAD的分类正确率分别为80.18%和80.84%，有 4 实验结果与分析 4%~5%的提升。对比Fisher编码的78.66%的正确本实验为了证明以下3点：1)软分配能提高率，也有2%的提升。同时GSC_VLAD的分类正确率 VLAD的分类正确率，甚至对比Fisher编码在分类在不同的视觉字典大小下均高于SA_VLAD,表1显正确率上有一定的优越性：2)只有局部软分配才能示了4种编码各自的最佳分类正确率。有效提高分类正确率：3)除了软分配，显著性对提表115 Scenes数据集上的最佳分类正确率高分类正确率也起到了一定的作用。 Table 1 Best classification accuracy on 15 Scenes 本文在3个数据集(15 Scenest,Corel10 编码方法分类正确率（字典大小）和UIUC Sports Events0])上进行了实验。对于l5 VLAD 76.66±0.19(512) Scenes和Corel 10数据集，我们指定每张图片的最 Fisher编码 78.66±0.79(512) 大单边像素为300。UIUC Sports Events数据集中图 SA VLAD 80.18±0.34(512) 片的分辨率较高，因此指定每幅图片的最大单边像 GSC_VLAD 80.84±0.63(512) 素为400。我们采用Dense SIFT算法21]来提取每 2)Corel10。该数据集共有10个类别，每类共幅图像的sf特征向量，采样的步长是6个像素，每有100张图片，每张图片的平均尺寸为384×256。个采样块的大小为16×16。采用K-means2聚类本文从每类场景中随机选择50张图片作为训练集，算法生成视觉字典。分类器采用Lib-linear 剩下的50张作为测试集。实验结果如图5所示。 SVM2),并指定SVM的惩罚系数为1。我们将数据实验结果基本和I5 Scenes数据集上的结果类集分为5组，每组随机生成训练样本和测试样本，最似，从图4中可以看出，SA_VLAD和GSC_VLAD对后的分类正确率是5组实验的平均值。对于式(9) 比原始的VLAD在分类正确率上有明显的提升，并

得到的Ｎ个局部特征，Ｂｄ×ｎ＝ｂ１ｂ２ … ｂｎ [ ] 表示视觉字典，ｕｉｊ表示局部特征ｘｉ在视觉词汇ｂｊ上的编码系数；输出ＶＬＡＤ向量。Ｖ＝ｖＴ１ｖＴ２ … ｖＴｎ [ ] ＴＶ ∈ Ｒｎｄ ( ) ％初始化ｆｏｒｉ＝１，２，…，ｎｖｉ＝０ｄ，ｕｉ＝０ｎｅｎｄ％计算每个局部特征向量在各个视觉词汇上的编码系数ｆｏｒｉ＝１，２，…，Ｎ根据式（９）或者式（１１）或者式（１５）计算相应的ｕｉｊｅｎｄ％计算ＶＬＡＤ向量ｆｏｒｊ＝１，２，…，ｎｆｏｒｉ＝１，２，…，Ｎｖｊ＝ｖｊ＋ｕｉｊｘｉ－ｂｊ ( ) ｅｎｄｅｎｄ％根据文献［１７］，对最终的ＶＬＡＤ向量进行能量范数和Ｌ２范数归一化ｆｏｒｉ＝１，２，…，ｎｄｖｉ＝ｓｉｇｎｖｉ ( ) ｖｉ α ｅｎｄＶ＝Ｖ／ ‖Ｖ‖２４实验结果与分析本实验为了证明以下３点：１）软分配能提高ＶＬＡＤ的分类正确率，甚至对比Ｆｉｓｈｅｒ编码在分类正确率上有一定的优越性；２）只有局部软分配才能有效提高分类正确率；３）除了软分配，显著性对提高分类正确率也起到了一定的作用。本文在３个数据集（１５Ｓｃｅｎｅｓ［１８］、Ｃｏｒｅｌ１０［１９］和ＵＩＵＣＳｐｏｒｔｓＥｖｅｎｔｓ［２０］）上进行了实验。对于１５Ｓｃｅｎｅｓ和Ｃｏｒｅｌ１０数据集，我们指定每张图片的最大单边像素为３００。ＵＩＵＣＳｐｏｒｔｓＥｖｅｎｔｓ数据集中图片的分辨率较高，因此指定每幅图片的最大单边像素为４００。我们采用ＤｅｎｓｅＳＩＦＴ算法［２１］来提取每幅图像的ｓｉｆｔ特征向量，采样的步长是６个像素，每个采样块的大小为１６ × １６。采用Ｋ⁃ｍｅａｎｓ［２２］聚类算法生成视觉字典。分类器采用Ｌｉｂ⁃ｌｉｎｅａｒＳＶＭ［２３］，并指定ＳＶＭ的惩罚系数为１。我们将数据集分为５组，每组随机生成训练样本和测试样本，最后的分类正确率是５组实验的平均值。对于式（９）中的 β 和ＫＳＡ，分别设置其值为１０和１０。对于式（１１）中的ＫＧＳＣ设置其值为１０。关于ＫＳＡ和ＫＧＳＣ对实验结果的影响，将在４．２节中详细讨论。４．１新的编码对比原始的ＶＬＡＤ和Ｆｉｓｈｅｒ编码将４种编码方法ＳＡ＿ＶＬＡＤ、ＧＳＣ＿ＶＬＡＤ、ＶＬＡＤ和Ｆｉｓｈｅｒ编码进行对比。１）１５Ｓｃｅｎｅｓ。该数据集由１５个场景类别构成，总共４４８５张图片。每个类别都是相似场景图片的一个集合，大约包含２００～４００张图片，每张图片的平均尺寸为３００ × ２５０。我们采用Ｌａｚｅｂｎｉｋ等［２１］的实验设置，从每类场景中随机选择１００张图片作为训练集，其余图片作为测试集。分别在不同的视觉字典大小下进行了实验，实验结果如图４。图４４种不同编码方法在１５Ｓｃｅｎｅｓ上的分类结果Ｆｉｇ．４Ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｎｔｈｅ１５Ｓｃｅｎｅｓ从图４中可以看出，软分配的ＶＬＡＤ比原始的ＶＬＡＤ编码有显著的提升，当视觉字典的大小为５１２时，ＶＬＡＤ的分类正确率为７６．６６％，ＳＡ＿ＶＬＡＤ和ＧＳＣ＿ＶＬＡＤ的分类正确率分别为８０．１８％和８０．８４％，有４％～５％的提升。对比Ｆｉｓｈｅｒ编码的７８．６６％的正确率，也有２％的提升。同时ＧＳＣ＿ＶＬＡＤ的分类正确率在不同的视觉字典大小下均高于ＳＡ＿ＶＬＡＤ，表１显示了４种编码各自的最佳分类正确率。表１１５Ｓｃｅｎｅｓ数据集上的最佳分类正确率Ｔａｂｌｅ１Ｂｅｓｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｎ１５Ｓｃｅｎｅｓ编码方法分类正确率（字典大小）ＶＬＡＤ７６．６６±０．１９（５１２）Ｆｉｓｈｅｒ编码７８．６６±０．７９（５１２）ＳＡ＿ＶＬＡＤ８０．１８±０．３４（５１２）ＧＳＣ＿ＶＬＡＤ８０．８４±０．６３（５１２）２）Ｃｏｒｅｌ１０。该数据集共有１０个类别，每类共有１００张图片，每张图片的平均尺寸为３８４ × ２５６。本文从每类场景中随机选择５０张图片作为训练集，剩下的５０张作为测试集。实验结果如图５所示。实验结果基本和１５Ｓｃｅｎｅｓ数据集上的结果类似，从图４中可以看出，ＳＡ＿ＶＬＡＤ和ＧＳＣ＿ＶＬＡＤ对比原始的ＶＬＡＤ在分类正确率上有明显的提升，并第２期费宇杰，等：一种局部聚合描述符和组显著编码相结合的编码方法 ·１７５·

·176 智能系统学报第12卷且对比Fisher编码有一定的可比性。值得注意的是表3UUC数据集上的最佳分类正确率 GSC_VLAD的分类正确率在不同的视觉字典大小 Table 3 Best classification accuracy on UIUC 下还是均高于SA_VLAD。表2显示了4种编码各编码方法分类正确率（字典大小）自的最佳分类正确率。 VLAD 80.96±1.61(512) Fisher编码 82.67±1.06(256) 92 SA_VLAD 84.13±1.15(256) 90 GSC_VLAD 85.33±1.22(128) 4.2算法中参数的影响 86 …。VLAD 这一节中，我们讨论式(9)和式(11)中的K 84 --Fisher编码 -SA VLAD 和Kc这两个参数对实验结果的影响。这两个参 ·-GSC VLAD 82 数表示有编码系数的视觉词汇的个数。实验中这两 16 32 64128 256 512 视觉字典大小个参数都用K来表示，当视觉字典大小为128时，实图54种不同编码方法在Coel10上的分类结果验结果如图7所示。 Fig.5 Performance comparison on the Corel 10 81r 79 表2 Corel10数据集上的最佳分类正确率 78 Table 2 Best classification accuracy on Corel 10 77 编码方法分类正确率（字典大小） 76 VLAD 88.36±1.05(512) 74 …。VLAD Fisher编码 89.44±0.95(256) 73 --SA VLAD 72 -GSC_VLAD 2 1020304050 SA VLAD 90.75±0.91(512) 有编码系数的视觉词汇个数 GSC VLAD 89.32±0.97(512) (a)15 Scenes 91 3)UIUC Sports Event。.该数据集包含8个类别， 90 总共1579张图片，每类大约有137~250张图片。本文从每类中随机抽取70张图片作为训练集，从余 89 下的图片中随机抽取60张作为测试集。实验结果 88 如图6所示。 87 。VLAD --SA VLAD 86 86 GSC VLAD 85 84 2 5 1020304050 有编码系数的视觉词汇个数 82 44 (b)Corel 10 80 …。VLAD 78 --Fisher编码 0 a -=…SA VLAD 85 ·-GSC VLAD 76 民 16 32 64128256512 视觉字典大小家 83 82 图64种不同编码方法在UUC上的分类结果 Fig.6 Performance comparison on the UIUC 80 VLAD 从图6中可以看出，随着视觉字典大小的增 9 -+-SA VLAD -·GSC VLAD 加，SA_VLAD和GSC_VLAD对比原始VLAD在 51020304050 分类正确率上有显著的增加，对比Fisher编码也有编码系数的视觉词汇个数有一定的优越性。与上两个实验相同，GSC (e)UIUC VLAD的分类正确率在不同字典大小下都超过了图7参数K在不同数据集上的影响 SA_VLAD。表3显示了4种编码各自的最佳分 Fig.7 The effect of parameter K on different dataset 类正确率

且对比Ｆｉｓｈｅｒ编码有一定的可比性。值得注意的是ＧＳＣ＿ＶＬＡＤ的分类正确率在不同的视觉字典大小下还是均高于ＳＡ＿ＶＬＡＤ。表２显示了４种编码各自的最佳分类正确率。图５４种不同编码方法在Ｃｏｒｅｌ１０上的分类结果Ｆｉｇ．５ＰｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｎｔｈｅＣｏｒｅｌ１０表２Ｃｏｒｅｌ１０数据集上的最佳分类正确率Ｔａｂｌｅ２ＢｅｓｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｎＣｏｒｅｌ１０编码方法分类正确率（字典大小）ＶＬＡＤ８８．３６±１．０５（５１２）Ｆｉｓｈｅｒ编码８９．４４±０．９５（２５６）ＳＡ＿ＶＬＡＤ９０．７５±０．９１（５１２）ＧＳＣ＿ＶＬＡＤ８９．３２±０．９７（５１２）３）ＵＩＵＣＳｐｏｒｔｓＥｖｅｎｔ。该数据集包含８个类别，总共１５７９张图片，每类大约有１３７～２５０张图片。本文从每类中随机抽取７０张图片作为训练集，从余下的图片中随机抽取６０张作为测试集。实验结果如图６所示。图６４种不同编码方法在ＵＩＵＣ上的分类结果Ｆｉｇ．６ＰｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｎｔｈｅＵＩＵＣ从图６中可以看出，随着视觉字典大小的增加，ＳＡ＿ＶＬＡＤ和ＧＳＣ＿ＶＬＡＤ对比原始ＶＬＡＤ在分类正确率上有显著的增加，对比Ｆｉｓｈｅｒ编码也有一定的优越性。与上两个实验相同，ＧＳＣ＿ＶＬＡＤ的分类正确率在不同字典大小下都超过了ＳＡ＿ＶＬＡＤ。表３显示了４种编码各自的最佳分类正确率。表３ＵＩＵＣ数据集上的最佳分类正确率Ｔａｂｌｅ３ＢｅｓｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｎＵＩＵＣ编码方法分类正确率（字典大小）ＶＬＡＤ８０．９６±１．６１（５１２）Ｆｉｓｈｅｒ编码８２．６７±１．０６（２５６）ＳＡ＿ＶＬＡＤ８４．１３±１．１５（２５６）ＧＳＣ＿ＶＬＡＤ８５．３３±１．２２（１２８）４．２算法中参数的影响这一节中，我们讨论式（９）和式（１１）中的ＫＳＡ和ＫＧＳＣ这两个参数对实验结果的影响。这两个参数表示有编码系数的视觉词汇的个数。实验中这两个参数都用Ｋ来表示，当视觉字典大小为１２８时，实验结果如图７所示。（ａ）１５Ｓｃｅｎｅｓ（ｂ）Ｃｏｒｅｌ１０（ｃ）ＵＩＵＣ图７参数Ｋ在不同数据集上的影响Ｆｉｇ．７ＴｈｅｅｆｆｅｃｔｏｆｐａｒａｍｅｔｅｒＫｏｎｄｉｆｆｅｒｅｎｔｄａｔａｓｅｔ ·１７６· 智能系统学报第１２卷

第2期费宇杰，等：一种局部聚合描述符和组显著编码相结合的编码方法 177. 图8中，我们加人了原始的VLAD以便比较。有一定的提升。当视觉字典的大小是128时，在15 从图中可以看到随着K的递增，SA_VLAD和GSC Scenes数据集上，VLAD的分类正确率是75.52± VLAD的分类正确率逐渐减小，只有在K较小时才 0.61%,SaC_VLAD的分类正确率是76.47±0.33%。能达到比较高的分类正确率。这说明了并不是响应在Core10数据集上，VLAD的分类正确率是87.36± 局部特征的视觉词汇越多越好，只有局部的软分配 1.28%,SaC_VLAD的分类正确率是89.12±1.11%。才能有效地提升VLAD的分类正确率。在UIUC数据集上，VLAD的分类正确率是80.67± 781 1.50%,SaC_VLAD的分类正确率是83.63±1.76%。 7 实验结果证明，在VLAD中加入显著性能提高原始 VLAD的分类正确率。 73 5结束语 71 本文提出的GSC_VLAD编码方法能对原始的 70 ……VLAD --GSC VLAD 69 VLAD在分类正确率上带来有效的提升，同时对比 16 32 64128 25652 视觉字典大小 Fisher编码也有一定的优越性。这种提升的原因是：1)在VLAD中加入了局部的软分配，解决了原 (a)15 Scenes 始VLAD中硬分配难以准确描述局部特征向量与视 91 90 觉词汇隶属关系的问题：2)显著性编码考虑了不同视觉词汇之间潜在的联系，对提升分类效果也起到 88 了一定的作用。在实验的过程中，我们发现新的编码方法在图像 85 有噪声的情况下分类效果要好于原始的VLAD,但是 SCVLAD 正确率对比没有噪声时下降得很厉害，因此如何提升 16 32 64128256512 新的编码方法的鲁棒性将是未来的研究重点。视觉字典大小 (b)Corel 10 参考文献： 84 [1]COLLINS R T,LIPTON A J,KANADE T,et al.A system for video surveillance and monitoring R].CMU-RITR-00- 12.Pittsburgh,Penn:Carnegie Mellon University,2000. [2]VAILAYA A,FIGUEIREDO M A T,JAIN A K,et al.Im- age classification for content-based indexing [J].IEEE transactions on image processing,2001,10(1):117-130. 79 …●VLAD --GSC VLAD [3]KOSALA R,BLOCKEEL H.Web mining research:a sur- 16 3264 128256512 vey[J].ACM SIGKDD explorations newsletter,2000,2 视觉字典大小 (1):1-15. (e)UIUC [4]JOACHIMS T.Text categorization with support vector ma- 图8显著性对实验结果的影响 chines:learning with many relevant features[C]//Proceed- Fig.8 The effect of saliency ings of the 10th European Conference on Machine Learning. 3.3显著性对结果的影响 Berlin Heidelberg:Springer,1998. 根据上面两节的介绍，我们发现GSC_VLAD的 [5]DANCE C,WILLAMOWSKI J,FAN Lixin,et al.Visual 分类效果要略好于SA_VLAD,我们认为这是显著性 categorization with bags of keypoints[C]//Proceedings of ECCV International Workshop on Statistical Learning in 带来的影响，因为显著性考虑了不同视觉词汇间的 Computer Vision.Prague,CZ,2004. 联系。为了排除软分配对实验结果的影响，我们用 [6]HUANG Yongzhen,WU Zifeng,WANG Liang,et al.Fea- 新的编码算法SaC_VLAD与VLAD编码进行比较。 ture coding in image classification:a comprehensive study 图7是视觉字典大小不同时，SaC_VLAD算法在3 [J.IEEE transactions on pattern analysis and machine in- 个数据集上的结果。 telligence,2014,36(3):493-506. 对比原始的VLAD,SaC VLAD对分类正确率 [7]VAN GEMERT J C,VEENMAN C J,SMEULDERS A W

图８中，我们加入了原始的ＶＬＡＤ以便比较。从图中可以看到随着Ｋ的递增，ＳＡ＿ＶＬＡＤ和ＧＳＣ＿ＶＬＡＤ的分类正确率逐渐减小，只有在Ｋ较小时才能达到比较高的分类正确率。这说明了并不是响应局部特征的视觉词汇越多越好，只有局部的软分配才能有效地提升ＶＬＡＤ的分类正确率。（ａ）１５Ｓｃｅｎｅｓ（ｂ）Ｃｏｒｅｌ１０（ｃ）ＵＩＵＣ图８显著性对实验结果的影响Ｆｉｇ．８Ｔｈｅｅｆｆｅｃｔｏｆｓａｌｉｅｎｃｙ３．３显著性对结果的影响根据上面两节的介绍，我们发现ＧＳＣ＿ＶＬＡＤ的分类效果要略好于ＳＡ＿ＶＬＡＤ，我们认为这是显著性带来的影响，因为显著性考虑了不同视觉词汇间的联系。为了排除软分配对实验结果的影响，我们用新的编码算法ＳａＣ＿ＶＬＡＤ与ＶＬＡＤ编码进行比较。图７是视觉字典大小不同时，ＳａＣ＿ＶＬＡＤ算法在３个数据集上的结果。对比原始的ＶＬＡＤ，ＳａＣ＿ＶＬＡＤ对分类正确率有一定的提升。当视觉字典的大小是１２８时，在１５Ｓｃｅｎｅｓ数据集上，ＶＬＡＤ的分类正确率是７５．５２ ± ０．６１％，ＳａＣ＿ＶＬＡＤ的分类正确率是７６．４７±０．３３％。在Ｃｏｒｅ１０数据集上，ＶＬＡＤ的分类正确率是８７．３６± １．２８％，ＳａＣ＿ＶＬＡＤ的分类正确率是８９．１２±１．１１％。在ＵＩＵＣ数据集上，ＶＬＡＤ的分类正确率是８０．６７± １．５０％，ＳａＣ＿ＶＬＡＤ的分类正确率是８３．６３±１．７６％。实验结果证明，在ＶＬＡＤ中加入显著性能提高原始ＶＬＡＤ的分类正确率。５结束语本文提出的ＧＳＣ＿ＶＬＡＤ编码方法能对原始的ＶＬＡＤ在分类正确率上带来有效的提升，同时对比Ｆｉｓｈｅｒ编码也有一定的优越性。这种提升的原因是：１）在ＶＬＡＤ中加入了局部的软分配，解决了原始ＶＬＡＤ中硬分配难以准确描述局部特征向量与视觉词汇隶属关系的问题；２）显著性编码考虑了不同视觉词汇之间潜在的联系，对提升分类效果也起到了一定的作用。在实验的过程中，我们发现新的编码方法在图像有噪声的情况下分类效果要好于原始的ＶＬＡＤ，但是正确率对比没有噪声时下降得很厉害，因此如何提升新的编码方法的鲁棒性将是未来的研究重点。参考文献：［１］ＣＯＬＬＩＮＳＲＴ，ＬＩＰＴＯＮＡＪ，ＫＡＮＡＤＥＴ，ｅｔａｌ．Ａｓｙｓｔｅｍｆｏｒｖｉｄｅｏｓｕｒｖｅｉｌｌａｎｃｅａｎｄｍｏｎｉｔｏｒｉｎｇ［Ｒ］．ＣＭＵ⁃ＲＩＴＲ⁃００⁃ １２．Ｐｉｔｔｓｂｕｒｇｈ，Ｐｅｎｎ：ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙ，２０００．［２］ＶＡＩＬＡＹＡＡ，ＦＩＧＵＥＩＲＥＤＯＭＡＴ，ＪＡＩＮＡＫ，ｅｔａｌ．Ｉｍ⁃ ａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｆｏｒｃｏｎｔｅｎｔ⁃ｂａｓｅｄｉｎｄｅｘｉｎｇ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｉｍａｇｅｐｒｏｃｅｓｓｉｎｇ，２００１，１０（１）：１１７－１３０．［３］ＫＯＳＡＬＡＲ，ＢＬＯＣＫＥＥＬＨ．Ｗｅｂｍｉｎｉｎｇｒｅｓｅａｒｃｈ：ａｓｕｒ⁃ ｖｅｙ［Ｊ］．ＡＣＭＳＩＧＫＤＤｅｘｐｌｏｒａｔｉｏｎｓｎｅｗｓｌｅｔｔｅｒ，２０００，２（１）：１－１５．［４］ＪＯＡＣＨＩＭＳＴ．Ｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａ⁃ ｃｈｉｎｅｓ：ｌｅａｒｎｉｎｇｗｉｔｈｍａｎｙｒｅｌｅｖａｎｔｆｅａｔｕｒｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ１０ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，１９９８．［５］ＤＡＮＣＥＣ，ＷＩＬＬＡＭＯＷＳＫＩＪ，ＦＡＮＬｉｘｉｎ，ｅｔａｌ．Ｖｉｓｕａｌｃａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈｂａｇｓｏｆｋｅｙｐｏｉｎｔｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＥＣＣＶＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｐｒａｇｕｅ，ＣＺ，２００４．［６］ＨＵＡＮＧＹｏｎｇｚｈｅｎ，ＷＵＺｉｆｅｎｇ，ＷＡＮＧＬｉａｎｇ，ｅｔａｌ．Ｆｅａ⁃ ｔｕｒｅｃｏｄｉｎｇｉｎｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｃｏｍｐｒｅｈｅｎｓｉｖｅｓｔｕｄｙ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎ⁃ ｔｅｌｌｉｇｅｎｃｅ，２０１４，３６（３）：４９３－５０６．［７］ＶＡＮＧＥＭＥＲＴＪＣ，ＶＥＥＮＭＡＮＣＪ，ＳＭＥＵＬＤＥＲＳＡＷ第２期费宇杰，等：一种局部聚合描述符和组显著编码相结合的编码方法 ·１７７·

·178 智能系统学报第12卷 M,et al.Visual word ambiguity[J].IEEE transactions on [16]LIU Linggiao,WANG Lei,Liu Xinwang.In defense of pattern analysis and machine intelligenc,2010,32(7): soft-assignment coding C]//Proceedings of 2011 IEEE 1271-1283. International Conference on Computer Vision.Barcelona: [8]VAN GEMERT J C,GEUSEBROEK J M,VEENMAN C J, IEEE,2011. et al.Kernel codebooks for scene categorization[C]//Pro- [17]PERRONNIN F,SANCHEZ J,MENSINK T.Improving ceedings of the European Conference on Computer Vision. the fisher kemel for large-scale image classification[C]/ Berlin Heidelberg:Springer,2008:696-709. Proceedings of the 11th European Conference on Computer [9]YANG Jianchao,YU Kai,GONG Yihong,et al.Linear Vision.Berlin Heidelberg:Springer,2010:143-156. spatial pyramid matching using sparse coding for image [18]LI FF,PERONA P.A Bayesian hierarchical model for classification[C]//Proceedings of 2009 IEEE Conference learning natural scene categories [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recog- on Computer Vision and Pattern Recognition.Miami,FL: nition.IEEE Computer Society,2005:524-531. EEE,2009:1794-1801. [19]LI Jia,WANG J Z.Automatic linguistic indexing of pic- [10]WANG Jinjun,YANG Jianchao,YU Kai,et al.Locality- tures by a statistical modeling approach[J].IEEE transac- constrained linear coding for image classification C// tions on pattern analysis and machine intelligence,2003, Proceedings of 2010 IEEE Conference on Computer Vision 25(9):1075-1088. and Pattern Recognition.San Francisco,CA:IEEE, [20]LI Lijia,LI Feifei.What,where and who?Classifying e- 2010:3360-3367. vents by scene and object recognition[C]//Proceedings of [11]PERRONNIN F,DANCE C.Fisher kemels on visual vo- the 11th International Conference on Computer Vision.Rio cabularies for image categorization [C]//Proceedings of de Janeiro:IEEE,2007:1-8. 2007 IEEE Conference on Computer Vision and Pattern [21]LAZEBNIK S,SCHMID C,PONCE J.Beyond bags of fea- Recognition.Minneapolis,MN:IEEE,2007. tures:spatial pyramid matching for recognizing natural [12]ZHOU Xi,YU Kai,ZHANG Tong,et al.Image classifica- scene categories[C]//Proceedings of 2006 IEEE Comput- tion using super-vector coding of local image descriptors er Society Conference on Computer Vision and Pattern [C]//Proceedings of the 11th European Conference on Recognition.New York,NY,USA:IEEE,2006:2169- Computer Vision.Berlin Heidelberg:Springer,2010:141 2178. -154. [22]LLOYD S.Least squares quantization in PCM[J].IEEE [13]JEGOU H,DOUZE M,SCHMID C,et al.Aggregating lo- transactions on information theory,1982,28(2):129- 137 cal descriptors into a compact image representation[C] 作者简介： Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA:IEEE, 费宇杰，男，1992年生，硕士研究 2010:3304-3311 生，主要研究方向为图像分类、特征 [14]HUANG Yongzhen,HUANG Kaigi,YU Yinan,et al.Sa- 编码。 lient coding for image classification[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI:IEEE,2011. 吴小俊，男，1967年生，教授，主要 [15 WU Zifeng,HUANG Yongzhen,WANG Liang,et al. 研究方向为模式识别，计算机视觉，模 Group encoding of local features in image classification 糊系统，神经网络，智能系统。 [C]//Proceedings of the 21st International Conference on Pattern Recognition.Tsukuba:IEEE,2012

Ｍ，ｅｔａｌ．Ｖｉｓｕａｌｗｏｒｄａｍｂｉｇｕｉｔｙ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃ，２０１０，３２（７）：１２７１－１２８３．［８］ＶＡＮＧＥＭＥＲＴＪＣ，ＧＥＵＳＥＢＲＯＥＫＪＭ，ＶＥＥＮＭＡＮＣＪ，ｅｔａｌ．Ｋｅｒｎｅｌｃｏｄｅｂｏｏｋｓｆｏｒｓｃｅｎｅｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００８：６９６－７０９．［９］ＹＡＮＧＪｉａｎｃｈａｏ，ＹＵＫａｉ，ＧＯＮＧＹｉｈｏｎｇ，ｅｔａｌ．Ｌｉｎｅａｒｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｕｓｉｎｇｓｐａｒｓｅｃｏｄｉｎｇｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２００９ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｍｉａｍｉ，ＦＬ：ＩＥＥＥ，２００９：１７９４－１８０１．［１０］ＷＡＮＧＪｉｎｊｕｎ，ＹＡＮＧＪｉａｎｃｈａｏ，ＹＵＫａｉ，ｅｔａｌ．Ｌｏｃａｌｉｔｙ⁃ ｃｏｎｓｔｒａｉｎｅｄｌｉｎｅａｒｃｏｄｉｎｇｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１０ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＩＥＥＥ，２０１０：３３６０－３３６７．［１１］ＰＥＲＲＯＮＮＩＮＦ，ＤＡＮＣＥＣ．Ｆｉｓｈｅｒｋｅｒｎｅｌｓｏｎｖｉｓｕａｌｖｏ⁃ ｃａｂｕｌａｒｉｅｓｆｏｒｉｍａｇｅｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２００７ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｍｉｎｎｅａｐｏｌｉｓ，ＭＮ：ＩＥＥＥ，２００７．［１２］ＺＨＯＵＸｉ，ＹＵＫａｉ，ＺＨＡＮＧＴｏｎｇ，ｅｔａｌ．Ｉｍａｇｅｃｌａｓｓｉｆｉｃａ⁃ ｔｉｏｎｕｓｉｎｇｓｕｐｅｒ⁃ｖｅｃｔｏｒｃｏｄｉｎｇｏｆｌｏｃａｌｉｍａｇｅｄｅｓｃｒｉｐｔｏｒｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１０：１４１－１５４．［１３］ＪÉＧＯＵＨ，ＤＯＵＺＥＭ，ＳＣＨＭＩＤＣ，ｅｔａｌ．Ａｇｇｒｅｇａｔｉｎｇｌｏ⁃ ｃａｌｄｅｓｃｒｉｐｔｏｒｓｉｎｔｏａｃｏｍｐａｃｔｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１０ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ：ＩＥＥＥ，２０１０：３３０４－３３１１［１４］ＨＵＡＮＧＹｏｎｇｚｈｅｎ，ＨＵＡＮＧＫａｉｑｉ，ＹＵＹｉｎａｎ，ｅｔａｌ．Ｓａ⁃ ｌｉｅｎｔｃｏｄｉｎｇｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１１ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｒｏｖｉｄｅｎｃｅ，ＲＩ：ＩＥＥＥ，２０１１．［１５］ＷＵＺｉｆｅｎｇ，ＨＵＡＮＧＹｏｎｇｚｈｅｎ，ＷＡＮＧＬｉａｎｇ，ｅｔａｌ．Ｇｒｏｕｐｅｎｃｏｄｉｎｇｏｆｌｏｃａｌｆｅａｔｕｒｅｓｉｎｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｔｓｕｋｕｂａ：ＩＥＥＥ，２０１２．［１６］ＬＩＵＬｉｎｇｑｉａｏ，ＷＡＮＧＬｅｉ，ＬｉｕＸｉｎｗａｎｇ．Ｉｎｄｅｆｅｎｓｅｏｆｓｏｆｔ⁃ａｓｓｉｇｎｍｅｎｔｃｏｄｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｂａｒｃｅｌｏｎａ：ＩＥＥＥ，２０１１．［１７］ＰＥＲＲＯＮＮＩＮＦ，ＳＡＮＣＨＥＺＪ，ＭＥＮＳＩＮＫＴ．Ｉｍｐｒｏｖｉｎｇｔｈｅｆｉｓｈｅｒｋｅｒｎｅｌｆｏｒｌａｒｇｅ⁃ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１０：１４３－１５６．［１８］ＬＩＦＦ，ＰＥＲＯＮＡＰ．ＡＢａｙｅｓｉａｎｈｉｅｒａｒｃｈｉｃａｌｍｏｄｅｌｆｏｒｌｅａｒｎｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ［Ｃ］／／ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇ⁃ ｎｉｔｉｏｎ．ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００５：５２４－５３１．［１９］ＬＩＪｉａ，ＷＡＮＧＪＺ．Ａｕｔｏｍａｔｉｃｌｉｎｇｕｉｓｔｉｃｉｎｄｅｘｉｎｇｏｆｐｉｃ⁃ ｔｕｒｅｓｂｙａｓｔａｔｉｓｔｉｃａｌｍｏｄｅｌｉｎｇａｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００３，２５（９）：１０７５－１０８８．［２０］ＬＩＬｉｊｉａ，ＬＩＦｅｉｆｅｉ．Ｗｈａｔ，ｗｈｅｒｅａｎｄｗｈｏ？Ｃｌａｓｓｉｆｙｉｎｇｅ⁃ ｖｅｎｔｓｂｙｓｃｅｎｅａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＲｉｏｄｅＪａｎｅｉｒｏ：ＩＥＥＥ，２００７：１－８．［２１］ＬＡＺＥＢＮＩＫＳ，ＳＣＨＭＩＤＣ，ＰＯＮＣＥＪ．Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａ⁃ ｔｕｒｅｓ：ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２００６ＩＥＥＥＣｏｍｐｕｔ⁃ ｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＩＥＥＥ，２００６：２１６９－２１７８．［２２］ＬＬＯＹＤＳ．ＬｅａｓｔｓｑｕａｒｅｓｑｕａｎｔｉｚａｔｉｏｎｉｎＰＣＭ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙ，１９８２，２８（２）：１２９－１３７．作者简介：费宇杰，男，１９９２年生，硕士研究生，主要研究方向为图像分类、特征编码。吴小俊，男，１９６７年生，教授，主要研究方向为模式识别，计算机视觉，模糊系统，神经网络，智能系统。 ·１７８· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录