第12卷第2期 智能系统学报 Vol.12 No.2 2017年4月 CAAI Transactions on Intelligent Systems Apr.2017 D0I:10.11992/is.201602010 网络出版地址:http://www.cmki.net/kcms/detail,/23.1538.tp.20170116.1115.002.html 一种局部聚合描述符和组显著编码相结合的编码方法 费宇杰,吴小俊 (江南大学物联网工程学院,江苏无锡214122) 摘要:局部聚合描述符(vector of local山y aggregated descriptors.,VLAD)的特征编码方法在大规模图像检索上取得了 较好的效果。但是,VLD存在硬分配难以准确描述局部特征向量与视觉词汇隶属关系的问题,本文将两种软分配 编码与VLAD相结合来增强局部特征向量与视觉词汇的隶属关系。新的编码方法在15 Scenes、Cor阳lI0和UIC Sports Event数据库上的实验结果表明:l)在VLAD中加入局部软分配能够提高分类准确率,而且对比Fisher编码在 分类准确率上也有一定的优越性:2)除了软分配,显著性对提高分类准确率也起到了一定的作用。 关键词:图像分类:特征编码:词袋:局部聚合描述符:软分配:显著性 中图分类号:TP391文献标志码:A文章编号:1673-4785(2017)02-0172-07 中文引用格式:费宇杰,吴小俊.一种局部聚合描述符和组显著编码相结合的编码方法[J].智能系统学报,2017,12(2):172-178. 英文引用格式:FEI Yujie,WU Xiaojun..A new feature coding algorithm based on the combination of group salient coding and VLAD[J].CAAI transactions on intelligent systems,2017,12(2):172-178. A new feature coding algorithm based on the combination of group salient coding and VLAD FEI Yujie,WU Xiaojun (School of loT Engineering,Jiangnan University,Wuxi 214122,China) Abstract:The vector of locally aggregated descriptors VLAD)has achieved good results in addressing large-scale image retrieval problems;however,VLAD has a defect in that the relationship between local descriptors and visual words cannot be accurately described using hard assignments.In this paper,we therefore combine two kinds of soft assignment coding methods with VLAD to enhance the relationship between local feature vectors and visual words. We applied our method to 15 scenes from the Corel 10 and UIUC Sports Event datasets,with our experimental re- sults showing that our combined partial soft assignment coding method and VLAD was able to enhance classification accuracy and achieve better classification accuracy than the well-known Fisher Coding approach.In addition to soft assignment,saliency also plays an important role in enhancing classification accuracy. Keywords:image classification;feature coding;bag-of-features;VLAD;soft assignment;saliency 图像分类是计算机视觉和模式识别中的一个重 框架。 要的研究方向,它有广泛的应用,例如:视频监 控山、图像检索]】、网页内容分析)。从文本分析 1问题提出 中的BoW(bag-of-words)模型[)发展而来的BoF 如图1所示,BoF模型通常包含5个步骤,特征 (bag-of-features)模型[s)是当前最有效的图像分类 提取、字典生成、特征编码、特征池化和分类。所谓 特征编码是用字典中的视觉词汇来表示图像中的局 收稿日期:2016-03-01.网络出版日期:2017-01-16. 部特征向量,局部特征在视觉词汇上的响应被称为 基金项目:国家自然科学基金项目(61373055,61672265):江苏省教育 厅科技成果产业化推进项目(H10-28). 编码系数,将不同视觉词汇的编码系数组合在一起 通信作者:吴小俊.E-mail:xiaojun._wu_jmu@163.com 就是编码向量。特征编码是整个BoF模型的关键
第 12 卷第 2 期 智 能 系 统 学 报 Vol.12 №.2 2017 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2017 DOI:10.11992 / tis.201602010 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.tp.20170116.1115.002.html 一种局部聚合描述符和组显著编码相结合的编码方法 费宇杰,吴小俊 (江南大学 物联网工程学院,江苏 无锡 214122) 摘 要:局部聚合描述符(vector of locally aggregated descriptors, VLAD)的特征编码方法在大规模图像检索上取得了 较好的效果。 但是,VLAD 存在硬分配难以准确描述局部特征向量与视觉词汇隶属关系的问题,本文将两种软分配 编码与 VLAD 相结合来增强局部特征向量与视觉词汇的隶属关系。 新的编码方法在 15 Scenes、Corel 10 和 UIIC Sports Event 数据库上的实验结果表明:1)在 VLAD 中加入局部软分配能够提高分类准确率,而且对比 Fisher 编码在 分类准确率上也有一定的优越性;2)除了软分配,显著性对提高分类准确率也起到了一定的作用。 关键词:图像分类;特征编码;词袋;局部聚合描述符;软分配;显著性 中图分类号: TP391 文献标志码:A 文章编号:1673-4785(2017)02-0172-07 中文引用格式:费宇杰,吴小俊. 一种局部聚合描述符和组显著编码相结合的编码方法[J]. 智能系统学报, 2017, 12(2): 172-178. 英文引用格式:FEI Yujie, WU Xiaojun. A new feature coding algorithm based on the combination of group salient coding and VLAD[J]. CAAI transactions on intelligent systems, 2017, 12(2): 172-178. A new feature coding algorithm based on the combination of group salient coding and VLAD FEI Yujie, WU Xiaojun (School of IoT Engineering, Jiangnan University, Wuxi 214122, China) Abstract:The vector of locally aggregated descriptors (VLAD) has achieved good results in addressing large⁃scale image retrieval problems; however, VLAD has a defect in that the relationship between local descriptors and visual words cannot be accurately described using hard assignments. In this paper, we therefore combine two kinds of soft assignment coding methods with VLAD to enhance the relationship between local feature vectors and visual words. We applied our method to 15 scenes from the Corel 10 and UIUC Sports Event datasets, with our experimental re⁃ sults showing that our combined partial soft assignment coding method and VLAD was able to enhance classification accuracy and achieve better classification accuracy than the well⁃known Fisher Coding approach. In addition to soft assignment, saliency also plays an important role in enhancing classification accuracy. Keywords: image classification; feature coding; bag⁃of⁃features; VLAD; soft assignment; saliency 收稿日期:2016-03-01. 网络出版日期:2017-01-16. 基金项目:国家自然科学基金项目(61373055, 61672265); 江苏省教育 厅科技成果产业化推进项目(JH10⁃28). 通信作者:吴小俊. E⁃mail:xiaojun_wu_jnu@ 163.com. 图像分类是计算机视觉和模式识别中的一个重 要的研 究 方 向, 它 有 广 泛 的 应 用, 例 如: 视 频 监 控[1] 、图像检索[2] 、网页内容分析[3] 。 从文本分析 中的 BoW ( bag⁃of⁃words) 模型[4] 发展而来的 BoF (bag⁃of⁃features)模型[5] 是当前最有效的图像分类 框架。 1 问题提出 如图 1 所示,BoF 模型通常包含 5 个步骤,特征 提取、字典生成、特征编码、特征池化和分类。 所谓 特征编码是用字典中的视觉词汇来表示图像中的局 部特征向量,局部特征在视觉词汇上的响应被称为 编码系数,将不同视觉词汇的编码系数组合在一起 就是编码向量。 特征编码是整个 BoF 模型的关键
第2期 费宇杰,等:一种局部聚合描述符和组显著编码相结合的编码方法 ·173· 编码的好坏会对分类效果产生巨大的影响。根据文 性。但是,并不是任意的软分配都能提高分类正确 献[6],我们将编码方法分为4类,如图2所示。编 率,只有局部的软分配(这里局部的意思是特征向 码方法中,最简单的方法是将局部特征向量指定到 量只有在离它最近的几个视觉词汇上有响应系数) 离它最近的视觉词汇上并设置其编码系数为非零的 才能提高VLAD的分类正确率:2)除了软分配,显 值,用这个视觉词汇来代表该特征向量,这种“硬指 著性对提高分类正确率也起到了一定的作用,我们 定(Hard-assignment)[)”的编码方法没有考虑到特 认为这是因为显著编码考虑到了不同视觉词汇之间 征向量隶属视觉词汇的模糊性),并且会产生巨大 的联系。 的量化误差。文献[8]提出一种“软指定(Sofi-as 2相关工作 signment)”的编码方法,通过指定特征向量到所有 视觉词汇上从而减轻了“硬指定”编码带来的问题。 在这一章节中介绍一些编码方法。 基于重构的编码方法是选择一些视觉词汇来重构局 b,(b∈R)表示第i个视觉词汇;d是局部特征向 部特征向量。例如:稀疏编码[](sparse coding)是使 量的维数:视觉词汇的总个数为n,矩阵Bx= 编码向量稀疏,而LLCT10](local-constraint linear cod- [b,b2…bn]表示视觉字典;x,(x∈R)表 ig)是选择局部的视觉词汇来重构特征向量。高维 示一幅图像中第i个局部特征,矩阵IxN= 的编码方法,像Fisher核编码(fisher kernel cod- [xx2…xv]表示一幅图像中的N个局部特 ing)和SVC(super vector coding)只需少量的视觉 征;,(w:∈R")表示局部特征x:的编码向量。u 词汇就能获得较好的分类结果。VLAD编码1)可 表示局部特征x在视觉词汇b,上的编码系数。 以看作是Fisher核编码的简化版,下一节将对它详 1)Harding-assignment Coding。局部特征x:只 细介绍。最近,由于显著编码的高效性和有效性,它 在离它最近的视觉词汇上有编码系数。 得到了很多关注。显著编码认为显著性是特征编码 1, j=arg.min lx:-b;ll 2 的重要特性。SaCa(salient coding)将显著系数作 j=12,n (1) 0 其他 为编码系数,显著系数是通过局部特征到不同视觉 词汇间的距离计算得来的。GSC)(gruop salient 2)Sof-assignment Coding。u,可以理解为局部特 征x:在视觉词汇b:上的隶属度。 coding)是SaC的改进版,它的思想是将视觉词汇分 exp(-B llx:-b;ll 2) 成不同的组,不同的组得到不同的编码系数。 (2) 硬指定编码 。分类 exp(-B Ix-b.ll) 基于“投票 的编码 B是平滑因子控制着函数的变化率,K=n是原 软指定编码 池化 稀疏编码 始的Soft-assignment编码,局部特征在所有的视觉 基于重构的 特征编码 词汇上都有响应系数。根据文献[16],当K设置为 编码 局部性线性编码 小于n的数时([b,b2…b]表示x:的K近 Fisher编码 字典生成 高维编码 邻视觉词汇),这种编码方法能获得更高的分类正 超级向量编码 特征提取 确率。 显著编码 显著编码 3)Saliency Coding。显著编码(SaC)是将局部 图像 组显著编码 特征与离它最近的视觉词汇和其他视觉词汇的距离 图1BoF模型流程图 图2编码方法分类 的比值作为该局部特征的编码结果。 Fig.1 The general pipeline Fig.2 A taxonomy of ()j=argminlxll: of the BoF framework coding methods 0 其他 通过对编码方法的回顾可以发现,无论是从 (3) Hard-assignment到Soft-assignment,还是从SaC到 GSC都是通过软分配的思想来增加局部特征与视觉 (1x,-b2-1,-b1) 9(x)= (4) 词汇之间的隶属关系信息,从而提高了分类的正确 率。我们将软分配的思想加入VLAD中来改进原始 Ix,-Blla 的VLAD。在不同的数据集上的实验结果表明:1) 式中:p(x)表示x:的显著系数,K表示计算显著 软分配能够提高原始VLAD的分类准确率,并且对 系数时所包含的视觉词汇的个数,b:表示离x:第k 比Fisher核编码在分类正确率上也有一定的优越 近的视觉词汇
编码的好坏会对分类效果产生巨大的影响。 根据文 献[6],我们将编码方法分为 4 类,如图 2 所示。 编 码方法中,最简单的方法是将局部特征向量指定到 离它最近的视觉词汇上并设置其编码系数为非零的 值,用这个视觉词汇来代表该特征向量,这种“硬指 定(Hard⁃assignment) [5] ”的编码方法没有考虑到特 征向量隶属视觉词汇的模糊性[7] ,并且会产生巨大 的量化误差。 文献[8] 提出一种“软指定( Soft⁃as⁃ signment)”的编码方法,通过指定特征向量到所有 视觉词汇上从而减轻了“硬指定”编码带来的问题。 基于重构的编码方法是选择一些视觉词汇来重构局 部特征向量。 例如:稀疏编码[9] (sparse coding)是使 编码向量稀疏,而 LLC [10] (local⁃constraint linear cod⁃ ing)是选择局部的视觉词汇来重构特征向量。 高维 的编码方法,像 Fisher 核编码[11] ( fisher kernel cod⁃ ing)和 SVC [12] (super vector coding)只需少量的视觉 词汇就能获得较好的分类结果。 VLAD 编码[13] 可 以看作是 Fisher 核编码的简化版,下一节将对它详 细介绍。 最近,由于显著编码的高效性和有效性,它 得到了很多关注。 显著编码认为显著性是特征编码 的重要特性。 SaC [14] ( salient coding)将显著系数作 为编码系数,显著系数是通过局部特征到不同视觉 词汇间的距离计算得来的。 GSC [15] ( gruop salient coding)是 SaC 的改进版,它的思想是将视觉词汇分 成不同的组,不同的组得到不同的编码系数。 图 1 BoF 模型流程图 图 2 编码方法分类 Fig.1 The general pipeline Fig.2 A taxonomy of of the BoF framework coding methods 通过对编码方法的回顾可以发现,无论是从 Hard⁃assignment 到 Soft⁃assignment, 还 是 从 SaC 到 GSC 都是通过软分配的思想来增加局部特征与视觉 词汇之间的隶属关系信息,从而提高了分类的正确 率。 我们将软分配的思想加入 VLAD 中来改进原始 的 VLAD。 在不同的数据集上的实验结果表明:1) 软分配能够提高原始 VLAD 的分类准确率,并且对 比 Fisher 核编码在分类正确率上也有一定的优越 性。 但是,并不是任意的软分配都能提高分类正确 率,只有局部的软分配(这里局部的意思是特征向 量只有在离它最近的几个视觉词汇上有响应系数) 才能提高 VLAD 的分类正确率;2) 除了软分配,显 著性对提高分类正确率也起到了一定的作用,我们 认为这是因为显著编码考虑到了不同视觉词汇之间 的联系。 2 相关工作 在 这 一 章 节 中 介 绍 一 些 编 码 方 法。 bi bi ∈ R d ( ) 表示第 i 个视觉词汇; d 是局部特征向 量的维数; 视觉词汇的总个数为 n , 矩阵 Bd×n = b1 b2 … bn [ ] 表示视觉字典; xi xi ∈ R d ( ) 表 示一 幅 图 像 中 第 i 个 局 部 特 征, 矩 阵 Id×N = x1 x2 … xN [ ] 表示一幅图像中的 N 个局部特 征; ui ui ∈ R n ( ) 表示局部特征 xi 的编码向量。 uij 表示局部特征 xi 在视觉词汇 bj 上的编码系数。 1) Harding⁃assignment Coding。 局部特征 xi 只 在离它最近的视觉词汇上有编码系数。 uij = 1, j = arg min j = 1,2,…,n ‖xi - bj‖2 0, 其他 { (1) 2)Soft⁃assignment Coding。 uij 可以理解为局部特 征 xi 在视觉词汇 bj 上的隶属度。 uij = exp - β ‖xi - bj‖2 ( ) ∑ K k = 1 exp - β ‖xi - bk‖2 ( ) (2) β 是平滑因子控制着函数的变化率, K = n 是原 始的 Soft⁃assignment 编码,局部特征在所有的视觉 词汇上都有响应系数。 根据文献[16],当 K 设置为 小于 n 的数时( b1 b2 … bK [ ] 表示 xi 的 K 近 邻视觉词汇),这种编码方法能获得更高的分类正 确率。 3) Saliency Coding。 显著编码( SaC) 是将局部 特征与离它最近的视觉词汇和其他视觉词汇的距离 的比值作为该局部特征的编码结果。 uij = φ xi ( ) , j = arg min j = 1,2,…,n ‖xi - bj‖2 0, 其他 { (3) φ xi ( ) = ∑ K k = 2 ‖xi - bk‖2 - ‖xi - b1‖2 ( ) ∑ K k = 2 ‖xi - bk‖2 (4) 式中: φ xi ( ) 表示 xi 的显著系数, K 表示计算显著 系数时所包含的视觉词汇的个数, bk 表示离 xi 第 k 近的视觉词汇。 第 2 期 费宇杰,等:一种局部聚合描述符和组显著编码相结合的编码方法 ·173·
·174 智能系统学报 第12卷 4)Group Saliency Coding。GSC可以看做SaC 觉词汇的隶属度。 的“软分配版本”,它把视觉词汇分成不同的组,局 exp(-B ll x;-b;ll 2) 部特征在不同组上得到不同的响应系数,图3描绘 KsA -,b∈g(x,Ksa) 了组显著编码的思想。 exp(-BIx,-bl) k=1 0 其他 (9) b max y=∑,x,-b,) (10) bb,b, 式中:g(x,K)表示距离局部特征x:最近的KA 个视觉词汇。 2)GSC_VLAD。GSC_VLAD编码是将GSC编 码中组显著性的思想加入到原始VLAD中来解决局 图3组显著编码 部特征向量与视觉词汇的隶属关系问题。GSC编码 Fig.3 Group saliency coding 中用显著性来表示局部特征向量与视觉词汇的隶属 度,同时显著性考虑到了不同视觉词汇之间的联系。 (5) (11) big(x;,k) (6) (()(x;),b;Eg(x;,k) (0,其他 ud)= (12) 0,其他 p(x)= 中(x:)= 艺x-Bl-1x-D Kcsc+1-k (7) (‖x:-bk:‖2-‖x:-bI2)(13) 式中:K表示共有K个组,u,)表示第k组的编码向 量,p)(x)表示第k组x:的显著系数, y=立4,x,-b) (14) g(c:,k)表示距离局部特征x,最近的k个视觉词汇。 式中:Kc表示有编码系数的视觉词汇的个数,即 5)VLAD。VLAD编码可以看作Fisher编码的 Ksc个视觉词汇会有响应系数。 简化版本,Fisher编码的详细描述请参考文献[1l], 3)SaC_VLAD。SaC中用显著系数作为编码系 本文不作介绍。VLAD是将局部特征与视觉词汇的 数,显著系数是指局部特征与离它最近的视觉词汇 差的总和作为最后的特征向量。,(y∈R)表示 和其他视觉词汇的距离的比值,显著系数考虑到了 第j个视觉词汇的VLAD编码向量。V= 不同视觉词汇之间的联系。将SaC与原始VLAD相 [v…v]T(v∈R)是VLAD编码的最 结合,使VLAD在编码过程中考虑不同视觉词汇之 终形式,表示整个图像的VLAD编码向量。 间潜在的联系。 y=∑正-b (8) p(r:), j=arg.min‖x:-bl2 uj= j=1.2,…,n 式中:NN(x,)=b,表示距离局部特征x,最近的视觉 \0 其他 词汇是b。 (15) 3改进的VLAD编码方法 觉(1x-b::-1天-b, 根据上一章节的介绍,我们发现原始的VLAD p(x:)= 存在硬分配难以准确描述局部特征向量与视觉词汇 名x-a1 隶属关系的问题。在这一章节中,提出3种新的 (16) VLAD编码方法,分别是SA_VLAD编码方法,GSC_ VLAD编码方法以及SaC_VLAD编码方法。 y=∑,x-b,) (17) i=1 1)SA_VLAD。SA_VLAD编码是将Soft-assigr- 式中:Ksc表示有Ksc个视觉词汇用来计算局部特 ment编码中解决局部特征与视觉词汇隶属关系的 征的显著系数。 方法加入到原始VLAD编码中。Sof-assignment编 算法1改进的VLAD编码方法 码中是用高斯核函数的值来表示局部特征向量与视 输入IxN=[x1x2…xv】是从图像中
4) Group Saliency Coding。 GSC 可以看做 SaC 的“软分配版本”,它把视觉词汇分成不同的组,局 部特征在不同组上得到不同的响应系数,图 3 描绘 了组显著编码的思想。 图 3 组显著编码 Fig.3 Group saliency coding ui = max k = 1,2,…,K u (k ) i (5) u (k ) ij = φ (k ) xi ( ) , bj ∈ g(xi,k) 0, 其他 { (6) φ (k ) xi ( ) = ∑ K+1-k t = 1 ‖xi - b k+t‖2 - ‖xi - bk‖2 ( ) (7) 式中: K 表示共有 K 个组, u (k ) i 表示第 k 组的编码向 量, φ (k ) xi ( ) 表 示 第 k 组 xi 的 显 著 系 数, g(xi,k) 表示距离局部特征 xi 最近的 k 个视觉词汇。 5)VLAD。 VLAD 编码可以看作 Fisher 编码的 简化版本,Fisher 编码的详细描述请参考文献[11], 本文不作介绍。 VLAD 是将局部特征与视觉词汇的 差的总和作为最后的特征向量。 vj vj ∈ R d ( ) 表示 第 j 个 视 觉 词 汇 的 VLAD 编 码 向 量。 V = v T 1 v T 2 … v T n [ ] T v ∈ R nd ( ) 是 VLAD 编 码 的 最 终形式,表示整个图像的 VLAD 编码向量。 vj = ∑xi :NN xi ( ) = bj xi - bj (8) 式中: NN xi ( ) = bj 表示距离局部特征 xi 最近的视觉 词汇是 bj 。 3 改进的 VLAD 编码方法 根据上一章节的介绍,我们发现原始的 VLAD 存在硬分配难以准确描述局部特征向量与视觉词汇 隶属关系的问题。 在这一章节中,提出 3 种新的 VLAD 编码方法,分别是 SA_VLAD 编码方法,GSC_ VLAD 编码方法以及 SaC_VLAD 编码方法。 1)SA_VLAD。 SA_VLAD 编码是将 Soft⁃assign⁃ ment 编码中解决局部特征与视觉词汇隶属关系的 方法加入到原始 VLAD 编码中。 Soft⁃assignment 编 码中是用高斯核函数的值来表示局部特征向量与视 觉词汇的隶属度。 uij = exp - β ‖xi - bj‖2 ( ) ∑ KSA k = 1 exp - β ‖xi - bk‖2 ( ) , bj ∈ g xi,KSA ( ) 0, 其他 ì î í ï ïï ï ï (9) vj = ∑ N i = 1 uij xi - bj ( ) (10) 式中: g xi,KSA ( ) 表示距离局部特征 xi 最近的 KSA 个视觉词汇。 2)GSC_VLAD。 GSC_VLAD 编码是将 GSC 编 码中组显著性的思想加入到原始 VLAD 中来解决局 部特征向量与视觉词汇的隶属关系问题。 GSC 编码 中用显著性来表示局部特征向量与视觉词汇的隶属 度,同时显著性考虑到了不同视觉词汇之间的联系。 ui = max k = 1,2,…,KGSC u (k ) i (11) u (k ) ij = φ (k ) xi ( ) , bj ∈ g(xi,k) 0, 其他 { (12) ϕ (k) xi ( ) = ∑ KGSC +1-k t = 1 ‖xi - bk+t‖2 - ‖xi - bk‖2 ( ) (13) vj = ∑ N i = 1 uij xi - bj ( ) (14) 式中: KGSC 表示有编码系数的视觉词汇的个数,即 KGSC 个视觉词汇会有响应系数。 3)SaC_VLAD。 SaC 中用显著系数作为编码系 数,显著系数是指局部特征与离它最近的视觉词汇 和其他视觉词汇的距离的比值,显著系数考虑到了 不同视觉词汇之间的联系。 将 SaC 与原始 VLAD 相 结合,使 VLAD 在编码过程中考虑不同视觉词汇之 间潜在的联系。 uij = φ xi ( ) , j = arg min j = 1,2,…,n ‖xi - bj‖2 0, 其他 { (15) φ xi ( ) = ∑ KSaC k = 2 ‖xi - b k‖2 - ‖xi - b 1‖2 ( ) ∑ K k = 2 ‖xi - bk‖2 (16) vj = ∑ N i = 1 uij xi - bj ( ) (17) 式中: KSaC 表示有 KSaC 个视觉词汇用来计算局部特 征的显著系数。 算法 1 改进的 VLAD 编码方法 输入 Id×N = x1 x2 … xN [ ] 是从图像中 ·174· 智 能 系 统 学 报 第 12 卷
第2期 费宇杰,等:一种局部聚合描述符和组显著编码相结合的编码方法 ·175. 得到的N个局部特征,B4xn=[b,b2…bn]表 中的B和K,分别设置其值为10和10。对于式 示视觉字典,u:表示局部特征x:在视觉词汇b,上的 (11)中的Kcsc设置其值为10。关于Ka和Kcc对 编码系数: 实验结果的影响,将在4.2节中详细讨论。 输出VLAD向量。 4.1新的编码对比原始的VLAD和Fisher编码 V=[…v]T(V∈R)%初始化 将4种编码方法SA_VLAD、GSC_VLAD、VLAD fori=1,2,…,n 和Fisher编码进行对比。 :=04,4:=0n 1)15 Scenes。该数据集由15个场景类别构成, end 总共4485张图片。每个类别都是相似场景图片的 %计算每个局部特征向量在各个视觉词汇上的 一个集合,大约包含200~400张图片,每张图片的 编码系数 平均尺寸为300×250。我们采用Lazebnik等2)的 fori=1,2,…,N 实验设置,从每类场景中随机选择100张图片作为 根据式(9)或者式(11)或者式(15)计算相 训练集,其余图片作为测试集。分别在不同的视觉 应的 字典大小下进行了实验,实验结果如图4。 end 82 %计算VLAD向量 呢 78 forj=1,2,…,n 76 fori=1,2,…,N 74 y,=”+ug(x:-b) ……VLAD --Fisher编码 end 70 -e…SA VLAD GSC_VLAD end 68 16 32 64128 256512 %根据文献[17],对最终的VLAD向量进行能 视觉字典大小 量范数和L2范数归一化 图44种不同编码方法在l5 Scenes上的分类结果 fori=1,2,…,nd Fig.4 Performance comparison on the 15 Scenes v:=sign(v)va 从图4中可以看出,软分配的VLAD比原始的 end VLAD编码有显著的提升,当视觉字典的大小为512 V=V/Iv‖2 时,VLAD的分类正确率为76.66%,SA_VLAD和GSC _VLAD的分类正确率分别为80.18%和80.84%,有 4 实验结果与分析 4%~5%的提升。对比Fisher编码的78.66%的正确 本实验为了证明以下3点:1)软分配能提高 率,也有2%的提升。同时GSC_VLAD的分类正确率 VLAD的分类正确率,甚至对比Fisher编码在分类 在不同的视觉字典大小下均高于SA_VLAD,表1显 正确率上有一定的优越性:2)只有局部软分配才能 示了4种编码各自的最佳分类正确率。 有效提高分类正确率:3)除了软分配,显著性对提 表115 Scenes数据集上的最佳分类正确率 高分类正确率也起到了一定的作用。 Table 1 Best classification accuracy on 15 Scenes 本文在3个数据集(15 Scenest,Corel10 编码方法 分类正确率(字典大小) 和UIUC Sports Events0])上进行了实验。对于l5 VLAD 76.66±0.19(512) Scenes和Corel 10数据集,我们指定每张图片的最 Fisher编码 78.66±0.79(512) 大单边像素为300。UIUC Sports Events数据集中图 SA VLAD 80.18±0.34(512) 片的分辨率较高,因此指定每幅图片的最大单边像 GSC_VLAD 80.84±0.63(512) 素为400。我们采用Dense SIFT算法21]来提取每 2)Corel10。该数据集共有10个类别,每类共 幅图像的sf特征向量,采样的步长是6个像素,每 有100张图片,每张图片的平均尺寸为384×256。 个采样块的大小为16×16。采用K-means2聚类 本文从每类场景中随机选择50张图片作为训练集, 算法生成视觉字典。分类器采用Lib-linear 剩下的50张作为测试集。实验结果如图5所示。 SVM2),并指定SVM的惩罚系数为1。我们将数据 实验结果基本和I5 Scenes数据集上的结果类 集分为5组,每组随机生成训练样本和测试样本,最 似,从图4中可以看出,SA_VLAD和GSC_VLAD对 后的分类正确率是5组实验的平均值。对于式(9) 比原始的VLAD在分类正确率上有明显的提升,并
得到的 N 个局部特征, Bd×n = b1 b2 … bn [ ] 表 示视觉字典, uij 表示局部特征 xi 在视觉词汇 bj 上的 编码系数; 输出 VLAD 向量。 V = v T 1 v T 2 … v T n [ ] T V ∈ R nd ( ) % 初始化 for i = 1,2,…,n vi = 0d ,ui = 0n end %计算每个局部特征向量在各个视觉词汇上的 编码系数 for i = 1,2,…,N 根据式(9)或者式(11)或者式(15)计算相 应的 uij end %计算 VLAD 向量 for j = 1,2,…,n for i = 1,2,…,N vj = vj + uij xi - bj ( ) end end %根据文献[17],对最终的 VLAD 向量进行能 量范数和 L2 范数归一化 for i = 1,2,…,nd vi = sign vi ( ) vi α end V = V/ ‖V‖2 4 实验结果与分析 本实验为了证明以下 3 点:1) 软分配能提高 VLAD 的分类正确率,甚至对比 Fisher 编码在分类 正确率上有一定的优越性;2)只有局部软分配才能 有效提高分类正确率;3) 除了软分配,显著性对提 高分类正确率也起到了一定的作用。 本文在 3 个数据集(15 Scenes [18] 、Corel 10 [19] 和 UIUC Sports Events [20] ) 上进行了实验。 对于 15 Scenes 和 Corel 10 数据集,我们指定每张图片的最 大单边像素为 300。 UIUC Sports Events 数据集中图 片的分辨率较高,因此指定每幅图片的最大单边像 素为 400。 我们采用 Dense SIFT 算法[21] 来提取每 幅图像的 sift 特征向量,采样的步长是 6 个像素,每 个采样块的大小为 16 × 16。 采用 K⁃means [22] 聚类 算法 生 成 视 觉 字 典。 分 类 器 采 用 Lib⁃linear SVM [23] ,并指定 SVM 的惩罚系数为 1。 我们将数据 集分为 5 组,每组随机生成训练样本和测试样本,最 后的分类正确率是 5 组实验的平均值。 对于式(9) 中的 β 和 KSA ,分别设置其值为 10 和 10。 对于式 (11)中的 KGSC 设置其值为 10。 关于 KSA 和 KGSC 对 实验结果的影响,将在 4.2 节中详细讨论。 4.1 新的编码对比原始的 VLAD 和 Fisher 编码 将 4 种编码方法 SA_VLAD、GSC_VLAD、VLAD 和 Fisher 编码进行对比。 1)15 Scenes。 该数据集由 15 个场景类别构成, 总共 4 485 张图片。 每个类别都是相似场景图片的 一个集合,大约包含 200 ~ 400 张图片,每张图片的 平均尺寸为 300 × 250。 我们采用 Lazebnik 等[21]的 实验设置,从每类场景中随机选择 100 张图片作为 训练集,其余图片作为测试集。 分别在不同的视觉 字典大小下进行了实验,实验结果如图 4。 图 4 4 种不同编码方法在 15 Scenes 上的分类结果 Fig.4 Performance comparison on the 15 Scenes 从图 4 中可以看出,软分配的 VLAD 比原始的 VLAD 编码有显著的提升,当视觉字典的大小为 512 时,VLAD 的分类正确率为 76.66%,SA_VLAD 和 GSC _VLAD 的分类正确率分别为 80.18%和80.84%,有 4% ~5%的提升。 对比 Fisher 编码的 78.66%的正确 率,也有 2%的提升。 同时 GSC_VLAD 的分类正确率 在不同的视觉字典大小下均高于 SA_VLAD,表 1 显 示了 4 种编码各自的最佳分类正确率。 表 1 15 Scenes 数据集上的最佳分类正确率 Table 1 Best classification accuracy on 15 Scenes 编码方法 分类正确率(字典大小) VLAD 76.66±0.19(512) Fisher 编码 78.66±0.79(512) SA_VLAD 80.18±0.34(512) GSC_VLAD 80.84±0.63(512) 2)Corel 10。 该数据集共有 10 个类别,每类共 有 100 张图片,每张图片的平均尺寸为 384 × 256。 本文从每类场景中随机选择 50 张图片作为训练集, 剩下的 50 张作为测试集。 实验结果如图 5 所示。 实验结果基本和 15 Scenes 数据集上的结果类 似,从图 4 中可以看出,SA_VLAD 和 GSC_VLAD 对 比原始的 VLAD 在分类正确率上有明显的提升,并 第 2 期 费宇杰,等:一种局部聚合描述符和组显著编码相结合的编码方法 ·175·
·176 智能系统学报 第12卷 且对比Fisher编码有一定的可比性。值得注意的是 表3UUC数据集上的最佳分类正确率 GSC_VLAD的分类正确率在不同的视觉字典大小 Table 3 Best classification accuracy on UIUC 下还是均高于SA_VLAD。表2显示了4种编码各 编码方法 分类正确率(字典大小) 自的最佳分类正确率。 VLAD 80.96±1.61(512) Fisher编码 82.67±1.06(256) 92 SA_VLAD 84.13±1.15(256) 90 GSC_VLAD 85.33±1.22(128) 4.2算法中参数的影响 86 …。VLAD 这一节中,我们讨论式(9)和式(11)中的K 84 --Fisher编码 -SA VLAD 和Kc这两个参数对实验结果的影响。这两个参 ·-GSC VLAD 82 数表示有编码系数的视觉词汇的个数。实验中这两 16 32 64128 256 512 视觉字典大小 个参数都用K来表示,当视觉字典大小为128时,实 图54种不同编码方法在Coel10上的分类结果 验结果如图7所示。 Fig.5 Performance comparison on the Corel 10 81r 79 表2 Corel10数据集上的最佳分类正确率 78 Table 2 Best classification accuracy on Corel 10 77 编码方法 分类正确率(字典大小) 76 VLAD 88.36±1.05(512) 74 …。VLAD Fisher编码 89.44±0.95(256) 73 --SA VLAD 72 -GSC_VLAD 2 1020304050 SA VLAD 90.75±0.91(512) 有编码系数的视觉词汇个数 GSC VLAD 89.32±0.97(512) (a)15 Scenes 91 3)UIUC Sports Event。.该数据集包含8个类别, 90 总共1579张图片,每类大约有137~250张图片。 本文从每类中随机抽取70张图片作为训练集,从余 89 下的图片中随机抽取60张作为测试集。实验结果 88 如图6所示。 87 。VLAD --SA VLAD 86 86 GSC VLAD 85 84 2 5 1020304050 有编码系数的视觉词汇个数 82 44 (b)Corel 10 80 …。VLAD 78 --Fisher编码 0 a -=…SA VLAD 85 ·-GSC VLAD 76 民 16 32 64128256512 视觉字典大小 家 83 82 图64种不同编码方法在UUC上的分类结果 Fig.6 Performance comparison on the UIUC 80 VLAD 从图6中可以看出,随着视觉字典大小的增 9 -+-SA VLAD -·GSC VLAD 加,SA_VLAD和GSC_VLAD对比原始VLAD在 51020304050 分类正确率上有显著的增加,对比Fisher编码也 有编码系数的视觉词汇个数 有一定的优越性。与上两个实验相同,GSC (e)UIUC VLAD的分类正确率在不同字典大小下都超过了 图7参数K在不同数据集上的影响 SA_VLAD。表3显示了4种编码各自的最佳分 Fig.7 The effect of parameter K on different dataset 类正确率
且对比 Fisher 编码有一定的可比性。 值得注意的是 GSC_VLAD 的分类正确率在不同的视觉字典大小 下还是均高于 SA_VLAD。 表 2 显示了 4 种编码各 自的最佳分类正确率。 图 5 4 种不同编码方法在 Corel 10 上的分类结果 Fig.5 Performance comparison on the Corel 10 表 2 Corel10 数据集上的最佳分类正确率 Table 2 Best classification accuracy on Corel 10 编码方法 分类正确率(字典大小) VLAD 88.36±1.05(512) Fisher 编码 89.44±0.95(256) SA_VLAD 90.75±0.91(512) GSC_VLAD 89.32±0.97(512) 3)UIUC Sports Event。 该数据集包含 8 个类别, 总共 1 579 张图片,每类大约有 137 ~ 250 张图片。 本文从每类中随机抽取 70 张图片作为训练集,从余 下的图片中随机抽取 60 张作为测试集。 实验结果 如图 6 所示。 图 6 4 种不同编码方法在 UIUC 上的分类结果 Fig.6 Performance comparison on the UIUC 从图 6 中可以看出,随着视觉字典大小的增 加,SA_VLAD 和 GSC_VLAD 对比原始 VLAD 在 分类正确率上有显著的增加,对比 Fisher 编码也 有一 定 的 优 越 性。 与 上 两 个 实 验 相 同, GSC _ VLAD 的分类正确率在不同字典大小下都超过了 SA_VLAD。 表 3 显示了 4 种编码各自的最佳分 类正确率。 表 3 UIUC 数据集上的最佳分类正确率 Table 3 Best classification accuracy on UIUC 编码方法 分类正确率(字典大小) VLAD 80.96±1.61(512) Fisher 编码 82.67±1.06(256) SA_VLAD 84.13±1.15(256) GSC_VLAD 85.33±1.22(128) 4.2 算法中参数的影响 这一节中,我们讨论式(9) 和式(11) 中的 KSA 和 KGSC 这两个参数对实验结果的影响。 这两个参 数表示有编码系数的视觉词汇的个数。 实验中这两 个参数都用 K 来表示,当视觉字典大小为 128 时,实 验结果如图 7 所示。 (a) 15 Scenes (b)Corel 10 (c)UIUC 图 7 参数 K 在不同数据集上的影响 Fig.7 The effect of parameter K on different dataset ·176· 智 能 系 统 学 报 第 12 卷
第2期 费宇杰,等:一种局部聚合描述符和组显著编码相结合的编码方法 177. 图8中,我们加人了原始的VLAD以便比较。 有一定的提升。当视觉字典的大小是128时,在15 从图中可以看到随着K的递增,SA_VLAD和GSC Scenes数据集上,VLAD的分类正确率是75.52± VLAD的分类正确率逐渐减小,只有在K较小时才 0.61%,SaC_VLAD的分类正确率是76.47±0.33%。 能达到比较高的分类正确率。这说明了并不是响应 在Core10数据集上,VLAD的分类正确率是87.36± 局部特征的视觉词汇越多越好,只有局部的软分配 1.28%,SaC_VLAD的分类正确率是89.12±1.11%。 才能有效地提升VLAD的分类正确率。 在UIUC数据集上,VLAD的分类正确率是80.67± 781 1.50%,SaC_VLAD的分类正确率是83.63±1.76%。 7 实验结果证明,在VLAD中加入显著性能提高原始 VLAD的分类正确率。 73 5结束语 71 本文提出的GSC_VLAD编码方法能对原始的 70 ……VLAD --GSC VLAD 69 VLAD在分类正确率上带来有效的提升,同时对比 16 32 64128 25652 视觉字典大小 Fisher编码也有一定的优越性。这种提升的原因 是:1)在VLAD中加入了局部的软分配,解决了原 (a)15 Scenes 始VLAD中硬分配难以准确描述局部特征向量与视 91 90 觉词汇隶属关系的问题:2)显著性编码考虑了不同 视觉词汇之间潜在的联系,对提升分类效果也起到 88 了一定的作用。 在实验的过程中,我们发现新的编码方法在图像 85 有噪声的情况下分类效果要好于原始的VLAD,但是 SCVLAD 正确率对比没有噪声时下降得很厉害,因此如何提升 16 32 64128256512 新的编码方法的鲁棒性将是未来的研究重点。 视觉字典大小 (b)Corel 10 参考文献: 84 [1]COLLINS R T,LIPTON A J,KANADE T,et al.A system for video surveillance and monitoring R].CMU-RITR-00- 12.Pittsburgh,Penn:Carnegie Mellon University,2000. [2]VAILAYA A,FIGUEIREDO M A T,JAIN A K,et al.Im- age classification for content-based indexing [J].IEEE transactions on image processing,2001,10(1):117-130. 79 …●VLAD --GSC VLAD [3]KOSALA R,BLOCKEEL H.Web mining research:a sur- 16 3264 128256512 vey[J].ACM SIGKDD explorations newsletter,2000,2 视觉字典大小 (1):1-15. (e)UIUC [4]JOACHIMS T.Text categorization with support vector ma- 图8显著性对实验结果的影响 chines:learning with many relevant features[C]//Proceed- Fig.8 The effect of saliency ings of the 10th European Conference on Machine Learning. 3.3显著性对结果的影响 Berlin Heidelberg:Springer,1998. 根据上面两节的介绍,我们发现GSC_VLAD的 [5]DANCE C,WILLAMOWSKI J,FAN Lixin,et al.Visual 分类效果要略好于SA_VLAD,我们认为这是显著性 categorization with bags of keypoints[C]//Proceedings of ECCV International Workshop on Statistical Learning in 带来的影响,因为显著性考虑了不同视觉词汇间的 Computer Vision.Prague,CZ,2004. 联系。为了排除软分配对实验结果的影响,我们用 [6]HUANG Yongzhen,WU Zifeng,WANG Liang,et al.Fea- 新的编码算法SaC_VLAD与VLAD编码进行比较。 ture coding in image classification:a comprehensive study 图7是视觉字典大小不同时,SaC_VLAD算法在3 [J.IEEE transactions on pattern analysis and machine in- 个数据集上的结果。 telligence,2014,36(3):493-506. 对比原始的VLAD,SaC VLAD对分类正确率 [7]VAN GEMERT J C,VEENMAN C J,SMEULDERS A W
图 8 中,我们加入了原始的 VLAD 以便比较。 从图中可以看到随着 K 的递增,SA_VLAD 和 GSC_ VLAD 的分类正确率逐渐减小,只有在 K 较小时才 能达到比较高的分类正确率。 这说明了并不是响应 局部特征的视觉词汇越多越好,只有局部的软分配 才能有效地提升 VLAD 的分类正确率。 (a) 15 Scenes (b)Corel 10 (c)UIUC 图 8 显著性对实验结果的影响 Fig.8 The effect of saliency 3.3 显著性对结果的影响 根据上面两节的介绍,我们发现 GSC_VLAD 的 分类效果要略好于 SA_VLAD,我们认为这是显著性 带来的影响,因为显著性考虑了不同视觉词汇间的 联系。 为了排除软分配对实验结果的影响,我们用 新的编码算法 SaC_VLAD 与 VLAD 编码进行比较。 图 7 是视觉字典大小不同时,SaC_VLAD 算法在 3 个数据集上的结果。 对比原始的 VLAD,SaC_VLAD 对分类正确率 有一定的提升。 当视觉字典的大小是 128 时,在 15 Scenes 数据集上,VLAD 的分类正确率是 75. 52 ± 0.61%,SaC_VLAD 的分类正确率是 76.47±0.33%。 在 Core 10 数据集上,VLAD 的分类正确率是 87.36± 1.28%,SaC_VLAD 的分类正确率是 89.12±1.11%。 在 UIUC 数据集上,VLAD 的分类正确率是 80.67± 1.50%,SaC_VLAD 的分类正确率是 83.63±1.76%。 实验结果证明,在 VLAD 中加入显著性能提高原始 VLAD 的分类正确率。 5 结束语 本文提出的 GSC_VLAD 编码方法能对原始的 VLAD 在分类正确率上带来有效的提升,同时对比 Fisher 编码也有一定的优越性。 这种提升的原因 是:1)在 VLAD 中加入了局部的软分配,解决了原 始 VLAD 中硬分配难以准确描述局部特征向量与视 觉词汇隶属关系的问题;2)显著性编码考虑了不同 视觉词汇之间潜在的联系,对提升分类效果也起到 了一定的作用。 在实验的过程中,我们发现新的编码方法在图像 有噪声的情况下分类效果要好于原始的 VLAD,但是 正确率对比没有噪声时下降得很厉害,因此如何提升 新的编码方法的鲁棒性将是未来的研究重点。 参考文献: [1]COLLINS R T, LIPTON A J, KANADE T, et al. A system for video surveillance and monitoring[R]. CMU⁃RITR⁃00⁃ 12. Pittsburgh, Penn: Carnegie Mellon University, 2000. [2]VAILAYA A, FIGUEIREDO M A T, JAIN A K, et al. Im⁃ age classification for content⁃based indexing [ J ]. IEEE transactions on image processing, 2001, 10(1): 117-130. [3]KOSALA R, BLOCKEEL H. Web mining research: a sur⁃ vey[ J]. ACM SIGKDD explorations newsletter, 2000, 2 (1): 1-15. [4] JOACHIMS T. Text categorization with support vector ma⁃ chines: learning with many relevant features[C] / / Proceed⁃ ings of the 10th European Conference on Machine Learning. Berlin Heidelberg: Springer, 1998. [5] DANCE C, WILLAMOWSKI J, FAN Lixin, et al. Visual categorization with bags of keypoints [ C] / / Proceedings of ECCV International Workshop on Statistical Learning in Computer Vision. Prague, CZ, 2004. [6]HUANG Yongzhen, WU Zifeng, WANG Liang, et al. Fea⁃ ture coding in image classification: a comprehensive study [J]. IEEE transactions on pattern analysis and machine in⁃ telligence, 2014, 36(3): 493-506. [7]VAN GEMERT J C, VEENMAN C J, SMEULDERS A W 第 2 期 费宇杰,等:一种局部聚合描述符和组显著编码相结合的编码方法 ·177·
·178 智能系统学报 第12卷 M,et al.Visual word ambiguity[J].IEEE transactions on [16]LIU Linggiao,WANG Lei,Liu Xinwang.In defense of pattern analysis and machine intelligenc,2010,32(7): soft-assignment coding C]//Proceedings of 2011 IEEE 1271-1283. International Conference on Computer Vision.Barcelona: [8]VAN GEMERT J C,GEUSEBROEK J M,VEENMAN C J, IEEE,2011. et al.Kernel codebooks for scene categorization[C]//Pro- [17]PERRONNIN F,SANCHEZ J,MENSINK T.Improving ceedings of the European Conference on Computer Vision. the fisher kemel for large-scale image classification[C]/ Berlin Heidelberg:Springer,2008:696-709. Proceedings of the 11th European Conference on Computer [9]YANG Jianchao,YU Kai,GONG Yihong,et al.Linear Vision.Berlin Heidelberg:Springer,2010:143-156. spatial pyramid matching using sparse coding for image [18]LI FF,PERONA P.A Bayesian hierarchical model for classification[C]//Proceedings of 2009 IEEE Conference learning natural scene categories [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recog- on Computer Vision and Pattern Recognition.Miami,FL: nition.IEEE Computer Society,2005:524-531. EEE,2009:1794-1801. [19]LI Jia,WANG J Z.Automatic linguistic indexing of pic- [10]WANG Jinjun,YANG Jianchao,YU Kai,et al.Locality- tures by a statistical modeling approach[J].IEEE transac- constrained linear coding for image classification C// tions on pattern analysis and machine intelligence,2003, Proceedings of 2010 IEEE Conference on Computer Vision 25(9):1075-1088. and Pattern Recognition.San Francisco,CA:IEEE, [20]LI Lijia,LI Feifei.What,where and who?Classifying e- 2010:3360-3367. vents by scene and object recognition[C]//Proceedings of [11]PERRONNIN F,DANCE C.Fisher kemels on visual vo- the 11th International Conference on Computer Vision.Rio cabularies for image categorization [C]//Proceedings of de Janeiro:IEEE,2007:1-8. 2007 IEEE Conference on Computer Vision and Pattern [21]LAZEBNIK S,SCHMID C,PONCE J.Beyond bags of fea- Recognition.Minneapolis,MN:IEEE,2007. tures:spatial pyramid matching for recognizing natural [12]ZHOU Xi,YU Kai,ZHANG Tong,et al.Image classifica- scene categories[C]//Proceedings of 2006 IEEE Comput- tion using super-vector coding of local image descriptors er Society Conference on Computer Vision and Pattern [C]//Proceedings of the 11th European Conference on Recognition.New York,NY,USA:IEEE,2006:2169- Computer Vision.Berlin Heidelberg:Springer,2010:141 2178. -154. [22]LLOYD S.Least squares quantization in PCM[J].IEEE [13]JEGOU H,DOUZE M,SCHMID C,et al.Aggregating lo- transactions on information theory,1982,28(2):129- 137 cal descriptors into a compact image representation[C] 作者简介: Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA:IEEE, 费宇杰,男,1992年生,硕士研究 2010:3304-3311 生,主要研究方向为图像分类、特征 [14]HUANG Yongzhen,HUANG Kaigi,YU Yinan,et al.Sa- 编码。 lient coding for image classification[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI:IEEE,2011. 吴小俊,男,1967年生,教授,主要 [15 WU Zifeng,HUANG Yongzhen,WANG Liang,et al. 研究方向为模式识别,计算机视觉,模 Group encoding of local features in image classification 糊系统,神经网络,智能系统。 [C]//Proceedings of the 21st International Conference on Pattern Recognition.Tsukuba:IEEE,2012
M, et al. Visual word ambiguity[ J]. IEEE transactions on pattern analysis and machine intelligenc, 2010, 32 ( 7): 1271-1283. [8]VAN GEMERT J C, GEUSEBROEK J M, VEENMAN C J, et al. Kernel codebooks for scene categorization[C] / / Pro⁃ ceedings of the European Conference on Computer Vision. Berlin Heidelberg: Springer, 2008: 696-709. [9] YANG Jianchao, YU Kai, GONG Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification[ C] / / Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 1794-1801. [10]WANG Jinjun, YANG Jianchao, YU Kai, et al. Locality⁃ constrained linear coding for image classification [ C] / / Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 3360-3367. [11] PERRONNIN F, DANCE C. Fisher kernels on visual vo⁃ cabularies for image categorization [ C] / / Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN: IEEE, 2007. [12]ZHOU Xi, YU Kai, ZHANG Tong, et al. Image classifica⁃ tion using super⁃vector coding of local image descriptors [C] / / Proceedings of the 11th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2010: 141 -154. [13]JÉGOU H, DOUZE M, SCHMID C, et al. Aggregating lo⁃ cal descriptors into a compact image representation[C] / / Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 3304-3311 [14]HUANG Yongzhen, HUANG Kaiqi, YU Yinan, et al. Sa⁃ lient coding for image classification [ C] / / Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011. [15] WU Zifeng, HUANG Yongzhen, WANG Liang, et al. Group encoding of local features in image classification [C] / / Proceedings of the 21st International Conference on Pattern Recognition. Tsukuba: IEEE, 2012. [16] LIU Lingqiao, WANG Lei, Liu Xinwang. In defense of soft⁃assignment coding [ C] / / Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011. [17] PERRONNIN F, SANCHEZ J, MENSINK T. Improving the fisher kernel for large⁃scale image classification[C] / / Proceedings of the 11th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2010: 143-156. [18] LI F F, PERONA P. A Bayesian hierarchical model for learning natural scene categories [ C] / / IEEE Computer Society Conference on Computer Vision and Pattern Recog⁃ nition. IEEE Computer Society, 2005: 524-531. [19]LI Jia, WANG J Z. Automatic linguistic indexing of pic⁃ tures by a statistical modeling approach[J]. IEEE transac⁃ tions on pattern analysis and machine intelligence, 2003, 25(9): 1075-1088. [20]LI Lijia, LI Feifei. What, where and who? Classifying e⁃ vents by scene and object recognition[C] / / Proceedings of the 11th International Conference on Computer Vision. Rio de Janeiro: IEEE, 2007: 1-8. [21]LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of fea⁃ tures: spatial pyramid matching for recognizing natural scene categories[C] / / Proceedings of 2006 IEEE Comput⁃ er Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA: IEEE, 2006: 2169- 2178. [22]LLOYD S. Least squares quantization in PCM[ J]. IEEE transactions on information theory, 1982, 28 ( 2): 129 - 137. 作者简介: 费宇杰,男,1992 年生,硕士研究 生,主要研究方向为图像分类、特征 编码。 吴小俊,男,1967 年生,教授,主要 研究方向为模式识别,计算机视觉,模 糊系统,神经网络,智能系统。 ·178· 智 能 系 统 学 报 第 12 卷