第11卷第3期 智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603028 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20160513.0926.030.html 基于卷积神经网络和哈希编码的图像检索方法 龚震霆2,陈光喜12,任夏荔12,曹建收12 (1柱林电子科技大学计算机与信息安全学院,广西桂林541004:2.广西高校图像图形智能处理重点实验室,广西 桂林541004) 摘要:在图像检索中,传统的基于人工特征的检索方法并不能取得很好的效果。为此提出一种结合卷积神经网络 和以前最好水准的哈希编码策略的图像检索方法。鉴于近几年卷积神经网络在大量的计算机视觉任务上的巨大进 步,该方法首先使用在ILSVRC数据集上预训练过的VGGNet--D网络模型对实验图像数据集提取卷积特征来得到图 像的深层表示,再采用以前最好水准的哈希策略将这些深层表示进行编码,从而得到图像的二进制码,最后再进行 快速图像检索。在两个常用的数据集Caltech101和Caltech256上的实验结果表明,本文方法的5个策略相比于以前 最好水准的相应的图像检索策略在“精度-召回率”和“平均正确率值-编码位数”两个指标上能获得更优异的性能, 证明了本文方法在图像检索上的有效性。 关键词:图像检索;人工特征:卷积神经网络:卷积特征:哈希编码 中图分类号:TP391文献标志码:A文章编号:1673-4785(2016)03-0391-10 中文引用格式:龚震霆,陈光喜,任夏荔,等.基于卷积神经网络和哈希编码的图像检索方法[J].智能系统学报,2016,11(3):391- 400. 英文引用格式:GONG Zhenting,CHEN Guangxi,REN Xiali,etal.An image retrieval method based on a convolutional neural net- work and hash coding[J].CAAI transactions on intelligent Systems,2016,11(3):391-400. An image retrieval method based on a convolutional neural network and hash coding GONG Zhenting'2,CHEN Guangxi'2,REN Xiali',CAO Jianshou'2 (1.School of Computer and Information Security,Guilin University of Electronic Technology,Guilin 541004,China;2.Guangxi Colle- ges and Universities Key Laboratory of Intelligent Processing of Computer Images and Graphics,Guilin 541004,China) Abstract:For image retrieval,traditional retrieval methods based on artificial features are not effective enough. Hence,we propose an image retrieval method,which combines a convolutional neural network and previous state- of-the-art hash coding strategies.In view of the great progress that convolutional neural networks have made in a large number of computer vision tasks in recent years,this method first uses the model "VGGNet-D"pre-trained on the ILSVRC's dataset to extract the convolutional features from experimental image datasets to get the deep repre- sentations of images,then adopts previous state-of-the-art hash coding strategies to encode the deep representations to obtain the binary codes,and,finally,performs a quick image retrieval.The experimental results on the common- ly used Caltech101 and Caltech256 datasets show that this method's five strategies,compared with the previous state-of-the-art image retrieval strategies,can obtain better,indeed excellent,performance in both the "Precision- Recall"and "mean Average Precision-Number of bits"metrics,proving the effectiveness of the proposed method in image retrieval. Keywords:image retrieval;artificial features;convolutional neural network;convolutional features;hash coding 基于内容的图像检索是通过对图像内容的分析 收稿日期:2016-03-17.网络出版日期:2016-05-13. 基金项目:国家自然科学基金项目(61462018):广西学位与研究生教育 来搜索相似的图像,近些年一直被多媒体研究者广 改革和发展专项课题(JGY2014060):广西数字传播与文化软 泛地研究。随着该研究领域的发展,虽然出现了许 实力中心开放项目(ZFZD1408008):广西高校图像图形智能 处理重点实验室开放基金项目(LD15042X). 多新技术,但由于机器获得的低水平图像像素和人 通信作者:龚震霆.E-mail:gongxs7@163.com
第 11 卷第 3 期 智 能 系 统 学 报 Vol.11 №.3 2016 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2016 DOI:10.11992 / tis.201603028 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160513.0926.030.html 基于卷积神经网络和哈希编码的图像检索方法 龚震霆1,2 ,陈光喜1,2 ,任夏荔1,2 ,曹建收1,2 (1.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541004; 2.广西高校图像图形智能处理重点实验室,广西 桂林 541004) 摘 要:在图像检索中,传统的基于人工特征的检索方法并不能取得很好的效果。 为此提出一种结合卷积神经网络 和以前最好水准的哈希编码策略的图像检索方法。 鉴于近几年卷积神经网络在大量的计算机视觉任务上的巨大进 步,该方法首先使用在 ILSVRC 数据集上预训练过的 VGGNet-D 网络模型对实验图像数据集提取卷积特征来得到图 像的深层表示,再采用以前最好水准的哈希策略将这些深层表示进行编码,从而得到图像的二进制码,最后再进行 快速图像检索。 在两个常用的数据集 Caltech101 和 Caltech256 上的实验结果表明,本文方法的 5 个策略相比于以前 最好水准的相应的图像检索策略在“精度-召回率”和“平均正确率值-编码位数”两个指标上能获得更优异的性能, 证明了本文方法在图像检索上的有效性。 关键词:图像检索;人工特征;卷积神经网络;卷积特征;哈希编码 中图分类号:TP391 文献标志码:A 文章编号:1673⁃4785(2016)03⁃0391⁃10 中文引用格式:龚震霆,陈光喜,任夏荔,等.基于卷积神经网络和哈希编码的图像检索方法[ J]. 智能系统学报, 2016, 11(3): 391⁃ 400. 英文引用格式:GONG Zhenting,CHEN Guangxi,REN Xiali,et al. An image retrieval method based on a convolutional neural net⁃ work and hash coding[J]. CAAI transactions on intelligent Systems, 2016,11(3): 391⁃400. An image retrieval method based on a convolutional neural network and hash coding GONG Zhenting 1,2 , CHEN Guangxi 1,2 , REN Xiali 1,2 , CAO Jianshou 1,2 (1.School of Computer and Information Security,Guilin University of Electronic Technology,Guilin 541004, China; 2. Guangxi Colle⁃ ges and Universities Key Laboratory of Intelligent Processing of Computer Images and Graphics, Guilin 541004, China) Abstract:For image retrieval, traditional retrieval methods based on artificial features are not effective enough. Hence, we propose an image retrieval method, which combines a convolutional neural network and previous state⁃ of⁃the⁃art hash coding strategies. In view of the great progress that convolutional neural networks have made in a large number of computer vision tasks in recent years, this method first uses the model "VGGNet⁃D" pre⁃trained on the ILSVRC′s dataset to extract the convolutional features from experimental image datasets to get the deep repre⁃ sentations of images, then adopts previous state⁃of⁃the⁃art hash coding strategies to encode the deep representations to obtain the binary codes, and, finally, performs a quick image retrieval. The experimental results on the common⁃ ly used Caltech101 and Caltech256 datasets show that this method′s five strategies, compared with the previous state⁃of⁃the⁃art image retrieval strategies, can obtain better, indeed excellent, performance in both the " Precision⁃ Recall" and " mean Average Precision⁃Number of bits" metrics, proving the effectiveness of the proposed method in image retrieval. Keywords:image retrieval; artificial features; convolutional neural network; convolutional features;hash coding 收稿日期:2016⁃03⁃17. 网络出版日期:2016⁃05⁃13. 基金项目:国家自然科学基金项目(61462018);广西学位与研究生教育 改革和发展专项课题(JGY2014060);广西数字传播与文化软 实力中心开放项目(ZFZD1408008);广西高校图像图形智能 处理重点实验室开放基金项目(LD15042X). 通信作者:龚震霆.E⁃mail:gongxs7@ 163.com. 基于内容的图像检索是通过对图像内容的分析 来搜索相似的图像,近些年一直被多媒体研究者广 泛地研究。 随着该研究领域的发展,虽然出现了许 多新技术,但由于机器获得的低水平图像像素和人
·392· 智能系统学报 第11卷 类接受的高水平语义概念之间存在语义鸿沟问题, 是另外一个具有代表性的方法,其利用非线性函数 因此在当前基于内容的图像检索研究中从人类的感 沿着数据的主成分分析(principal component analy- 知方面把像素水平的信息和语义信息联系起来仍然 sis,PCA)方向通过设定阈值来产生二进制编码。 是最具有挑战的问题。近些年,研究者们使用 之后,大量的研究证明,使用监督信息可以提高 了一些人工视觉特征去表示图像3,但基于这些 哈希编码的学习性能。特别的,文献[14,16,18]在 人工特征的图像检索方法的性能一直不是很好。 学习中利用数据的标签信息来生成有效的哈希 这些挑战来源于人工智能的根本难题。而机器 函数。 学习是一个很有前景的技术,可以解决这个长期的 但是,图像检索中的这些哈希方法都是首先对 挑战。深度学习作为机器学习发展的一个分支,其 图像提取人工视觉特征,而人工特征不需要获得图 动机在于建立模拟人脑进行分析学习的神经网络, 像的相似性,因此这通常可能影响这些哈希方法的 通过组合低层特征形成更加抽象的高层特征,模仿 效果,从而降低了图像检索的性能。 人脑的机制来解释数据,如图像、声音、信号和文本, 随着2012年Alex等f19的CNN模型在ILSVRC 近些年已得到广泛应用s) 数据集上训练120万数量的带标签图像获得了更高 卷积神经网络(convolutional neural network, 的图像分类准确率,最近几年深度卷积特征得到广 CNN)是人工神经网络的一种,由于它的权值共享结 泛研究,并在计算机视觉工作上取得了很大的突 构和生物神经网络更类似,可以减少权值的数量,从 破[20-23]。2014年,Xia等2提出一种监督哈希方法 而降低网络模型的复杂度,现已成为深度学习中的 CNNH和CNNH+,该方法首先把训练图像数据成对 一个研究热点。目前,CNN已经应用到视频中的人 的语义相似度矩阵因式分解成近似哈希编码,然后 体动作识别信号重构、人脸等目标检测识别、图像分 利用这些近似哈希编码和图像标签训练一个深度卷 类等各个领域[8 积网络,取得了更好的性能,但是,CNNH和CNNH+ 鉴于CNN的这些进步,我们可以在图像检索中 中的矩阵分解会带来额外的错误,使得训练目标偏 利用它的优点来提高检索性能。 离。2015年,Guo等2]提出一种直接基于CNN的 哈希方法CNNBH,利用阈值O把一个全连接层的激 1 相关工作 活值二值化为二进制结果,从而得到哈希编码。同 最近邻搜索是机器学习算法的一个基本步骤。 时,文献[26]提出一种简单但是非常有效的深度学 近些年,网上可使用的数据快速增加,而且数据很容 习框架,该框架在文献[19]的深度CNN模型基础 易就达到几百或几千维度,因此,在这样一个巨大的 上添加一个隐藏层来同时学习特定领域的图像特征 数据集上进行穷极线性搜索是不可行的。但是,在 表示和一组类哈希函数,并取得了最好的检索性能。 一些应用中,寻找近似最近邻(approximate nearest 如今这些优秀的基于CNN的检索方法虽然获 neighbor,ANN)却是十分有效的,其中基于树的方法 得了巨大的进展,但是它们并没有把以前最好水准 和哈希方法是两个流行的框架。而哈希方法由于在 的哈希编码策略联系起来。 速度和存储方面的优势,它作为一种ANN方法广泛 2CNN和哈希编码相结合的方法 用于大规模图像的检索中。哈希学习是学习一种保 持图像相似性的紧密位表示,使得相似的图像能够 在图像检索中,如果开始对图像提取的特征不 匹配到相近的二进制哈希编码。 出色的话,那么后面采用很高水准的哈希编码策略 目前,主要流行一些非监督和监督的哈希方 进行编码检索也不一定能取得很好的效果。因此 法[121]。非监督的哈希方法使用非标签数据来学 本文提出一种CNN和以前最好水准的哈希策略相 习一组哈希函数[213,)]。其中,最具有代表性的是 结合的方法。我们采用文献[28]在MAGENET 使用随机映射构造哈希函数的局部感知哈希(local- Large-scale visual recognition challenge IISVRC ity sensitive Hashing,LSH)2],它意在把相似的数据 据集上预训练过的VGGNet-D网络模型对目标图像 匹配到相近的二进制编码的概率最大化。然而, 集进行特征提取,获得图像的深层卷积特征表示,然 LSH通常需要使用较长的哈希编码才能达到令人满 后对这些表示分别采用LSH]、SH)、SKLSHI51 意的精度,这导致了较大的存储空间需求和召回率 ITO!6]、PCA-RR[I6]、DSH18]6种哈希编码策略进行 普遍偏低的问题。谱哈希(spectral Hashing,SH)[] 编码得到哈希码,最后进行快速检索。将这些结合
类接受的高水平语义概念之间存在语义鸿沟问题, 因此在当前基于内容的图像检索研究中从人类的感 知方面把像素水平的信息和语义信息联系起来仍然 是最具有挑战的问题[1⁃2] 。 近些年,研究者们使用 了一些人工视觉特征去表示图像[3⁃4] ,但基于这些 人工特征的图像检索方法的性能一直不是很好。 这些挑战来源于人工智能的根本难题。 而机器 学习是一个很有前景的技术,可以解决这个长期的 挑战。 深度学习作为机器学习发展的一个分支,其 动机在于建立模拟人脑进行分析学习的神经网络, 通过组合低层特征形成更加抽象的高层特征,模仿 人脑的机制来解释数据,如图像、声音、信号和文本, 近些年已得到广泛应用[5⁃7] 。 卷积 神 经 网 络 ( convolutional neural network, CNN)是人工神经网络的一种,由于它的权值共享结 构和生物神经网络更类似,可以减少权值的数量,从 而降低网络模型的复杂度,现已成为深度学习中的 一个研究热点。 目前,CNN 已经应用到视频中的人 体动作识别信号重构、人脸等目标检测识别、图像分 类等各个领域[8⁃11] 。 鉴于 CNN 的这些进步,我们可以在图像检索中 利用它的优点来提高检索性能。 1 相关工作 最近邻搜索是机器学习算法的一个基本步骤。 近些年,网上可使用的数据快速增加,而且数据很容 易就达到几百或几千维度,因此,在这样一个巨大的 数据集上进行穷极线性搜索是不可行的。 但是,在 一些应用中,寻找近似最近邻( approximate nearest neighbor,ANN)却是十分有效的,其中基于树的方法 和哈希方法是两个流行的框架。 而哈希方法由于在 速度和存储方面的优势,它作为一种 ANN 方法广泛 用于大规模图像的检索中。 哈希学习是学习一种保 持图像相似性的紧密位表示,使得相似的图像能够 匹配到相近的二进制哈希编码。 目前,主要流行一些非监督和监督的哈希方 法[12⁃18] 。 非监督的哈希方法使用非标签数据来学 习一组哈希函数[12⁃13,17] 。 其中,最具有代表性的是 使用随机映射构造哈希函数的局部感知哈希(local⁃ ity sensitive Hashing,LSH) [12] ,它意在把相似的数据 匹配到相近的二进制编码的概率最大化。 然而, LSH 通常需要使用较长的哈希编码才能达到令人满 意的精度,这导致了较大的存储空间需求和召回率 普遍偏低的问题。 谱哈希(spectral Hashing,SH) [13] 是另外一个具有代表性的方法,其利用非线性函数 沿着数据的主成分分析( principal component analy⁃ sis,PCA)方向通过设定阈值来产生二进制编码。 之后,大量的研究证明,使用监督信息可以提高 哈希编码的学习性能。 特别的,文献[14,16,18]在 学习中利用数据的标签信息来生成有效的哈希 函数。 但是,图像检索中的这些哈希方法都是首先对 图像提取人工视觉特征,而人工特征不需要获得图 像的相似性,因此这通常可能影响这些哈希方法的 效果,从而降低了图像检索的性能。 随着 2012 年 Alex 等[19]的 CNN 模型在 ILSVRC 数据集上训练 120 万数量的带标签图像获得了更高 的图像分类准确率,最近几年深度卷积特征得到广 泛研究,并在计算机视觉工作上取得了很大的突 破[20⁃23] 。 2014 年,Xia 等[24]提出一种监督哈希方法 CNNH 和 CNNH+,该方法首先把训练图像数据成对 的语义相似度矩阵因式分解成近似哈希编码,然后 利用这些近似哈希编码和图像标签训练一个深度卷 积网络,取得了更好的性能,但是,CNNH 和 CNNH+ 中的矩阵分解会带来额外的错误,使得训练目标偏 离。 2015 年,Guo 等[25] 提出一种直接基于 CNN 的 哈希方法 CNNBH,利用阈值 0 把一个全连接层的激 活值二值化为二进制结果,从而得到哈希编码。 同 时,文献[26]提出一种简单但是非常有效的深度学 习框架,该框架在文献[19] 的深度 CNN 模型基础 上添加一个隐藏层来同时学习特定领域的图像特征 表示和一组类哈希函数,并取得了最好的检索性能。 如今这些优秀的基于 CNN 的检索方法虽然获 得了巨大的进展,但是它们并没有把以前最好水准 的哈希编码策略联系起来。 2 CNN 和哈希编码相结合的方法 在图像检索中,如果开始对图像提取的特征不 出色的话,那么后面采用很高水准的哈希编码策略 进行编码检索也不一定能取得很好的效果。 因此, 本文提出一种 CNN 和以前最好水准的哈希策略相 结合的方法。 我们采用文献 [ 28] 在 IMAGENET Large⁃scale visual recognition challenge ( ILSVRC) 数 据集上预训练过的 VGGNet⁃D 网络模型对目标图像 集进行特征提取,获得图像的深层卷积特征表示,然 后对这些表示分别采用 LSH [12] 、SH [13] 、SKLSH [15] 、 ITQ [16] 、PCA⁃RR [16] 、DSH [18] 6 种哈希编码策略进行 编码得到哈希码,最后进行快速检索。 将这些结合 ·392· 智 能 系 统 学 报 第 11 卷
第3期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·393. 策略分别命名为LSH-VC、SH-VC、SKLSH-VC、TQ- 2.2 VGGNet-D模型的训练学习 VC、PCA-RR-VC和DSH-VC。 和文献[I9]一致,VGGNet-D网络模型使用批 2.1 VGGNet-D网络模型 量梯度下降法在ILSVRC数据集上进行训练学习: 最近几年,CNN模型在一些目标检测和图像识 使用的超参数:批量大小、动量、权重衰减的L,惩罚 别中已经获得了令人印象深刻的结果。文献[28] 系数、dropout比率和初始学习率分别设置为256 使用很小卷积核的网络架构,对增加深度进行了全 0.9、0.0005、0.5和0.01,而学习率在验证准确率停 面的评估:实验表明,把网络的卷积层深度增加到 止增加时减小为原来值的十分之一:网络的每一层 16~19层时可以显著提升性能,设计的网络在ma- 的权重由均值为0和方差为0.01的高斯分布来初 geNet Challenge2014的定位和分类项目上分别获得 始化。具体的,该模型的训练学习是最小化其整体代 了第一名和第二名的成绩。此外,文献[28]的模型 价函数。这里假定有一组数量为m的训练样本集 特征对许多不同的计算机视觉任务和数据集有很强 {(x0,y0),…,(x),y))},对于整体样本, 的泛化能力,能够相比或者超过建立在较浅图像特 网络整体代价函数可表示为式(1): 征上的更复杂的识别方法。 (W,b) 本文选用文献[28]中优异的VGGNet-D网络模 [2w)-o] 型。VGGNet-D的结构及每层参数设置如表l。 表1 VGGNet--D网络模型结构及参数 (1) Tablel VGGNet-D model's structure and parameters 式中:h6(x)是神经网络模型,WD是第1层第j conv1 conv2 conv3 conv4 单元与第l+1层第i单元之间的连接权重,b是隐藏 64×3×3 128×3×3 128×3×3 层神经元的偏置项:式(1)右边是一个减小权重幅 64×3×3 st.1,pad1×st.1,pad1 st.1,pad1× 度的规则化项,可以起到防止过拟合的作用,入来调 st.1,pad I 2 pooling 3 pooling 整代价函数中前后两项的相对重要性。求解式(1) conv5 conv6 conv7 conv8 最小值采用著名的批量梯度下降法最优化算法,而 计算J(W,b)对W和b的偏导数时,使用反向传导 256×3×3 256×3×3 256×3×3 512×3×3 算法。 st.1,pad 1 st.1,pad 1 st.1,padl× st.1,pad I 2 pooling 2.3本文策略和以前最好水准的哈希策略 针对图像检索中重要的哈希编码部分,下面我 conv9 conv10 convll conv12 们介绍本文方法的6种策略的核心技术。 512×3×3 512×3×3 512×3×3 512×3×3 1)LSH-VC:和LSH)一样,首先使用高斯随机 st.1,pad 1x st.1,pad 1 st.1,pad 1 st.1,pad 1 矩阵将实数输入空间R中的数据点随机映射到一 2 pooling 个R空间中,其中t是一个很小的超常量,接着使 conv13 FC14 FC15 FC16 用球分割方法把这个t维实数空间分割成多个单 512×3×3 4096×7×7 4096×1×1 1000×1×1 元,然后用哈希函数返回含有数据映射点的球单元 st.1,pad1× dropout dropout softmax 的索引,度量标准选用,范数。 2 pooling 2)SH-VC:和SH)一样,基于量化沿着数据 VGGNet-D模型由13卷积层(convI~13)和3 PCA方向计算得到的解析特征函数值。 个全连接层(FC14~16)构成。表1中,卷积层的第 假设数据集中样本点x:,x属于输人特征空间 一行参数表示卷积滤波器的数量和局部感受野的大 R,{y表示n个样本点的长度为k的哈希码,W 小;“st”表示卷积的步幅,“pad”表示空间填充:“x2 是一个关联矩阵,由于输入空间数据之间的欧式距离 pooling”表示max-pooling下采样。接着,FCl4和 和相似度相关,那么输入特征空间用高斯核度量相似 FCl5使用dropout!19]方法来调整某些隐含层节点的 度W(i)=exp(-lx,-x,2/e2),参数e规定空间 权重不工作,最后的FCl6是多路softmax分类器。 R中相似数据的距离,相似的近邻间的平均汉明距 其中,VGGNet--D的激活函数使用矫正线性单元 rectification linear unit,ReLU) 离为∑。y:-y己,这样对图像特征向量的哈 希编码过程可以表示为式(2)的优化问题:
策略分别命名为 LSH⁃VC、SH⁃VC、SKLSH⁃VC、ITQ⁃ VC、PCA⁃RR⁃VC 和 DSH⁃VC。 2.1 VGGNet⁃D 网络模型 最近几年,CNN 模型在一些目标检测和图像识 别中已经获得了令人印象深刻的结果。 文献[28] 使用很小卷积核的网络架构,对增加深度进行了全 面的评估;实验表明,把网络的卷积层深度增加到 16~19 层时可以显著提升性能,设计的网络在 Ima⁃ geNet Challenge 2014 的定位和分类项目上分别获得 了第一名和第二名的成绩。 此外,文献[28]的模型 特征对许多不同的计算机视觉任务和数据集有很强 的泛化能力,能够相比或者超过建立在较浅图像特 征上的更复杂的识别方法。 本文选用文献[28]中优异的 VGGNet⁃D 网络模 型。 VGGNet⁃D 的结构及每层参数设置如表 1。 表 1 VGGNet⁃D 网络模型结构及参数 Table1 VGGNet⁃D model’s structure and parameters conv1 conv2 conv3 conv4 64×3×3 st. 1, pad 1 64×3×3 st. 1, pad 1× 2 pooling 128×3×3 st. 1, pad 1 128×3×3 st. 1, pad 1× 3 pooling conv5 conv6 conv7 conv8 256×3×3 st. 1, pad 1 256×3×3 st. 1, pad 1 256×3×3 st. 1, pad 1× 2 pooling 512×3×3 st. 1, pad 1 conv9 conv10 conv11 conv12 512×3×3 st. 1, pad 1 512×3×3 st. 1, pad 1× 2 pooling 512×3×3 st. 1, pad 1 512×3×3 st. 1, pad 1 conv13 FC14 FC15 FC16 512×3×3 st. 1, pad 1× 2 pooling 4 096×7×7 dropout 4 096×1×1 dropout 1 000×1×1 softmax VGGNet⁃D 模型由 13 卷积层( conv1 ~ 13) 和 3 个全连接层(FC14 ~ 16)构成。 表 1 中,卷积层的第 一行参数表示卷积滤波器的数量和局部感受野的大 小;“st.”表示卷积的步幅,“pad”表示空间填充;“x2 pooling” 表示 max⁃pooling 下采样。 接着, FC14 和 FC15 使用 dropout [19]方法来调整某些隐含层节点的 权重不工作,最后的 FC16 是多路 softmax 分类器。 其中,VGGNet⁃D 的激活函数使用矫正线性单元 (rectification linear unit,ReLU)。 2.2 VGGNet⁃D 模型的训练学习 和文献[19] 一致,VGGNet⁃D 网络模型使用批 量梯度下降法在 ILSVRC 数据集上进行训练学习; 使用的超参数:批量大小、动量、权重衰减的 l 2 惩罚 系数、dropout 比率和初始学习率分别设置为 256、 0.9、0.0005、0.5 和 0.01,而学习率在验证准确率停 止增加时减小为原来值的十分之一;网络的每一层 的权重由均值为 0 和方差为 0.01 的高斯分布来初 始化。具体的,该模型的训练学习是最小化其整体代 价函数。 这里假定有一组数量为 m 的训练样本集 x (l) ,y (l) ( ) ,…, x (m ) ,y (m ) { ( ) } ,对 于 整 体 样 本, 网络整体代价函数可表示为式(1): J (W,b) = 1 m ∑ m i = 1 1 2 ‖hW,b x (i) ( ) - y æ (i) ‖2 è ç ö ø ÷ é ë ê ê ù û ú ú + λ 2 ∑ nl-1 l = 1 ∑ s l i = 1 ∑ s l+1 j = 1 Wji (l) ( ) 2 (1) 式中:hW,b (x) 是神经网络模型,Wi,j (l) 是第 l 层第 j 单元与第 l+1 层第 i 单元之间的连接权重,b 是隐藏 层神经元的偏置项;式(1)右边是一个减小权重幅 度的规则化项,可以起到防止过拟合的作用,λ 来调 整代价函数中前后两项的相对重要性。 求解式(1) 最小值采用著名的批量梯度下降法最优化算法,而 计算 J (W,b) 对 W 和 b 的偏导数时,使用反向传导 算法。 2.3 本文策略和以前最好水准的哈希策略 针对图像检索中重要的哈希编码部分,下面我 们介绍本文方法的 6 种策略的核心技术。 1)LSH⁃VC:和 LSH [27]一样,首先使用高斯随机 矩阵将实数输入空间 R d 中的数据点随机映射到一 个 R t 空间中,其中 t 是一个很小的超常量,接着使 用球分割方法把这个 t 维实数空间分割成多个单 元,然后用哈希函数返回含有数据映射点的球单元 的索引,度量标准选用 l 1 范数。 2)SH⁃VC:和 SH [13] 一样,基于量化沿着数据 PCA 方向计算得到的解析特征函数值。 假设数据集中样本点 xi,xj 属于输入特征空间 R d ,{y} n i = 1表示 n 个样本点的长度为 k 的哈希码,Wn×n 是一个关联矩阵,由于输入空间数据之间的欧式距离 和相似度相关,那么输入特征空间用高斯核度量相似 度 W(i,j) = exp -‖xi -xj‖2 / ε 2 ( ) ,参数 ε 规定空间 R d 中相似数据的距离,相似的近邻间的平均汉明距 离为 ∑ij Wi,j ‖yi - yj‖2 , 这样对图像特征向量的哈 希编码过程可以表示为式(2)的优化问题: 第 3 期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·393·
·394. 智能系统学报 第11卷 minimize: ∑wy:-y2 阵来初始化旋转矩阵R,W是数据PCA方向的矩 st.y》:∈{-1,1}4 阵,PCA-RR-VC策略采用映射矩阵W=WR,将经过 PCA处理后的数据集V乘以随机正交矩阵R进行 ∑y:=0 (2) 旋转变换;而TQ-VC策略中使用的映射矩阵市中 Σw=1 的R是经过优化的量化误差最低的正交矩阵,这个 优化问题,即找出最优的正交旋转矩阵R和与之对 式中:约束条件∑y:=0要求哈希码的每一位有 应的哈希编码矩阵B,采用交替迭代的求解方法来 50%的概率是0或1,同时约束条件∑yy=1要 解决。 5)DSH-VC:和DSH[18]一样,通过k均值聚类 求哈希码每位之间不相关。这个优化问题等价于一 的量化结果,寻找r-adjacent组,即利用数据的几何 个平衡图分割问题,是一个NP-hard问题,对相似图 结构来指导哈希函数映射的选择。 的拉普拉斯矩阵的特征向量特征值的分析可为该问 假设有n个训练数据样本x1,2,…,xn∈R,L 题提供一个松弛解。首先,使用PCA找出数据的主 是数据哈希编码的长度,参数α控制样本被分组的 成分,然后沿着每一个PCA方向使用矩形近似来计 数量。首先使用k均值算法迭代p次生成中心点分 算k个最小的单维度解析特征函数,最后在0处阈值 别为4142,…u的aL个分组S={S,S2,…,S}, 化解析特征函数,从而获得二进制编码。 3)SKLSH-VC:和SKLSH15]一样,基于随机映 其中k,区,=1,2,…,4,定义分组的r最 射,适应任意分布的样本数据,在映射过程中不仅保 近邻矩阵W为式(3): 留了原始数据之间的位置关系,而且考虑了生成的 E=,“EN,)or4eN,4)( 3) 哈希码之间归一化的汉明距离的上下限。 考虑D维实数空间R上的一个核函数K 式中:N,()表示中心4:的最近邻集合。当且仅当 (·,·)对于所有数据点x,y∈R满足下列条件: W=1时,组S:和组S,为r-adjacent组(相比于随机 ①K(·,·)具有平移不变性,例如K(x,y)=K 映射,选取能够很好分开两个adjacent组的映射), 在生成所有的r-adjacent组后,对每一对adjacent组 (x-y)。 产生映射心和截距t,接着利用带有权值的中心计 ②K(·,·)是归一化的,例如K(x-y)≤1,而 且K(x-x)=K(0)=1。 算所有候选映射的嫡,按降序对嫡值进行排序,最后 ③对于任何实数a≥1,K(ax,ay)≤K(x-y)。 使用前L个映射并根据哈希映射函数式(4)来生成 二进制编码: 高斯核函数K(x,y)=exp(-yIx-yI2/2)或者 拉普拉斯核函数K(x,y)=exp(-y‖x-y‖)是满足 上面条件的两个著名样例,我们构建一个映射函数 h()=0, 1, w'x≥t (4) 否则 ,先将原始R空间中的数据映射到低维空间,得 式中h(x)是样本空间R中样本x的哈希函数。 到数据的随机傅里叶特征,确保平移不变核值没有 3实验结果与分析 变化,再对随机傅里叶特征映进行随机二值量化,从 而得到二进制哈希码。 本文将在Caltech101]和Caltech2568]2个著 4)ITQ-VC、PCA-RR-VC:和ITQ、PCA-RR[I6]一 名的图像集上对LSH-VC、SH-VC、SKLSH-VC、TQ- 样,对数据集进行PCA降维处理,问题转化为将该 VC、PCA-RR-VC、DSH-VC等6种策略和LSH、SH、 数据集中的数据样本点映射到一个以零为中心的二 SKLSH、TQ、PCA-RR、DSH这些以前最好水准的图 进制超立方体的顶点上,不同的量化误差得到对应 像哈希检索策略进行对比实验。 该数据集的不同的二进制编码。 我们通过精度-召回率(Precision-Recall)和平 假设有一组数据点{x1,x2,…,xn},x:∈R形成 均正确率值-编码位数(mAP-Number of bits)两种标 数据集矩阵X∈R,且以0为中心,目标是学习二 准对本文方法进行性能评估。实验中,本文使用数 据集第50个最近邻的平均距离作为阈值来判断一 进制哈希编码矩阵Be{-1,1}x,c是编码长度,这 个查询到的数据是否和查询数据属于同一类。 样整个编码过程可以表示为B=sgm(XW),W是映 实验环境:64位Win8系统,CPU主频 射矩阵。 2.50GHz,8 Gbyte内存,MATLAB2014a。 对随机生成的矩阵进行奇异值分解(singular 3.1 Caltech101 value decomposition,SVD)得到对应的cxc的正交矩 Caltechl01数据集包含8677张图片,共101个
minimize:∑ij Wi,j ‖yi - yj‖2 s.t. yi ∈ { - 1,1} k ∑i yi = 0 1 n ∑i yi yi T = I (2) 式中:约束条件∑i yi = 0 要求哈希码的每一位有 50% 的概率是 0 或 1,同时约束条件 1 n ∑i yi y T i = I 要 求哈希码每位之间不相关。 这个优化问题等价于一 个平衡图分割问题,是一个 NP⁃hard 问题,对相似图 的拉普拉斯矩阵的特征向量特征值的分析可为该问 题提供一个松弛解。 首先,使用 PCA 找出数据的主 成分,然后沿着每一个 PCA 方向使用矩形近似来计 算 k个最小的单维度解析特征函数,最后在0处阈值 化解析特征函数,从而获得二进制编码。 3)SKLSH⁃VC:和 SKLSH [ 15 ] 一样,基于随机映 射,适应任意分布的样本数据,在映射过程中不仅保 留了原始数据之间的位置关系,而且考虑了生成的 哈希码之间归一化的汉明距离的上下限。 考虑 D 维实数 空 间 R D 上 的 一 个 核 函 数 K (·,·) 对于所有数据点 x,y∈R D 满足下列条件: ①K (·,·) 具有平移不变性,例如 K (x,y) = K (x-y)。 ②K(·,·) 是归一化的,例如 K (x-y) ≤1,而 且 K(x-x) ≡K(0) = 1。 ③对于任何实数 α≥1,K(αx,αy) ≤K(x-y)。 高斯核函数 K(x,y) = exp -γ ‖x-y‖2 ( / 2) 或者 拉普拉斯核函数 K(x,y) = exp -γ ‖x-y‖1 ( ) 是满足 上面条件的两个著名样例,我们构建一个映射函数 F n ,先将原始 R D 空间中的数据映射到低维空间,得 到数据的随机傅里叶特征,确保平移不变核值没有 变化,再对随机傅里叶特征映进行随机二值量化,从 而得到二进制哈希码。 4) ITQ⁃VC、PCA⁃RR⁃VC:和 ITQ、PCA⁃RR [16] 一 样,对数据集进行 PCA 降维处理,问题转化为将该 数据集中的数据样本点映射到一个以零为中心的二 进制超立方体的顶点上,不同的量化误差得到对应 该数据集的不同的二进制编码。 假设有一组数据点{x1 ,x2 ,…,xn },xi∈R d 形成 数据集矩阵 X∈R n×d ,且以 0 为中心,目标是学习二 进制哈希编码矩阵 B∈{-1,1} n×c ,c 是编码长度,这 样整个编码过程可以表示为 B = sgn(XW ),W 是映 射矩阵。 对随机生成的矩阵进行奇异值分解( singular value decomposition,SVD)得到对应的 c×c 的正交矩 阵来初始化旋转矩阵 R,W 是数据 PCA 方向的矩 阵,PCA⁃RR⁃VC 策略采用映射矩阵 W = WR,将经过 PCA 处理后的数据集 V 乘以随机正交矩阵 R 进行 旋转变换;而 ITQ⁃VC 策略中使用的映射矩阵 W 中 的 R 是经过优化的量化误差最低的正交矩阵,这个 优化问题,即找出最优的正交旋转矩阵 R 和与之对 应的哈希编码矩阵 B,采用交替迭代的求解方法来 解决。 5)DSH⁃VC:和 DSH [18]一样,通过 k 均值聚类 的量化结果,寻找 r⁃adjacent 组,即利用数据的几何 结构来指导哈希函数映射的选择。 假设有 n 个训练数据样本 x1 ,x2 ,…,xn∈R d ,L 是数据哈希编码的长度,参数 α 控制样本被分组的 数量。 首先使用 k 均值算法迭代 p 次生成中心点分 别为 μ1 ,μ2 ,…,μαL的 αL 个分组 S = S1 ,S2 ,…,SαL { } , 其中 μi = 1 Si ∑x∈Si x,l i = 1,2,…,αL,定义分组的 r 最 近邻矩阵 W 为式(3): Wi,j = 1, μi ∈ Nr μj ( ) or μj ∈ Nr μi ( ) {0, 否则 (3) 式中:Nr μi ( ) 表示中心 μi 的最近邻集合。 当且仅当 Wij = 1 时,组 Si 和组 Sj 为 r⁃adjacent 组(相比于随机 映射,选取能够很好分开两个 adjacent 组的映射), 在生成所有的 r⁃adjacent 组后,对每一对 adjacent 组 产生映射 w 和截距 t,接着利用带有权值的中心计 算所有候选映射的熵,按降序对熵值进行排序,最后 使用前 L 个映射并根据哈希映射函数式(4)来生成 二进制编码: h(x) = 1, w T x ≥ t {0, 否则 (4) 式中 h(x) 是样本空间 R d 中样本 x 的哈希函数。 3 实验结果与分析 本文将在 Caltech101 [17]和 Caltech256 [18] 2 个著 名的图像集上对 LSH⁃VC、SH⁃VC、SKLSH⁃VC、ITQ⁃ VC、PCA⁃RR⁃VC、DSH⁃VC 等 6 种策略和 LSH、SH、 SKLSH、ITQ、PCA⁃RR、DSH 这些以前最好水准的图 像哈希检索策略进行对比实验。 我们通过精度-召回率( Precision⁃Recall) 和平 均正确率值-编码位数(mAP⁃Number of bits)两种标 准对本文方法进行性能评估。 实验中,本文使用数 据集第 50 个最近邻的平均距离作为阈值来判断一 个查询到的数据是否和查询数据属于同一类。 实 验 环 境: 64 位 Win8 系 统, CPU 主 频 2.50 GHz,8 Gbyte 内存,MATLAB2014a。 3.1 Caltech101 Caltech101 数据集包含 8 677 张图片,共 101 个 ·394· 智 能 系 统 学 报 第 11 卷
第3期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·395 类别,包括家具、动物、运动器材、车辆等,每一类图 像的数量最少是31,最多是800。其中,图片的大小 1.0 --LSH 各不相同。为了公平的对比,实验中,所有策略都是 ¥一SH 0 SKLSH 随机选取1000张作为测试图像。 ITO --PCA-RR 1)我们采用常用的32、64、128和256等4种哈 -e-DSH 希编码位数在Precision-Recall这个标准上进行实验 分析,实验结果如图1和图2。 0.4 1.00 2 --LSH 0.2 SH 08 -0-SKLSH 01 ITQ 07 --PCA-RR 0.2 0.40.6 0.8 1.0 -e-DSH 6. Recall 0.4 (d)256位编码时Precision-Recall曲线 图1 以前最好水准的策略在Caltech101上的Preci- sion-Recall曲线 Fig.1 The Precision-Recall curve of the previous state- 0 of-the-art strategies on Caltech 101 0.4 0.6 0.8 Recall (a)32位编码时Precision-Recall曲线 0 0.9 1.0 0.8 09 --LSH ¥一SH -0-SKLSH -ITQ 07 -PCA-RR 65 -e-DSH -LSH-VO 0.3 SH-VC SKLSH-VC ITQ-VC 0 0.1 PCa-Rr-vO -DSH-VC 1 0.2 0.4 0.6 0.8 0 Recall 0 02 0.40.6 0.8 Recall (a)32位编码时Precision-Recall曲线 (b)64位编码时Precision-Recall曲线 1,0 09 -LSH 0.9 米一SH -0SKLSH S065 ★一TQ --PCA-RR 0.6 uoisioald 42 0.3 -e-LSH-VO SH-VC SKLSH-VC ITO-VC 0.1 -PCA-RR-VC -DSH-VC 0 0 0.2 0.4 0.6 0.8 02 0.40.6 0.8 o Recall Recall (c)l28位编码时Precision-Reca曲线 (b)64位编码时Precision-Recall曲线
类别,包括家具、动物、运动器材、车辆等,每一类图 像的数量最少是 31,最多是 800。 其中,图片的大小 各不相同。 为了公平的对比,实验中,所有策略都是 随机选取 1 000 张作为测试图像。 1)我们采用常用的 32、64、128 和 256 等 4 种哈 希编码位数在 Precision⁃Recall 这个标准上进行实验 分析,实验结果如图 1 和图 2。 (a)32 位编码时 Precision⁃Recall 曲线 (b)64 位编码时 Precision⁃Recall 曲线 (c)128 位编码时 Precision⁃Recall 曲线 (d)256 位编码时 Precision⁃Recall 曲线 图 1 以前最好水准的策略在 Caltech101 上的 Preci⁃ sion⁃Recall 曲线 Fig.1 The Precision⁃Recall curve of the previous state⁃ of⁃the⁃art strategies on Caltech 101 (a)32 位编码时 Precision⁃Recall 曲线 (b)64 位编码时 Precision⁃Recall 曲线 第 3 期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·395·
·396· 智能系统学报 第11卷 图3中,使用CNN特征的本文6种策略的mAP 1.0 值明显高于以前最好水准的对应的使用gst特征的 0.9 e 检索策略(16和64位编码时SKLSH-VC略差于 0 SKLSH):同样的,LSH-VC、ITQ-VC、PCA-RR-VC和 05 DSH-VC的优势更明显。其中TQ-VC在不同的编 0.5 码位数时一直拥有最高的mAP值,相比于TQ策略 0.4 -LSH-VC 分别提升了103.0%、105.7%、97.2%、93.4%、89.3%, 0.3 SH-VC SKLSH-VC 效果显著。 02 ◆-ITQ-VC 01 PCA-RR-VC -DSH-VC 0.6 02 0.4 0.6 0.8 1.0 0.5 Recall 04 (c)l28位编码时Precision-Recall曲线 E 0.31 1.0 -e-LSH 0.9 0.2 -SH --SKLSH 0.1 ★一TQ 0.7 PCA-RR -e-DSH 0.6 0.5 16 32 64 128 256 % 编码长度 -eLSH-VC 0.3 SH-VC (a)gist特征下不同编码位数时mPA值 SKLSH-VC 02 ITQ-VC PCA-RR-VC e-DSH-V℃ 1.0 0 0.2 0.40.6 0.8 1.0 Recall 0.8 (d)256位编码时Precision-Recall曲线 图2本文方法6种策略在Caltech101上的Precision- 0.6 Recall曲线 0.5 Fig.2 The Precision-Recall curve of the six strategies 04 -LSH-VC on Caltech 101 03 SH-VC SKLSH-VC 对比图1和图2,我们清楚地看到,本文的6种 02 ITO-VC PCA-RR-VC 0.1 图像检索策略相比于以前最好水准的对应的策略有 --DSH-VC 更优的Precision-Recall曲线(64位编码时SKLSH 32 64 128 256 编码长度 VC略差于SKLSH);其中LSH-VC、ITQ-VC、PCA- RR-VC和DSH-VC的优势更明显。依赖数据的策 略(ITQ、ITQ-VC、PCA-RR、PCA-RR-VC和SH、SH- (b)cnn特征下不同编码位数时mPA值 VC)在gist和CNN特征下随着编码位数的增加都 图3所有策略在Caltech101上的mAP值 会遇到性能瓶颈,而独立于数据的SKLSH和 Fig.3 The mean average precision of all strategies on Caltech 101 SKLSH-VC策略就没有这种限制。 此外,图2表明TQ-VC和PCA-RR-VC在编码 3.2 Caltech256 位数较小时,相比于本文其他4种策略在相同召回 Caltech256数据集包含29780张图片,共256 率情况下的准确率有更大的优势。 2)mAP是反映一个方法在全部相关数据上性 个类别,相比于Caltech1(01,类与类之间和每类中图 能的单值指标。利用该方法检索出来的相关数据的 像主体位置变化更明显,十分适合于图像检索实验。 排位越靠前,mAP就可能越高。本文方法在mAP 为了公平地对比,实验中,所有策略同样都是随机选 Number of bits标准上的实验结果如图3。 取1000张作为测试图像
(c)128 位编码时 Precision⁃Recall 曲线 (d)256 位编码时 Precision⁃Recall 曲线 图 2 本文方法 6 种策略在 Caltech101 上的 Precision⁃ Recall 曲线 Fig.2 The Precision⁃Recall curve of the six strategies on Caltech 101 对比图 1 和图 2,我们清楚地看到,本文的 6 种 图像检索策略相比于以前最好水准的对应的策略有 更优的 Precision⁃Recall 曲线(64 位编码时 SKLSH⁃ VC 略差于 SKLSH); 其中 LSH⁃VC、 ITQ⁃VC、 PCA⁃ RR⁃VC 和 DSH⁃VC 的优势更明显。 依赖数据的策 略( ITQ 、ITQ⁃VC、PCA⁃RR、PCA⁃RR⁃VC 和 SH、SH⁃ VC)在 gist 和 CNN 特征下随着编码位数的增加都 会遇 到 性 能 瓶 颈, 而 独 立 于 数 据 的 SKLSH 和 SKLSH⁃VC 策略就没有这种限制。 此外,图 2 表明 ITQ⁃VC 和 PCA⁃RR⁃VC 在编码 位数较小时,相比于本文其他 4 种策略在相同召回 率情况下的准确率有更大的优势。 2)mAP 是反映一个方法在全部相关数据上性 能的单值指标。 利用该方法检索出来的相关数据的 排位越靠前,mAP 就可能越高。 本文方法在 mAP⁃ Number of bits 标准上的实验结果如图 3。 图 3 中,使用 CNN 特征的本文 6 种策略的 mAP 值明显高于以前最好水准的对应的使用 gist 特征的 检索策略( 16 和 64 位编码时 SKLSH⁃VC 略差于 SKLSH);同样的,LSH⁃VC、ITQ⁃VC、PCA⁃RR⁃VC 和 DSH⁃VC 的优势更明显。 其中 ITQ⁃VC 在不同的编 码位数时一直拥有最高的 mAP 值,相比于 ITQ 策略 分别提升了 103.0%、105.7%、97.2%、93.4%、89.3%, 效果显著。 (a)gist 特征下不同编码位数时 mPA 值 (b)cnn 特征下不同编码位数时 mPA 值 图 3 所有策略在 Caltech101 上的 mAP 值 Fig.3 The mean average precision of all strategies on Caltech 101 3.2 Caltech256 Caltech256 数据集包含 29 780 张图片,共 256 个类别,相比于 Caltech101,类与类之间和每类中图 像主体位置变化更明显,十分适合于图像检索实验。 为了公平地对比,实验中,所有策略同样都是随机选 取 1 000 张作为测试图像。 ·396· 智 能 系 统 学 报 第 11 卷
第3期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 .397. 1)和3.1节一样,在Precision-Recall这个标准 上我们采用32、64、128和256这4种编码位数进行 1.0 实验分析,实验结果如图4、5。 0.9 --LSH 率一SH 0.8 -0-SKLSH 10 0.7 *一ITQ --PCA-RR 0 -e-LSH 06 03 SH -0-SKLSH 0 *一TQ PCA-RR 0.6 -eDSH 03 00000890000890000* 02 0.1 0 02 0.40.6 0.8 1.0 Recall 0 (d)256位编码时Precision-Recall曲线 02 0.40.6 0.8 1.0 图4以前最好水准的策略在Caltech256上的Precision Recall -Recall曲线 (a)32位编码时Precision-Recall曲线 Fig.4 The Precision-Recall curve of the previous state- of-the-art strategies on Caltech 256 1.0 9 -LSH 1.0 一SH --SKLSH 0.9 -e-LSH-VC 一★一 ITQ -#一S-VC PCA-RR 08 -SKLSH-VC TQ-VC 0.6 -0- DSH PCA-RR-VC 7654 -e-DSH-VC 0.4 0.3 0.1 0 0.40.6 0.8 1.0 Recall 0.2 0.4 0.6 0.8 Recall (b)64位编码时Precision-Recall曲线 (a)32位编码时Precision-Recall曲线 1.0 0.9 -e-LSH 1.0里 LSH-VC 家 SH 0 -0SKLSH SH-VC ★一TQ SKLSH-VC 0.7 PCA-RR 0.8 ITQ-VC PCA-RR-VC 0.6 -eDSH 07 DSH-VC a 0.3 05 0.2 03 0.1 2 0.40.6 02 0.8 1 Recall 0 0.2 04 0.6 0.8 Recall (c)128位编码时Precision-Recall曲线 (b)64位编码时Precision-Recall曲线
1)和 3.1 节一样,在 Precision⁃Recall 这个标准 上我们采用 32、64、128 和 256 这 4 种编码位数进行 实验分析,实验结果如图 4、5。 (a)32 位编码时 Precision⁃Recall 曲线 (b)64 位编码时 Precision⁃Recall 曲线 (c)128 位编码时 Precision⁃Recall 曲线 (d)256 位编码时 Precision⁃Recall 曲线 图 4 以前最好水准的策略在 Caltech256 上的 Precision -Recall 曲线 Fig.4 The Precision⁃Recall curve of the previous state⁃ of⁃the⁃art strategies on Caltech 256 (a)32 位编码时 Precision⁃Recall 曲线 (b)64 位编码时 Precision⁃Recall 曲线 第 3 期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·397·
·398 智能系统学报 第11卷 著:结合前面的实验中TQ-VC一直有最好的性能 1.0 -e-LSH-VC SH-VC 表现,可以得知基于人工特征的性能较好的编码策 0.9 SKLSH-VC ITO-VC 略在深层卷积特征下依旧能够获得较好的性能。 PCA-RR-VC 0.7 DSH-VC 0.6 。 6 0.5 0.4 0.4 03 2 0.3 eLSH 0.2 一SH 0.2 0.40.6 0.8 1.0 -SKLSH Recall ★一1TO -PCA-RR (c)l28位编码时Precision-Recall曲线 -e-DSH 16 32 64 128 256 编码长度 1.0 0.9 (a)Gist特征下不同编码位数时mAP值 0.8 0.7 0.9 0.6 08 0.5 0 0.4 -e-LSH-VC 0.3 一SH-VC SKLSH-VC 0.2 ITO-VC 0.1 PCA-RR-VC 0.4 -DSH-VC 0 0.3 -e-LSH-VC 0.2 SH-VC 0.40.6 0.8 1.0 02 -0-SKLSH-VO Recall ◆ITQ-VC 0.1 PCA-RR-VC (d)256位编码时Precision-Recall曲线 --DSH-VC 图5本文方法6种策略在Caltech256上的Precision- 16 32 64 28 256 Recall曲线 编码长度 Fig.5 The Precision-Recall curve of the six strategies (b)cnn特征下不同编码位数时mAP值 on Caltech 256 图6所有策略在Caltech.256上的mAP值 对比图4、5,可以看到本文方法的5种策略相 Fig.6 The mean Average Precision of all strategies on 比于以前最好水准的对应策略具有更好的Preci- Caltech 256 sion-Recall曲线(SKLSH-VC除外)。随着编码位数 在Caltech101和Caltech256数据集上的两组实 增加,TQ-VC、PCA-RR-VC和SH-VC似乎达到了性 验充分说明了使用CNN的卷积特征进行哈希编码 能的上限,而LSH-VC在CNN特征下却不受这个限 检索能够获得一定程度的性能提升。 制,性能提升迅速。同时,可以清楚地看到结合 4结束语 CNN特征的TQ-VC检索策略在4种不同的编码位 数下都具有最优的Precision-Recall曲线。 在图像检索上,本文提出一种结合CNN和以前 2)在mean Average Precision-Number of bits标 最好水准的哈希编码策略的有效方法。首先,采用 准上的实验结果如图6。分析图6,相比以前最好水 VGGNet-D网络模型对目标图像集提取图像的深层 准的对应策略,使用CNN特征的本文5种策略获得 特征表示,再使用以前最好水准的哈希编码策略把 了更高的mAP值(SKLSH-VC除外)。ITQ-VC在所 这些特征编码成二进制码。实验结果显示,本文方 有编码位数下一直有最高的mAP值,分别为0.401、 法的LSH-VC、SH-VC、ITQ-VC、PCA-RR-VC和DSH 0.665、0.785、0.849和0.886,在TQ上提高了 VC策略相比于以前最好水准的对应策略获得了更 74.2%、116.8%、109.5%、107.4%和103.3%,效果显 高的性能。同时本文方法表明,当CNN这种最先进
(c)128 位编码时 Precision⁃Recall 曲线 (d)256 位编码时 Precision⁃Recall 曲线 图 5 本文方法 6 种策略在 Caltech256 上的 Precision- Recall 曲线 Fig.5 The Precision⁃Recall curve of the six strategies on Caltech 256 对比图 4、5,可以看到本文方法的 5 种策略相 比于以前最好水准的对应策略具有更好的 Preci⁃ sion⁃Recall 曲线( SKLSH⁃VC 除外)。 随着编码位数 增加,ITQ⁃VC、PCA⁃RR⁃VC 和 SH⁃VC 似乎达到了性 能的上限,而 LSH⁃VC 在 CNN 特征下却不受这个限 制,性能提升迅速。 同时, 可以清楚地看到结合 CNN 特征的 ITQ⁃VC 检索策略在 4 种不同的编码位 数下都具有最优的 Precision⁃Recall 曲线。 2) 在 mean Average Precision⁃Number of bits 标 准上的实验结果如图 6。 分析图 6,相比以前最好水 准的对应策略,使用 CNN 特征的本文 5 种策略获得 了更高的 mAP 值(SKLSH⁃VC 除外)。 ITQ⁃VC 在所 有编码位数下一直有最高的 mAP 值,分别为 0.401、 0.665、 0.785、 0. 849 和 0. 886, 在 ITQ 上 提 高 了 74.2%、116.8%、109.5%、107.4%和 103.3%,效果显 著;结合前面的实验中 ITQ⁃VC 一直有最好的性能 表现,可以得知基于人工特征的性能较好的编码策 略在深层卷积特征下依旧能够获得较好的性能。 (a)Gist 特征下不同编码位数时 mAP 值 (b)cnn 特征下不同编码位数时 mAP 值 图 6 所有策略在 Caltech256 上的 mAP 值 Fig.6 The mean Average Precision of all strategies on Caltech 256 在 Caltech101 和 Caltech256 数据集上的两组实 验充分说明了使用 CNN 的卷积特征进行哈希编码 检索能够获得一定程度的性能提升。 4 结束语 在图像检索上,本文提出一种结合 CNN 和以前 最好水准的哈希编码策略的有效方法。 首先,采用 VGGNet⁃D 网络模型对目标图像集提取图像的深层 特征表示,再使用以前最好水准的哈希编码策略把 这些特征编码成二进制码。 实验结果显示,本文方 法的 LSH⁃VC、SH⁃VC、ITQ⁃VC、PCA⁃RR⁃VC 和 DSH⁃ VC 策略相比于以前最好水准的对应策略获得了更 高的性能。 同时本文方法表明,当 CNN 这种最先进 ·398· 智 能 系 统 学 报 第 11 卷
第3期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·399. 的技术在图像检索领域迅猛发展的时候,一些先前 learning representations.Banff,Canada,2014. 经典的哈希编码策略仍不能忽略,这将在图像检索 [12]GIONIS A,INDYK P,MOTWANI R.Similarity search in 应用上具有一定的参考价值。另外,我们还有若干 high dimensions via hashing[C//Proceedings of the 25th 问题有待解决,如卷积特征并不是对所有的哈希编 international conference on very large data bases.San Fran- cisco,CA,USA,1999:518-529. 码策略都有效,这些问题有待进一步研究。 [13]WEISS Y,TORRALBA A,FERGUS R.Spectral hashing 参考文献: [C]//Proceedings of conference on neural information processing systems.Vancouver,British Columbia,Cana- [1]SMEULDERS A W M,WORRING M,SANTINI S,et al. da.2008:1753-1760. Content-based image retrieval at the end of the early years [14]KULIS B,DARRELL T.Learning to hash with binary re- [J].IEEE transactions on pattern analysis and machine in- constructive embeddings[C]//Advances in neural informa- telligence,2000,22(12):1349-1380. tion processing systems 22:23rd annual conference on [2]WAN Ji,WANG Dayong,HOI S C H,et al.Deep learning neural information processing systems 2009.Vancouver, for content-based image retrieval:a comprehensive study British Columbia,Canada,2010:1042-1050. [C]//Proceedings of the 22nd ACM international confer- [15 RAGINSKY M,LAZEBNIK S.Locality-sensitive binary ence on multimedia.Orlando,USA,2014:157-166. codes from shift-invariant kernels[C]//Advances in neu- [3]LOWE D G.Distinctive Image features from scale-invariant ral information processing systems 22:conference on neu- keypoints[J].International journal of computer vision, ral information processing systems 2009.Vancouver, 2004,60(2):91-110. British Columbia,Canada,2009:1509-1517. [4]BAY H,TUYTELAARS T,VAN GOOL L.SURF:speeded [16]GONG Yunchao,LAZEBNIK S,GORDO A,et al.Itera- up robust features M ]//LEONARDIS A,BISCHOF H, tive quantization:a procrustean approach to learning binary PINZ A.Computer vision-ECCV 2006.Berlin Heidelberg: codes for large-scale image retrieval.IEEE transactions Springer,2006:404-417. on pattern analysis and machine intelligence,2013,35 [5]SARIKAYA R,HINTON G E,DEORAS A.Application of (12):2916-2929. deep belief networks for natural language understanding[J]. [17]NOROUZI M,FLEET D J.Minimal loss hashing for com- IEEE/ACM transactions on audio,speech,and language pact binary codes[C]//Proceedings of the 28th interna- processing,2014,22(4):778-784. tional conference on machine learning.Bellevue,WA, [6]LANDECKER W,CHARTRAND R,DEDEO S.Robust USA,2011:353-360. sparse coding and compressed sensing with the difference [18 JIN Zhongming,LI Cheng,LIN Yue,et al.Density sensi- map[C]//Proceedings of the 13th European conference on tive hashing[J].IEEE transactions on cybernetics,2014, computer vision.Zurich,Switzerland,2014:315-329. 44(8):1362-1371. [7]GRAVES A,MOHAMED A R,HINTON G.Speech recog- [19]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Ima- nition with deep recurrent neural networks[C]//Proceed- geNet classification with deep convolutional neural net- ings of the IEEE international conference on acoustic speech works[C]//Advances in Neural Information Processing and signal processing.Vancouver,British Columbia,Cana- Systems 25.Lake Tahoe,Nevada,USA,2012 da.2013:6645-6649. [20 DONAHUE J,JIA Yangqing,VINYALS O,et al.De- [8]BRUNA J,SZLAM A,LECUN Y.Signal recovery from poo- CAF:a deep convolutional activation feature for generic ling representations[J].Eprint Arxiv,2013:307-315. visual recognition [C]//Proceedings of the 31st interna- [9]LI Haoxiang,LIN Zhe,SHEN Xiaohui,et al.A convolu- tional conference on machine learning.Beijing,China, tional neural network cascade for face detection [C]//Pro- 2014:647-655. ceedings of the 2015 IEEE conference on computer vision [21]ZEILER M D,FERGUS R.Visualizing and Understanding and pattern recognition.Boston,Massachusetts,USA, Convolutional Networks[C]//Proceedings of the 13th Eu- 2015:5325-5334. ropean conference on computer vision.Zurich,Switzer- [10]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich land.2014:818-833. feature hierarchies for accurate object detection and seman- [22]SERMANET P,EIGEN D,ZHANG Xiang,et al.Over- tic segmentation[C]//Proceedings of the 2014 IEEE con- Feat:integrated recognition,localization and detection u- ference on computer vision and pattern recognition.Colum- sing convolutional networks[J].Eprint Arxiv,2013. bus,0H,USA,2014:580-587. [23]RAZAVIAN A S,AZIZPOUR H,SULLIVAN J,et al. [11]LIN Min,CHEN Qiang,YAN Shuicheng.Network in net- CNN features off-the-shelf:an astounding baseline for rec- work [C]//Proceedings of international conference on ognition[C]//Proceedings of the 2014 IEEE conference
的技术在图像检索领域迅猛发展的时候,一些先前 经典的哈希编码策略仍不能忽略,这将在图像检索 应用上具有一定的参考价值。 另外,我们还有若干 问题有待解决,如卷积特征并不是对所有的哈希编 码策略都有效,这些问题有待进一步研究。 参考文献: [1] SMEULDERS A W M, WORRING M, SANTINI S, et al. Content⁃based image retrieval at the end of the early years [J]. IEEE transactions on pattern analysis and machine in⁃ telligence, 2000, 22(12): 1349⁃1380. [2]WAN Ji, WANG Dayong, HOI S C H, et al. Deep learning for content⁃based image retrieval: a comprehensive study [C] / / Proceedings of the 22nd ACM international confer⁃ ence on multimedia. Orlando, USA, 2014: 157⁃166. [3]LOWE D G. Distinctive Image features from scale⁃invariant keypoints [ J ]. International journal of computer vision, 2004, 60(2): 91⁃110. [4]BAY H, TUYTELAARS T, VAN GOOL L. SURF: speeded up robust features [ M] / / LEONARDIS A, BISCHOF H, PINZ A. Computer vision⁃ECCV 2006. Berlin Heidelberg: Springer, 2006: 404⁃417. [5]SARIKAYA R, HINTON G E, DEORAS A. Application of deep belief networks for natural language understanding[J]. IEEE/ ACM transactions on audio, speech, and language processing, 2014, 22(4): 778⁃784. [6] LANDECKER W, CHARTRAND R, DEDEO S. Robust sparse coding and compressed sensing with the difference map[C] / / Proceedings of the 13th European conference on computer vision. Zurich, Switzerland, 2014: 315⁃329. [7]GRAVES A, MOHAMED A R, HINTON G. Speech recog⁃ nition with deep recurrent neural networks [ C] / / Proceed⁃ ings of the IEEE international conference on acoustic speech and signal processing. Vancouver, British Columbia, Cana⁃ da, 2013: 6645⁃6649. [8]BRUNA J, SZLAM A, LECUN Y. Signal recovery from poo⁃ ling representations[J]. Eprint Arxiv, 2013: 307⁃315. [9] LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A convolu⁃ tional neural network cascade for face detection[C] / / Pro⁃ ceedings of the 2015 IEEE conference on computer vision and pattern recognition. Boston, Massachusetts, USA, 2015: 5325⁃5334. [10] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and seman⁃ tic segmentation[C] / / Proceedings of the 2014 IEEE con⁃ ference on computer vision and pattern recognition. Colum⁃ bus, OH, USA, 2014: 580⁃587. [11]LIN Min, CHEN Qiang, YAN Shuicheng. Network in net⁃ work [ C ] / / Proceedings of international conference on learning representations. Banff, Canada, 2014. [12]GIONIS A, INDYK P, MOTWANI R. Similarity search in high dimensions via hashing[C] / / Proceedings of the 25th international conference on very large data bases. San Fran⁃ cisco, CA, USA, 1999: 518⁃529. [13]WEISS Y, TORRALBA A, FERGUS R. Spectral hashing [ C] / / Proceedings of conference on neural information processing systems. Vancouver, British Columbia, Cana⁃ da, 2008: 1753⁃1760. [14]KULIS B, DARRELL T. Learning to hash with binary re⁃ constructive embeddings[C] / / Advances in neural informa⁃ tion processing systems 22: 23rd annual conference on neural information processing systems 2009. Vancouver, British Columbia, Canada, 2010: 1042⁃1050. [15] RAGINSKY M, LAZEBNIK S. Locality⁃sensitive binary codes from shift⁃invariant kernels[C] / / Advances in neu⁃ ral information processing systems 22: conference on neu⁃ ral information processing systems 2009. Vancouver, British Columbia, Canada, 2009: 1509⁃1517. [16]GONG Yunchao, LAZEBNIK S, GORDO A, et al. Itera⁃ tive quantization: a procrustean approach to learning binary codes for large⁃scale image retrieval[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35 (12): 2916⁃2929. [17]NOROUZI M, FLEET D J. Minimal loss hashing for com⁃ pact binary codes[C] / / Proceedings of the 28th interna⁃ tional conference on machine learning. Bellevue, WA, USA, 2011: 353⁃360. [18]JIN Zhongming, LI Cheng, LIN Yue, et al. Density sensi⁃ tive hashing[J]. IEEE transactions on cybernetics, 2014, 44(8): 1362⁃1371. [19] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Ima⁃ geNet classification with deep convolutional neural net⁃ works [ C] / / Advances in Neural Information Processing Systems 25. Lake Tahoe, Nevada, USA, 2012. [20] DONAHUE J, JIA Yangqing, VINYALS O, et al. De⁃ CAF: a deep convolutional activation feature for generic visual recognition [ C] / / Proceedings of the 31st interna⁃ tional conference on machine learning. Beijing, China, 2014: 647⁃655. [21]ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[C] / / Proceedings of the 13th Eu⁃ ropean conference on computer vision. Zurich, Switzer⁃ land, 2014: 818⁃833. [22] SERMANET P, EIGEN D, ZHANG Xiang, et al. Over⁃ Feat: integrated recognition, localization and detection u⁃ sing convolutional networks[J]. Eprint Arxiv, 2013. [23] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off⁃the⁃shelf: an astounding baseline for rec⁃ ognition[ C] / / Proceedings of the 2014 IEEE conference 第 3 期 龚震霆,等:基于卷积神经网络和哈希编码的图像检索方法 ·399·
·400· 智能系统学报 第11卷 on computer vision and pattern recognition workshops.Co- [30]GRIFFIN G,HOLUB A,PERONA P.Caltech-256 object umbus,0H.USA,2014:512-519. category dataset R].CaltechAUTHORS:CNS-TR-2007- [24]XIA Rongkai,PAN Yan,LIU Cong,et al.Supervised 001,2007. hashing for image retrieval via image representation learn- 作者简介: ing[C]//Proceedings of the 24th AAAI conference on ar- 龚震霆,男,1991年生,硕士研究 tificial intelligence.Qubec City,Canada,2014:2156- 生,主要研究方向为计算机视觉、机器 2162. 学习。 [25]GUO Jinma,LI Jianmin.CNN Based Hashing for Image Retrieval[Z].arXiv:1509.01354v1,2015. [26]LIN K,YANG H F,HSIAO J H,et al.Deep learing of binary hash codes for fast image retrieval[C]//Proceed- ings of the 2015 IEEE conference on computer vision and 陈光喜,男,1971年生,博士生导 pattern recognition workshops (CVPRW).Boston,Massa- 师,主要研究方向为可信计算、图像处 chusetts,USA,2015:27-35. 理。主持完成国家自然基金项目2项、 [27]ANDONI A,INDYK P.Near-optimal hashing algorithms 广西省科学基金及企业开发项目多项。 for approximate nearest neighbor in high dimensions[C] 获桂林市科技进步三等奖1项、广西教 Proceedings of IEEE 54th annual symposium on founda- 学成果奖一等奖1项。发表学术论文 tions of computer science.Berkeley,CA,USA,2006: 30余篇,主编教材1部。 459-468. [28]SIMONYAN K,ZISSERMAN A.Very deep convolutional 任夏荔,女,1992年生,硕士研究 networks for large-scale image recognition[J].Eprint Arx- 生,主要研究方向为计算机视觉、深度 iv,2014. 学习。 [29]LI Feifei,FERGUS R,PERONA P.Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories[] Computer vision and image understanding,2007,106 (1):59-70. 2016年控制论、机器人与控制国际会议 2016 International Conference on Cybernetics, Robotics and Control (CRC 2016) 2016 International Conference on Cybernetics,Robotics and Control will be held in Hong Kong during August 19-21,2016. The idea of the conference is providing a platform for scientists,scholars,and engineers from all over the world to present ongoing researches,and to foster research relations between the Universities and the Industry.We are looking forward to your participation. It features invited keynote speakers as well as peer-reviewed paper presentations.The conference is completely open (one needs to register first),you will not have to be an author or a discussant to attend. The covered key topics will include (but will not be limited to): Modern Advanced Control Strategies; Data Analysis,Prediction Model Identification: Decision Making and Information Retrieval; Control System Application; Database System; Human-Machine Systems; Robotics and Automation; Multimedia and Communication Systems; Hybrid Systems. Website:http://www.iccrc.org/index.html
on computer vision and pattern recognition workshops. Co⁃ lumbus, OH, USA, 2014: 512⁃519. [24] XIA Rongkai, PAN Yan, LIU Cong, et al. Supervised hashing for image retrieval via image representation learn⁃ ing[C] / / Proceedings of the 24th AAAI conference on ar⁃ tificial intelligence. Qubec City, Canada, 2014: 2156⁃ 2162. [25] GUO Jinma, LI Jianmin. CNN Based Hashing for Image Retrieval[Z]. arXiv: 1509. 01354v1, 2015. [26]LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval [ C] / / Proceed⁃ ings of the 2015 IEEE conference on computer vision and pattern recognition workshops (CVPRW). Boston, Massa⁃ chusetts, USA, 2015: 27⁃35. [27] ANDONI A, INDYK P. Near⁃optimal hashing algorithms for approximate nearest neighbor in high dimensions[C] / / Proceedings of IEEE 54th annual symposium on founda⁃ tions of computer science. Berkeley, CA, USA, 2006: 459⁃468. [28] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large⁃scale image recognition[ J]. Eprint Arx⁃ iv, 2014. [29] LI Feifei, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories [ J]. Computer vision and image understanding, 2007, 106 (1): 59⁃70. [30]GRIFFIN G, HOLUB A, PERONA P. Caltech⁃256 object category dataset [ R]. CaltechAUTHORS: CNS⁃TR⁃2007⁃ 001, 2007. 作者简介: 龚震霆,男,1991 年生,硕士研究 生,主要研究方向为计算机视觉、机器 学习。 陈光喜,男,1971 年生, 博士生导 师,主要研究方向为可信计算、图像处 理。 主持完成国家自然基金项目 2 项、 广西省科学基金及企业开发项目多项。 获桂林市科技进步三等奖 1 项、广西教 学成果奖一等奖 1 项。 发表学术论文 30 余篇,主编教材 1 部。 任夏荔,女,1992 年生,硕士研究 生,主要研究方向为计算机视觉、深度 学习。 2016 年控制论、机器人与控制国际会议 2016 International Conference on Cybernetics, Robotics and Control (CRC 2016) 2016 International Conference on Cybernetics, Robotics and Control will be held in Hong Kong during August 19⁃21, 2016. The idea of the conference is providing a platform for scientists, scholars, and engineers from all over the world to present ongoing researches , and to foster research relations between the Universities and the Industry. We are looking forward to your participation. It features invited keynote speakers as well as peer⁃reviewed paper presentations.The conference is completely open (one needs to register first), you will not have to be an author or a discussant to attend. The covered key topics will include (but will not be limited to): Modern Advanced Control Strategies; Data Analysis, Prediction & Model Identification; Decision Making and Information Retrieval; Control System Application; Database System; Human⁃Machine Systems; Robotics and Automation; Multimedia and Communication Systems; Hybrid Systems. Website: http:/ / www.iccrc.org / index.html ·400· 智 能 系 统 学 报 第 11 卷