正在加载图片...
·392· 智能系统学报 第11卷 类接受的高水平语义概念之间存在语义鸿沟问题, 是另外一个具有代表性的方法,其利用非线性函数 因此在当前基于内容的图像检索研究中从人类的感 沿着数据的主成分分析(principal component analy- 知方面把像素水平的信息和语义信息联系起来仍然 sis,PCA)方向通过设定阈值来产生二进制编码。 是最具有挑战的问题。近些年,研究者们使用 之后,大量的研究证明,使用监督信息可以提高 了一些人工视觉特征去表示图像3,但基于这些 哈希编码的学习性能。特别的,文献[14,16,18]在 人工特征的图像检索方法的性能一直不是很好。 学习中利用数据的标签信息来生成有效的哈希 这些挑战来源于人工智能的根本难题。而机器 函数。 学习是一个很有前景的技术,可以解决这个长期的 但是,图像检索中的这些哈希方法都是首先对 挑战。深度学习作为机器学习发展的一个分支,其 图像提取人工视觉特征,而人工特征不需要获得图 动机在于建立模拟人脑进行分析学习的神经网络, 像的相似性,因此这通常可能影响这些哈希方法的 通过组合低层特征形成更加抽象的高层特征,模仿 效果,从而降低了图像检索的性能。 人脑的机制来解释数据,如图像、声音、信号和文本, 随着2012年Alex等f19的CNN模型在ILSVRC 近些年已得到广泛应用s) 数据集上训练120万数量的带标签图像获得了更高 卷积神经网络(convolutional neural network, 的图像分类准确率,最近几年深度卷积特征得到广 CNN)是人工神经网络的一种,由于它的权值共享结 泛研究,并在计算机视觉工作上取得了很大的突 构和生物神经网络更类似,可以减少权值的数量,从 破[20-23]。2014年,Xia等2提出一种监督哈希方法 而降低网络模型的复杂度,现已成为深度学习中的 CNNH和CNNH+,该方法首先把训练图像数据成对 一个研究热点。目前,CNN已经应用到视频中的人 的语义相似度矩阵因式分解成近似哈希编码,然后 体动作识别信号重构、人脸等目标检测识别、图像分 利用这些近似哈希编码和图像标签训练一个深度卷 类等各个领域[8 积网络,取得了更好的性能,但是,CNNH和CNNH+ 鉴于CNN的这些进步,我们可以在图像检索中 中的矩阵分解会带来额外的错误,使得训练目标偏 利用它的优点来提高检索性能。 离。2015年,Guo等2]提出一种直接基于CNN的 哈希方法CNNBH,利用阈值O把一个全连接层的激 1 相关工作 活值二值化为二进制结果,从而得到哈希编码。同 最近邻搜索是机器学习算法的一个基本步骤。 时,文献[26]提出一种简单但是非常有效的深度学 近些年,网上可使用的数据快速增加,而且数据很容 习框架,该框架在文献[19]的深度CNN模型基础 易就达到几百或几千维度,因此,在这样一个巨大的 上添加一个隐藏层来同时学习特定领域的图像特征 数据集上进行穷极线性搜索是不可行的。但是,在 表示和一组类哈希函数,并取得了最好的检索性能。 一些应用中,寻找近似最近邻(approximate nearest 如今这些优秀的基于CNN的检索方法虽然获 neighbor,ANN)却是十分有效的,其中基于树的方法 得了巨大的进展,但是它们并没有把以前最好水准 和哈希方法是两个流行的框架。而哈希方法由于在 的哈希编码策略联系起来。 速度和存储方面的优势,它作为一种ANN方法广泛 2CNN和哈希编码相结合的方法 用于大规模图像的检索中。哈希学习是学习一种保 持图像相似性的紧密位表示,使得相似的图像能够 在图像检索中,如果开始对图像提取的特征不 匹配到相近的二进制哈希编码。 出色的话,那么后面采用很高水准的哈希编码策略 目前,主要流行一些非监督和监督的哈希方 进行编码检索也不一定能取得很好的效果。因此 法[121]。非监督的哈希方法使用非标签数据来学 本文提出一种CNN和以前最好水准的哈希策略相 习一组哈希函数[213,)]。其中,最具有代表性的是 结合的方法。我们采用文献[28]在MAGENET 使用随机映射构造哈希函数的局部感知哈希(local- Large-scale visual recognition challenge IISVRC ity sensitive Hashing,LSH)2],它意在把相似的数据 据集上预训练过的VGGNet-D网络模型对目标图像 匹配到相近的二进制编码的概率最大化。然而, 集进行特征提取,获得图像的深层卷积特征表示,然 LSH通常需要使用较长的哈希编码才能达到令人满 后对这些表示分别采用LSH]、SH)、SKLSHI51 意的精度,这导致了较大的存储空间需求和召回率 ITO!6]、PCA-RR[I6]、DSH18]6种哈希编码策略进行 普遍偏低的问题。谱哈希(spectral Hashing,SH)[] 编码得到哈希码,最后进行快速检索。将这些结合类接受的高水平语义概念之间存在语义鸿沟问题, 因此在当前基于内容的图像检索研究中从人类的感 知方面把像素水平的信息和语义信息联系起来仍然 是最具有挑战的问题[1⁃2] 。 近些年,研究者们使用 了一些人工视觉特征去表示图像[3⁃4] ,但基于这些 人工特征的图像检索方法的性能一直不是很好。 这些挑战来源于人工智能的根本难题。 而机器 学习是一个很有前景的技术,可以解决这个长期的 挑战。 深度学习作为机器学习发展的一个分支,其 动机在于建立模拟人脑进行分析学习的神经网络, 通过组合低层特征形成更加抽象的高层特征,模仿 人脑的机制来解释数据,如图像、声音、信号和文本, 近些年已得到广泛应用[5⁃7] 。 卷积 神 经 网 络 ( convolutional neural network, CNN)是人工神经网络的一种,由于它的权值共享结 构和生物神经网络更类似,可以减少权值的数量,从 而降低网络模型的复杂度,现已成为深度学习中的 一个研究热点。 目前,CNN 已经应用到视频中的人 体动作识别信号重构、人脸等目标检测识别、图像分 类等各个领域[8⁃11] 。 鉴于 CNN 的这些进步,我们可以在图像检索中 利用它的优点来提高检索性能。 1 相关工作 最近邻搜索是机器学习算法的一个基本步骤。 近些年,网上可使用的数据快速增加,而且数据很容 易就达到几百或几千维度,因此,在这样一个巨大的 数据集上进行穷极线性搜索是不可行的。 但是,在 一些应用中,寻找近似最近邻( approximate nearest neighbor,ANN)却是十分有效的,其中基于树的方法 和哈希方法是两个流行的框架。 而哈希方法由于在 速度和存储方面的优势,它作为一种 ANN 方法广泛 用于大规模图像的检索中。 哈希学习是学习一种保 持图像相似性的紧密位表示,使得相似的图像能够 匹配到相近的二进制哈希编码。 目前,主要流行一些非监督和监督的哈希方 法[12⁃18] 。 非监督的哈希方法使用非标签数据来学 习一组哈希函数[12⁃13,17] 。 其中,最具有代表性的是 使用随机映射构造哈希函数的局部感知哈希(local⁃ ity sensitive Hashing,LSH) [12] ,它意在把相似的数据 匹配到相近的二进制编码的概率最大化。 然而, LSH 通常需要使用较长的哈希编码才能达到令人满 意的精度,这导致了较大的存储空间需求和召回率 普遍偏低的问题。 谱哈希(spectral Hashing,SH) [13] 是另外一个具有代表性的方法,其利用非线性函数 沿着数据的主成分分析( principal component analy⁃ sis,PCA)方向通过设定阈值来产生二进制编码。 之后,大量的研究证明,使用监督信息可以提高 哈希编码的学习性能。 特别的,文献[14,16,18]在 学习中利用数据的标签信息来生成有效的哈希 函数。 但是,图像检索中的这些哈希方法都是首先对 图像提取人工视觉特征,而人工特征不需要获得图 像的相似性,因此这通常可能影响这些哈希方法的 效果,从而降低了图像检索的性能。 随着 2012 年 Alex 等[19]的 CNN 模型在 ILSVRC 数据集上训练 120 万数量的带标签图像获得了更高 的图像分类准确率,最近几年深度卷积特征得到广 泛研究,并在计算机视觉工作上取得了很大的突 破[20⁃23] 。 2014 年,Xia 等[24]提出一种监督哈希方法 CNNH 和 CNNH+,该方法首先把训练图像数据成对 的语义相似度矩阵因式分解成近似哈希编码,然后 利用这些近似哈希编码和图像标签训练一个深度卷 积网络,取得了更好的性能,但是,CNNH 和 CNNH+ 中的矩阵分解会带来额外的错误,使得训练目标偏 离。 2015 年,Guo 等[25] 提出一种直接基于 CNN 的 哈希方法 CNNBH,利用阈值 0 把一个全连接层的激 活值二值化为二进制结果,从而得到哈希编码。 同 时,文献[26]提出一种简单但是非常有效的深度学 习框架,该框架在文献[19] 的深度 CNN 模型基础 上添加一个隐藏层来同时学习特定领域的图像特征 表示和一组类哈希函数,并取得了最好的检索性能。 如今这些优秀的基于 CNN 的检索方法虽然获 得了巨大的进展,但是它们并没有把以前最好水准 的哈希编码策略联系起来。 2 CNN 和哈希编码相结合的方法 在图像检索中,如果开始对图像提取的特征不 出色的话,那么后面采用很高水准的哈希编码策略 进行编码检索也不一定能取得很好的效果。 因此, 本文提出一种 CNN 和以前最好水准的哈希策略相 结合的方法。 我们采用文献 [ 28] 在 IMAGENET Large⁃scale visual recognition challenge ( ILSVRC) 数 据集上预训练过的 VGGNet⁃D 网络模型对目标图像 集进行特征提取,获得图像的深层卷积特征表示,然 后对这些表示分别采用 LSH [12] 、SH [13] 、SKLSH [15] 、 ITQ [16] 、PCA⁃RR [16] 、DSH [18] 6 种哈希编码策略进行 编码得到哈希码,最后进行快速检索。 将这些结合 ·392· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有