正在加载图片...
·674· 智能系统学 报 第16卷 自主无人系统来说是必不可少的能力。通常,三 场景识别系统,通过将CNN中高层和中层提取的 维感知能力由定位和建图两部分组成。当前主流 特征相结合,实现了较为鲁棒的大规模场景识别。 的方法支持同步定位与建图,即SLAM(simultan- 上述特征提取方法都存在一定的局限性。 eous localization and mapping)。在SLAM系统中, SURF、SIFT等人工特征描述符无法自动提取图 机器人需要对自身所处的环境进行建图并同时估 片深层特征,需要人为设计特征描述符,随着大 计自己的位姿。视觉SLAM系统主要包括3个 规模开放场景下数据集规模的不断增加,手工设 部分:前端视觉里程计、后端优化、回环检测。 计全面且准确的特征描述符越来越困难。而基 其中,回环检测的目的在于判断机器人所在区域 于CNN等深度学习的方法虽然可以自动提取图 是否处于以前访问过的区域,以便消除机器人在 片的深度特征,但在模型训练时大多使用有监督 长时间导航与定位中产生的累计误差,对于机器 学习,需要大量的有标签数据,而数据的标注过 人进行准确定位以及地图构建起着至关重要的作 程费时费力。 用)。但是,机器人在利用视觉SLAM进行导航 因此,研究基于无监督学习的特征表达,是当 时不可避免地会面临光照变化、季节更替、视角 前机器视觉领域的研究热点和难点。Gao等使 改变、动态场景等情况,这些因素都会导致回环 用堆栈去噪自编码器(stacked denoising auto-en- 检测的性能大大降低,从而影响机器人定位的准 coder,SDA)模型进行无监督回环检测。然而,该 确性以及地图构建的可靠性,因此需要更加鲁棒 方法需要离线训练,且训练集和测试集相同,因 以及稳定的回环检测方法。 此实用性不强。最近,生成对抗网络(generative 针对视觉回环检测问题,目前主流的方法主 adversarial network,GAN)l)作为一种新的无监督 要分为传统方法以及基于深度学习的方法。 学习方法受到越来越多的关注,成为新的研究热 SIFTS(scale invariant feature transform)SURF 点。GAN作为一种优秀的生成模型,与其他生成 (speeded up robust feature)等是目前使用较为广泛 模型,如自编码器(auto-encoder,AE)a、受限玻尔 的传统特征提取方法。前者对尺度及光照都具有 兹曼机(restricted Boltzmann machine,RBM)I)相 一定的鲁棒性,但在提取特征时十分耗时,运行 比,无需大量的先验知识,也无需显式地对生成 效率较为低下。SURF相比于SIFT计算效率有所 数据的分布进行建模。由于GAN独特的对抗式 提高,但对旋转以及尺度变换的鲁棒性却远远低 训练方法,在训练过程中可以从大量的无标签数 于SIFT。SURF和SIFT描述符都属于局部描述 据中无监督地学习数据的特征表达,同时生成高 符,为了让基于局部描述符的方法应用于视觉 质量的样本,相比于传统机器学习算法具有更强 SLAM系统,应用于自然语言处理及检索领域的 大的特征学习以及特征表达能力。因此,GAN被 词袋模型被引入视觉领域,形成了视觉词袋模型 广泛应用于机器视觉等领域。也有学者将GAN BoVW(bag of visual word)。该方法主要分为提 应用于回环检测任务中。该方法从鉴别器的高 取视觉词汇、构建视觉词典、计算相似度3个部 维特征空间中提取特征描述子。但是,该方法提 分。提取视觉词汇即利用SURF或者SIFT提取 取的特征描述子维度较高,会占用大量的存储空 图片的局部特征,形成不同的视觉单词向量。将 间以及计算资源。 所有特征向量进行聚类,构建包含若干视觉词汇 受Shin等的启发,本文以无监督学习的方 的词典。测试时,将输入图片与视觉词典进行对 式训练GAN来进行回环检测。考虑到低维二进 比得到该图片在视觉词典中的直方图,计算两张 制描述子能够降低存储资源的消耗,同时加速回 图片直方图之间的距离即可完成相似度计算。 环检测的决策过程。因此,本文在鉴别器中加入 BoVW模型对于环境变化,例如尺度变化、旋转 激活函数,将传统的非二进制描述子转换成二进 以及视角变化具有鲁棒性,但研究表明该方法在 制描述子。同时为了弥补低维特征所带来的信息 光照变化严重的情况下表现不佳。 损失,提高二进制特征描述符的区分度,使其在 近年来,随着深度学习的迅速发展,越来越多 复杂场景外观变化下具有鲁棒性,本文将距离传 基于深度学习的特征提取方法被提出。Chen等圆 播损失函数Lpr(distance propagating)和二值化表 率先利用ImageNet的预训练卷积神经网络(con- 示嫡损失函数LBRE(binarized representation volutional neural network,CNN)模型提取图片的深 entropy)引入鉴别器中,将高维特征空间的海明距 度特征并与空间和序列滤波器相结合应用于场景 离关系传播到低维特征空间中,并利用BoVW模 识别,实验表明该方法在场景识别中精度较高。 型将提取的局部特征融合为全局特征用于回环检 文献[9]第一次提出了基于卷积神经网络的 测。实验结果表明,该描述符可以解决复杂场景自主无人系统来说是必不可少的能力。通常,三 维感知能力由定位和建图两部分组成。当前主流 的方法支持同步定位与建图,即 SLAM(simultan￾eous localization and mapping)。在 SLAM 系统中, 机器人需要对自身所处的环境进行建图并同时估 计自己的位姿[1]。视觉 SLAM 系统主要包括 3 个 部分:前端视觉里程计、后端优化、回环检测[2]。 其中,回环检测的目的在于判断机器人所在区域 是否处于以前访问过的区域,以便消除机器人在 长时间导航与定位中产生的累计误差,对于机器 人进行准确定位以及地图构建起着至关重要的作 用 [3]。但是,机器人在利用视觉 SLAM 进行导航 时不可避免地会面临光照变化、季节更替、视角 改变、动态场景等情况,这些因素都会导致回环 检测的性能大大降低,从而影响机器人定位的准 确性以及地图构建的可靠性,因此需要更加鲁棒 以及稳定的回环检测方法。 针对视觉回环检测问题,目前主流的方法主 要分为传统方法以及基于深度学习的方法[ 4 ]。 SIFT[5] (scale invariant feature transform) 及 SURF[6] (speeded up robust feature) 等是目前使用较为广泛 的传统特征提取方法。前者对尺度及光照都具有 一定的鲁棒性,但在提取特征时十分耗时,运行 效率较为低下。SURF 相比于 SIFT 计算效率有所 提高,但对旋转以及尺度变换的鲁棒性却远远低 于 SIFT。SURF 和 SIFT 描述符都属于局部描述 符,为了让基于局部描述符的方法应用于视觉 SLAM 系统,应用于自然语言处理及检索领域的 词袋模型被引入视觉领域,形成了视觉词袋模型 BoVW[7] (bag of visual word)。该方法主要分为提 取视觉词汇、构建视觉词典、计算相似度 3 个部 分。提取视觉词汇即利用 SURF 或者 SIFT 提取 图片的局部特征,形成不同的视觉单词向量。将 所有特征向量进行聚类,构建包含若干视觉词汇 的词典。测试时,将输入图片与视觉词典进行对 比得到该图片在视觉词典中的直方图,计算两张 图片直方图之间的距离即可完成相似度计算。 BoVW 模型对于环境变化,例如尺度变化、旋转 以及视角变化具有鲁棒性,但研究表明该方法在 光照变化严重的情况下表现不佳。 近年来,随着深度学习的迅速发展,越来越多 基于深度学习的特征提取方法被提出。Chen 等 [8] 率先利用 ImageNet 的预训练卷积神经网络 (con￾volutional neural network, CNN) 模型提取图片的深 度特征并与空间和序列滤波器相结合应用于场景 识别,实验表明该方法在场景识别中精度较高。 文 献 [ 9 ] 第一次提出了基于卷积神经网络的 场景识别系统,通过将 CNN 中高层和中层提取的 特征相结合,实现了较为鲁棒的大规模场景识别。 上述特征提取方法都存在一定的局限性。 SURF、SIFT 等人工特征描述符无法自动提取图 片深层特征,需要人为设计特征描述符,随着大 规模开放场景下数据集规模的不断增加,手工设 计全面且准确的特征描述符越来越困难。而基 于 CNN 等深度学习的方法虽然可以自动提取图 片的深度特征,但在模型训练时大多使用有监督 学习,需要大量的有标签数据,而数据的标注过 程费时费力。 因此,研究基于无监督学习的特征表达,是当 前机器视觉领域的研究热点和难点。Gao 等 [10] 使 用堆栈去噪自编码器 (stacked denoising auto-en￾coder, SDA) 模型进行无监督回环检测。然而,该 方法需要离线训练,且训练集和测试集相同,因 此实用性不强。最近,生成对抗网络 (generative adversarial network, GAN)[11] 作为一种新的无监督 学习方法受到越来越多的关注,成为新的研究热 点。GAN 作为一种优秀的生成模型,与其他生成 模型,如自编码器 (auto-encoder,AE)[12] 、受限玻尔 兹曼机 (restricted Boltzmann machine,RBM)[13] 相 比,无需大量的先验知识,也无需显式地对生成 数据的分布进行建模。由于 GAN 独特的对抗式 训练方法,在训练过程中可以从大量的无标签数 据中无监督地学习数据的特征表达,同时生成高 质量的样本,相比于传统机器学习算法具有更强 大的特征学习以及特征表达能力。因此,GAN 被 广泛应用于机器视觉等领域。也有学者将 GAN 应用于回环检测任务中[14]。该方法从鉴别器的高 维特征空间中提取特征描述子。但是,该方法提 取的特征描述子维度较高,会占用大量的存储空 间以及计算资源。 受 Shin 等 [14] 的启发,本文以无监督学习的方 式训练 GAN 来进行回环检测。考虑到低维二进 制描述子能够降低存储资源的消耗,同时加速回 环检测的决策过程。因此,本文在鉴别器中加入 激活函数,将传统的非二进制描述子转换成二进 制描述子。同时为了弥补低维特征所带来的信息 损失,提高二进制特征描述符的区分度,使其在 复杂场景外观变化下具有鲁棒性,本文将距离传 播损失函数 LDP(distance propagating) 和二值化表 示熵损失函数 L BRE (binarized representation entropy) 引入鉴别器中,将高维特征空间的海明距 离关系传播到低维特征空间中,并利用 BoVW 模 型将提取的局部特征融合为全局特征用于回环检 测。实验结果表明,该描述符可以解决复杂场景 ·674· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有