自主无人系统来说是必不可少的能力。通常，三维感知能力由定位和建图两部分组

正在加载图片...

·674· 智能系统学报第16卷自主无人系统来说是必不可少的能力。通常，三场景识别系统，通过将CNN中高层和中层提取的维感知能力由定位和建图两部分组成。当前主流特征相结合，实现了较为鲁棒的大规模场景识别。的方法支持同步定位与建图，即SLAM(simultan- 上述特征提取方法都存在一定的局限性。 eous localization and mapping)。在SLAM系统中， SURF、SIFT等人工特征描述符无法自动提取图机器人需要对自身所处的环境进行建图并同时估片深层特征，需要人为设计特征描述符，随着大计自己的位姿。视觉SLAM系统主要包括3个规模开放场景下数据集规模的不断增加，手工设部分：前端视觉里程计、后端优化、回环检测。计全面且准确的特征描述符越来越困难。而基其中，回环检测的目的在于判断机器人所在区域于CNN等深度学习的方法虽然可以自动提取图是否处于以前访问过的区域，以便消除机器人在片的深度特征，但在模型训练时大多使用有监督长时间导航与定位中产生的累计误差，对于机器学习，需要大量的有标签数据，而数据的标注过人进行准确定位以及地图构建起着至关重要的作程费时费力。用)。但是，机器人在利用视觉SLAM进行导航因此，研究基于无监督学习的特征表达，是当时不可避免地会面临光照变化、季节更替、视角前机器视觉领域的研究热点和难点。Gao等使改变、动态场景等情况，这些因素都会导致回环用堆栈去噪自编码器(stacked denoising auto-en- 检测的性能大大降低，从而影响机器人定位的准 coder,SDA)模型进行无监督回环检测。然而，该确性以及地图构建的可靠性，因此需要更加鲁棒方法需要离线训练，且训练集和测试集相同，因以及稳定的回环检测方法。此实用性不强。最近，生成对抗网络(generative 针对视觉回环检测问题，目前主流的方法主 adversarial network,GAN)l)作为一种新的无监督要分为传统方法以及基于深度学习的方法。学习方法受到越来越多的关注，成为新的研究热 SIFTS(scale invariant feature transform)SURF 点。GAN作为一种优秀的生成模型，与其他生成 (speeded up robust feature)等是目前使用较为广泛模型，如自编码器(auto-encoder,AE)a、受限玻尔的传统特征提取方法。前者对尺度及光照都具有兹曼机(restricted Boltzmann machine,RBM)I)相一定的鲁棒性，但在提取特征时十分耗时，运行比，无需大量的先验知识，也无需显式地对生成效率较为低下。SURF相比于SIFT计算效率有所数据的分布进行建模。由于GAN独特的对抗式提高，但对旋转以及尺度变换的鲁棒性却远远低训练方法，在训练过程中可以从大量的无标签数于SIFT。SURF和SIFT描述符都属于局部描述据中无监督地学习数据的特征表达，同时生成高符，为了让基于局部描述符的方法应用于视觉质量的样本，相比于传统机器学习算法具有更强 SLAM系统，应用于自然语言处理及检索领域的大的特征学习以及特征表达能力。因此，GAN被词袋模型被引入视觉领域，形成了视觉词袋模型广泛应用于机器视觉等领域。也有学者将GAN BoVW(bag of visual word)。该方法主要分为提应用于回环检测任务中。该方法从鉴别器的高取视觉词汇、构建视觉词典、计算相似度3个部维特征空间中提取特征描述子。但是，该方法提分。提取视觉词汇即利用SURF或者SIFT提取取的特征描述子维度较高，会占用大量的存储空图片的局部特征，形成不同的视觉单词向量。将间以及计算资源。所有特征向量进行聚类，构建包含若干视觉词汇受Shin等的启发，本文以无监督学习的方的词典。测试时，将输入图片与视觉词典进行对式训练GAN来进行回环检测。考虑到低维二进比得到该图片在视觉词典中的直方图，计算两张制描述子能够降低存储资源的消耗，同时加速回图片直方图之间的距离即可完成相似度计算。环检测的决策过程。因此，本文在鉴别器中加入 BoVW模型对于环境变化，例如尺度变化、旋转激活函数，将传统的非二进制描述子转换成二进以及视角变化具有鲁棒性，但研究表明该方法在制描述子。同时为了弥补低维特征所带来的信息光照变化严重的情况下表现不佳。损失，提高二进制特征描述符的区分度，使其在近年来，随着深度学习的迅速发展，越来越多复杂场景外观变化下具有鲁棒性，本文将距离传基于深度学习的特征提取方法被提出。Chen等圆播损失函数Lpr(distance propagating)和二值化表率先利用ImageNet的预训练卷积神经网络(con- 示嫡损失函数LBRE(binarized representation volutional neural network,CNN)模型提取图片的深 entropy)引入鉴别器中，将高维特征空间的海明距度特征并与空间和序列滤波器相结合应用于场景离关系传播到低维特征空间中，并利用BoVW模识别，实验表明该方法在场景识别中精度较高。型将提取的局部特征融合为全局特征用于回环检文献[9]第一次提出了基于卷积神经网络的测。实验结果表明，该描述符可以解决复杂场景自主无人系统来说是必不可少的能力。通常，三维感知能力由定位和建图两部分组成。当前主流的方法支持同步定位与建图，即 SLAM(simultaneous localization and mapping)。在 SLAM 系统中，机器人需要对自身所处的环境进行建图并同时估计自己的位姿[1]。视觉 SLAM 系统主要包括 3 个部分：前端视觉里程计、后端优化、回环检测[2]。其中，回环检测的目的在于判断机器人所在区域是否处于以前访问过的区域，以便消除机器人在长时间导航与定位中产生的累计误差，对于机器人进行准确定位以及地图构建起着至关重要的作用 [3]。但是，机器人在利用视觉 SLAM 进行导航时不可避免地会面临光照变化、季节更替、视角改变、动态场景等情况，这些因素都会导致回环检测的性能大大降低，从而影响机器人定位的准确性以及地图构建的可靠性，因此需要更加鲁棒以及稳定的回环检测方法。针对视觉回环检测问题，目前主流的方法主要分为传统方法以及基于深度学习的方法[ 4 ]。 SIFT[5] (scale invariant feature transform) 及 SURF[6] (speeded up robust feature) 等是目前使用较为广泛的传统特征提取方法。前者对尺度及光照都具有一定的鲁棒性，但在提取特征时十分耗时，运行效率较为低下。SURF 相比于 SIFT 计算效率有所提高，但对旋转以及尺度变换的鲁棒性却远远低于 SIFT。SURF 和 SIFT 描述符都属于局部描述符，为了让基于局部描述符的方法应用于视觉 SLAM 系统，应用于自然语言处理及检索领域的词袋模型被引入视觉领域，形成了视觉词袋模型 BoVW[7] (bag of visual word)。该方法主要分为提取视觉词汇、构建视觉词典、计算相似度 3 个部分。提取视觉词汇即利用 SURF 或者 SIFT 提取图片的局部特征，形成不同的视觉单词向量。将所有特征向量进行聚类，构建包含若干视觉词汇的词典。测试时，将输入图片与视觉词典进行对比得到该图片在视觉词典中的直方图，计算两张图片直方图之间的距离即可完成相似度计算。 BoVW 模型对于环境变化，例如尺度变化、旋转以及视角变化具有鲁棒性，但研究表明该方法在光照变化严重的情况下表现不佳。近年来，随着深度学习的迅速发展，越来越多基于深度学习的特征提取方法被提出。Chen 等 [8] 率先利用 ImageNet 的预训练卷积神经网络 (convolutional neural network, CNN) 模型提取图片的深度特征并与空间和序列滤波器相结合应用于场景识别，实验表明该方法在场景识别中精度较高。文献 [ 9 ] 第一次提出了基于卷积神经网络的场景识别系统，通过将 CNN 中高层和中层提取的特征相结合，实现了较为鲁棒的大规模场景识别。上述特征提取方法都存在一定的局限性。 SURF、SIFT 等人工特征描述符无法自动提取图片深层特征，需要人为设计特征描述符，随着大规模开放场景下数据集规模的不断增加，手工设计全面且准确的特征描述符越来越困难。而基于 CNN 等深度学习的方法虽然可以自动提取图片的深度特征，但在模型训练时大多使用有监督学习，需要大量的有标签数据，而数据的标注过程费时费力。因此，研究基于无监督学习的特征表达，是当前机器视觉领域的研究热点和难点。Gao 等 [10] 使用堆栈去噪自编码器 (stacked denoising auto-encoder, SDA) 模型进行无监督回环检测。然而，该方法需要离线训练，且训练集和测试集相同，因此实用性不强。最近，生成对抗网络 (generative adversarial network, GAN)[11] 作为一种新的无监督学习方法受到越来越多的关注，成为新的研究热点。GAN 作为一种优秀的生成模型，与其他生成模型，如自编码器 (auto-encoder，AE)[12] 、受限玻尔兹曼机 (restricted Boltzmann machine，RBM)[13] 相比，无需大量的先验知识，也无需显式地对生成数据的分布进行建模。由于 GAN 独特的对抗式训练方法，在训练过程中可以从大量的无标签数据中无监督地学习数据的特征表达，同时生成高质量的样本，相比于传统机器学习算法具有更强大的特征学习以及特征表达能力。因此，GAN 被广泛应用于机器视觉等领域。也有学者将 GAN 应用于回环检测任务中[14]。该方法从鉴别器的高维特征空间中提取特征描述子。但是，该方法提取的特征描述子维度较高，会占用大量的存储空间以及计算资源。受 Shin 等 [14] 的启发，本文以无监督学习的方式训练 GAN 来进行回环检测。考虑到低维二进制描述子能够降低存储资源的消耗，同时加速回环检测的决策过程。因此，本文在鉴别器中加入激活函数，将传统的非二进制描述子转换成二进制描述子。同时为了弥补低维特征所带来的信息损失，提高二进制特征描述符的区分度，使其在复杂场景外观变化下具有鲁棒性，本文将距离传播损失函数 LDP(distance propagating) 和二值化表示熵损失函数 L BRE (binarized representation entropy) 引入鉴别器中，将高维特征空间的海明距离关系传播到低维特征空间中，并利用 BoVW 模型将提取的局部特征融合为全局特征用于回环检测。实验结果表明，该描述符可以解决复杂场景 ·674· 智能系统学报第 16 卷

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】基于二进制生成对抗网络的视觉回环检测研究