第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202007007 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210412.1346.010.html 基于二进制生成对抗网络的视觉回环检测研究 杨慧,张婷,金晟,陈良,孙荣川,孙立宁 (苏州大学机电工程学院,江苏苏州215021) 摘要:针对现有的回环检测模型大多基于有监督学习进行训练,需要大量标注数据的问题,提出一种视觉回 环检测新方法,利用生成对抗思想设计一个深度网络,以无监督学习的方式训练该网络并提取高区分度和低维 度的二进制特征。将距离传播损失函数和二值化表示嫡损失函数引入神经网络,将高维特征空间的海明距离 关系传播到低维特征空间并增加低维特征表示的多样性,进而利用B0VW模型将提取的局部特征融合为全局 特征用于回环检测。实验结果表明:相比SFT和OB等特征提取方法,所述方法在具有强烈视角变化和外观 变化的复杂场景下具有更好的性能,可以与AlexNet和AMOSNet等有监督深度网络相媲美。但采用无监督学 习,从根本上避免了费时费力的数据标注过程,特别适用于大规模开放场景的回环检测,同时二进制特征描述 符极大地节约了存储空间和计算资源。 关键词:回环检测;无监督学习;二进制描述符;BoVW;视觉SLAM:生成对抗:特征提取:深度学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)04-0673-10 中文引用格式:杨慧,张婷,金晟,等.基于二进制生成对抗网络的视觉回环检测研究.智能系统学报,2021,16(4): 673-682. 英文引用格式:YANG Hui,ZHANG Ting,JIN Sheng,.et al.Visual loop closure detection based on binary generative adversarial networkJ.CAAI transactions on intelligent systems,2021,16(4):673-682. Visual loop closure detection based on binary generative adversarial network YANG Hui,ZHANG Ting,JIN Sheng,CHEN Liang,SUN Rongchuan,SUN Lining (School of Mechanical and Electric Engineering,Soochow University,Suzhou 215021,China) Abstract:In view of the problem that the existing loop closure detection models are mostly trained based on supervised learning and require a large amount of labeled data,this paper proposes a new method for visual loop closure detection. The idea of the generative adversarial network is adopted,and thus,a deep neural network is designed and trained through unsupervised learning methods to extract more discriminative binary feature descriptors with low dimensions. The distance propagation loss function and a binarized representation entropy loss function are introduced into the neur- al network.The first loss function can help spread the Hamming distance relationship of the high-dimensional feature space to the low-dimensional feature space,and the second one increases the diversity of the low-dimensional feature representation.The extracted local features are fused into global features by using the BovW model for further loop closure detection.Experimental results show that the proposed method has better performance than feature extraction al- gorithms such as SIFT and ORB in complex scenes that have a strong viewpoint and appearance changes,and its per- formance is comparable with that of supervised deep networks such as AlexNet and AMOSNet.It is especially suitable for loop closure detection in large-scale open scenes because the time-consuming and tedious process of supervised data annotation is completely avoided with the use of unsupervised learning.Moreover,the binary feature descriptors can greatly save storage space and computing resources. Keywords:loop closure detection;unsupervised learning;binary descriptor;BoVW;visual SLAM;generative ad- versarial;feature extraction;deep learning 收稿日期:2020-07-08.网络出版日期:2021-04-12 基金项目:国家自然科学基金面上项目(61673288). 利用三维空间中的信息进行避障、定位以及 通信作者:陈良.E-mail:chenl@suda.edu.cn. 和三维空间中的物体进行交互对于移动机器人等
DOI: 10.11992/tis.202007007 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210412.1346.010.html 基于二进制生成对抗网络的视觉回环检测研究 杨慧,张婷,金晟,陈良,孙荣川,孙立宁 (苏州大学 机电工程学院,江苏 苏州 215021) 摘 要:针对现有的回环检测模型大多基于有监督学习进行训练,需要大量标注数据的问题,提出一种视觉回 环检测新方法,利用生成对抗思想设计一个深度网络,以无监督学习的方式训练该网络并提取高区分度和低维 度的二进制特征。将距离传播损失函数和二值化表示熵损失函数引入神经网络,将高维特征空间的海明距离 关系传播到低维特征空间并增加低维特征表示的多样性,进而利用 BoVW 模型将提取的局部特征融合为全局 特征用于回环检测。实验结果表明:相比 SIFT 和 ORB 等特征提取方法,所述方法在具有强烈视角变化和外观 变化的复杂场景下具有更好的性能,可以与 AlexNet 和 AMOSNet 等有监督深度网络相媲美。但采用无监督学 习,从根本上避免了费时费力的数据标注过程,特别适用于大规模开放场景的回环检测,同时二进制特征描述 符极大地节约了存储空间和计算资源。 关键词:回环检测;无监督学习;二进制描述符;BoVW;视觉 SLAM;生成对抗;特征提取;深度学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)04−0673−10 中文引用格式:杨慧, 张婷, 金晟, 等. 基于二进制生成对抗网络的视觉回环检测研究 [J]. 智能系统学报, 2021, 16(4): 673–682. 英文引用格式:YANG Hui, ZHANG Ting, JIN Sheng, et al. Visual loop closure detection based on binary generative adversarial network[J]. CAAI transactions on intelligent systems, 2021, 16(4): 673–682. Visual loop closure detection based on binary generative adversarial network YANG Hui,ZHANG Ting,JIN Sheng,CHEN Liang,SUN Rongchuan,SUN Lining (School of Mechanical and Electric Engineering, Soochow University, Suzhou 215021, China) Abstract: In view of the problem that the existing loop closure detection models are mostly trained based on supervised learning and require a large amount of labeled data, this paper proposes a new method for visual loop closure detection. The idea of the generative adversarial network is adopted, and thus, a deep neural network is designed and trained through unsupervised learning methods to extract more discriminative binary feature descriptors with low dimensions. The distance propagation loss function and a binarized representation entropy loss function are introduced into the neural network. The first loss function can help spread the Hamming distance relationship of the high-dimensional feature space to the low-dimensional feature space, and the second one increases the diversity of the low-dimensional feature representation. The extracted local features are fused into global features by using the BoVW model for further loop closure detection. Experimental results show that the proposed method has better performance than feature extraction algorithms such as SIFT and ORB in complex scenes that have a strong viewpoint and appearance changes, and its performance is comparable with that of supervised deep networks such as AlexNet and AMOSNet. It is especially suitable for loop closure detection in large-scale open scenes because the time-consuming and tedious process of supervised data annotation is completely avoided with the use of unsupervised learning. Moreover, the binary feature descriptors can greatly save storage space and computing resources. Keywords: loop closure detection; unsupervised learning; binary descriptor; BoVW; visual SLAM; generative adversarial; feature extraction; deep learning 利用三维空间中的信息进行避障、定位以及 和三维空间中的物体进行交互对于移动机器人等 收稿日期:2020−07−08. 网络出版日期:2021−04−12. 基金项目:国家自然科学基金面上项目 (61673288). 通信作者:陈良. E-mail:chenl@suda.edu.cn. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·674· 智能系统学 报 第16卷 自主无人系统来说是必不可少的能力。通常,三 场景识别系统,通过将CNN中高层和中层提取的 维感知能力由定位和建图两部分组成。当前主流 特征相结合,实现了较为鲁棒的大规模场景识别。 的方法支持同步定位与建图,即SLAM(simultan- 上述特征提取方法都存在一定的局限性。 eous localization and mapping)。在SLAM系统中, SURF、SIFT等人工特征描述符无法自动提取图 机器人需要对自身所处的环境进行建图并同时估 片深层特征,需要人为设计特征描述符,随着大 计自己的位姿。视觉SLAM系统主要包括3个 规模开放场景下数据集规模的不断增加,手工设 部分:前端视觉里程计、后端优化、回环检测。 计全面且准确的特征描述符越来越困难。而基 其中,回环检测的目的在于判断机器人所在区域 于CNN等深度学习的方法虽然可以自动提取图 是否处于以前访问过的区域,以便消除机器人在 片的深度特征,但在模型训练时大多使用有监督 长时间导航与定位中产生的累计误差,对于机器 学习,需要大量的有标签数据,而数据的标注过 人进行准确定位以及地图构建起着至关重要的作 程费时费力。 用)。但是,机器人在利用视觉SLAM进行导航 因此,研究基于无监督学习的特征表达,是当 时不可避免地会面临光照变化、季节更替、视角 前机器视觉领域的研究热点和难点。Gao等使 改变、动态场景等情况,这些因素都会导致回环 用堆栈去噪自编码器(stacked denoising auto-en- 检测的性能大大降低,从而影响机器人定位的准 coder,SDA)模型进行无监督回环检测。然而,该 确性以及地图构建的可靠性,因此需要更加鲁棒 方法需要离线训练,且训练集和测试集相同,因 以及稳定的回环检测方法。 此实用性不强。最近,生成对抗网络(generative 针对视觉回环检测问题,目前主流的方法主 adversarial network,GAN)l)作为一种新的无监督 要分为传统方法以及基于深度学习的方法。 学习方法受到越来越多的关注,成为新的研究热 SIFTS(scale invariant feature transform)SURF 点。GAN作为一种优秀的生成模型,与其他生成 (speeded up robust feature)等是目前使用较为广泛 模型,如自编码器(auto-encoder,AE)a、受限玻尔 的传统特征提取方法。前者对尺度及光照都具有 兹曼机(restricted Boltzmann machine,RBM)I)相 一定的鲁棒性,但在提取特征时十分耗时,运行 比,无需大量的先验知识,也无需显式地对生成 效率较为低下。SURF相比于SIFT计算效率有所 数据的分布进行建模。由于GAN独特的对抗式 提高,但对旋转以及尺度变换的鲁棒性却远远低 训练方法,在训练过程中可以从大量的无标签数 于SIFT。SURF和SIFT描述符都属于局部描述 据中无监督地学习数据的特征表达,同时生成高 符,为了让基于局部描述符的方法应用于视觉 质量的样本,相比于传统机器学习算法具有更强 SLAM系统,应用于自然语言处理及检索领域的 大的特征学习以及特征表达能力。因此,GAN被 词袋模型被引入视觉领域,形成了视觉词袋模型 广泛应用于机器视觉等领域。也有学者将GAN BoVW(bag of visual word)。该方法主要分为提 应用于回环检测任务中。该方法从鉴别器的高 取视觉词汇、构建视觉词典、计算相似度3个部 维特征空间中提取特征描述子。但是,该方法提 分。提取视觉词汇即利用SURF或者SIFT提取 取的特征描述子维度较高,会占用大量的存储空 图片的局部特征,形成不同的视觉单词向量。将 间以及计算资源。 所有特征向量进行聚类,构建包含若干视觉词汇 受Shin等的启发,本文以无监督学习的方 的词典。测试时,将输入图片与视觉词典进行对 式训练GAN来进行回环检测。考虑到低维二进 比得到该图片在视觉词典中的直方图,计算两张 制描述子能够降低存储资源的消耗,同时加速回 图片直方图之间的距离即可完成相似度计算。 环检测的决策过程。因此,本文在鉴别器中加入 BoVW模型对于环境变化,例如尺度变化、旋转 激活函数,将传统的非二进制描述子转换成二进 以及视角变化具有鲁棒性,但研究表明该方法在 制描述子。同时为了弥补低维特征所带来的信息 光照变化严重的情况下表现不佳。 损失,提高二进制特征描述符的区分度,使其在 近年来,随着深度学习的迅速发展,越来越多 复杂场景外观变化下具有鲁棒性,本文将距离传 基于深度学习的特征提取方法被提出。Chen等圆 播损失函数Lpr(distance propagating)和二值化表 率先利用ImageNet的预训练卷积神经网络(con- 示嫡损失函数LBRE(binarized representation volutional neural network,CNN)模型提取图片的深 entropy)引入鉴别器中,将高维特征空间的海明距 度特征并与空间和序列滤波器相结合应用于场景 离关系传播到低维特征空间中,并利用BoVW模 识别,实验表明该方法在场景识别中精度较高。 型将提取的局部特征融合为全局特征用于回环检 文献[9]第一次提出了基于卷积神经网络的 测。实验结果表明,该描述符可以解决复杂场景
自主无人系统来说是必不可少的能力。通常,三 维感知能力由定位和建图两部分组成。当前主流 的方法支持同步定位与建图,即 SLAM(simultaneous localization and mapping)。在 SLAM 系统中, 机器人需要对自身所处的环境进行建图并同时估 计自己的位姿[1]。视觉 SLAM 系统主要包括 3 个 部分:前端视觉里程计、后端优化、回环检测[2]。 其中,回环检测的目的在于判断机器人所在区域 是否处于以前访问过的区域,以便消除机器人在 长时间导航与定位中产生的累计误差,对于机器 人进行准确定位以及地图构建起着至关重要的作 用 [3]。但是,机器人在利用视觉 SLAM 进行导航 时不可避免地会面临光照变化、季节更替、视角 改变、动态场景等情况,这些因素都会导致回环 检测的性能大大降低,从而影响机器人定位的准 确性以及地图构建的可靠性,因此需要更加鲁棒 以及稳定的回环检测方法。 针对视觉回环检测问题,目前主流的方法主 要分为传统方法以及基于深度学习的方法[ 4 ]。 SIFT[5] (scale invariant feature transform) 及 SURF[6] (speeded up robust feature) 等是目前使用较为广泛 的传统特征提取方法。前者对尺度及光照都具有 一定的鲁棒性,但在提取特征时十分耗时,运行 效率较为低下。SURF 相比于 SIFT 计算效率有所 提高,但对旋转以及尺度变换的鲁棒性却远远低 于 SIFT。SURF 和 SIFT 描述符都属于局部描述 符,为了让基于局部描述符的方法应用于视觉 SLAM 系统,应用于自然语言处理及检索领域的 词袋模型被引入视觉领域,形成了视觉词袋模型 BoVW[7] (bag of visual word)。该方法主要分为提 取视觉词汇、构建视觉词典、计算相似度 3 个部 分。提取视觉词汇即利用 SURF 或者 SIFT 提取 图片的局部特征,形成不同的视觉单词向量。将 所有特征向量进行聚类,构建包含若干视觉词汇 的词典。测试时,将输入图片与视觉词典进行对 比得到该图片在视觉词典中的直方图,计算两张 图片直方图之间的距离即可完成相似度计算。 BoVW 模型对于环境变化,例如尺度变化、旋转 以及视角变化具有鲁棒性,但研究表明该方法在 光照变化严重的情况下表现不佳。 近年来,随着深度学习的迅速发展,越来越多 基于深度学习的特征提取方法被提出。Chen 等 [8] 率先利用 ImageNet 的预训练卷积神经网络 (convolutional neural network, CNN) 模型提取图片的深 度特征并与空间和序列滤波器相结合应用于场景 识别,实验表明该方法在场景识别中精度较高。 文 献 [ 9 ] 第一次提出了基于卷积神经网络的 场景识别系统,通过将 CNN 中高层和中层提取的 特征相结合,实现了较为鲁棒的大规模场景识别。 上述特征提取方法都存在一定的局限性。 SURF、SIFT 等人工特征描述符无法自动提取图 片深层特征,需要人为设计特征描述符,随着大 规模开放场景下数据集规模的不断增加,手工设 计全面且准确的特征描述符越来越困难。而基 于 CNN 等深度学习的方法虽然可以自动提取图 片的深度特征,但在模型训练时大多使用有监督 学习,需要大量的有标签数据,而数据的标注过 程费时费力。 因此,研究基于无监督学习的特征表达,是当 前机器视觉领域的研究热点和难点。Gao 等 [10] 使 用堆栈去噪自编码器 (stacked denoising auto-encoder, SDA) 模型进行无监督回环检测。然而,该 方法需要离线训练,且训练集和测试集相同,因 此实用性不强。最近,生成对抗网络 (generative adversarial network, GAN)[11] 作为一种新的无监督 学习方法受到越来越多的关注,成为新的研究热 点。GAN 作为一种优秀的生成模型,与其他生成 模型,如自编码器 (auto-encoder,AE)[12] 、受限玻尔 兹曼机 (restricted Boltzmann machine,RBM)[13] 相 比,无需大量的先验知识,也无需显式地对生成 数据的分布进行建模。由于 GAN 独特的对抗式 训练方法,在训练过程中可以从大量的无标签数 据中无监督地学习数据的特征表达,同时生成高 质量的样本,相比于传统机器学习算法具有更强 大的特征学习以及特征表达能力。因此,GAN 被 广泛应用于机器视觉等领域。也有学者将 GAN 应用于回环检测任务中[14]。该方法从鉴别器的高 维特征空间中提取特征描述子。但是,该方法提 取的特征描述子维度较高,会占用大量的存储空 间以及计算资源。 受 Shin 等 [14] 的启发,本文以无监督学习的方 式训练 GAN 来进行回环检测。考虑到低维二进 制描述子能够降低存储资源的消耗,同时加速回 环检测的决策过程。因此,本文在鉴别器中加入 激活函数,将传统的非二进制描述子转换成二进 制描述子。同时为了弥补低维特征所带来的信息 损失,提高二进制特征描述符的区分度,使其在 复杂场景外观变化下具有鲁棒性,本文将距离传 播损失函数 LDP(distance propagating) 和二值化表 示熵损失函数 L BRE (binarized representation entropy) 引入鉴别器中,将高维特征空间的海明距 离关系传播到低维特征空间中,并利用 BoVW 模 型将提取的局部特征融合为全局特征用于回环检 测。实验结果表明,该描述符可以解决复杂场景 ·674· 智 能 系 统 学 报 第 16 卷
第4期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·675· 下的回环检测问题,对于视角及环境变化具有较 特征。因此,本文利用GAN的鉴别器D作为视 强的鲁棒性,用生成对抗的方式开展无监督回环 觉回环检测任务的特征提取器,其优势在于可以 检测不但是可行的,而且以该方法生成的二进制 充分利用生成对抗的思想进行特征的无监督学 特征描述符具有较高的区分度,减少了低维特征 习,不需要额外的标签数据,也不需要人工干预, 的信息损失。 就可以自动获得区分度高的特征描述符。 综上所述,本文创新点总结如下:1)提出一 文献[16]表明,从鉴别器D的高维中间层中 种视觉回环检测新方法,该方法利用生成对抗的 提取的特征具有更高的区分度,但是高维特征需 思想设计一个深度网络以无监督的方式训练该网 要更多的存储空间以及消耗更多的计算资源。因 络,并利用该网络提取高区分度和低维度的二进 此,大多数研究中都会将高维特征进行降维以减 制特征;2)将距离传播损失函数引入神经网络, 少其对存储空间的占用,提高回环检测的运行速 将高维空间之间的海明距离关系传播到低维空 度。但是降维操作会不可避免地导致特征描述符 间,使高维空间特征与低维空间特征具有相似的 损失信息。因此,本文将距离传播损失函数LD 距离关系;3)将二值化表示熵损失函数引入神经 和二值化表示熵损失函数LBE引入生成对抗网络 网络,提高了低维特征空间二进制描述符的多样 的无监督学习过程,将高维特征空间的海明距离 性,进一步弥补低维特征所带来的信息损失; 关系传播到低维特征空间中并增加低维特征表示 4)利用BoVW模型将提取的局部特征融合为全 局特征,有助于大规模开放场景下的回环检测。 的多样性,获得更紧凑的二进制特征描述符。 综上所述,本文将改进后的生成对抗网络称 1无监督二进制描述符的提出 为二进制生成对抗网络,基于无监督学习从二进 制生成对抗网络的鉴别器D中提取的二进制特 1.1生成对抗思想 征向量称为无监督二进制描述符。 GAN由生成器G(Generator)和鉴别器DDis- criminator)组成,二者在训练时相互对抗,相互进 2无监督视觉回环检测方法 化。在训练时,生成器G的主要目标是学习潜在 样本的数据分布,并生成尽可能真实的新样本以 2.1方法总体框架 骗过鉴别器D,而鉴别器D则要判断出输入数据 本文基于所提出的基于二进制生成对抗网络 的真实性,即输入数据是来自真实数据还是来自 进行视觉回环检测的新方法的总体框架如图1 由生成器G生成的虚假数据。根据上述思想, 所示。 Goodfellow等]给出了GAN的损失函数: 模型训练阶段 回环检测阶段 min max V(D,G)=E [log(D(x)]+ (1) E:-p.(2 [log(1-D(G()))] 输入训练图片 输入当前帧 式中:x表示真实数据;D(x)为鉴别器判断x为真 图片 实数据的可能性;z代表输入生成器的随机变量; G)为生成器G生成的尽量服从真实数据分布的 SURF检测/ SURF检测/ 构造局部图片 构造局部图片 虚假样本;D(G()表示鉴别器D判断G()为虚 假数据的概率。鉴别器D的目标是对输入数据 结构和参数 进行正确的二分类,而生成器G的目标则是让其 无监督模型 共享 已训练的模型 生成的虚假数据Ge)在鉴别器D上的表现DG(e) 训练 和真实数据x在鉴别器D上的表现D(x)尽可能 一致。 提取无监督 更新 提取当前顿图片无 二进制描述符 监督二进制描述符 1.2无监督二进制描述符的定义 GAN不仅具有强大的生成能力,而且研究表 明可将GAN的鉴别器D作为特征提取器,其表 构建词汇树 词汇树 回环检测 现同样令人满意s16。原因在于GAN在进行对 抗训练的过程中,生成器G会生成质量不断提高 图1无监督视觉回环检测总体框架 的虚假图像,而鉴别器为了提高判断准确性,不 Fig.1 Overall framework of unsupervised visual loop clos- 断提升自身的特征表达能力以提取更有区分度的 ure detection
下的回环检测问题,对于视角及环境变化具有较 强的鲁棒性,用生成对抗的方式开展无监督回环 检测不但是可行的,而且以该方法生成的二进制 特征描述符具有较高的区分度,减少了低维特征 的信息损失。 综上所述,本文创新点总结如下:1) 提出一 种视觉回环检测新方法,该方法利用生成对抗的 思想设计一个深度网络以无监督的方式训练该网 络,并利用该网络提取高区分度和低维度的二进 制特征;2) 将距离传播损失函数引入神经网络, 将高维空间之间的海明距离关系传播到低维空 间,使高维空间特征与低维空间特征具有相似的 距离关系;3) 将二值化表示熵损失函数引入神经 网络,提高了低维特征空间二进制描述符的多样 性,进一步弥补低维特征所带来的信息损失; 4) 利用 BoVW 模型将提取的局部特征融合为全 局特征,有助于大规模开放场景下的回环检测。 1 无监督二进制描述符的提出 1.1 生成对抗思想 GAN 由生成器 G(Generator) 和鉴别器 D(Discriminator) 组成,二者在训练时相互对抗,相互进 化。在训练时,生成器 G 的主要目标是学习潜在 样本的数据分布,并生成尽可能真实的新样本以 骗过鉴别器 D,而鉴别器 D 则要判断出输入数据 的真实性,即输入数据是来自真实数据还是来自 由生成器 G 生成的虚假数据。根据上述思想, Goodfellow 等 [13] 给出了 GAN 的损失函数: min G max D V (D,G) = Ex∼pdata (x) [ log(D(x))] + Ez∼pz(z) [ log(1− D(G(z)))] (1) 式中:x 表示真实数据;D(x) 为鉴别器判断 x 为真 实数据的可能性;z 代表输入生成器的随机变量; G(z) 为生成器 G 生成的尽量服从真实数据分布的 虚假样本;D(G(z)) 表示鉴别器 D 判断 G(z) 为虚 假数据的概率。鉴别器 D 的目标是对输入数据 进行正确的二分类,而生成器 G 的目标则是让其 生成的虚假数据 G(z) 在鉴别器 D 上的表现 D(G(z)) 和真实数据 x 在鉴别器 D 上的表现 D(x) 尽可能 一致。 1.2 无监督二进制描述符的定义 GAN 不仅具有强大的生成能力,而且研究表 明可将 GAN 的鉴别器 D 作为特征提取器,其表 现同样令人满意[15-16]。原因在于 GAN 在进行对 抗训练的过程中,生成器 G 会生成质量不断提高 的虚假图像,而鉴别器为了提高判断准确性,不 断提升自身的特征表达能力以提取更有区分度的 特征。因此,本文利用 GAN 的鉴别器 D 作为视 觉回环检测任务的特征提取器,其优势在于可以 充分利用生成对抗的思想进行特征的无监督学 习,不需要额外的标签数据,也不需要人工干预, 就可以自动获得区分度高的特征描述符。 文献 [16] 表明,从鉴别器 D 的高维中间层中 提取的特征具有更高的区分度,但是高维特征需 要更多的存储空间以及消耗更多的计算资源。因 此,大多数研究中都会将高维特征进行降维以减 少其对存储空间的占用,提高回环检测的运行速 度。但是降维操作会不可避免地导致特征描述符 损失信息。因此,本文将距离传播损失函数 LDP 和二值化表示熵损失函数 LBRE 引入生成对抗网络 的无监督学习过程,将高维特征空间的海明距离 关系传播到低维特征空间中并增加低维特征表示 的多样性,获得更紧凑的二进制特征描述符。 综上所述,本文将改进后的生成对抗网络称 为二进制生成对抗网络,基于无监督学习从二进 制生成对抗网络的鉴别器 D 中提取的二进制特 征向量称为无监督二进制描述符。 2 无监督视觉回环检测方法 2.1 方法总体框架 本文基于所提出的基于二进制生成对抗网络 进行视觉回环检测的新方法的总体框架如图 1 所示。 结构和参数 共享 模型训练阶段 输入训练图片 SURF 检测/ 构造局部图片 SURF 检测/ 构造局部图片 无监督模型 训练 提取无监督 二进制描述符 构建词汇树 更新 词汇树 回环检测阶段 输入当前帧 图片 已训练的模型 提取当前帧图片无 监督二进制描述符 回环检测 图 1 无监督视觉回环检测总体框架 Fig. 1 Overall framework of unsupervised visual loop closure detection 第 4 期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·675·
·676· 智能系统学报 第16卷 在模型训练阶段,首先利用SURF进行关键 为二进制特征向量。 点检测并构造局部图片,基于下文所述的距离传 两个二进制向量之间的海明距离可以用下式 播损失函数以及二值化表示熵损失函数交替训练 进行计算: 鉴别器D及生成器G,利用训练好的二进制生成 dH(b,b)=A-(b,Tb+(b,-1)(b-1) (3) 对抗网络的鉴别器D提取无监督二进制描述符, 式中:A是二进制特征向量的维度,因此可以用点 并基于BoVW方法构建词汇树。在回环检测阶 积反映两个二进制特征向量之间的距离关系,令: 段,将实时获取的图像帧进行同样的关键点检测 并构造局部图片,利用已训练好的模型提取当前 Dotb,=b:'b,+(b-1)T(b,-1) (4) 帧图片的无监督二进制描述符,与现有词汇树进 Dotb,越大,则二进制向量b,、b,之间距离越 行比较以判断是否存在回环;当系统在大规模开 相近,反之亦然。因此本文将提出的用于回环检 放场景下运行,可以根据需要更新词汇树,以提 测问题的距离传播损失函数定义为 高所述方法的适应性。 Do 2.2构造局部图片 N(N-1) M 本研究属于基于局部特征的回环检测方法。 式中:N是一个batch的大小;Dot为高维特征空 为获取图像的局部特征,首先将数据集中的全局 间中二进制特征表示b,与b,之间的点积值,同理 图片进行分割以获取所需的局部图片。对于数据 Do,则表示低维特征空间二进制特征表示之间 集中的每一张图片,本文利用SURF描述符检测 的点积值。同时,为了使高维特征空间与低维特 关键点,将接近图片边缘的关键点丢弃后,以剩 征空间中二进制特征表示之间的海明距离具有可 余每个关键点为中心构建尺寸为32×32的局部图 比性,需要对点积值进行归一化处理。 片。图2为SURF关键点的检测和构造局部图片 在利用深度学习进行特征提取时,为了获得 的示意图。下文将介绍如何利用这些局部图片对 好的特征表达,一般会提取高维空间的特征描述 模型进行无监督训练。 子,虽然这样得到的特征向量表现较好,但是其 维度过大,会占用过多的存储空间及计算资源。 ■■里 通过使用距离传播损失函数LD,可以得到低维且 32×32 区分度高的二进制特征向量,就可以在好的特征 全局图片 提取特征点 剔除边缘点 局部图片 表达和高效的计算效率之间求取平衡。 图2局部图片的构造 2.4二值化表示熵损失函数 Fig.2 Local image patch construction 相比于高维特征描述子,低维特征描述子不 2.3距离传播损失函数 可避免地会面临信息的损失,因此为了进一步提 为了获得低维且区分度高的无监督二进制描 高低维特征空间中二进制特征表示的信息多样 述符,本文在GAN的鉴别器中加入了距离传播 性,本文利用了二值化表示熵损失函数LE,这一 损失函数LDP。该损失函数的作用在于将高维特 损失函数在文献[18]中被提出,它由边缘嫡 征空间中的关系映射到低维空间,也就是说,在 LMe(marginal entropy)及激话相关Lac(activation 鉴别器D的高维特征空间和低维特征空间之间 correlation)两部分组成: 传播海明距离,使这两层之间具有相似的距离关 LBRE LME LAC (6) 系。为了达到这个目标,需要迫使鉴别器D的高 LBRE通过最大化联合熵降低低维特征空间中 维特征空间和低维特征空间的输出具有相似的归 特征向量之间的联系,以增加其多样性。利用二 化点积结果。 值化表示熵损失函数LBE可以提高特征描述符的 假设L(x)表示鉴别器D中神经元个数为 区分度,从而增强鉴别器对于真实数据以及虚假 K的低维中间层,H(x)表示神经元个数为M的高 数据的区分能力。如此一来,利用连接鉴别器与 维中间层。为了将特征空间中连续的特征向量转 生成器的损失函数则可以提高生成器对于潜在样 化为相应的二进制特征向量b、b,本文使用以下 本分布的估计能力。对视觉回环检测而言,使用 激活函数叨: 二值化表示熵损失函数LE不仅可以使得鉴别器 BAF(x)=E(s(x)-0.5) (2) 输出高区分度的二进制描述符提高模型在回环检 式中:s()为阶跃函数,s(x)为sigmoid函数。利用 测阶段的性能,而且可以加快无监督学习进程使 该激活函数可将处于[0,1]的连续特征向量转换 得模型收敛更快
在模型训练阶段,首先利用 SURF 进行关键 点检测并构造局部图片,基于下文所述的距离传 播损失函数以及二值化表示熵损失函数交替训练 鉴别器 D 及生成器 G,利用训练好的二进制生成 对抗网络的鉴别器 D 提取无监督二进制描述符, 并基于 BoVW 方法构建词汇树。在回环检测阶 段,将实时获取的图像帧进行同样的关键点检测 并构造局部图片,利用已训练好的模型提取当前 帧图片的无监督二进制描述符,与现有词汇树进 行比较以判断是否存在回环;当系统在大规模开 放场景下运行,可以根据需要更新词汇树,以提 高所述方法的适应性。 2.2 构造局部图片 本研究属于基于局部特征的回环检测方法。 为获取图像的局部特征,首先将数据集中的全局 图片进行分割以获取所需的局部图片。对于数据 集中的每一张图片,本文利用 SURF 描述符检测 关键点,将接近图片边缘的关键点丢弃后,以剩 余每个关键点为中心构建尺寸为 32×32 的局部图 片。图 2 为 SURF 关键点的检测和构造局部图片 的示意图。下文将介绍如何利用这些局部图片对 模型进行无监督训练。 全局图片 提取特征点 剔除边缘点 局部图片 32×32 图 2 局部图片的构造 Fig. 2 Local image patch construction 2.3 距离传播损失函数 为了获得低维且区分度高的无监督二进制描 述符,本文在 GAN 的鉴别器中加入了距离传播 损失函数 LDP。该损失函数的作用在于将高维特 征空间中的关系映射到低维空间,也就是说,在 鉴别器 D 的高维特征空间和低维特征空间之间 传播海明距离,使这两层之间具有相似的距离关 系。为了达到这个目标,需要迫使鉴别器 D 的高 维特征空间和低维特征空间的输出具有相似的归 一化点积结果。 假设 L( x ) 表示鉴别器 D 中神经元个数为 K 的低维中间层, H(x) 表示神经元个数为 M 的高 维中间层。为了将特征空间中连续的特征向量转 化为相应的二进制特征向量 bL、bH,本文使用以下 激活函数[17] : BAF(x) = ε(s(x)−0.5) (2) 式中:ε(·) 为阶跃函数, s(x) 为 sigmoid 函数。利用 该激活函数可将处于 [0,1] 的连续特征向量转换 为二进制特征向量。 两个二进制向量之间的海明距离可以用下式 进行计算: dH ( bi , bj ) = A− ( bi T bj +(bi −1) T ( bj −1 ) ) (3) 式中:A 是二进制特征向量的维度,因此可以用点 积反映两个二进制特征向量之间的距离关系,令: Dotbi,bj = bi T bj +(bi −1) T ( bj −1 ) (4) Dotbi,bj 越大,则二进制向量 bi、bj 之间距离越 相近,反之亦然。因此本文将提出的用于回环检 测问题的距离传播损失函数定义为 LDP = 1 N (N −1) ∑N i, j=1,i,j DotH i, j M − DotL i, j K (5) DotH i, j DotL i, j 式中:N 是一个 batch 的大小; 为高维特征空 间中二进制特征表示 bi 与 bj 之间的点积值,同理 则表示低维特征空间二进制特征表示之间 的点积值。同时,为了使高维特征空间与低维特 征空间中二进制特征表示之间的海明距离具有可 比性,需要对点积值进行归一化处理。 在利用深度学习进行特征提取时,为了获得 好的特征表达,一般会提取高维空间的特征描述 子,虽然这样得到的特征向量表现较好,但是其 维度过大,会占用过多的存储空间及计算资源。 通过使用距离传播损失函数 LDP,可以得到低维且 区分度高的二进制特征向量,就可以在好的特征 表达和高效的计算效率之间求取平衡。 2.4 二值化表示熵损失函数 相比于高维特征描述子,低维特征描述子不 可避免地会面临信息的损失,因此为了进一步提 高低维特征空间中二进制特征表示的信息多样 性,本文利用了二值化表示熵损失函数 LBRE,这一 损失函数在文 献 [ 1 8 ] 中被提出,它由边缘 熵 LME(marginal entropy) 及激活相关 LAC(activation correlation) 两部分组成: LBRE = LME + LAC (6) LBRE 通过最大化联合熵降低低维特征空间中 特征向量之间的联系,以增加其多样性。利用二 值化表示熵损失函数 LBRE 可以提高特征描述符的 区分度,从而增强鉴别器对于真实数据以及虚假 数据的区分能力。如此一来,利用连接鉴别器与 生成器的损失函数则可以提高生成器对于潜在样 本分布的估计能力。对视觉回环检测而言,使用 二值化表示熵损失函数 LBRE 不仅可以使得鉴别器 输出高区分度的二进制描述符提高模型在回环检 测阶段的性能,而且可以加快无监督学习进程使 得模型收敛更快。 ·676· 智 能 系 统 学 报 第 16 卷
第4期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·677· 2.5网络设计 从该层提取高维特征描述子,将包含256个神经 所设计的用于视觉回环检测的二进制生成对 元的NN层作为低维特征空间,提取低维特征描 抗网络模型如图3所示。鉴别器D包含7个卷积 述子。生成器G包含一个全连接层及3个反卷积 层,其中卷积核大小为3×3,通道数分别为{96, 层,其中卷积核大小为5×5,通道数分别为{256, 96,96,128,128,128,128},stride为{1,1,2,1,1, 128,3}。生成器的输入为维度100的随机噪声, 2,I},两个NN(network-in-network)结构(神经元 输出为尺寸为32×32的虚假图像,并将该虚假图 个数分别为256、128)以及一个全连接层。本文 像作为输入与真实图像同时输入鉴别器中,而鉴 将最后一个卷积层CONV7作为高维特征空间, 别器的输出则为输入图像为真的概率。 44444444444444=4444444444 ECONV3 输人可 DECONVIDECONV2 投 生成 随机 图片 噪声已 100512@4×4256@8×8128@16×163@32×32 ONVI CONV2 CONV3 生成器 真实 图片 3@32×3296@32×3296@32×32 g×16 CONV4 CONV CONV7 CONV6 N 128a 128a 128@ 128a 8×8 16×16 鉴别器 图3用于视觉回环检测的网络模型 Fig.3 Network model for visual loop closure detection 2.6模型训练 表1参数设置表 本文使用无监督的方法对模型进行训练,交 Table 1 Parameter setting 替训练鉴别器D及生成器G。GAN训练的总目 参数 大小 参数 大小 标函数、生成器G的损失函数与文献[11]相同。 batch-size 25 局部图片长 32 根据前文所述,鉴别器D训练时的损失函数可以 epoch 100 局部图片宽 32 表示为 learning-rate 0.0003 ApP 0.5 L=LD+dDP·LDP+BRE·LBRE (7) momentum 0.5 ABRE 0.1 其中Lp是Goodfellow等给出原始损失函数,即 Lo =-E-p(c[log(D(x))]- 3 实验 (8) E:-p.([log(1-D(G(2))] 3.1实验数据集 Dp与BRE为超参数,加入这两个超参数的目 本文选择的训练集为Places365-Standard 的在于调节距离传播损失函数以及二值化表示嫡 该数据集包含365个互不相关的场景类别,且无 损失函数对于鉴别器目标函数的影响。在实验部 任何的标签数据。在本实验中,为了加快模型训 分将通过改变D与BE的值验证距离传播损失 练速度,减少训练时间,只选取了该数据集前 函数以及二值化表示熵损失函数对整个模型性能 2000张图片作为训练集(也可以增加训练样本), 以及训练过程的影响。 并将训练集中的图片进行分割后,最终获得 2.7参数设置 140000张局部图片。 本文所述模型和训练算法共有8个超参数, 本文选取3个数据集作为测试集进行验证, 实验中设置的具体值如表1所示。所述参数值并 分别是NC(new college)数据集、CC(city centre)数 非唯一值,可以根据具体情况进行调整以加速训 据集以及KAIST(korea advanced institute of science 练过程。图像分割后的局部图片大小为32×32, and technology)数据集。NC数据集和CC数据集 为默认值。众所周知,GAN的训练相对困难, 是由英国牛津大学移动机器人小组发布的数据 Dp与BRE与特征提取能力相关,同时,合适的数 集2o。其中CC数据集由左右两边搭载相机的移 值可以加快模型的训练过程,使得模型收敛速度 动设备沿着2km的城市路段所收集,包含行人、 更快,表中数值为优选值。 移动的汽车等动态物体,而且视角及外观变化较
2.5 网络设计 所设计的用于视觉回环检测的二进制生成对 抗网络模型如图 3 所示。鉴别器 D 包含 7 个卷积 层,其中卷积核大小为 3×3,通道数分别为{96, 96,96,128,128,128,128},stride 为{1,1,2,1,1, 2,1},两个 NIN(network-in-network) 结构 (神经元 个数分别为 256、128) 以及一个全连接层。本文 将最后一个卷积层 CONV7 作为高维特征空间, 从该层提取高维特征描述子,将包含 256 个神经 元的 NIN 层作为低维特征空间,提取低维特征描 述子。生成器 G 包含一个全连接层及 3 个反卷积 层,其中卷积核大小为 5×5,通道数分别为{256, 128,3}。生成器的输入为维度 100 的随机噪声, 输出为尺寸为 32×32 的虚假图像,并将该虚假图 像作为输入与真实图像同时输入鉴别器中,而鉴 别器的输出则为输入图像为真的概率。 . . . . . . 生成器 输入 随机 噪声 生成 图片 真实 图片 LG LD LBRE LDP 鉴别器 投影 100 512@4×4 256@8×8 128@16×16 3@32×32 3@32×32 96@32×32 128@ 6×6 128@ 8×8 128@ 16×16 128@ 16×16 96@32×32 96@16×16 DECONV1DECONV2 DECONV3 2 128 256 FC NIN2 NIN1 CONV1 CONV2 CONV3 CONV4 CONV5 CONV6 CONV7 图 3 用于视觉回环检测的网络模型 Fig. 3 Network model for visual loop closure detection 2.6 模型训练 本文使用无监督的方法对模型进行训练,交 替训练鉴别器 D 及生成器 G。GAN 训练的总目 标函数、生成器 G 的损失函数与文献 [11] 相同。 根据前文所述,鉴别器 D 训练时的损失函数可以 表示为 L = LD +λDP · LDP +λBRE · LBRE (7) 其中 LD 是 Goodfellow 等 [11] 给出原始损失函数,即 LD = −Ex∼pdata (x) [ log(D(x))] − Ez∼pz(z) [ log(1− D(G(z)))] (8) λDP 与 λBRE 为超参数,加入这两个超参数的目 的在于调节距离传播损失函数以及二值化表示熵 损失函数对于鉴别器目标函数的影响。在实验部 分将通过改变 λDP 与 λBRE 的值验证距离传播损失 函数以及二值化表示熵损失函数对整个模型性能 以及训练过程的影响。 2.7 参数设置 本文所述模型和训练算法共有 8 个超参数, 实验中设置的具体值如表 1 所示。所述参数值并 非唯一值,可以根据具体情况进行调整以加速训 练过程。图像分割后的局部图片大小为 32×32, 为默认值。众所周知,GAN 的训练相对困难, λDP 与 λBRE 与特征提取能力相关,同时,合适的数 值可以加快模型的训练过程,使得模型收敛速度 更快,表中数值为优选值。 表 1 参数设置表 Table 1 Parameter setting 参数 大小 参数 大小 batch-size 25 局部图片长 32 epoch 100 局部图片宽 32 learning-rate 0.0003 λDP 0.5 momentum 0.5 λBRE 0.1 3 实验 3.1 实验数据集 本文选择的训练集为 Places365-Standard[19] , 该数据集包含 365 个互不相关的场景类别,且无 任何的标签数据。在本实验中,为了加快模型训 练速度,减少训练时间,只选取了该数据集前 2 000 张图片作为训练集 (也可以增加训练样本), 并将训练集中的图片进行分割后,最终获得 140000 张局部图片。 本文选取 3 个数据集作为测试集进行验证, 分别是 NC(new college) 数据集、CC(city centre) 数 据集以及 KAIST(korea advanced institute of science and technology) 数据集。NC 数据集和 CC 数据集 是由英国牛津大学移动机器人小组发布的数据 集 [20]。其中 CC 数据集由左右两边搭载相机的移 动设备沿着 2 km 的城市路段所收集,包含行人、 移动的汽车等动态物体,而且视角及外观变化较 第 4 期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·677·
·678· 智能系统学报 第16卷 为强烈。NC数据集同样是由左右两边搭载相机 PR曲线,为方便量化对比,AUC值列于表3。 的移动设备所拍摄的,和CC数据集不同的是, 下面将分析比较不同方法的性能和差异。 NC数据集的拍摄环境为校园,且含有较多的重 1.0 复元素,例如墙壁等。KAIST)数据集是由韩国 0.8 科学技术院发布的公开数据集,该数据集是通过 0.6 SURF 配备在车辆上的摄像头以及传感器于一天中不同 ORB BRIEF 时段在同一条街道所拍摄的。KAIST数据集中又 0.4 本文方法(二进制) 本文方法非二进制 包括3个子数据集:North、West、East。 0.2 AlexN mos et 以上3个数据集都有不同程度的视角及外观 HybirdNet 0.2 0.40.6 0.8 10 变化,具体可见表2。对于传统手工提取特征的 召回率 方法来说,强烈的视角及外观变化对回环检测是 图4CC数据集下各方法的PR曲线 一个巨大的挑战,因此使用以上数据集可以有效 Fig.4 AUC under PR curves on the CC dataset 验证本文所提出的方法相对于传统方法的优势, 1.0 以及在大规模开放场景下的适应性。 0.8 表2数据集描述 SURF 蓝0.6 Table 2 Dataset description ORB BRIEF 数据集 视角变化 0.4 拍摄环境 外观变化 本制 0.2 AlexNet NC 校园 强烈 中等 mos. -HvbirdNe CC 市中心 强烈 强烈 0.2 0.4 0.6 0.8 1.0 召回率 KAIST 街道 中等 强烈 图5NC数据集下各方法的PR曲线 3.2实验结果 Fig.5 AUC under PR curves on the NC dataset 作为对比,本文选取ORB、BRIEF和SURF 1.0 3个手工提取的特征描述符方法,以及基于有监 0.8 督学习的AlexNet'2a、AMOSNet和HybridNet2深 00.6 SURF 度学习方法,在3个测试集上进行对比。除此之 ORB BRIEF 本文方法二进制) 外,为了验证二进制描述符相对于非二进制描述 元0.4 本文方法非二进制) 符的优势,本文还将对比二进制描述符与非二进 0.2 AlexNet A HybirdNet 制描述符之间的性能差异。 0 0.2 0.40.6 0.8 10 为了对比各类方法的性能,本文绘制了不同 召回率 方法的准确率-回召率曲线,即PR(precision-re- 图6 Kaist(East)数据集下各方法的PR曲线 cal)曲线241,并按照学术研究的常规做法,将 Fig.6 AUC under PR curves on the Kaist(East)dataset PR曲线与横纵坐标围成的面积,即AUC作为评 从图48及表3中可以得出如下结论: 判标准9。AUC的计算公式为 1)相比于人工提取特征的传统方法,基于深 Ac-月+y 度学习的方法性能有较大的提升。无论是基于有 ×(r+1-r) 2 (9) 监督学习的AlexNet、AMOSNet和HybridNet,.还 式中:M为图片序列的数量;P,代表在点i时的准 是本文所提出的基于二进制生成对抗网络的方法 确率;而r,则为回召率。AUC越大则表明该方法 都要比传统SIFT、ORB、BRIEF等人工特征描述 的性能越好。 符有更突出的表现,主要原因在于深度学习的方 为了对比不同参数对于模型性能的影响,调 法可以在复杂的环境下自动且精准地提取图像的 整op与BE的数值,并计算不同数值下的各个数 深层特征。 据集的AUC。同时绘制了在模型中加入与不加 2)相比于有监督方法,本文所提出的无监督 入距离传播损失函数的情况下高维与低维空间特 回环检测方法在性能上略有下降,AlexNet和Hy- 征海明距离之间的距离关系图。 bridNet相对最优,本文所述方法与AMOSNet性 3.2.1不同方法的结果对比 能相近。由于有监督学习方法利用了大量的有标 图48绘制了各方法在3个测试数据集上的 签数据,可以通过已知的训练样本训练出最优模
为强烈。NC 数据集同样是由左右两边搭载相机 的移动设备所拍摄的,和 CC 数据集不同的是, NC 数据集的拍摄环境为校园,且含有较多的重 复元素,例如墙壁等。KAIST[21] 数据集是由韩国 科学技术院发布的公开数据集,该数据集是通过 配备在车辆上的摄像头以及传感器于一天中不同 时段在同一条街道所拍摄的。KAIST数据集中又 包括 3 个子数据集:North、West、East。 以上 3 个数据集都有不同程度的视角及外观 变化,具体可见表 2。对于传统手工提取特征的 方法来说,强烈的视角及外观变化对回环检测是 一个巨大的挑战,因此使用以上数据集可以有效 验证本文所提出的方法相对于传统方法的优势, 以及在大规模开放场景下的适应性。 表 2 数据集描述 Table 2 Dataset description 数据集 拍摄环境 视角变化 外观变化 NC 校园 强烈 中等 CC 市中心 强烈 强烈 KAIST 街道 中等 强烈 3.2 实验结果 作为对比,本文选取 ORB、BRIEF 和 SURF 3 个手工提取的特征描述符方法,以及基于有监 督学习的 AlexNet[22] 、AMOSNet 和 HybridNet[23] 深 度学习方法,在 3 个测试集上进行对比。除此之 外,为了验证二进制描述符相对于非二进制描述 符的优势,本文还将对比二进制描述符与非二进 制描述符之间的性能差异。 为了对比各类方法的性能,本文绘制了不同 方法的准确率−回召率曲线,即 PR(precision-recall) 曲线[ 2 4 ] ,并按照学术研究的常规做法,将 PR 曲线与横纵坐标围成的面积,即 AUC 作为评 判标准[19]。AUC 的计算公式为 AUC = ∑M−1 i=1 (pi + pi+1) 2 ×(ri+1 −ri) (9) 式中:M 为图片序列的数量;pi 代表在点 i 时的准 确率;而 ri 则为回召率。AUC 越大则表明该方法 的性能越好。 为了对比不同参数对于模型性能的影响,调 整 λDP 与 λBRE 的数值,并计算不同数值下的各个数 据集的 AUC。同时绘制了在模型中加入与不加 入距离传播损失函数的情况下高维与低维空间特 征海明距离之间的距离关系图。 3.2.1 不同方法的结果对比 图 4~8 绘制了各方法在 3 个测试数据集上的 PR 曲线,为方便量化对比, AUC 值列于表 3。 下面将分析比较不同方法的性能和差异。 召回率 1.0 0.8 0.6 0.4 0.2 准确率 SURF ORB BRIEF 本文方法 (二进制) 本文方法 (非二进制) AlexNet AmosNet HybirdNet 0 0.2 0.4 0.6 0.8 1.0 图 4 CC 数据集下各方法的 PR 曲线 Fig. 4 AUC under PR curves on the CC dataset 召回率 1.0 0.8 0.6 0.4 0.2 准确率 0 0.2 0.4 0.6 0.8 1.0 SURF ORB BRIEF 本文方法 (二进制) 本文方法 (非二进制) AlexNet AmosNet HybirdNet 图 5 NC 数据集下各方法的 PR 曲线 Fig. 5 AUC under PR curves on the NC dataset 召回率 1.0 0.8 0.6 0.4 0.2 准确率 0 0.2 0.4 0.6 0.8 1.0 SURF ORB BRIEF 本文方法 (二进制) 本文方法 (非二进制) AlexNet AmosNet HybirdNet 图 6 Kaist(East) 数据集下各方法的 PR 曲线 Fig. 6 AUC under PR curves on the Kaist(East) dataset 从图 4~8 及表 3 中可以得出如下结论: 1) 相比于人工提取特征的传统方法,基于深 度学习的方法性能有较大的提升。无论是基于有 监督学习的 AlexNet、AMOSNet 和 HybridNet,还 是本文所提出的基于二进制生成对抗网络的方法 都要比传统 SIFT、ORB、BRIEF 等人工特征描述 符有更突出的表现,主要原因在于深度学习的方 法可以在复杂的环境下自动且精准地提取图像的 深层特征。 2) 相比于有监督方法,本文所提出的无监督 回环检测方法在性能上略有下降,AlexNet 和 HybridNet 相对最优,本文所述方法与 AMOSNet 性 能相近。由于有监督学习方法利用了大量的有标 签数据,可以通过已知的训练样本训练出最优模 ·678· 智 能 系 统 学 报 第 16 卷
第4期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·679· 型,因此性能表现更为出色。但是,有监督学习 损失,提高其可靠性。在性能接近的情况下,二 方法需要大量标签数据且训练时间更长。而无监 进制特征描述符对于回环检测应用非常有吸引 督学习方法由于不需要标签,则更适用于大规模 力,因为使用二进制特征描述符可以节省更多的 场景、复杂场景和开放场景下的回环检测问题。 存储空间以及计算资源,加快回环检测速度。 除此之外,AlexNet、HybridNet及AMOSNet在训 1.0 练时都需要大量有标签数据,其中,Krizhevsky SURE 0.8 ORB 等2四在训练AlexNet时采用120万张图片作为训 BRIEF 练集,AMOSNet和ybridNet在训练时的数据集 0.6 本文方法 (二进制 本文方法 更是包含了250万张图片),而本文所述方法仅 (非二进制 0.2 AiexNet 仅需要2000个无标签数据对模型进行训练即可 --AmosNet .-HybirdNet 获得较为出色的结果。而且值得注意的是,在 0 0.2 0.40.6 0.8 1.0 NC数据集上无监督回环检测的表现甚至优于有 召回率 监督方法。NC的拍摄环境为校园,且含有较多 图7 Kaist(North)数据集下各方法的PR曲线 重复元素和强烈的视角变化。这证明了本文所述 Fig.7 AUC under PR curves on the Kaist(North)dataset 方法在复杂场景下,特别是强烈的视角变化具有 1.0 鲁棒性。所以综上所述,本文的方法与有监督方 法之间的性能差异是完全可以接受的。 0.8 SURF 3)对比二进制特征描述符和非二进制特征描 0.6 ORB BRIEF 述符,可以发现,在无监督回环检测框架下,在本 文所提出的3个测试集上二进制特征描述符的性 0.2 AlexNet AmosNet HybirdNet 能更优。本文利用距离传播损失函数使得高维特 0 0.2 0.40.6 0.8 1.0 征空间与低维特征空间之间具有相似的海明距离 召回率 关系,利用二值化表示熵损失函数能进一步增强 图8 Kaist(West0)数据集下各方法的PR曲线 低维二进制特征描述子的表征能力,弥补其信息 Fig.8 AUC under PR curves on the Kaist(West)dataset 表3AUC汇总表 Table 3 AUC summary 数据集 SURF ORB BRIEF Ous(binary) Ous(nonbinary) AlexNet AmosNet HybridNet CC 0.827 0.806 0.786 0.858 0.834 0.864 0.865 0.867 NC 0.734 0.735 0.730 0.752 0.724 0.742 0.742 0.745 KAIAT(East) 0.677 0.611 0.639 0.719 0.686 0.787 0.749 0.778 KAIAT(North) 0.610 0.536 0.574 0.656 0.622 0.682 0.671 0.684 KAIAT(West) 0.702 0.662 0.675 0.750 0.726 0.771 0.755 0.778 3.2.2不同参数的结果对比 述子,后者在嫡损失最小的情况下进一步提高低 为了进一步研究距离传播损失函数LD和二 维二进制描述符的多样性和表征能力。在本实验 值化表示嫡损失函数LRE对无监督回环检测性能 中,优选的参数是op0.5,BRE=0.1。 的影响,本文改变参数op以及BRE的值,并计算 除此之外,为了验证距离传播损失函数的有 了不同参数值在各个数据集下相对应的AUC,结 效性,测试其是否将高维空间特征的距离关系映 果如表4所示。从表中可以看出,只有在同时加 射至低维空间,我们以KAIST(North)数据集为 入距离传播损失函数LDP和二值化表示熵损失函 例,分别提取其在Dp=0.5,BRE=0.1和1Dp=0, 数LBRE后,视觉回环检测的性能才会有实质的提 E=O.1时高维空间特征以及低维空间特征,对不 升。因此,在无监督回环检测中,距离传播损失 同维度的特征进行归一化操作后,利用式(4)计 函数LDP和二值化表示熵损失函数LBRE缺一不 算相同参数下高维空间与低维空间相对应特征之 可,前者实现高维特征到低维特征的映射,获得 间的相似性。 维度更低,更为紧凑且区分度高的二进制特征描 实验结果如图9所示
型,因此性能表现更为出色。但是,有监督学习 方法需要大量标签数据且训练时间更长。而无监 督学习方法由于不需要标签,则更适用于大规模 场景、复杂场景和开放场景下的回环检测问题。 除此之外,AlexNet、HybridNet 及 AMOSNet 在训 练时都需要大量有标签数据,其中,Krizhevsky 等 [21] 在训练 AlexNet 时采用 120 万张图片作为训 练集,AMOSNet 和 HybridNet 在训练时的数据集 更是包含了 250 万张图片[23] ,而本文所述方法仅 仅需要 2 000 个无标签数据对模型进行训练即可 获得较为出色的结果。而且值得注意的是,在 NC 数据集上无监督回环检测的表现甚至优于有 监督方法。NC 的拍摄环境为校园,且含有较多 重复元素和强烈的视角变化。这证明了本文所述 方法在复杂场景下,特别是强烈的视角变化具有 鲁棒性。所以综上所述,本文的方法与有监督方 法之间的性能差异是完全可以接受的。 3) 对比二进制特征描述符和非二进制特征描 述符,可以发现,在无监督回环检测框架下,在本 文所提出的 3 个测试集上二进制特征描述符的性 能更优。本文利用距离传播损失函数使得高维特 征空间与低维特征空间之间具有相似的海明距离 关系,利用二值化表示熵损失函数能进一步增强 低维二进制特征描述子的表征能力,弥补其信息 损失,提高其可靠性。在性能接近的情况下,二 进制特征描述符对于回环检测应用非常有吸引 力,因为使用二进制特征描述符可以节省更多的 存储空间以及计算资源,加快回环检测速度[25]。 召回率 1.0 0.8 0.6 0.4 0.2 准确率 0 0.2 0.4 0.6 0.8 1.0 SURF ORB BRIEF 本文方法 (二进制) 本文方法 (非二进制) AlexNet AmosNet HybirdNet 图 7 Kaist(North) 数据集下各方法的 PR 曲线 Fig. 7 AUC under PR curves on the Kaist(North) dataset 召回率 1.0 0.8 0.6 0.4 0.2 准确率 0 0.2 0.4 0.6 0.8 1.0 SURF ORB BRIEF 本文方法 (二进制) 本文方法 (非二进制) AlexNet AmosNet HybirdNet 图 8 Kaist(West) 数据集下各方法的 PR 曲线 Fig. 8 AUC under PR curves on the Kaist(West) dataset 表 3 AUC 汇总表 Table 3 AUC summary 数据集 SURF ORB BRIEF Ous(binary) Ous(nonbinary) AlexNet AmosNet HybridNet CC 0.827 0.806 0.786 0.858 0.834 0.864 0.865 0.867 NC 0.734 0.735 0.730 0.752 0.724 0.742 0.742 0.745 KAIAT(East) 0.677 0.611 0.639 0.719 0.686 0.787 0.749 0.778 KAIAT(North) 0.610 0.536 0.574 0.656 0.622 0.682 0.671 0.684 KAIAT(West) 0.702 0.662 0.675 0.750 0.726 0.771 0.755 0.778 3.2.2 不同参数的结果对比 为了进一步研究距离传播损失函数 LDP 和二 值化表示熵损失函数 LBRE 对无监督回环检测性能 的影响,本文改变参数 λDP 以及 λBRE 的值,并计算 了不同参数值在各个数据集下相对应的 AUC,结 果如表 4 所示。从表中可以看出,只有在同时加 入距离传播损失函数 LDP 和二值化表示熵损失函 数 LBRE 后,视觉回环检测的性能才会有实质的提 升。因此,在无监督回环检测中,距离传播损失 函数 LDP 和二值化表示熵损失函数 LBRE 缺一不 可,前者实现高维特征到低维特征的映射,获得 维度更低,更为紧凑且区分度高的二进制特征描 述子,后者在熵损失最小的情况下进一步提高低 维二进制描述符的多样性和表征能力。在本实验 中,优选的参数是 λDP=0.5,λBRE=0.1。 除此之外,为了验证距离传播损失函数的有 效性,测试其是否将高维空间特征的距离关系映 射至低维空间,我们以 KAIST(North) 数据集为 例,分别提取其在 λ D P=0.5, λ BRE =0.1 和 λ D P=0, λBRE=0.1 时高维空间特征以及低维空间特征,对不 同维度的特征进行归一化操作后,利用式 (4) 计 算相同参数下高维空间与低维空间相对应特征之 间的相似性。 实验结果如图 9 所示。 第 4 期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·679·
·680· 智能系统学报 第16卷 表4不同参数下的AUC Table 4 AUC under different parameters 参数 CC NC KAIST(East) KAIST(North) KAIST(West) Dp0.5,gRE=0.1 0.858 0.752 0.719 0.656 0.750 ADP-0,BRE-0.1 0.752 0.690 0.522 0.511 0.574 4DP=0.5,4BRE-0 0.768 0.692 0.512 0.493 0.541 0.70 0.65 0.60 iinin 挡0.55 pp-0.5,4mRE-0.I 要0.50 op=0,gRE=0.1 0.45 0.40 0255075100125150175200225 特征 图9高维空间与低维空间距离关系图 Fig.9 Distance diagram between two layers 图10NC数据集的真实回环图 图9中横坐标表示KAIST(North)数据集中图 Fig.10 The ground truth of NC dataset 片的特征描述子,纵坐标则为不同维度特征之间 的相似性。从图中可以清楚地看出,在两组不同 394 参数下,高维特征空间与低维特征空间之间距离 0.04 关系的相似性具有明显的差异。在1Dp=0, 300 E=O.1时,高维特征空间与低维特征空间的距离 0.03 关系相似性位于0.39~0.49,而当1Dp=0.5, 20 R=0.1时,其相似性则位于0.55~0.67。由此可 0.02 得,距离传播损失函数的加入有助于将高维特征 100 0.01 空间的海明距离关系映射到低维空间,获得更加 紧凑,区分度更高的特征。 100 200 300 394 3.2.3可视化分析 特征 在这部分,以NC数据集为例,通过可视化的 图11基于BREF的相似度矩阵 方式来证明基于无监督二进制描述符的视觉回 Fig.11 Similarity matrix of BRIEF 环检测方法的有效性。图10为根据图片的已有 通过对比真实回环与不同方法检测出的回 标签绘制的真实回环图,若第i帧图片与第j帧 环,不难发现,不论是传统的ORB、BRIEF以及 图片形成回环,则在图中对应坐标为(,)的点为 SURF还是本文所述方法都可以检测出较为明显 白色。所以真实回环图根据对角线完全对称。 的回环,不同的是传统方法在面对不易检测的回 图1I~I3为ORB、BRIEF、SURF以及本文所述方 环时会出现遗漏的情况,因此相比于图11~13, 法给出的回环检测图,用相似度矩阵来表示,其 图14会出现更多的明亮点以及色块,明暗对比较 中坐标为(,)的点表示第i帧图片与第j帧图片 为明显,这充分说明本文所述方法会为回环检测 之间的相似度,坐标点的颜色根据对应帧之间的 提供更多的相似帧,减少遗漏情况的出现。因此 相似度的变化而变化,颜色越亮则相似度越高, 在面对较强的视角及外观变化时本文所述方法可 两帧图片之间的相似度越高则二者成为回环的几 以检测出更多的回环,效果更加突出,这表明无 率越大。 监督二进制描述符更有区分度
表 4 不同参数下的 AUC Table 4 AUC under different parameters 参数 CC NC KAIST(East) KAIST(North) KAIST(West) λDP=0.5,λBRE=0.1 0.858 0.752 0.719 0.656 0.750 λDP=0,λBRE=0.1 0.752 0.690 0.522 0.511 0.574 λDP=0.5,λBRE=0 0.768 0.692 0.512 0.493 0.541 0 25 50 75 100 125 150 175 200 225 0.40 0.45 0.50 0.55 0.60 0.70 0.65 特征 相似度 λDP=0.5, λBRE=0.1 λDP=0, λBRE=0.1 图 9 高维空间与低维空间距离关系图 Fig. 9 Distance diagram between two layers 图 9 中横坐标表示 KAIST(North) 数据集中图 片的特征描述子,纵坐标则为不同维度特征之间 的相似性。从图中可以清楚地看出,在两组不同 参数下,高维特征空间与低维特征空间之间距离 关系的相似性具有明显的差异。 在 λ D P = 0 , λBRE=0.1 时,高维特征空间与低维特征空间的距离 关系相似性位 于 0.39~0.49 , 而 当 λ D P =0.5 , λBRE=0.1 时,其相似性则位于 0.55~0.67。由此可 得,距离传播损失函数的加入有助于将高维特征 空间的海明距离关系映射到低维空间,获得更加 紧凑,区分度更高的特征。 3.2.3 可视化分析 在这部分,以 NC 数据集为例,通过可视化的 方式来证明基于无监督二进制描述符的视觉回 环检测方法的有效性。图 10 为根据图片的已有 标签绘制的真实回环图,若第 i 帧图片与第 j 帧 图片形成回环,则在图中对应坐标为 (i,j) 的点为 白色。所以真实回环图根据对角线完全对称。 图 11~13 为 ORB、BRIEF、SURF 以及本文所述方 法给出的回环检测图,用相似度矩阵来表示,其 中坐标为 (i,j) 的点表示第 i 帧图片与第 j 帧图片 之间的相似度,坐标点的颜色根据对应帧之间的 相似度的变化而变化,颜色越亮则相似度越高, 两帧图片之间的相似度越高则二者成为回环的几 率越大。 图 10 NC 数据集的真实回环图 Fig. 10 The ground truth of NC dataset 0.04 0.03 0.02 0.01 0 100 100 200 200 300 300 394 394 特征 特征 图 11 基于 BRIEF 的相似度矩阵 Fig. 11 Similarity matrix of BRIEF 通过对比真实回环与不同方法检测出的回 环,不难发现,不论是传统的 ORB、BRIEF 以及 SURF 还是本文所述方法都可以检测出较为明显 的回环,不同的是传统方法在面对不易检测的回 环时会出现遗漏的情况,因此相比于图 11~13, 图 14 会出现更多的明亮点以及色块,明暗对比较 为明显,这充分说明本文所述方法会为回环检测 提供更多的相似帧,减少遗漏情况的出现。因此 在面对较强的视角及外观变化时本文所述方法可 以检测出更多的回环,效果更加突出,这表明无 监督二进制描述符更有区分度。 ·680· 智 能 系 统 学 报 第 16 卷
第4期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·681· 394 于视觉回环检测。该方法在模型训练时采用无监 0.035 督学习方式,训练集为互不相关的场景图片且无 300 0.030 任何标签数据。为了获得高区分度及低维度的无 0.025 监督二进制描述符,利用距离传播损失函数将高 岸200 维特征空间中的关系映射到低维空间,并且利用 0.020 二值化表示熵损失函数提高低维空间二进制特征 0.015 100 表示的多样性,进一步改善低维特征所带来的信 0.010 息损失问题。在NC数据集、CC数据集以及 0.005 KAIST数据集上对本文所提出的无监督二进制描 100 200 300 394 述符的有效性进行了验证,并和ORB、BRIEF 特征 SURF这3种人工特征描述符,以及AlexNet、 图12基于ORB的相似度矩阵 AMOSNet和HybridNet3种深度学习方法进行了 Fig.12 Similarity matrix of ORB 比较。结果表明,无监督二进制描述符在具有强 394 烈视角及外观变化的复杂场景下具有鲁棒性,性 0.025 能可以与有监督深度网络媲美。但无监督方法从 300 0.020 根本上避免了费时费力的有监督数据标注过程, 同时极大地节约了存储空间和计算资源,加快回 20 0.015 环检测的进程,在大规模开放场景的视觉 SLAM中具有较大价值。 0.010 00 参考文献: 0.005 [1]KONOLIGE K.AGRAWAL M.FrameSLAM:from 100 200 300 394 bundle adjustment to real-time visual mapping[J].IEEE 特征 transactions on robotics,2008,24(5):1066-1077. [2]张毅,沙建松.基于图优化的移动机器人视觉SLAM. 图13基于SURF的相似度矩阵 Fig.13 Similarity matrix of SURF 智能系统学报,2018,13(2):290-295. ZHANG Yi,SHA Jiansong.Visual-SLAM for mobile ro- 394 bot based on graph optimization[J].CAAI transactions on 0.07 intelligent systems,2018,13(2):290-295. 300 0.06 [3]HO K L,NEWMAN P.Detecting loop closure with scene 0.05 sequences[J].International journal of computer vision, 2007,74(3):261-286 200 0.04 8 [4]刘强,段富海,桑勇,等.复杂环境下视觉SLAM闭环检 0.03 测方法综述.机器人,2019,41(1):112-123,136 100 0.02 LIU Qiang,DUAN Fuhai.SANG Yong,et al.A survey of loop-closure detection method of visual SLAM in com- 0.01 plex environments[J].Robot,2019,41(1):112-123,136. [5]LOWE D G.Object recognition from local scale-invariant 100 200 300 394 特征 features[C]//Proceedings of the 17th IEEE International Conference on Computer Vision.Kerkyra.Greece,2002: 图14基于无监督二进制描述符的相似度矩阵 1150-1157 Fig.14 Similarity matrix of unsupervised binary [6]BAY H,TUYTELAARS T,VAN GOOL L.SURF: descriptor speeded up robust features[C]//Computer vision-ECCV 2006.Graz,Austria..2006:404-417. 4结束语 [7]SIVIC J,ZISSERMAN A.Video Google:A text retrieval 针对现有的视觉回环检测方法大多依赖有监 approach to object matching in videos[C]//Proceedings of the 9th IEEE International Conference on Computer Vis- 督学习且特征向量维度较高,占用较大存储空间 ion.Nice,France,2003:1470-1477. 的问题,本文受生成对抗网络的启发,提出了一 [8]CHEN Zetao,LAM O,JACOBSON A,et al.Convolution- 种无监督二进制描述符,并将其与BoVW结合用 al neural network-based place recognition[C]//Australasi-
0.035 0.030 0.025 0.020 0.015 0.010 0.005 0 100 100 200 200 300 300 394 394 特征 特征 图 12 基于 ORB 的相似度矩阵 Fig. 12 Similarity matrix of ORB 0.025 0.020 0.015 0.010 0.005 0 0 100 100 200 200 300 300 394 394 特征 特征 图 13 基于 SURF 的相似度矩阵 Fig. 13 Similarity matrix of SURF 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 100 100 200 200 300 300 394 394 特征 特征 图 14 基于无监督二进制描述符的相似度矩阵 Fig. 14 Similarity matrix of unsupervised binary descriptor 4 结束语 针对现有的视觉回环检测方法大多依赖有监 督学习且特征向量维度较高,占用较大存储空间 的问题,本文受生成对抗网络的启发,提出了一 种无监督二进制描述符,并将其与 BoVW 结合用 于视觉回环检测。该方法在模型训练时采用无监 督学习方式,训练集为互不相关的场景图片且无 任何标签数据。为了获得高区分度及低维度的无 监督二进制描述符,利用距离传播损失函数将高 维特征空间中的关系映射到低维空间,并且利用 二值化表示熵损失函数提高低维空间二进制特征 表示的多样性,进一步改善低维特征所带来的信 息损失问题。在 NC 数据集、CC 数据集以及 KAIST 数据集上对本文所提出的无监督二进制描 述符的有效性进行了验证,并和 ORB、BRIEF、 SURF 这 3 种人工特征描述符,以及 AlexNet、 AMOSNet 和 HybridNet 3 种深度学习方法进行了 比较。结果表明,无监督二进制描述符在具有强 烈视角及外观变化的复杂场景下具有鲁棒性,性 能可以与有监督深度网络媲美。但无监督方法从 根本上避免了费时费力的有监督数据标注过程, 同时极大地节约了存储空间和计算资源,加快回 环检测的进程,在大规模开放场景的视 觉 SLAM 中具有较大价值。 参考文献: KONOLIGE K, AGRAWAL M. FrameSLAM: from bundle adjustment to real-time visual mapping[J]. IEEE transactions on robotics, 2008, 24(5): 1066–1077. [1] 张毅, 沙建松. 基于图优化的移动机器人视觉 SLAM[J]. 智能系统学报, 2018, 13(2): 290–295. ZHANG Yi, SHA Jiansong. Visual-SLAM for mobile robot based on graph optimization[J]. CAAI transactions on intelligent systems, 2018, 13(2): 290–295. [2] HO K L, NEWMAN P. Detecting loop closure with scene sequences[J]. International journal of computer vision, 2007, 74(3): 261–286. [3] 刘强, 段富海, 桑勇, 等. 复杂环境下视觉 SLAM 闭环检 测方法综述 [J]. 机器人, 2019, 41(1): 112–123, 136. LIU Qiang, DUAN Fuhai, SANG Yong, et al. A survey of loop-closure detection method of visual SLAM in complex environments[J]. Robot, 2019, 41(1): 112–123, 136. [4] LOWE D G. Object recognition from local scale-invariant features[C]//Proceedings of the 17th IEEE International Conference on Computer Vision. Kerkyra, Greece, 2002: 1150−1157. [5] BAY H, TUYTELAARS T, VAN GOOL L. SURF: speeded up robust features[C]//Computer vision-ECCV 2006. Graz, Austria, 2006: 404−417. [6] SIVIC J, ZISSERMAN A. Video Google: A text retrieval approach to object matching in videos[C]//Proceedings of the 9th IEEE International Conference on Computer Vision. Nice, France, 2003: 1470−1477. [7] CHEN Zetao, LAM O, JACOBSON A, et al. Convolutional neural network-based place recognition[C]//Australasi- [8] 第 4 期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·681·
·682· 智能系统学报 第16卷 an Conference on Robotics and Automati-on.Melbourne, [20]CUMMINS M.NEWMAN P.FAB-MAP:Probabilistic Australasian.2014:8-14 localization and mapping in the space of appearance[J]. [9]SUNDERHAUF N.SHIRAZI S.DAYOUB F,et al.On The international journal of robotics research,2008. the performance of ConvNet features for place 27(6:647-665 recognition[C]//Proceedings of 2015 IEEE/RSJ Interna- [21]CHOI Y,KIM N,PARK K,et al.All-day visual place re- tional Conference on Intelligent Robots and Systems. cognition:benchmark dataset and baseline[C]//Proceed- Hamburg,Germany,2015:4297-4304. ings of 2015 IEEE International Conference on Computer [10]GAO Xiang,ZHANG Tao.Unsupervised learning to de- Vision and Pattern Recognition Workshops.Boston, tect loops using deep neural networks for visual SLAM USA,2015:8-13. system[J].Autonomous robots,2017,41(1):1-18. [22]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- [11]GOODFELLOW I J.POUGET-ABADIE J.MIRZA M. ageNet classification with deep convolutional neural net- et al.Generative adversarial nets[Cl//Proceedings of the works[C]//Proceedings of the 25th International Confer- 27th International Conference on Neural Information Pro- ence on Neural Information Processing Systems.Lake cessing Systems.Montreal,Canada,2014:2672-2680. Tahoe,USA,2012:1097-1105. [12]HINTON G E.ZEME R S.Autoencoders,minimum de- [23]CHEN Zetao,JACOBSON A,SUNDERHAUF N,et al. scription length and Helmholtz free energy[Cl//Proceed- Deep learning features at scale for visual place recogni- ings of the 6th International Conference on Neural In- tion[C]//Proceedings of 2017 IEEE International Confer- formation Processing Systems.Denver,Colorado,USA. ence on Robotics and Automation.Singapore,2017: 1993:3-10. 3223-3230. [13]SMOLENSKY P.Information processing in dynamical [24]ZAFFAR M,KHALIQ A,EHSAN S,et al.Levelling the systems:foundations of harmony theory[M]//RUMEL- playing field:A comprehensive comparison of visual HART D E,MCCLELLAND J L.Parallel Distributed place recognition approaches under changing Processing:Explorations in the Microstructure of Cogni- conditions[EB/0L].(2019-04-29)[2020-02-01] https://arxiv.org/abs/1903.09107?context=cs.CV. tion.Cambridge:MIT Press,1986. [14]SHIN D W,HO Y S,KIM E S.Loop closure detection in [25]MEMON A R,WANG Hesheng,HUSSAIN A.Loop simultaneous localization and mapping using descriptor closure detection using supervised and unsupervised deep neural networks for monocular SLAM systems[J].Robot- from generative adversarial network[J].Journal of elec- ics and autonomous systems,2020,126:103470. tronic imaging,2019,28(1):013014. [15]RADFORD A,METZ L,CHINTALA S.Unsupervised 作者简介: representation learning with deep convolutional generat- 杨慧,硕土研究生,主要研究方向 ive adversarial networks[C]//Proceedings of the 4th Inter- 为视觉回环检测。 national Conference on Learning Representations.San Juan,Puerto Rico,2016:97-108. [16]SALIMANS T,GOODFELLOW I,ZAREMBA W,et al. Improved techniques for training GANs[Cl//Proceedings of the 30th International Conference on Neural Informa- tion Processing Systems.Barcelona,Spain,2016: 陈良,副教授,主要研究方向为基 2234-2242. 于深度学习的人工智能系统、新一代 [17]DONG Haowen,YANG Y H.Training generative ad- 智能控制理论及应用。 versarial networks with binary neurons by end-to-end backpropagation[EB/OL].(2018-12-12)[2020-01-01]ht- tps://arxiv.org/abs/1810.04714. [18]CAO Yanshuai,DING G W,LUI K Y C,et al.Improv- ing GAN training via binarized representation entropy 孙立宁,教授博士生导师,主要 (BRE)regularization[C]//Proceedings of the 6th Interna- 研究方向为先进机器人技术。主持 tional Conference on Learning Representations.Van- “863”计划、973计划、国家重大专项、 couver,Canada,2018:1-22. 国家自然科学基金等20多项。获国 [19]ZHOU Bolei,LAPEDRIZA A,KHOSLA A,et al.Places: 家技术发明/科技进步二等奖2项、教 A 10 million image database for scene recognition[J]. 育部技术发明奖二等奖1项、省级技 IEEE transactions on pattern analysis and machine intelli- 术发明/科技进步一等奖3项,二等奖 gence,2018,40(6):1452-1464 2项。发表学术论文400多篇,获授权国家发明专利40余项
an Conference on Robotics and Automati-on. Melbourne, Australasian, 2014: 8−14. SÜNDERHAUF N, SHIRAZI S, DAYOUB F, et al. On the performance of ConvNet features for place recognition[C]//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany, 2015: 4297−4304. [9] GAO Xiang, ZHANG Tao. Unsupervised learning to detect loops using deep neural networks for visual SLAM system[J]. Autonomous robots, 2017, 41(1): 1–18. [10] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 2672−2680. [11] HINTON G E, ZEME R S. Autoencoders, minimum description length and Helmholtz free energy[C]//Proceedings of the 6th International Conference on Neural Information Processing Systems. Denver, Colorado, USA, 1993: 3−10. [12] SMOLENSKY P. Information processing in dynamical systems: foundations of harmony theory[M]//RUMELHART D E, MCCLELLAND J L. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press, 1986. [13] SHIN D W, HO Y S, KIM E S. Loop closure detection in simultaneous localization and mapping using descriptor from generative adversarial network[J]. Journal of electronic imaging, 2019, 28(1): 013014. [14] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]//Proceedings of the 4th International Conference on Learning Representations. San Juan, Puerto Rico, 2016: 97−108. [15] SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 2234−2242. [16] DONG Haowen, YANG Y H. Training generative adversarial networks with binary neurons by end-to-end backpropagation[EB/OL]. (2018-12-12) [2020-01-01] https://arxiv.org/abs/1810.04714. [17] CAO Yanshuai, DING G W, LUI K Y C, et al. Improving GAN training via binarized representation entropy (BRE) regularization[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada, 2018: 1−22. [18] ZHOU Bolei, LAPEDRIZA A, KHOSLA A, et al. Places: A 10 million image database for scene recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(6): 1452–1464. [19] CUMMINS M, NEWMAN P. FAB-MAP: Probabilistic localization and mapping in the space of appearance[J]. The international journal of robotics research, 2008, 27(6): 647–665. [20] CHOI Y, KIM N, PARK K, et al. All-day visual place recognition: benchmark dataset and baseline[C]//Proceedings of 2015 IEEE International Conference on Computer Vision and Pattern Recognition Workshops. Boston, USA, 2015: 8−13. [21] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097−1105. [22] CHEN Zetao, JACOBSON A, SÜNDERHAUF N, et al. Deep learning features at scale for visual place recognition[C]//Proceedings of 2017 IEEE International Conference on Robotics and Automation. Singapore, 2017: 3223−3230. [23] ZAFFAR M, KHALIQ A, EHSAN S, et al. Levelling the playing field: A comprehensive comparison of visual place recognition approaches under changing conditions[EB/OL]. (2019-04-29) [2020-02-01] https://arxiv.org/abs/1903.09107?context=cs.CV. [24] MEMON A R, WANG Hesheng, HUSSAIN A. Loop closure detection using supervised and unsupervised deep neural networks for monocular SLAM systems[J]. Robotics and autonomous systems, 2020, 126: 103470. [25] 作者简介: 杨慧,硕士研究生,主要研究方向 为视觉回环检测。 陈良,副教授,主要研究方向为基 于深度学习的人工智能系统、新一代 智能控制理论及应用。 孙立宁,教授,博士生导师,主要 研究方向为先进机器人技术。主持 “863”计划、973 计划、国家重大专项、 国家自然科学基金等 20 多项。获国 家技术发明/科技进步二等奖 2 项、教 育部技术发明奖二等奖 1 项、省级技 术发明/科技进步一等奖 3 项,二等奖 2 项。发表学术论文 400 多篇,获授权国家发明专利 40 余项。 ·682· 智 能 系 统 学 报 第 16 卷