第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992tis.202009009 基于迁移学习的移动机器人单帧图像坡度检测算法 辛菁,杜柯楠,王媛媛,刘丁 (西安理工大学自动化与信息工程学院,陕西西安710048) 摘要:针对未知环境下移动机器人平稳上坡控制对坡度感知精度的要求,本文提出了一种基于迁移学习的移 动机器人单帧图像坡度检测算法。利用室内图像标准数据集训练深度卷积神经场一全连接超像素池化网 络(deep convolutional neural field-fully connected superpixel pooling network,DCNF-FCSP)并获得室内单帧图像深度 估计网络模型:将DCNF-FCSP模型中前5个图像特征提取层的网络参数迁移至室外图像深度估计网络中:固 定室外图像深度估计网络中图像特征提取部分的网络参数,利用室外图像数据集对剩余5层的网络参数进行 训练,从而得到室外单帧图像深度估计网络:将其应用在移动机器人坡度检测中,根据单帧斜坡图像估计出斜 坡角度。标准数据集和实际场景的深度估计和坡度检测实验表明:本文所提出的基于迁移学习的移动机器人 单帧图像坡度检测算法能够仅根据移动机器人车载相机采集的单帧斜坡RGB图像就可估计出精确的斜坡角 度,满足移动机器人在未知环境中对坡度感知精度的要求。 关键词:未知环境:移动机器人:坡度检测:室外:单帧图像:深度估计;迁移学习:深度卷积网络 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)01-0081-11 中文引用格式:辛菁,杜柯楠,王媛媛,等.基于迁移学习的移动机器人单帧图像坡度检测算法J川.智能系统学报,2021, 16(1):81-91. 英文引用格式:XIN Jing,DU Kenan,,Wang Yuanyuan,ctal.Single frame image slope detection algorithm for mobile robots based on transfer learning[Jl.CAAI transactions on intelligent systems,2021,16(1):81-91. Single frame image slope detection algorithm for mobile robots based on transfer learning XIN Jing,DU Kenan,Wang Yuanyuan,LIU Ding (School of Automation and Information Engineering,Xi'an University of Technology,Xi'an 710048,China) Abstract:To meet the requirement of slope perception accuracy for stable uphill control of mobile robots in an un- known environment,a single frame image slope detection algorithm for mobile robots is proposed in this paper based on transfer learning.First,the deep convolutional neural field-fully connected superpixel-pooling network(DCNF-FCSP)is trained using a standard indoor image dataset,and the depth estimation network model of indoor single frame images is obtained.Second,the network parameters of the first five image feature extraction layers in the DCNF-FCSP model are transferred to the outdoor image depth estimation network.Then,the network parameters of the image feature extrac- tion part in the outdoor image depth estimation network are fixed,and the network parameters of the remaining five lay- ers are trained using the outdoor image dataset;thus the outdoor single frame image depth estimation network is ob- tained.Finally,it is applied to the slope detection of a mobile robot,and the slope angle is estimated according to the single frame slope image.The depth estimation and slope detection experiments on a standard dataset and in actual scenes show that the proposed algorithm can estimate the accurate slope angle according to only a single frame slope RGB image captured by the vehicle-mounted camera of a mobile robot.The proposed algorithm meets the requirements of the slope perception accuracy of a mobile robot in an unknown environment. Keywords:unknown environment;mobile robot;slope detection;outdoor;single image;depth estimation;transfer learning;deep convolutional network 收稿日期:2020-09-01. 未知环境地形的自主感知是移动机器人自主 基金项目:国家自然科学基金项目(61873200,61833013, 导航的基础和根本保证,也是移动机器人进行其 U20A20225). 通信作者:刘丁.E-mail:liud@xaut.edu.cn 他行为决策的前提。坡度检测作为移动机器人自
DOI: 10.11992/tis.202009009 基于迁移学习的移动机器人单帧图像坡度检测算法 辛菁,杜柯楠,王媛媛,刘丁 (西安理工大学 自动化与信息工程学院,陕西 西安 710048) 摘 要:针对未知环境下移动机器人平稳上坡控制对坡度感知精度的要求,本文提出了一种基于迁移学习的移 动机器人单帧图像坡度检测算法。利用室内图像标准数据集训练深度卷积神经场−全连接超像素池化网 络 (deep convolutional neural field-fully connected superpixel pooling network, DCNF-FCSP) 并获得室内单帧图像深度 估计网络模型;将 DCNF-FCSP 模型中前 5 个图像特征提取层的网络参数迁移至室外图像深度估计网络中;固 定室外图像深度估计网络中图像特征提取部分的网络参数,利用室外图像数据集对剩余 5 层的网络参数进行 训练,从而得到室外单帧图像深度估计网络;将其应用在移动机器人坡度检测中,根据单帧斜坡图像估计出斜 坡角度。标准数据集和实际场景的深度估计和坡度检测实验表明:本文所提出的基于迁移学习的移动机器人 单帧图像坡度检测算法能够仅根据移动机器人车载相机采集的单帧斜坡 RGB 图像就可估计出精确的斜坡角 度,满足移动机器人在未知环境中对坡度感知精度的要求。 关键词:未知环境;移动机器人;坡度检测;室外;单帧图像;深度估计;迁移学习;深度卷积网络 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0081−11 中文引用格式:辛菁, 杜柯楠, 王媛媛, 等. 基于迁移学习的移动机器人单帧图像坡度检测算法 [J]. 智能系统学报, 2021, 16(1): 81–91. 英文引用格式:XIN Jing, DU Kenan, Wang Yuanyuan, et al. Single frame image slope detection algorithm for mobile robots based on transfer learning[J]. CAAI transactions on intelligent systems, 2021, 16(1): 81–91. Single frame image slope detection algorithm for mobile robots based on transfer learning XIN Jing,DU Kenan,Wang Yuanyuan,LIU Ding (School of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048, China) Abstract: To meet the requirement of slope perception accuracy for stable uphill control of mobile robots in an unknown environment, a single frame image slope detection algorithm for mobile robots is proposed in this paper based on transfer learning. First, the deep convolutional neural field-fully connected superpixel-pooling network (DCNF-FCSP) is trained using a standard indoor image dataset, and the depth estimation network model of indoor single frame images is obtained. Second, the network parameters of the first five image feature extraction layers in the DCNF-FCSP model are transferred to the outdoor image depth estimation network. Then, the network parameters of the image feature extraction part in the outdoor image depth estimation network are fixed, and the network parameters of the remaining five layers are trained using the outdoor image dataset; thus the outdoor single frame image depth estimation network is obtained. Finally, it is applied to the slope detection of a mobile robot, and the slope angle is estimated according to the single frame slope image. The depth estimation and slope detection experiments on a standard dataset and in actual scenes show that the proposed algorithm can estimate the accurate slope angle according to only a single frame slope RGB image captured by the vehicle-mounted camera of a mobile robot. The proposed algorithm meets the requirements of the slope perception accuracy of a mobile robot in an unknown environment. Keywords: unknown environment; mobile robot; slope detection; outdoor; single image; depth estimation; transfer learning; deep convolutional network 未知环境地形的自主感知是移动机器人自主 导航的基础和根本保证,也是移动机器人进行其 他行为决策的前提。坡度检测作为移动机器人自 收稿日期:2020−09−01. 基金项目:国家自然科学基金项 目 (61873200, 61833013, U20A20225). 通信作者:刘丁.E-mail:liud@xaut.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
·82· 智能系统学报 第16卷 主感知未知环境地形的重要组成部分,其检测精 的研究内容。然而由于室外环境复杂多变,且 度影响移动机器人在爬坡时的行为策略和方向, 干扰因素较多,根据单帧图像推断室外环境信息 进而影响整个导航系统的性能。因此,坡度检测 一直是三维重建中的一个挑战性问题。 精度对移动机器人自主导航性能十分重要四。 目前市场上已存在多种用于获取室外场景深 惯性测量单元(inertial measurement units IMU, 度信息的传感器,如深度相机、激光雷达等。其 IMUs)、倾斜传感器、激光传感器、超声波传感器 中,激光雷达是无人驾驶领域最常用的距离测量 和视觉传感器是坡度检测系统常用的传感器。 传感器,具有高精度、便于携带且抗干扰等优点, 与MUs和倾斜传感器不同,激光传感器1、超 然而其结构复杂且成本较高,难以广泛应用于工 声波传感器和视觉传感器在检测坡度中不需要 业。传统的单帧图像深度估计方法通常依赖光学 移动机器人接触或攀爬斜坡,因而被更多地应用 几何成像原理等,其难点在于几何分析模型很难 在移动机器人坡度检测与环境地形感知中。近年 从单帧图像中获取足够用于推测场景三维信息的 来,随着计算机视觉技术,尤其是单帧图像深度 相关特征。 估计技术的快速发展,以及图像本身所包含的丰 随着深度学习在图像感知领域的快速发展, 富语义信息,使得视觉传感器在机器人环境智能 研究者们已经将多种深度学习模型成功应用到图 感知中得到了广泛的应用。基于此,本文提出了 像处理中,并根据图像特征信息来对图像的深度 一种基于迁移学习的移动机器人单帧图像坡度检 信息进行估计。本质上,基于深度学习的单图像 测算法,不需要移动机器人接触或攀爬斜坡,仅 深度估计方法的核心是构造并训练一个将二维 根据单帧斜坡RGB图像就能估计出深度信息进 RGB图像转换成深度图像的深度网络。常用 而检测出斜坡的角度,同时所提算法大大减少了 的深度学习模型是卷积神经网络(convolutional 单帧图像深度估计网络训练时对室外图像样本数 neural network,CNN),已提出一系列基于CNN的 量的要求,提高了网络的训练效率和估计精度, 单帧图像深度估计算法o19。Eigen等m提出一 显著提高了移动机器人在未知环境中估计斜坡角 种多尺度CNN来实现单帧图像深度估计,该方法 度的精确度,为移动机器人自主导航提供了更加 通过粗尺度(coarse)与精尺度(fine-scale)2个方面 可靠、准确的依据。 分别考虑图像的全局以及局部信息,相较于直接 应用CNN网络估计深度值的精确度有了较为明 单帧图像深度估计方法 显的提升,其不足之处是图像深度估计效率较 低。为此,Liu等)提出深度卷积神经场一全 图像的深度估计是指对构成二维图像的每个 连接超像素池化网络(deep convolutional neural 像素点对应的深度值进行估计,其中深度值指的 field-fully connected superpixel pooling network, 是相机所拍摄图像中每个像素点所对应的真实场 DCNF-FCSP)模型,将卷积神经网络与条件随机 景中3D物体到相机光心所在平面的垂直距离。 场(conditional random fields,CRF)结合在一起对 准确有效的深度信息能提升图像分类、目标识 单帧图像深度估计网络进行优化,将图像像素点 别、语义分割等诸多计算机视觉任务的结果。 的深度估计转换为像素块的深度估计,在不影响 随着近年来3D技术的广泛应用和现有普通3D 深度估计精度的前提下提高了估计速度。单帧图 传感器精度受限的影响,从2D图像深度估计信 像深度估计的性能依赖于大量和多样性的图像训 息来获取环境的3D结构成为计算机视觉研究领 练数据集。然而,由于室外图像深度估计缺乏 域的热点问题。对于单帧图像,由于难以获取目 足够的室外图像数据集作为支撑,深度估计结果 标场景的视差信息,只能通过图像的自身特征及 较为不理想。随后,研究者从不角度提出了进 先验知识来完成深度估计,因而具有较大的挑战 步提高估计精度的方法,如采用多个深度网络4刀 性。目前大多数关于图像深度估计的研究都基于 Hu等!采用图像深度估计基础网络得到单帧图 多帧图像进行,典型的方法是采用立体视觉技 像粗略的深度估计结果,再通过精细网络对深度 术。整个过程类似于人眼的双目视觉成像机理, 估计结果进行优化,并在损失函数中加入对象边 这种技术相对比较成熟,但该类方法获取环境信 缘的深度梯度来优化对象边界的深度估计结果, 息成本较高⑧,还需要图像中具有较明显的辅助 提高了估计精度,但该方法的图像深度估计效率 信息,且重建结果易受到物体遮挡和对应关系匹 比较低,不能满足环境三维重建对实时性的要 配误差的影响。因此,使用简洁的单帧图像深度 求。Kuznietsov等1采用半监督学习方式对图像 估计获取环境信息成为三维重建研究中一项重要 特征进行学习,以减少训练深度卷积神经网络所
主感知未知环境地形的重要组成部分,其检测精 度影响移动机器人在爬坡时的行为策略和方向, 进而影响整个导航系统的性能。因此,坡度检测 精度对移动机器人自主导航性能十分重要[1]。 惯性测量单元 (inertial measurement units IMU, IMUs )、倾斜传感器、激光传感器、超声波传感器 和视觉传感器是坡度检测系统常用的传感器。 与 IMUs 和倾斜传感器不同[2-3] ,激光传感器[4-5] 、超 声波传感器[6] 和视觉传感器在检测坡度中不需要 移动机器人接触或攀爬斜坡,因而被更多地应用 在移动机器人坡度检测与环境地形感知中。近年 来,随着计算机视觉技术,尤其是单帧图像深度 估计技术的快速发展,以及图像本身所包含的丰 富语义信息,使得视觉传感器在机器人环境智能 感知中得到了广泛的应用。基于此,本文提出了 一种基于迁移学习的移动机器人单帧图像坡度检 测算法,不需要移动机器人接触或攀爬斜坡,仅 根据单帧斜坡 RGB 图像就能估计出深度信息进 而检测出斜坡的角度,同时所提算法大大减少了 单帧图像深度估计网络训练时对室外图像样本数 量的要求,提高了网络的训练效率和估计精度, 显著提高了移动机器人在未知环境中估计斜坡角 度的精确度,为移动机器人自主导航提供了更加 可靠、准确的依据。 1 单帧图像深度估计方法 图像的深度估计是指对构成二维图像的每个 像素点对应的深度值进行估计,其中深度值指的 是相机所拍摄图像中每个像素点所对应的真实场 景中 3D 物体到相机光心所在平面的垂直距离。 准确有效的深度信息能提升图像分类、目标识 别、语义分割等诸多计算机视觉任务的结果[7]。 随着近年来 3D 技术的广泛应用和现有普通 3D 传感器精度受限的影响,从 2D 图像深度估计信 息来获取环境的 3D 结构成为计算机视觉研究领 域的热点问题。对于单帧图像,由于难以获取目 标场景的视差信息,只能通过图像的自身特征及 先验知识来完成深度估计,因而具有较大的挑战 性。目前大多数关于图像深度估计的研究都基于 多帧图像进行,典型的方法是采用立体视觉技 术。整个过程类似于人眼的双目视觉成像机理, 这种技术相对比较成熟,但该类方法获取环境信 息成本较高[8] ,还需要图像中具有较明显的辅助 信息,且重建结果易受到物体遮挡和对应关系匹 配误差的影响。因此,使用简洁的单帧图像深度 估计获取环境信息成为三维重建研究中一项重要 的研究内容[9]。然而由于室外环境复杂多变,且 干扰因素较多,根据单帧图像推断室外环境信息 一直是三维重建中的一个挑战性问题。 目前市场上已存在多种用于获取室外场景深 度信息的传感器,如深度相机、激光雷达等。其 中,激光雷达是无人驾驶领域最常用的距离测量 传感器,具有高精度、便于携带且抗干扰等优点, 然而其结构复杂且成本较高,难以广泛应用于工 业。传统的单帧图像深度估计方法通常依赖光学 几何成像原理等,其难点在于几何分析模型很难 从单帧图像中获取足够用于推测场景三维信息的 相关特征。 随着深度学习在图像感知领域的快速发展, 研究者们已经将多种深度学习模型成功应用到图 像处理中,并根据图像特征信息来对图像的深度 信息进行估计。本质上, 基于深度学习的单图像 深度估计方法的核心是构造并训练一个将二维 RGB 图像转换成深度图像的深度网络[10]。常用 的深度学习模型是卷积神经网络 (convolutional neural network, CNN),已提出一系列基于 CNN 的 单帧图像深度估计算法[10-19]。Eigen 等 [11] 提出一 种多尺度 CNN 来实现单帧图像深度估计,该方法 通过粗尺度 (coarse) 与精尺度 (fine-scale) 2 个方面 分别考虑图像的全局以及局部信息,相较于直接 应用 CNN 网络估计深度值的精确度有了较为明 显的提升,其不足之处是图像深度估计效率较 低。为此,Liu 等 [12] 提出深度卷积神经场−全 连接超像素池化网络 (deep convolutional neural field-fully connected superpixel pooling network, DCNF-FCSP) 模型,将卷积神经网络与条件随机 场 (conditional random fields, CRF) 结合在一起对 单帧图像深度估计网络进行优化,将图像像素点 的深度估计转换为像素块的深度估计,在不影响 深度估计精度的前提下提高了估计速度。单帧图 像深度估计的性能依赖于大量和多样性的图像训 练数据集[13]。然而,由于室外图像深度估计缺乏 足够的室外图像数据集作为支撑,深度估计结果 较为不理想。随后,研究者从不角度提出了进一 步提高估计精度的方法,如采用多个深度网络[14-17] , Hu 等 [14] 采用图像深度估计基础网络得到单帧图 像粗略的深度估计结果,再通过精细网络对深度 估计结果进行优化,并在损失函数中加入对象边 缘的深度梯度来优化对象边界的深度估计结果, 提高了估计精度,但该方法的图像深度估计效率 比较低,不能满足环境三维重建对实时性的要 求。Kuznietsov 等 [15] 采用半监督学习方式对图像 特征进行学习,以减少训练深度卷积神经网络所 ·82· 智 能 系 统 学 报 第 16 卷
第1期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·83· 需要的训练样本。Fu等基于空间和深度分辨 通过基于迁移学习的室外单帧图像深度估计网络 率的折衷提出了一种回归分类级联网络。梁煜等 对斜坡图像进行深度估计,得到斜坡上下边缘像 将全卷积网络、挤压-激励网络(squeeze-and-excit-. 素点的深度值,作差得到斜坡投影长度,再通过 ation networks,SENet)、残差网络(residual neural 反余弦函数便可得到斜坡角度0=arccos(alD。其 network,ResNet)三者结合提出了一种多网络构成 中,如何根据单帧斜坡RGB图像估计出斜坡上下 的编码器解码器结构,提高了单帧图像深度估计 边缘像素点的深度值,是获得精确的斜波角度估 的精度。此外,还有研究者通过设计新的损失函 计值的关键,本文中该值可通过所设计的深度估 数0,81,在保证深度估计精度的同时,提高了估 计网络获得。下面详细介绍本文所提出的基于迁 计的实时性。 移学习的室外单帧图像深度估计算法基本原理。 综上,已有的单幅图像深度估计方法可以获 度估计网路 得比较精确的深度估计结果,然而其需要大量的 图像数据集,仍不能很好地解决室外单幅图像深 边缘像 度估计中训练数据有限且深度估计精度不理想的 斜坡深愫深度斜坡 度图像 投彩斜坡估 问题,基于此,受迁移学习在计算机视觉、机器学 长斑计角度日 习等领域的成功应用,本文提出了一种基于迁移 斜坡 RGB 坡面 学习的室外单帧图像深度估计方法,旨在能够在 图像 边缘提取 节省训练样本的同时提高深度估计结果的精确 边缘锐化图像 坐标转换长度1 度,在此基础上进一步提出了一种改进的移动机 图1坡度检测算法 器人坡度检测算法,能够根据移动机器人车载相 Fig.1 General framework of slope detection algorithm 机采集的单帧斜坡RGB图像就可估计出精确的 2.2 基于迁移学习的室外单帧图像深度估计算 斜坡角度。 法基本原理 本文的主要贡献如下: 本文提出的基于迁移学习的室外单帧图像深 1)提出了一种基于迁移学习的室外单帧图像 度估计算法如图2所示,主要由室内图像深度估 深度估计方法,不仅在室外图像标准数据集上取 计和参数迁移2部分组成。首先,采用室内图像 得了精确的深度估计结果,而且对于实际拍摄的 语义分割数据集(NYU depth dataset V2,NYU-D 室外单帧图像也能进行准确的深度估计; V2)对室内图像深度估计网络进行训练,得到 2)将基于迁移学习的室外单帧图像深度估计 DCNF-FCSP室内图像深度估计网络模型;然后, 方法与基于视觉的机器人坡度检测方法相结合,提 将该网络模型中前5个图像特征提取层的网络参 出了一种改进的移动机器人单帧图像坡度检测算 数迁移至室外图像深度估计网络中;最后,固定 法,能够仅根据移动机器人车载相机采集的单帧斜 迁移至室外图像深度估计网络的图像特征提取网 坡RGB图像就可估计出精确的斜坡角度,满足移 络参数,利用Make3D室外图像数据集对剩余的 动机器人在未知环境中对坡度感知精度的要求。 2个卷积层和3个全连接层的网络参数进行训 2 基于迁移学习的移动机器人单帧 练,从而得到室外单帧图像深度估计网络。 图像坡度检测算法原理 下面详细介绍基于迁移学习的室外图像深度 估计方法的具体实现原理,包括室内图像深度估 2.1算法整体框架 计和基于迁移学习的单帧图像深度估计。 本文提出的基于迁移学习的移动机器人单帧 2.2.1室内图像深度估计 图像坡度检测算法整体如图1所示,主要由斜坡 本文借鉴文献[12]提出的室内图像深度估计 边缘提取、斜坡边缘像素点坐标转换和斜坡图像 方法对图像深度估计网络进行初始化。首先,采 深度估计3个部分组成。首先,对Kinect传感器 用简单线性迭代聚类(simple linear iterative cluster- 采集到的斜坡RGB图像进行滤波和边缘提取,以 ing,SLIC)超像素分割方法将室内RGB图像划分 获得斜坡图像上下边缘像素点的坐标;其次,将 为多个超像素块;然后,通过全卷积网络(full con- 斜坡图像边缘像素点坐标由图像像素坐标系转换 volutional network,FCN)对室内RGB图像进行特 到相机坐标系中,得到边缘像素点的坐标;接着, 征提取,在此基础上,将图像像素点的深度估计 将斜坡图像边缘像素点坐标由图像像素坐标系转 问题转化为对图像超像素块的深度估计问题,并 换到相机坐标系中,得到斜坡真实长度1;最后, 采用超像素池化来获得图像超像素块的特征信
需要的训练样本。Fu 等 [16] 基于空间和深度分辨 率的折衷提出了一种回归分类级联网络。梁煜等[17] 将全卷积网络、挤压−激励网络(squeeze-and-excitation networks,SENet)、残差网络(residual neural network, ResNet)三者结合提出了一种多网络构成 的编码器解码器结构,提高了单帧图像深度估计 的精度。此外,还有研究者通过设计新的损失函 数 [10, 18-19] ,在保证深度估计精度的同时,提高了估 计的实时性。 综上,已有的单幅图像深度估计方法可以获 得比较精确的深度估计结果,然而其需要大量的 图像数据集,仍不能很好地解决室外单幅图像深 度估计中训练数据有限且深度估计精度不理想的 问题,基于此,受迁移学习在计算机视觉、机器学 习等领域的成功应用,本文提出了一种基于迁移 学习的室外单帧图像深度估计方法,旨在能够在 节省训练样本的同时提高深度估计结果的精确 度,在此基础上进一步提出了一种改进的移动机 器人坡度检测算法,能够根据移动机器人车载相 机采集的单帧斜坡 RGB 图像就可估计出精确的 斜坡角度。 本文的主要贡献如下: 1) 提出了一种基于迁移学习的室外单帧图像 深度估计方法,不仅在室外图像标准数据集上取 得了精确的深度估计结果,而且对于实际拍摄的 室外单帧图像也能进行准确的深度估计; 2) 将基于迁移学习的室外单帧图像深度估计 方法与基于视觉的机器人坡度检测方法相结合,提 出了一种改进的移动机器人单帧图像坡度检测算 法,能够仅根据移动机器人车载相机采集的单帧斜 坡 RGB 图像就可估计出精确的斜坡角度,满足移 动机器人在未知环境中对坡度感知精度的要求。 2 基于迁移学习的移动机器人单帧 图像坡度检测算法原理 2.1 算法整体框架 l 本文提出的基于迁移学习的移动机器人单帧 图像坡度检测算法整体如图 1 所示,主要由斜坡 边缘提取、斜坡边缘像素点坐标转换和斜坡图像 深度估计 3 个部分组成。首先,对 Kinect 传感器 采集到的斜坡 RGB 图像进行滤波和边缘提取,以 获得斜坡图像上下边缘像素点的坐标;其次,将 斜坡图像边缘像素点坐标由图像像素坐标系转换 到相机坐标系中,得到边缘像素点的坐标;接着, 将斜坡图像边缘像素点坐标由图像像素坐标系转 换到相机坐标系中,得到斜坡真实长度 ;最后, a θ =arccos(a/l) 通过基于迁移学习的室外单帧图像深度估计网络 对斜坡图像进行深度估计,得到斜坡上下边缘像 素点的深度值,作差得到斜坡投影长度 ,再通过 反余弦函数便可得到斜坡角度 。其 中,如何根据单帧斜坡 RGB 图像估计出斜坡上下 边缘像素点的深度值,是获得精确的斜波角度估 计值的关键,本文中该值可通过所设计的深度估 计网络获得。下面详细介绍本文所提出的基于迁 移学习的室外单帧图像深度估计算法基本原理。 ... ... 深度估计网络 斜坡深 度图像 边缘像 素深度 斜坡 投影 长度 a 斜坡估 计角度 θ 坡面 长度 l 坐标转换 边缘锐化图像 边缘提取 斜坡 RGB 图像 图 1 坡度检测算法 Fig. 1 General framework of slope detection algorithm 2.2 基于迁移学习的室外单帧图像深度估计算 法基本原理 本文提出的基于迁移学习的室外单帧图像深 度估计算法如图 2 所示,主要由室内图像深度估 计和参数迁移 2 部分组成。首先,采用室内图像 语义分割数据集 (NYU depth dataset V2, NYU-D V2) 对室内图像深度估计网络进行训练,得到 DCNF-FCSP 室内图像深度估计网络模型;然后, 将该网络模型中前 5 个图像特征提取层的网络参 数迁移至室外图像深度估计网络中;最后,固定 迁移至室外图像深度估计网络的图像特征提取网 络参数,利用 Make 3D 室外图像数据集对剩余的 2 个卷积层和 3 个全连接层的网络参数进行训 练,从而得到室外单帧图像深度估计网络。 下面详细介绍基于迁移学习的室外图像深度 估计方法的具体实现原理,包括室内图像深度估 计和基于迁移学习的单帧图像深度估计。 2.2.1 室内图像深度估计 本文借鉴文献 [12] 提出的室内图像深度估计 方法对图像深度估计网络进行初始化。首先,采 用简单线性迭代聚类 (simple linear iterative clustering, SLIC) 超像素分割方法将室内 RGB 图像划分 为多个超像素块;然后,通过全卷积网络 (full convolutional network, FCN) 对室内 RGB 图像进行特 征提取,在此基础上,将图像像素点的深度估计 问题转化为对图像超像素块的深度估计问题,并 采用超像素池化来获得图像超像素块的特征信 第 1 期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·83·
·84· 智能系统学报 第16卷 息;最后,采用条件随机场(conditional random 进行优化,进而得到更加准确的室内图像深度估 fields,CRF)参数优化的形式构建损失函数对网络 计结果。 卷积 卷积 卷积 卷积 卷积 层61 卷积 全连接 层1 层2 层;层4 层5 7 全连接 参数迁移 卷积 卷积 卷积卷积卷积 卷积 2卷积 全连接 层 层2层3层4层5 层6 层7 全连接 迁移学习 图2基于迁移学习的室外单帧图像深度估计算法 Fig.2 General framework of outdoor single image depth estimation algorithm based on transfer learning 假设输人RGB图像为x=[x2…xP,向量 重于学习特定的特征。所以,本文选用迁移学习将 z=[32…zJ「是n个超像素块的预测深度值,其 室内图像深度估计网络模型中提取通用特征的网 对应的真实深度值为y=y…yJP。 络参数进行迁移,以减少训练室外图像深度估计 CRF是在给定随机变量x的条件下,随机变 网络所需的数据量,同时节省了网络训练时间。 量y的马尔可夫随机场POyx),其表达式为 迁移学习主要针对源任务与目标任务之间的 1 PO)=Zep-E0,》 (1) 知识迁移,通过将源任务上训练好的模型权重直 接应用于目标任务中,从而有效利用域间的知识 式中:E为能量函数,用于表示图像超像素块与 迁移来解决目标任务标记数据不足的问题。通过 超像素块之间的关系;Z()为配分函数,可将输入图 迁移源任务中预先训练的模型权重,来显著减少 像深度预测问题转化为求解后验概率最大的值四: 目标任务模型中需要学习的参数数量,从而实现 y*=argmax P (ylx) (2) 利用较小规模的样本就可以进行快速有效的模型 2.2.2基于迁移学习的室外单帧图像深度估计 训练2o。针对不同的研究领域,CNN迁移过程中 传统的机器学习通常需要大量的训练样本,然 所选取的迁移对象也不相同。本文选用归纳式迁 而现实生活中,因受数据获取的限制,往往难以满 移学习中的参数迁移方法将室内图像深度估计网 足。因此,本文采用迁移学习来解决训练室外单 络参数迁移至室外图像深度估计网络中,以完成 帧图像深度估计网络所需要的图像数据集有限的 室外图像深度估计任务,如图3所示。 问题。由于CNN具有良好的层次结构,而且对于 假设源域与目标域共享模型参数,网络由 CNN来说前面几层所学习到的特征都是通用特 7个卷积层以及3个全连接层组成,其中前5层 征,随着网络层次的加深,后面的网络层更加偏 是基于原始图像进行特征提取,从第6个卷积层
息;最后,采用条件随机场 (conditional random fields, CRF) 参数优化的形式构建损失函数对网络 进行优化,进而得到更加准确的室内图像深度估 计结果。 640 480 3 33 3 64 321 241 3 3 128 161 121 3 3 256 61 81 3 3 512 41 31 4232 512 64 128 256 512 64 3 3 321 241 3 3 64128 128 3 3 121 161 61 3 3 256 256 81 512 512 3 3 41 31 32 42 512 640 480 3 3 3 3 3 3 3 3 3 3 3 33 3 3 3 3 3 3 3 321 321 241 241 121 121 161 161 64 64 64 64 128 128 128 128 256 256 256 256 81 81 61 61 31 31 41 41 512 512 512 512 32 32 42 42 512 512 12816 128 16 768 768 268 268 全连接 全连接 全连接 全连接 卷积 层 7 卷积 卷积 层 6 层 5 卷积 层 4 卷积 层 3 卷积 层 2 卷积 层 1 卷积 层 5 卷积 层 6 卷积 层 7 卷积 层 4 卷积 层 3 卷积 层 2 卷积 层 1 迁移学习 参数迁移 图 2 基于迁移学习的室外单帧图像深度估计算法 Fig. 2 General framework of outdoor single image depth estimation algorithm based on transfer learning x = [x1 x2 ··· xn] T z = [z1 z2 ··· zn] T n y = [y1 y2 ··· yn] T 假设输入 RGB 图像为 ,向量 是 个超像素块的预测深度值,其 对应的真实深度值为 。 x y Pr(y|x) CRF 是在给定随机变量 的条件下,随机变 量 的马尔可夫随机场 ,其表达式为 Pr(y|x) = 1 Z(x) exp(−E(y, x)) (1) E(·) Z(·) 式中: 为能量函数,用于表示图像超像素块与 超像素块之间的关系; 为配分函数,可将输入图 像深度预测问题转化为求解后验概率最大的值[12] : y ∗ = argmax y Pr(y|x) (2) 2.2.2 基于迁移学习的室外单帧图像深度估计 传统的机器学习通常需要大量的训练样本,然 而现实生活中,因受数据获取的限制,往往难以满 足。因此,本文采用迁移学习来解决训练室外单 帧图像深度估计网络所需要的图像数据集有限的 问题。由于 CNN 具有良好的层次结构,而且对于 CNN 来说前面几层所学习到的特征都是通用特 征,随着网络层次的加深,后面的网络层更加偏 重于学习特定的特征。所以,本文选用迁移学习将 室内图像深度估计网络模型中提取通用特征的网 络参数进行迁移,以减少训练室外图像深度估计 网络所需的数据量,同时节省了网络训练时间。 迁移学习主要针对源任务与目标任务之间的 知识迁移,通过将源任务上训练好的模型权重直 接应用于目标任务中,从而有效利用域间的知识 迁移来解决目标任务标记数据不足的问题。通过 迁移源任务中预先训练的模型权重,来显著减少 目标任务模型中需要学习的参数数量,从而实现 利用较小规模的样本就可以进行快速有效的模型 训练[20]。针对不同的研究领域,CNN 迁移过程中 所选取的迁移对象也不相同。本文选用归纳式迁 移学习中的参数迁移方法将室内图像深度估计网 络参数迁移至室外图像深度估计网络中,以完成 室外图像深度估计任务,如图 3 所示。 假设源域与目标域共享模型参数,网络由 7 个卷积层以及 3 个全连接层组成,其中前 5 层 是基于原始图像进行特征提取,从第 6 个卷积层 ·84· 智 能 系 统 学 报 第 16 卷
第1期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·85· 开始引入超像素块的概念,所以可以认为前5层 而网络后2个卷积层和3个全连接层主要是针对 卷积层所提取到的特征在源域与目标域中共用, 目标任务进行精细计算。 convl 1+Relu conv2 1+Relu conv3 I+Relu conv4 1+Relu conv5 1+Relu convl 2+Relu conv2 2+Relu conv3 2+Relu conv4 2+Relu conv5 2+Relu conv3 3+Relu conv4 3+Relu conv5 3+Relu pool 11 pool 12 pool 13 pool 14 pool 15 cony I conv 2 conv 3 conv 4 cony 5 卷积层1 卷积层2 卷积层3 卷积层4 卷积层5 conv7 1+Relu conv6 1+Relu 损失项 conv7 2+Relu sp-poolingg conv6 2+Relu 超像素池化 conv 6 卷积层7 卷积层6 图3室外图像深度估计特征提取部分网络结构 Fig.3 Network structure of feature extraction for outdoor image depth estimation 本文将DCNF-FCSP室内图像深度估计网络 层的输入,结合室外图像深度估计标准数据集 中前5层图像特征提取的网络参数迁移至室外图 Make3D对后面的网络层进行训练并更新参数,来 像深度估计网络中以完成室外图像的特征提取, 获取最终的图像深度的估计值。采用CRF参数 如图4所示。 优化的形式构建室外图像深度估计网络的损失函 室内图像深度估计数据集种类较多,且数据 数2训,能够在考虑预测深度值与实际深度值之间 量充足,因而提取到的图像特征较为丰富,可以 关系的基础上,利用输人图像邻域超像素块之间的 弥补由于室外图像数据集不足而导致特征提取不 相似性信息来对图像深度估计值进行平滑处理, 完备的缺陷。将室外图像提取特征作为其后网络 进而得到输入图像更加准确的像素点深度估计值。 室内图像深度估计网路 室外图像深度估计网络 深度估计部分 参数0小 标签数据 中 微调 卷积 卷积 卷积 卷积卷积 卷积卷积卷积卷积 卷积 卷积层7 全连接 层1 层2层3 层4层5 层1层2层3层4 层5 特征提取部分 图4基于迁移学习的深度估计网络结构 Fig.4 Network structure of depth estimation based on transfer learning 3实验研究 计网络进行测试。最后采用3种图像深度估计评 估标准对所提出的室外图像深度估计方法的性能 本部分进行了2组实验分别用来验证本文所 进行评估。 提出的室外单帧图像深度估计算法和移动机器人 本文采用的3种图像深度估计评估标准定义为 单帧图像坡度检测算法的有效性。 1)平均相对误差(mean relative error,MRE), 3.1基于迁移学习的室外单帧图像深度估计实验 主要反映估计值的可信程度,计算公式为 本实验的目的是为了验证所提出的室外图像 深度估计方法的有效性与优越性。采用室外图像 MRE 1-dol (3) 深度估计标准数据集Make3D对网络模型进行训 d 练与测试,并通过实际拍摄的室外图像对深度估 2)均方根误差(root-mean-square error,.RMSE)
开始引入超像素块的概念,所以可以认为前 5 层 卷积层所提取到的特征在源域与目标域中共用, 而网络后 2 个卷积层和 3 个全连接层主要是针对 目标任务进行精细计算。 conv1_1+Relu conv1_2+Relu pool 11 conv 1 卷积层 1 conv 2 卷积层 2 conv 3 卷积层 3 conv 4 卷积层 4 conv 5 卷积层 5 conv 6 卷积层 6 conv 7 卷积层 7 conv2_1+Relu conv2_2+Relu pool 12 conv6_1+Relu conv6_2+Relu conv7_1+Relu conv7_2+Relu conv3_1+Relu conv3_2+Relu conv3_3+Relu pool 13 conv4_1+Relu conv4_2+Relu conv4_3+Relu pool 14 conv5_1+Relu conv5_2+Relu conv5_3+Relu pool 15 sp-poolingg 超像素池化 损失项 图 3 室外图像深度估计特征提取部分网络结构 Fig. 3 Network structure of feature extraction for outdoor image depth estimation 本文将 DCNF-FCSP 室内图像深度估计网络 中前 5 层图像特征提取的网络参数迁移至室外图 像深度估计网络中以完成室外图像的特征提取, 如图 4 所示。 室内图像深度估计数据集种类较多,且数据 量充足,因而提取到的图像特征较为丰富,可以 弥补由于室外图像数据集不足而导致特征提取不 完备的缺陷。将室外图像提取特征作为其后网络 层的输入,结合室外图像深度估计标准数据集 Make 3D 对后面的网络层进行训练并更新参数,来 获取最终的图像深度的估计值。采用 CRF 参数 优化的形式构建室外图像深度估计网络的损失函 数 [12, 21] ,能够在考虑预测深度值与实际深度值之间 关系的基础上,利用输入图像邻域超像素块之间的 相似性信息来对图像深度估计值进行平滑处理, 进而得到输入图像更加准确的像素点深度估计值。 标签数据 微调 深度估计部分 室外图像深度估计网络 卷积 层 1 卷积 层 2 卷积 层 3 卷积 层 4 卷积 层 5 卷 积 层 6 卷积层 7 室内图像深度估计网络 卷积 层 1 卷积 层 2 卷积 层3 卷积 层 4 卷积 层 5 参数 迁移 全连接 特征提取部分 图 4 基于迁移学习的深度估计网络结构 Fig. 4 Network structure of depth estimation based on transfer learning 3 实验研究 本部分进行了 2 组实验分别用来验证本文所 提出的室外单帧图像深度估计算法和移动机器人 单帧图像坡度检测算法的有效性。 3.1 基于迁移学习的室外单帧图像深度估计实验 本实验的目的是为了验证所提出的室外图像 深度估计方法的有效性与优越性。采用室外图像 深度估计标准数据集 Make 3D 对网络模型进行训 练与测试,并通过实际拍摄的室外图像对深度估 计网络进行测试。最后采用 3 种图像深度估计评 估标准对所提出的室外图像深度估计方法的性能 进行评估。 本文采用的 3 种图像深度估计评估标准定义为 1) 平均相对误差(mean relative error, MRE), 主要反映估计值的可信程度,计算公式为 MRE = 1 N ∑N i=1 d gt p −dp d gt p (3) 2) 均方根误差(root-mean-square error, RMSE) 第 1 期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·85·
·86· 智能系统学报 第16卷 是一种定量的衡量方式,主要反映估计值与真实 图像),其中,400对图像对用于训练,134对图像 值之间的偏差,计算公式为 用于测试。每帧图像的深度值均由激光雷达进行 采集,相较于Kinect相机采集的深度信息,该测 RMSE (4) 距仪可以得到室外图像更加精确的深度信息,而 3)平均对数误差(Ig),主要是为了更便捷发 且测距范围更大,与普通的深度传感器相比还具 现数据之间的关系,所以对数据转换也是一种解 有分辨率高、抗干扰能力强等特点。由于Make 决方法,计算公式为 3D图像中深度层次区分不明显,所以采用颜色热 图表示其深度估计结果。本文从该数据集包含 lgd-lgd.l (5) 的134个测试样本图像中根据光照以及环境复杂 度的不同选取了10帧图像进行深度估计算法验 式中:N是输入图像的像素总数;d是像素点的 证,深度估计结果如图5所示。 真实深度;dp是像素点的预测深度。 由图5可以看出,本文所提出的室外图像深 实验1基于Make3D标准数据集的深度估计 度估计方法可以准确地估计出室外单帧图像的深 本实验采用htp:make3d.cs.cornell.edu/data.html 度值。为了进一步验证本文所提出方法的有效 网站上提供的Make3D标准数据集22I进行了室 性,结合图像深度估计性能评价标准对估计结果 外单帧图像深度估计实验。Make3D数据集是目 进行量化分析,并与FCRN(fully convolutional re- 前最主流的室外图像标准数据集,包含534对 sidual networks,.FCRN)I和DCNF-FCSPU深度估 RGB-D图像对(包括RGB图像和其对应的深度 计方法进行比较,结果如表1所示。 (a)RGB(b)标准的(c)FCRN(d)DCNF-FCSP(e)本文算法(①RGB(g)标准的(h)FCRN(①DCNF-FCSP()i本文算法 图像1 深度热图估计结果网估计结果☒ 估计结果图像2 深度热图估计结果网估计结果☒ 估计结果 图5Make3D数据集的深度估计结果(蓝色:近;红色:远) Fig.5 Results of depth estimation on Make 3D dataset(blue:close;red:far) 从表1可以看出本文所提出的基于迁移学习 差和均方根误差上均优于DCNF-FCSP深度估计 的室外单帧图像深度估计方法在3个性能评价指 方法,而且在平均相对误差这一评价指标上具有 标上均优于FCRN深度估计方法,在平均相对误 较为明显的优势
是一种定量的衡量方式,主要反映估计值与真实 值之间的偏差,计算公式为 RMSE = vt 1 N ∑N i=1 ( d gt p −dp )2 (4) 3) 平均对数误差 (lg),主要是为了更便捷发 现数据之间的关系,所以对数据转换也是一种解 决方法,计算公式为 lg = 1 N ∑N i=1 lgd gt p −lgdp (5) N d gt p dp 式中: 是输入图像的像素总数; 是像素点的 真实深度; 是像素点的预测深度。 实验 1 基于 Make 3D 标准数据集的深度估计 本实验采用 http://make3d.cs.cornell.edu/data.html 网站上提供的 Make 3D 标准数据集[22] 进行了室 外单帧图像深度估计实验。Make 3D 数据集是目 前最主流的室外图像标准数据集,包含 534 对 RGB-D 图像对 (包括 RGB 图像和其对应的深度 图像),其中,400 对图像对用于训练,134 对图像 用于测试。每帧图像的深度值均由激光雷达进行 采集,相较于 Kinect 相机采集的深度信息,该测 距仪可以得到室外图像更加精确的深度信息,而 且测距范围更大,与普通的深度传感器相比还具 有分辨率高、抗干扰能力强等特点。由于 Make 3D 图像中深度层次区分不明显,所以采用颜色热 图表示其深度估计结果。本文从该数据集包含 的 134 个测试样本图像中根据光照以及环境复杂 度的不同选取了 10 帧图像进行深度估计算法验 证,深度估计结果如图 5 所示。 由图 5 可以看出,本文所提出的室外图像深 度估计方法可以准确地估计出室外单帧图像的深 度值。为了进一步验证本文所提出方法的有效 性,结合图像深度估计性能评价标准对估计结果 进行量化分析,并与 FCRN(fully convolutional residual networks, FCRN)[19] 和 DCNF-FCSP[12] 深度估 计方法进行比较,结果如表 1 所示。 (a) RGB 图像 1 (b) 标准的 深度热图 (c) FCRN 估计结果[19] (d) DCNF-FCSP 估计结果[12] (e) 本文算法 估计结果 (f) RGB 图像 2 (g) 标准的 深度热图 (h) FCRN 估计结果[19] (i) DCNF-FCSP 估计结果[12] (j) 本文算法 估计结果 图 5 Make 3D 数据集的深度估计结果 (蓝色:近;红色:远) Fig. 5 Results of depth estimation on Make 3D dataset (blue: close; red: far) 从表 1 可以看出本文所提出的基于迁移学习 的室外单帧图像深度估计方法在 3 个性能评价指 标上均优于 FCRN 深度估计方法,在平均相对误 差和均方根误差上均优于 DCNF-FCSP 深度估计 方法,而且在平均相对误差这一评价指标上具有 较为明显的优势。 ·86· 智 能 系 统 学 报 第 16 卷
第1期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 87· 表1Make3D数据集深度估计结果对比 Table 1 Comparison of depth estimation results for Make 3D dataset FCRNI9 DCNF-FCSPI☒ 本文方法(迭代15000次) 场景 MRE lg RMSE MRE g RMSE MRE Ie RMSE (越小越好) 0.1024 0.0631 14.2517 0.1530 0.0734 7.3304 0.1532 0.0754 7.6390 2 0.5710 0.4357 28.8680 0.1449 0.0695 10.0483 0.1451 0.0716 10.3562 3 0.6145 0.4645 21.0095 0.1836 0.0769 7.9044 0.1684 0.0725 8.0804 4 0.6843 0.4123 37.3963 1.1952 0.3877 29.3387 1.1560 0.3845 29.6222 0.4973 0.3352 15.3152 0.3625 0.1465 12.3683 0.3562 0.1496 12.2847 0.5127 0.3897 26.0401 0.6315 0.2087 21.6887 0.6128 0.2101 21.1751 0.5259 0.3736 20.2887 0.5640 0.2790 21.0787 0.5559 0.2821 20.6893 0.7211 0.4315 23.5747 0.3659 0.2379 16.1994 0.3705 0.2445 16.3725 9 0.5435 0.3821 23.0167 0.6329 0.1674 9.2323 0.5901 0.1597 8.5783 10 0.6701 0.3653 23.7896 1.1973 0.2840 21.6687 1.1469 0.2818 21.2793 均值 0.5442 0.3653 23.3550 0.54310.1931 15.6858 0.5255 0.1932 15.6077 实验2实际拍摄的室外图像深度估计 机选取图像中一个矩形区域的4个顶点对图像深 本实验的目的是通过对实际拍摄的室外图像 度估计质量进行评估,深度估计结果如图6所 深度估计,来进一步验证所提方法在真实场景中 示。由图6可以看出,本文所提出的深度估计方 的有效性和优越性。实验中使用博世(BOSCH) 法对于实际拍摄的室外单帧图像在光照均匀且场 DEL40手持激光测距仪进行实际深度值测量,随 景简单的环境下可以实现较好的深度估计。 (a)实际拍 (b)FCRN阿(C)DCNF-FCSPI2I(d)本文深度 (e)实际拍 (⑨FCRN(g)DCNF-FCSPU2(h)本文深度 摄图像1 估计结果 摄图像2 估计结果 图6实际拍摄室外图像深度估计结果(蓝色:近;红色:远) Fig.6 The actual outdoor image depth estimation result(blue:close;red:far) 表2进一步给出了本文所提出的室外单帧图像 匀且场景简单的室外单帧图像能够进行准确的深 深度估计方法与主流的FCRN深度估计方法I町 度估计。通过3种方法在室外图像中任意选取的 DCNF-FCSP深度估计方法2I的量化估计结果, 矩形区域顶点的深度估计结果与真实距离的对比 其中深度的真实值由激光测距仪获得。由表2可 可以看出,本文所提出的深度估计方法对于实际 以看出,本文所提出的深度估计方法对于光照均 拍摄的室外单帧图像深度估计的精度更高
表 1 Make 3D 数据集深度估计结果对比 Table 1 Comparison of depth estimation results for Make 3D dataset 场景 FCRN[19] DCNF-FCSP[12] 本文方法(迭代1 5000次) MRE lg RMSE MRE lg RMSE MRE lg RMSE (越小越好) 1 0.102 4 0.0631 14.251 7 0.153 0 0.0734 7.330 4 0.153 2 0.0754 7.639 0 2 0.571 0 0.4357 28.868 0 0.144 9 0.0695 10.048 3 0.145 1 0.0716 10.3562 3 0.614 5 0.4645 21.009 5 0.183 6 0.0769 7.904 4 0.168 4 0.0725 8.0804 4 0.684 3 0.4123 37.396 3 1.195 2 0.3877 29.338 7 1.156 0 0.3845 29.6222 5 0.497 3 0.3352 15.315 2 0.362 5 0.1465 12.368 3 0.356 2 0.1496 12.2847 6 0.512 7 0.3897 26.040 1 0.631 5 0.2087 21.688 7 0.612 8 0.2101 21.1751 7 0.525 9 0.3736 20.288 7 0.564 0 0.2790 21.078 7 0.555 9 0.2821 20.6893 8 0.721 1 0.4315 23.574 7 0.365 9 0.2379 16.199 4 0.370 5 0.2445 16.3725 9 0.543 5 0.3821 23.016 7 0.632 9 0.1674 9.232 3 0.590 1 0.1597 8.5783 10 0.670 1 0.3653 23.789 6 1.197 3 0.2840 21.668 7 1.146 9 0.2818 21.2793 均值 0.544 2 0.3653 23.355 0 0.543 1 0.1931 15.685 8 0.525 5 0.1932 15.6077 实验 2 实际拍摄的室外图像深度估计 本实验的目的是通过对实际拍摄的室外图像 深度估计,来进一步验证所提方法在真实场景中 的有效性和优越性。实验中使用博世 (BOSCH) DEL40 手持激光测距仪进行实际深度值测量,随 机选取图像中一个矩形区域的 4 个顶点对图像深 度估计质量进行评估,深度估计结果如图 6 所 示。由图 6 可以看出,本文所提出的深度估计方 法对于实际拍摄的室外单帧图像在光照均匀且场 景简单的环境下可以实现较好的深度估计。 (a) 实际拍 摄图像 1 (b) FCRN[19] (c) DCNF-FCSP[12] (d) 本文深度 估计结果 (e) 实际拍 摄图像 2 (f) FCRN[19] (g) DCNF-FCSP[12] (h) 本文深度 估计结果 图 6 实际拍摄室外图像深度估计结果 (蓝色:近;红色:远) Fig. 6 The actual outdoor image depth estimation result (blue: close; red: far) 表 2 进一步给出了本文所提出的室外单帧图像 深度估计方法与主流的 FCRN 深度估计方法[19] 、 DCNF-FCSP 深度估计方法[12] 的量化估计结果, 其中深度的真实值由激光测距仪获得。由表 2 可 以看出,本文所提出的深度估计方法对于光照均 匀且场景简单的室外单帧图像能够进行准确的深 度估计。通过 3 种方法在室外图像中任意选取的 矩形区域顶点的深度估计结果与真实距离的对比 可以看出,本文所提出的深度估计方法对于实际 拍摄的室外单帧图像深度估计的精度更高。 第 1 期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·87·
·88 智能系统学报 第16卷 表2实际拍摄室外图像中所选矩形区域的深度估计结果比较 Table 2 Comparison of depth estimation results of selected regions in actual outdoor images 矩形1 (185,220) (185,286) (220,220) (220,286) 平均误差 真实值m 16.7 16.7 16.7 16.7 FCRN/m 13.2373 9.9595 14.0511 10.9642 4.6470 DCNF-FCSP/m2 16.8084 18.3771 19.4635 20.6221 2.1178 本文结果m 16.5392 18.0835 19.1507 20.2916 1.8967 矩形2 (279,241) (279,308) (304,241) (304,308) 平均误差 真实值/m 12.2 12.2 12.2 12.2 FCRN/m 16.6765 15.9572 13.9033 13.6180 2.8387 DCNF-FCSP/m2] 12.7644 12.4089 12.4916 12.1964 0.2671 本文结果/m 12.5389 12.1918 12.2688 11.9806 0.1588 矩形3 (310,250) (310,270) (330,250) (330,270) 平均误差 真实值m 7.5 7.5 7.5 7.5 FCRN/m 4.6831 4.1835 4.4692 4.0478 3.1541 DCNF-FCSP/m2 8.9247 8.9263 8.4528 8.5408 1.2111 本文结果/m 8.7965 8.7980 83372 8.4227 1.0886 矩形4 (236,212) (236,247) (266,212) (266,247 平均误羞 真实值/m 13.5 13.5 13.5 13.5 FCRN/m 22.1212 21.2585 19.5015 18.4432 6.8311 DCNF-FCSP/m2 13.6837 13.3962 13.9285 12.0558 0.5400 本文结果/m 13.4732 13.1908 13.7447 13.8707 0.2378 表3给出了在式(3)(5)所定义的3种深度估 斜坡在不同视角下的坡度检测实验,验证所提出 计性能评价标准下上述3种深度估计方法的性能 的改进的移动机器人单帧图像坡度检测算法的有 比较结果。从表3中的对比结果可以看出,与 效性和可行性。实验中的斜坡图像采集装置主要 FCRN和DCNF-FCSP方法相比,本文所提出的室 包括TurtleBot移动机器人和Kinect深度相机,如 外单帧图像深度估计方法性能更优。 图7所示,安装在移动机器人上的Kinect相机可 表3实际拍摄室外图像深度估计结果对比 以从不同的视角获取各种角度的斜坡图像。 Table 3 Comparison of depth estimation results of actual outdoor images. 算法 农 MSE RMSE (越小越好) FCRNI9T 0.3301 0.1624 2.3220 DCNF-FCSPI12] (a)视角1 b)视角2 0.0763 0.0357 0.6282 本文方法 图7斜坡图像采集装置 0.0622 0.0294 0.5514 Fig.7 Slope image acquisition device 综上所述,本文所提出的基于迁移学习的室 实验场地如图8(a)、(e)所示。对2个视野开 外单帧图像深度估计方法在实际拍摄的室外单帧 阔,便于观察且倾角不同的斜坡分别从5个不同 图像上也取得了较高的深度估计精度,是一种有 视角进行了坡度检测实验。分别采用绝对误差、 效的室外单帧图像深度估计方法。 相对误差和误差均值3个指标对所提出的移动 3.2移动机器人坡度检测实验 机器人单帧图像坡度检测算法估计出的斜坡角 本实验的目的是通过2组具有不同倾斜角的 度的精确度进行评估。室外不同视角下的斜坡
表 2 实际拍摄室外图像中所选矩形区域的深度估计结果比较 Table 2 Comparison of depth estimation results of selected regions in actual outdoor images 矩形1 (185, 220) (185, 286) (220, 220) (220, 286) 平均误差 真实值/m 16.7 16.7 16.7 16.7 — FCRN/m[19] 13.2373 9.9595 14.0511 10.964 2 4.6470 DCNF-FCSP/m[12] 16.8084 18.3771 19.4635 20.622 1 2.1178 本文结果/m 16.5392 18.0835 19.1507 20.291 6 1.8967 矩形2 (279, 241) (279, 308) (304, 241) (304, 308) 平均误差 真实值/m 12.2 12.2 12.2 12.2 — FCRN/m[19] 16.6765 15.9572 13.9033 13.618 0 2.8387 DCNF-FCSP/m[12] 12.7644 12.4089 12.4916 12.196 4 0.2671 本文结果/m 12.5389 12.1918 12.2688 11.980 6 0.1588 矩形3 (310, 250) (310, 270) (330, 250) (330, 270) 平均误差 真实值/m 7.5 7.5 7.5 7.5 — FCRN/m[19] 4.6831 4.1835 4.4692 4.047 8 3.1541 DCNF-FCSP/m[12] 8.9247 8.9263 8.4528 8.540 8 1.2111 本文结果/m 8.7965 8.7980 8.3372 8.422 7 1.0886 矩形4 (236, 212) (236, 247) (266, 212) (266, 247) 平均误差 真实值/m 13.5 13.5 13.5 13.5 — FCRN/m[19] 22.1212 21.2585 19.5015 18.443 2 6.8311 DCNF-FCSP/m[12] 13.6837 13.3962 13.9285 12.055 8 0.5400 本文结果/m 13.4732 13.1908 13.7447 13.870 7 0.2378 表 3 给出了在式 (3)~(5) 所定义的 3 种深度估 计性能评价标准下上述 3 种深度估计方法的性能 比较结果。从表 3 中的对比结果可以看出,与 FCRN 和 DCNF-FCSP 方法相比,本文所提出的室 外单帧图像深度估计方法性能更优。 表 3 实际拍摄室外图像深度估计结果对比 Table 3 Comparison of depth estimation results of actual outdoor images. 算法 MSE lg (越小越好) RMSE FCRN[19] 0.330 1 0.162 4 2.3220 DCNF-FCSP[12] 0.076 3 0.035 7 0.6282 本文方法 0.062 2 0.029 4 0.5514 综上所述,本文所提出的基于迁移学习的室 外单帧图像深度估计方法在实际拍摄的室外单帧 图像上也取得了较高的深度估计精度,是一种有 效的室外单帧图像深度估计方法。 3.2 移动机器人坡度检测实验 本实验的目的是通过 2 组具有不同倾斜角的 斜坡在不同视角下的坡度检测实验,验证所提出 的改进的移动机器人单帧图像坡度检测算法的有 效性和可行性。实验中的斜坡图像采集装置主要 包括 TurtleBot 移动机器人和 Kinect 深度相机,如 图 7 所示,安装在移动机器人上的 Kinect 相机可 以从不同的视角获取各种角度的斜坡图像。 (a) 视角 1 (b) 视角 2 图 7 斜坡图像采集装置 Fig. 7 Slope image acquisition device 实验场地如图 8(a)、(e) 所示。对 2 个视野开 阔,便于观察且倾角不同的斜坡分别从 5 个不同 视角进行了坡度检测实验。分别采用绝对误差、 相对误差和误差均值 3 个指标对所提出的移动 机器人单帧图像坡度检测算法估计出的斜坡角 度的精确度进行评估。室外不同视角下的斜坡 ·88· 智 能 系 统 学 报 第 16 卷
第1期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·89· 边缘提取和深度估计的实验结果分别如图8 移动机器人坡度检测中,对于不同倾角和不同视 (b)~(d)、()(h)所示,其量化估计结果如表4所 角下的斜坡均能得到更加准确的坡度检测结果, 示。由图8和表4结果所示,将本文所提出的基 大大提高了移动机器人在未知环境中感知坡度的 于迁移学习的室外单帧图像深度估计方法应用于 精确度。 (a)斜坡1 (b)边缘提 (C)DCNF-FCSPm2(d)本文深度 (e)斜坡1 (O边缘提(g)DCNF-FCSp四本文深度 RGB图像1 取结果 估计结果 RGB图像2 取结果 估计结果 图8室外斜坡边缘提取结果与深度估计结果蓝色:近;红色:远) Fig.8 Outdoor slope edge extraction results and depth estimation results(blue:close;red:far) 表4室外斜坡角度估计结果对比 Table 4 Comparison of outdoor slope angle estimation results 基于DCNF-FCSPl2 基于本文方法 场景 真实角度() 预测角度/() 绝对误差/() 相对误差% 预测角度/() 绝对误差() 相对误差% 10.5920 2.6695 20.13 10.9247 2.3368 17.62 2 18.1446 4.8831 36.82 15.2941 2.0326 15.33 3 13.2615 10.0462 3.2153 24.25 10.8929 2.3686 17.86 4 15.1603 1.8988 14.32 11.4789 1.7826 13.44 5 16.4518 3.1903 24.06 16.0326 2.7711 20.90 6 13.5225 3.6843 37.45 10.9825 1.1443 14.67 12.1817 2.3435 23.82 11.6227 1.7845 18.14 8 9.8382 12.2018 2.3636 24.02 11.8937 2.0555 20.89 9 12.3618 2.5236 25.65 11.8244 1.9862 20.19 10 12.8103 2.9721 30.21 11.9170 2.0788 21.12 误差均值 2.9744 26.07 2.0341 18.02 4结束语 像深度估计方法,通过将室内图像深度估计网络 参数迁移至室外图像深度估计网络中,对室外单 本文提出了一种基于迁移学习的室外单帧图 帧图像深度进行估计,解决了室外图像数据集有
边缘提取和深度估计的实验结果分别如 图 8 (b)~(d)、(f)~(h) 所示,其量化估计结果如表 4 所 示。由图 8 和表 4 结果所示,将本文所提出的基 于迁移学习的室外单帧图像深度估计方法应用于 移动机器人坡度检测中,对于不同倾角和不同视 角下的斜坡均能得到更加准确的坡度检测结果, 大大提高了移动机器人在未知环境中感知坡度的 精确度。 (a) 斜坡 1 RGB 图像 1 (b) 边缘提 取结果 (c) DCNF-FCSP[12] (d) 本文深度 估计结果 (e) 斜坡 1 RGB 图像 2 (f) 边缘提 取结果 (g) DCNF-FCSP[12] (h) 本文深度 估计结果 图 8 室外斜坡边缘提取结果与深度估计结果 (蓝色:近;红色:远) Fig. 8 Outdoor slope edge extraction results and depth estimation results (blue: close; red: far) 表 4 室外斜坡角度估计结果对比 Table 4 Comparison of outdoor slope angle estimation results 场景 真实角度/(°) 基于DCNF-FCSP[12] 基于本文方法 预测角度/(°) 绝对误差/(°) 相对误差/% 预测角度/(°) 绝对误差/(°) 相对误差/% 1 — 10.592 0 2.669 5 20.13 10.924 7 2.336 8 17.62 2 — 18.144 6 4.883 1 36.82 15.294 1 2.032 6 15.33 3 13.261 5 10.046 2 3.215 3 24.25 10.892 9 2.368 6 17.86 4 — 15.160 3 1.898 8 14.32 11.478 9 1.782 6 13.44 5 — 16.451 8 3.190 3 24.06 16.032 6 2.771 1 20.90 6 — 13.522 5 3.684 3 37.45 10.982 5 1.144 3 14.67 7 — 12.181 7 2.343 5 23.82 11.622 7 1.784 5 18.14 8 9.838 2 12.201 8 2.363 6 24.02 11.893 7 2.055 5 20.89 9 — 12.361 8 2.523 6 25.65 11.824 4 1.986 2 20.19 10 — 12.810 3 2.972 1 30.21 11.917 0 2.078 8 21.12 误差均值 — — 2.974 4 26.07 — 2.034 1 18.02 4 结束语 本文提出了一种基于迁移学习的室外单帧图 像深度估计方法,通过将室内图像深度估计网络 参数迁移至室外图像深度估计网络中,对室外单 帧图像深度进行估计,解决了室外图像数据集有 第 1 期 辛菁,等:基于迁移学习的移动机器人单帧图像坡度检测算法 ·89·
·90· 智能系统学报 第16卷 限的问题。实验结果表明,本文所提出的室外图 估计).华中科技大学学报(自然科学版),2020,48(5) 像深度估计方法在Make3D标准数据集和实际拍 7-12 摄的室外单帧图像上都取得了较高的深度估计精 WANG Quande,ZHANG Songtao.Monocular depth es- 度。在此基础上将其与基于视觉的移动机器人坡 timation with multi-scale feature fusion[J].Journal of 度检测相结合进一步提出了一种改进的移动机器 Huazhong University of Science and Technology (natural 人单帧图像坡度检测算法,实验结果表明移动机 science edition),2020,48(5):7-12. 器人坡度检测精度得到了显著提高,检测精度满 [8]毕天腾,刘越,翁冬冬,等.基于监督学习的单幅图像深 足移动机器人在未知环境中对坡度感知精度的要 度估计综述[).计算机辅助设计与图形学学报,2018, 求。在今后的工作中,我们将进一步将本文所提 30(8):1383-1393 出的单帧图像深度估计结果应用到图像语义分割 BI Tianteng,LIU Yue,WENG Dongdong,et al.Survey on 中以提高图像语义分割网络的性能,最终完成未 supervised learning based depth estimation from a single 知环境下的高精度3D语义地图构建。 image[J].Journal of computer-aided design and computer graphics,2018.30(8):1383-1393 [9]何磊,苏松志,李绍滋.单摄像头下基于样本学习的人体 参考文献: 深度估计U.智能系统学报,2014,9(2):161-167 [1]朱江,王耀南,余洪山,等.未知环境下移动机器人自主 HE Lei,SU Songzhi,LI Shaozi.Human depth estimation 感知斜坡地形方法[.仪器仪表学报,2010,31(8)月 on the basis of the sample learning method under a single 1916-1920 camera[J].CAAI transactions on intelligent systems,2014, ZHU Jiang,WANG Yaonan,YU Hongshan,et al.Mobile 9(2:161-167 robot autonomous perceiving slope terrain under unknown [10]孙蕴瀚,史金龙,孙正兴.利用自监督卷积网络估计单 environment[J].Chinese journal of scientific instrument, 图像深度信息[】.计算机辅助设计与图形学学报, 2010,31(8):1916-1920. 2020,32(4):643-651 [2]YU Jinxia,CAI Zixing,DUAN Zhuohua.Dead reckoning SUN Yunhan,SHI Jinlong,SUN Zhengxing.Estimating of mobile robot in complex terrain based on propriocept- depth from single image using unsupervised convolution- ive sensors[C]//Proceedings of 2008 International Confer- al network[J].Journal of computer-aided design and com- ence on Machine Learning and Cybernetics.Kunming, puter graphics,2020,32(4):643-651. China,2008:1930-1935 [11]EIGEN D,PUHRSCH C,FERGUS R.Depth map predic- [3]LI Zhibin,TSAGARAKIS N G,CALDWELL D G.Stabil- tion from a single image using a multi-scale deep net- izing humanoids on slopes using terrain inclination estima- work[Cl//Proceedings of the 27th International Confer- tion[C]//Proceedings of 2013 IEEE/RSJ International Con- ence on Neural Information Processing Systems. ference on Intelligent Robots and Systems.Tokyo,Japan, Montreal,Quebec,Canada,2014:2366-2374. 2013:4124-4129 [12]LIU Fayao,SHEN Chunhua,LIN Guosheng,et al.Learn- [4]LU Jixin,KOBAYASHI Y,EMARU T,et al.Indoor slope ing depth from single monocular images using deep con- and edge detection by using two-dimensional EKF-SLAM volutional neural fields[J].IEEE transactions on pattern with orthogonal assumption[J].International journal of ad- analysis and machine intelligence,2016,38(10): vanced robotic systems,2015,12(4):44. 2024-2039 [5]HARA S.SHIMIZU T.KONISHI M,et al.Autonomous [13]RANFTL R.LASINGER K,HAFNER D,et al.Towards mobile robot for outdoor slope using 2D LiDAR with uni- robust monocular depth estimation:mixing datasets for axial gimbal mechanism[J].Journal of robotics and zero-shot cross-dataset transfer[J.IEEE transactions on mechatronics,.2020,32(6):1173-1182. pattern analysis and machine intelligence,2020,42(8): [6]TAREEN S A K,KHAN H M.Novel slope detection and 1939-3539. calculation techniques for mobile robots[C]//Proceedings [14]HU Junjie,OZAY M,ZHANG Yan,et al.Revisiting of the 2nd IEEE International Conference on Robotics single image depth estimation:toward higher resolution and Artificial Intelligence.Rawalpindi,Pakistan,2016: maps with accurate object boundaries[J].arXiv:1803. 158-163. 0867,2018 [7]王泉德,张松涛.基于多尺度特征融合的单目图像深度 [15]KUZNIETSOV Y.STUCKLER J,LEIBE B.Semi-super
限的问题。实验结果表明,本文所提出的室外图 像深度估计方法在 Make 3D 标准数据集和实际拍 摄的室外单帧图像上都取得了较高的深度估计精 度。在此基础上将其与基于视觉的移动机器人坡 度检测相结合进一步提出了一种改进的移动机器 人单帧图像坡度检测算法,实验结果表明移动机 器人坡度检测精度得到了显著提高,检测精度满 足移动机器人在未知环境中对坡度感知精度的要 求。在今后的工作中,我们将进一步将本文所提 出的单帧图像深度估计结果应用到图像语义分割 中以提高图像语义分割网络的性能,最终完成未 知环境下的高精度 3D 语义地图构建。 参考文献: 朱江, 王耀南, 余洪山, 等. 未知环境下移动机器人自主 感知斜坡地形方法 [J]. 仪器仪表学报, 2010, 31(8): 1916–1920. ZHU Jiang, WANG Yaonan, YU Hongshan, et al. Mobile robot autonomous perceiving slope terrain under unknown environment[J]. Chinese journal of scientific instrument, 2010, 31(8): 1916–1920. [1] YU Jinxia, CAI Zixing, DUAN Zhuohua. Dead reckoning of mobile robot in complex terrain based on proprioceptive sensors[C]//Proceedings of 2008 International Conference on Machine Learning and Cybernetics. Kunming, China, 2008: 1930–1935. [2] LI Zhibin, TSAGARAKIS N G, CALDWELL D G. Stabilizing humanoids on slopes using terrain inclination estimation[C]//Proceedings of 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo, Japan, 2013: 4124–4129. [3] LU Jixin, KOBAYASHI Y, EMARU T, et al. Indoor slope and edge detection by using two-dimensional EKF-SLAM with orthogonal assumption[J]. International journal of advanced robotic systems, 2015, 12(4): 44. [4] HARA S, SHIMIZU T, KONISHI M, et al. Autonomous mobile robot for outdoor slope using 2D LiDAR with uniaxial gimbal mechanism[J]. Journal of robotics and mechatronics, 2020, 32(6): 1173–1182. [5] TAREEN S A K, KHAN H M. Novel slope detection and calculation techniques for mobile robots[C]//Proceedings of the 2nd IEEE International Conference on Robotics and Artificial Intelligence. Rawalpindi, Pakistan, 2016: 158–163. [6] [7] 王泉德, 张松涛. 基于多尺度特征融合的单目图像深度 估计 [J]. 华中科技大学学报(自然科学版), 2020, 48(5): 7–12. WANG Quande, ZHANG Songtao. Monocular depth estimation with multi-scale feature fusion[J]. Journal of Huazhong University of Science and Technology (natural science edition), 2020, 48(5): 7–12. 毕天腾, 刘越, 翁冬冬, 等. 基于监督学习的单幅图像深 度估计综述 [J]. 计算机辅助设计与图形学学报, 2018, 30(8): 1383–1393. BI Tianteng, LIU Yue, WENG Dongdong, et al. Survey on supervised learning based depth estimation from a single image[J]. Journal of computer-aided design and computer graphics, 2018, 30(8): 1383–1393. [8] 何磊, 苏松志, 李绍滋. 单摄像头下基于样本学习的人体 深度估计 [J]. 智能系统学报, 2014, 9(2): 161–167. HE Lei, SU Songzhi, LI Shaozi. Human depth estimation on the basis of the sample learning method under a single camera[J]. CAAI transactions on intelligent systems, 2014, 9(2): 161–167. [9] 孙蕴瀚, 史金龙, 孙正兴. 利用自监督卷积网络估计单 图像深度信息 [J]. 计算机辅助设计与图形学学报, 2020,32(4): 643–651. SUN Yunhan, SHI Jinlong, SUN Zhengxing. Estimating depth from single image using unsupervised convolutional network[J]. Journal of computer-aided design and computer graphics, 2020,32(4): 643–651. [10] EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 2366–2374. [11] LIU Fayao, SHEN Chunhua, LIN Guosheng, et al. Learning depth from single monocular images using deep convolutional neural fields[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(10): 2024–2039. [12] RANFTL R, LASINGER K, HAFNER D, et al. Towards robust monocular depth estimation: mixing datasets for zero-shot cross-dataset transfer[J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 42(8): 1939–3539. [13] HU Junjie, OZAY M, ZHANG Yan, et al. Revisiting single image depth estimation: toward higher resolution maps with accurate object boundaries[J]. arXiv: 1803. 0867, 2018. [14] [15] KUZNIETSOV Y, STÜCKLER J, LEIBE B. Semi-super- ·90· 智 能 系 统 学 报 第 16 卷