正在加载图片...
·82· 智能系统学报 第16卷 主感知未知环境地形的重要组成部分,其检测精 的研究内容。然而由于室外环境复杂多变,且 度影响移动机器人在爬坡时的行为策略和方向, 干扰因素较多,根据单帧图像推断室外环境信息 进而影响整个导航系统的性能。因此,坡度检测 一直是三维重建中的一个挑战性问题。 精度对移动机器人自主导航性能十分重要四。 目前市场上已存在多种用于获取室外场景深 惯性测量单元(inertial measurement units IMU, 度信息的传感器,如深度相机、激光雷达等。其 IMUs)、倾斜传感器、激光传感器、超声波传感器 中,激光雷达是无人驾驶领域最常用的距离测量 和视觉传感器是坡度检测系统常用的传感器。 传感器,具有高精度、便于携带且抗干扰等优点, 与MUs和倾斜传感器不同,激光传感器1、超 然而其结构复杂且成本较高,难以广泛应用于工 声波传感器和视觉传感器在检测坡度中不需要 业。传统的单帧图像深度估计方法通常依赖光学 移动机器人接触或攀爬斜坡,因而被更多地应用 几何成像原理等,其难点在于几何分析模型很难 在移动机器人坡度检测与环境地形感知中。近年 从单帧图像中获取足够用于推测场景三维信息的 来,随着计算机视觉技术,尤其是单帧图像深度 相关特征。 估计技术的快速发展,以及图像本身所包含的丰 随着深度学习在图像感知领域的快速发展, 富语义信息,使得视觉传感器在机器人环境智能 研究者们已经将多种深度学习模型成功应用到图 感知中得到了广泛的应用。基于此,本文提出了 像处理中,并根据图像特征信息来对图像的深度 一种基于迁移学习的移动机器人单帧图像坡度检 信息进行估计。本质上,基于深度学习的单图像 测算法,不需要移动机器人接触或攀爬斜坡,仅 深度估计方法的核心是构造并训练一个将二维 根据单帧斜坡RGB图像就能估计出深度信息进 RGB图像转换成深度图像的深度网络。常用 而检测出斜坡的角度,同时所提算法大大减少了 的深度学习模型是卷积神经网络(convolutional 单帧图像深度估计网络训练时对室外图像样本数 neural network,CNN),已提出一系列基于CNN的 量的要求,提高了网络的训练效率和估计精度, 单帧图像深度估计算法o19。Eigen等m提出一 显著提高了移动机器人在未知环境中估计斜坡角 种多尺度CNN来实现单帧图像深度估计,该方法 度的精确度,为移动机器人自主导航提供了更加 通过粗尺度(coarse)与精尺度(fine-scale)2个方面 可靠、准确的依据。 分别考虑图像的全局以及局部信息,相较于直接 应用CNN网络估计深度值的精确度有了较为明 单帧图像深度估计方法 显的提升,其不足之处是图像深度估计效率较 低。为此,Liu等)提出深度卷积神经场一全 图像的深度估计是指对构成二维图像的每个 连接超像素池化网络(deep convolutional neural 像素点对应的深度值进行估计,其中深度值指的 field-fully connected superpixel pooling network, 是相机所拍摄图像中每个像素点所对应的真实场 DCNF-FCSP)模型,将卷积神经网络与条件随机 景中3D物体到相机光心所在平面的垂直距离。 场(conditional random fields,CRF)结合在一起对 准确有效的深度信息能提升图像分类、目标识 单帧图像深度估计网络进行优化,将图像像素点 别、语义分割等诸多计算机视觉任务的结果。 的深度估计转换为像素块的深度估计,在不影响 随着近年来3D技术的广泛应用和现有普通3D 深度估计精度的前提下提高了估计速度。单帧图 传感器精度受限的影响,从2D图像深度估计信 像深度估计的性能依赖于大量和多样性的图像训 息来获取环境的3D结构成为计算机视觉研究领 练数据集。然而,由于室外图像深度估计缺乏 域的热点问题。对于单帧图像,由于难以获取目 足够的室外图像数据集作为支撑,深度估计结果 标场景的视差信息,只能通过图像的自身特征及 较为不理想。随后,研究者从不角度提出了进 先验知识来完成深度估计,因而具有较大的挑战 步提高估计精度的方法,如采用多个深度网络4刀 性。目前大多数关于图像深度估计的研究都基于 Hu等!采用图像深度估计基础网络得到单帧图 多帧图像进行,典型的方法是采用立体视觉技 像粗略的深度估计结果,再通过精细网络对深度 术。整个过程类似于人眼的双目视觉成像机理, 估计结果进行优化,并在损失函数中加入对象边 这种技术相对比较成熟,但该类方法获取环境信 缘的深度梯度来优化对象边界的深度估计结果, 息成本较高⑧,还需要图像中具有较明显的辅助 提高了估计精度,但该方法的图像深度估计效率 信息,且重建结果易受到物体遮挡和对应关系匹 比较低,不能满足环境三维重建对实时性的要 配误差的影响。因此,使用简洁的单帧图像深度 求。Kuznietsov等1采用半监督学习方式对图像 估计获取环境信息成为三维重建研究中一项重要 特征进行学习,以减少训练深度卷积神经网络所主感知未知环境地形的重要组成部分,其检测精 度影响移动机器人在爬坡时的行为策略和方向, 进而影响整个导航系统的性能。因此,坡度检测 精度对移动机器人自主导航性能十分重要[1]。 惯性测量单元 (inertial measurement units IMU, IMUs )、倾斜传感器、激光传感器、超声波传感器 和视觉传感器是坡度检测系统常用的传感器。 与 IMUs 和倾斜传感器不同[2-3] ,激光传感器[4-5] 、超 声波传感器[6] 和视觉传感器在检测坡度中不需要 移动机器人接触或攀爬斜坡,因而被更多地应用 在移动机器人坡度检测与环境地形感知中。近年 来,随着计算机视觉技术,尤其是单帧图像深度 估计技术的快速发展,以及图像本身所包含的丰 富语义信息,使得视觉传感器在机器人环境智能 感知中得到了广泛的应用。基于此,本文提出了 一种基于迁移学习的移动机器人单帧图像坡度检 测算法,不需要移动机器人接触或攀爬斜坡,仅 根据单帧斜坡 RGB 图像就能估计出深度信息进 而检测出斜坡的角度,同时所提算法大大减少了 单帧图像深度估计网络训练时对室外图像样本数 量的要求,提高了网络的训练效率和估计精度, 显著提高了移动机器人在未知环境中估计斜坡角 度的精确度,为移动机器人自主导航提供了更加 可靠、准确的依据。 1 单帧图像深度估计方法 图像的深度估计是指对构成二维图像的每个 像素点对应的深度值进行估计,其中深度值指的 是相机所拍摄图像中每个像素点所对应的真实场 景中 3D 物体到相机光心所在平面的垂直距离。 准确有效的深度信息能提升图像分类、目标识 别、语义分割等诸多计算机视觉任务的结果[7]。 随着近年来 3D 技术的广泛应用和现有普通 3D 传感器精度受限的影响,从 2D 图像深度估计信 息来获取环境的 3D 结构成为计算机视觉研究领 域的热点问题。对于单帧图像,由于难以获取目 标场景的视差信息,只能通过图像的自身特征及 先验知识来完成深度估计,因而具有较大的挑战 性。目前大多数关于图像深度估计的研究都基于 多帧图像进行,典型的方法是采用立体视觉技 术。整个过程类似于人眼的双目视觉成像机理, 这种技术相对比较成熟,但该类方法获取环境信 息成本较高[8] ,还需要图像中具有较明显的辅助 信息,且重建结果易受到物体遮挡和对应关系匹 配误差的影响。因此,使用简洁的单帧图像深度 估计获取环境信息成为三维重建研究中一项重要 的研究内容[9]。然而由于室外环境复杂多变,且 干扰因素较多,根据单帧图像推断室外环境信息 一直是三维重建中的一个挑战性问题。 目前市场上已存在多种用于获取室外场景深 度信息的传感器,如深度相机、激光雷达等。其 中,激光雷达是无人驾驶领域最常用的距离测量 传感器,具有高精度、便于携带且抗干扰等优点, 然而其结构复杂且成本较高,难以广泛应用于工 业。传统的单帧图像深度估计方法通常依赖光学 几何成像原理等,其难点在于几何分析模型很难 从单帧图像中获取足够用于推测场景三维信息的 相关特征。 随着深度学习在图像感知领域的快速发展, 研究者们已经将多种深度学习模型成功应用到图 像处理中,并根据图像特征信息来对图像的深度 信息进行估计。本质上, 基于深度学习的单图像 深度估计方法的核心是构造并训练一个将二维 RGB 图像转换成深度图像的深度网络[10]。常用 的深度学习模型是卷积神经网络 (convolutional neural network, CNN),已提出一系列基于 CNN 的 单帧图像深度估计算法[10-19]。Eigen 等 [11] 提出一 种多尺度 CNN 来实现单帧图像深度估计,该方法 通过粗尺度 (coarse) 与精尺度 (fine-scale) 2 个方面 分别考虑图像的全局以及局部信息,相较于直接 应用 CNN 网络估计深度值的精确度有了较为明 显的提升,其不足之处是图像深度估计效率较 低。为此,Liu 等 [12] 提出深度卷积神经场−全 连接超像素池化网络 (deep convolutional neural field-fully connected superpixel pooling network, DCNF-FCSP) 模型,将卷积神经网络与条件随机 场 (conditional random fields, CRF) 结合在一起对 单帧图像深度估计网络进行优化,将图像像素点 的深度估计转换为像素块的深度估计,在不影响 深度估计精度的前提下提高了估计速度。单帧图 像深度估计的性能依赖于大量和多样性的图像训 练数据集[13]。然而,由于室外图像深度估计缺乏 足够的室外图像数据集作为支撑,深度估计结果 较为不理想。随后,研究者从不角度提出了进一 步提高估计精度的方法,如采用多个深度网络[14-17] , Hu 等 [14] 采用图像深度估计基础网络得到单帧图 像粗略的深度估计结果,再通过精细网络对深度 估计结果进行优化,并在损失函数中加入对象边 缘的深度梯度来优化对象边界的深度估计结果, 提高了估计精度,但该方法的图像深度估计效率 比较低,不能满足环境三维重建对实时性的要 求。Kuznietsov 等 [15] 采用半监督学习方式对图像 特征进行学习,以减少训练深度卷积神经网络所 ·82· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有