正在加载图片...
·836· 智能系统学报 第15卷 路径规划与执行、环境变化的适应性。 传统的导航方法基于全局定位与地图构建 记忆 记忆 记忆 (simultaneous localization and mapping,SLAM), SLAM由于定位飘移、传感器噪音、环境改变以 下文 上下文 下文 及有限的计算规划能力使得该方法很难推广到实 CN N 际应用四。近年来,由于神经网络的强大的表征 能力,尤其是强化学习与深度神经网络的结合使 得深度强化学习(deep reinforcement learning, MON RMON FRMQN DRL)广泛应用到机器人导航领域[21。然而 图1 MemNN-+DRL结构 DRL基于当前感知做出决策,很难具有泛化性和 Fig.1 MemNN+DRL structure 推理能力,并且很难应用于部分观测环境中。递 MemNN+DRL结构采用一个递归控制器 归神经网络(recurrent neural network,RNN)和长短 DRL与外部记忆MemNN进行交互,基于时间上 时记忆神经网络(long short--term memory,.LSTM) 下文实现寻址机制,有效处理了部分观测、长时 与DRL相结合在机器人导航领域虽然取得了一 依赖导航策略以及相似地图的知识迁移问题。 定进展,然而隐藏节点和权重所能记住的数据 MemNN+DRL的导航工作机理如下:将机器人最 十分有限,且只能记住一些有一定内在规律和特 近遇到的M步观察经过编码写入到MemNN中, 征的信息,对于长程记忆则显得无能为力。 相当于M步的情节记忆,采用强化学习算法端对 为了解决神经网络长程记忆的问题,近3年 端训练参数,最终获得导航能力。读写机制如图2 涌现出了各种的记忆神经网络(memory neural net-. 所示。 works,MNN)模型,MNN采用外部记忆矩阵实 p. D 现,将记忆与计算分离开来,采用可微的读写机 Soft max 制访问外部记忆网络,整个系统可微,允许端对 端的训练。MNN与DRL结合非常适合解决时间 序列决策问题,将其用于导航领域是非常有前景 (a写人 (b)读取 的新兴研究领域8。 图2 MemNN读写机制 Fig.2 Read and write mechanism of MemNN 1MNN结合导航任务的工作机理 具体模块功能如下。 近年来将MNN用于导航领域主要有3种神 1)编码模块 经网络模型:MemNN(memory networks)、DNC(dif- 将原始的图像信息提取出高层特征信息。将 ferentiable neural computer)DND(differentiable 一个c通道的h×w维的图像X,编码成一个e维 neural dictionary),下面分别介绍将其用于导航领 特征向量e 域的工作机理。 e=(X) (1) 1.1 MemNN在导航中的应用 2)写记忆操作 Sukhbaatar等io首先提出MemNN,这是一种 将最近M步的观察实现矩阵转换,以键记忆 模块和值记忆模块形式分别存储到记忆中,如式 无写操作的记忆结构,记忆存储是固定的。网络 (2)、(3): 学到的内容是如何从固定记忆池中去访问和读取 Mey =WheyE (2) 信息,而不是如何去改写内容。该模型被广泛用 M =WaE (3) 于情感分析山、对话训练等领域。Oh等1首 式中:矩阵M和M分别代表了键记忆模块和 次将MemNN与DRL相结合并在三维Mine- 值记忆模块;Wg和W是相应的线性转移矩阵; craft环境中实现导航任务。相继提出了:记忆 E,是最近M次观察的特征向量序列。 Q网络(memory Q-network,MQN)、循环记忆Q网 3)读记忆操作 络(recurrent memory Q-network,RMQN)以及反馈 机器人导航过程中,根据最近几步的观测值 循环记忆Q网络(feedback recurrent memory Q-net- 计算上下文向量h,然后通过计算上下文向量 work,FRMQN),如图1所示。 ,和键记忆模块My之间的内积,再归一化后得路径规划与执行、环境变化的适应性。 传统的导航方法基于全局定位与地图构建 (simultaneous localization and mapping,SLAM), SLAM 由于定位飘移、传感器噪音、环境改变以 及有限的计算规划能力使得该方法很难推广到实 际应用[1]。近年来,由于神经网络的强大的表征 能力,尤其是强化学习与深度神经网络的结合使 得深度强化学习 (deep reinforcement learning, DRL) 广泛应用到机器人导航领域[ 2 - 5 ]。然而 DRL 基于当前感知做出决策,很难具有泛化性和 推理能力,并且很难应用于部分观测环境中。递 归神经网络 (recurrent neural network,RNN) 和长短 时记忆神经网络 (long short-term memory, LSTM) 与 DRL 相结合在机器人导航领域虽然取得了一 定进展[6-7] ,然而隐藏节点和权重所能记住的数据 十分有限,且只能记住一些有一定内在规律和特 征的信息,对于长程记忆则显得无能为力。 为了解决神经网络长程记忆的问题,近 3 年 涌现出了各种的记忆神经网络 (memory neural net￾works,MNN) 模型,MNN 采用外部记忆矩阵实 现,将记忆与计算分离开来,采用可微的读写机 制访问外部记忆网络,整个系统可微,允许端对 端的训练。MNN 与 DRL 结合非常适合解决时间 序列决策问题,将其用于导航领域是非常有前景 的新兴研究领域[8-9]。 1 MNN 结合导航任务的工作机理 近年来将 MNN 用于导航领域主要有 3 种神 经网络模型:MemNN(memory networks)、DNC(dif￾ferentiable neural computer) 以及 DND(differentiable neural dictionary),下面分别介绍将其用于导航领 域的工作机理。 1.1 MemNN 在导航中的应用 Sukhbaatar 等 [10] 首先提出 MemNN,这是一种 无写操作的记忆结构,记忆存储是固定的。网络 学到的内容是如何从固定记忆池中去访问和读取 信息,而不是如何去改写内容。该模型被广泛用 于情感分析[11] 、对话训练[12] 等领域。Oh 等 [13] 首 次将 MemNN 与 DRL 相结合并在三维 Mine￾craft 环境中实现导航任务。相继提出了:记忆 Q 网络 (memory Q-network,MQN)、循环记忆 Q 网 络 (recurrent memory Q-network,RMQN) 以及反馈 循环记忆 Q 网络 (feedback recurrent memory Q-net￾work,FRMQN),如图 1 所示。 Q CNN MQN xt 记忆 上下文 Q CNN RMQN xt 记忆 上下文 Q CNN FRMQN xt 记忆 上下文 图 1 MemNN+DRL 结构 Fig. 1 MemNN+DRL structure MemNN+DRL 结构采用一个递归控制器 DRL 与外部记忆 MemNN 进行交互,基于时间上 下文实现寻址机制,有效处理了部分观测、长时 依赖导航策略以及相似地图的知识迁移问题。 MemNN+DRL 的导航工作机理如下:将机器人最 近遇到的 M 步观察经过编码写入到 MemNN 中, 相当于 M 步的情节记忆,采用强化学习算法端对 端训练参数,最终获得导航能力。读写机制如图 2 所示。 Wkey Wval M blocks Soft max φ Xt ht pt ot Wval t Mval t Mkey t Wkey t (a) 写入 (b) 读取 图 2 MemNN 读写机制 Fig. 2 Read and write mechanism of MemNN 具体模块功能如下。 1) 编码模块 将原始的图像信息提取出高层特征信息。将 一个 c 通道的 h×w 维的图像 Xt 编码成一个 e 维 特征向量 et: et = φ enc (Xt) (1) 2) 写记忆操作 将最近 M 步的观察实现矩阵转换,以键记忆 模块和值记忆模块形式分别存储到记忆中,如式 (2)、(3): M key t = WkeyEt (2) Mval t = WvalEt (3) M key t Mval t Wkey Wval 式中:矩阵 和 分别代表了键记忆模块和 值记忆模块; 和 是相应的线性转移矩阵; Et 是最近 M 次观察的特征向量序列。 3) 读记忆操作 M key t 机器人导航过程中,根据最近几步的观测值 计算上下文向量 ht,然后通过计算上下文向量 ht 和键记忆模块 之间的内积,再归一化后得 ·836· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有