第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.202002020 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20200413.1849.002.html 记忆神经网络在机器人导航领域的应用与研究进展 王作为2,徐征,张汝波,洪才森',王殊 (1.天津工业大学计算机科学与技术学院,天津300387,2.天津工业大学机械工程学院博士后工作站,天津 300387,3.天津动核芯科技有限公司,天津300350,4.天津职业技术师范大学汽车与交通学院,天津300222,5.大 连民族大学机电工程学院,辽宁大连116600) 摘要:记忆神经网络非常适合解决时间序列决策问题.将其用于机器人导航领域是非常有前景的新兴研究领 域。本文主要讨论记忆神经网络在机器人导航领域的研究进展。给出几种基本记忆神经网络结合导航任务的 工作机理,总结了不同模型的优缺点;对记忆神经网络在导航领域的研究进展进行简要综述:进一步介绍导航 验证环境的发展:最后梳理了记忆神经网络在导航问题所面临的复杂性挑战,并预测了记忆神经网络在导航领 域未来的发展方向。 关键词:记忆神经网络:机器人导航:深度强化学习:可微神经计算机:可微神经字典:深度学习:强化学习:记 忆网络 中图分类号:TP183 文献标志码:A文章编号:1673-4785(2020)05-0835-12 中文引用格式:王作为,徐征,张汝波,等.记忆神经网络在机器人导航领域的应用与研究进展J几.智能系统学报,2020, 15(5):835-846. 英文引用格式:VANG Zuowei,,XU Zheng,ZHANG Rubo,.etal.Research progress and application of memory neural network in robot navigation[Jl.CAAI transactions on intelligent systems,2020,15(5):835-846. Research progress and application of memory neural network in robot navigation WANG Zuowei,XU Zheng,ZHANG Rubo,HONG Caisen',WANG Shu' (1.School of Computer Science and Technology,Tianjin Polytechnic University,Tianjin 300387,China;2.College of Mechanical Engineering Post-doctoral Research Station,Tianjin Polytechnic University,Tianjin 300387,China;3.DongHexin Technology Co., Ltd.,Tianjin 300350,China;4.College of Automobile and Transportation,Tianjin University of Technology and Education,Tianjin 300222,China:5.College of Mechanical and Electrical Engineering,Dalian Minzu University,Dalian 116600,China) Abstract:Memory networks are a relatively new class of models designed to alleviate the problem of learning long-term dependencies in sequential data,by providing an explicit memory representation for each token in the sequence,and they can be used for learning navigation policies in an unstructured terrain,which is a complex task.Memory neural net- works are highly suitable for solving time series decision-making problems,and their application in robot navigation is a very promising and emerging research field.The research progress of memory neural networks in the field of robot nav- igation is primarily discussed in this paper.First,the working mechanism of several basic memory neural networks used for robot navigationis introduced,and the advantages and disadvantages of different models are summarized.Then,the research progress of memory neural network in navigation field is briefly reviewed,and the development of navigation verification environment is discussed.Finally,the complex challenges faced by memory neural networks in navigation are summarized,and the future development of memory neural networks in navigation field is predicted. Keywords:memory neural network;robot navigation:deep reinforcement learning:differentiable neural computer;dif- ferentiable neural dictionary;deep learning;reinforcement learning;memory networks 收稿日期:2020-02-27.网络出版日期:2020-04-14. 自主机器人导航所在环境一般是未知的、动 基金项目:国家自然科学基金面上项目(61972456):天津市教 委科研计划项目(2019KJ018);天津工业大学学位与 态的、部分可观测的。自主机器人导航需要具备 研究生教育改革项目(Y20180104). 通信作者:王作为.E-mail:wangzuowei@126.com 以下能力:探索未知环境、构建地图、目标导航的
DOI: 10.11992/tis.202002020 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20200413.1849.002.html 记忆神经网络在机器人导航领域的应用与研究进展 王作为1,2,徐征3,4,张汝波5 ,洪才森1 ,王殊1 (1. 天津工业大学 计算机科学与技术学院,天津 300387; 2. 天津工业大学 机械工程学院博士后工作站,天津 300387; 3. 天津动核芯科技有限公司,天津 300350; 4. 天津职业技术师范大学 汽车与交通学院,天津 300222; 5. 大 连民族大学 机电工程学院,辽宁 大连 116600) 摘 要:记忆神经网络非常适合解决时间序列决策问题,将其用于机器人导航领域是非常有前景的新兴研究领 域。本文主要讨论记忆神经网络在机器人导航领域的研究进展。给出几种基本记忆神经网络结合导航任务的 工作机理,总结了不同模型的优缺点;对记忆神经网络在导航领域的研究进展进行简要综述;进一步介绍导航 验证环境的发展;最后梳理了记忆神经网络在导航问题所面临的复杂性挑战,并预测了记忆神经网络在导航领 域未来的发展方向。 关键词:记忆神经网络;机器人导航;深度强化学习;可微神经计算机;可微神经字典;深度学习;强化学习;记 忆网络 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2020)05−0835−12 中文引用格式:王作为, 徐征, 张汝波, 等. 记忆神经网络在机器人导航领域的应用与研究进展 [J]. 智能系统学报, 2020, 15(5): 835–846. 英文引用格式:WANG Zuowei, XU Zheng, ZHANG Rubo, et al. Research progress and application of memory neural network in robot navigation[J]. CAAI transactions on intelligent systems, 2020, 15(5): 835–846. Research progress and application of memory neural network in robot navigation WANG Zuowei1,2 ,XU Zheng3,4 ,ZHANG Rubo5 ,HONG Caisen1 ,WANG Shu1 (1. School of Computer Science and Technology, Tianjin Polytechnic University, Tianjin 300387, China; 2. College of Mechanical Engineering Post-doctoral Research Station, Tianjin Polytechnic University, Tianjin 300387, China; 3. DongHexin Technology Co., Ltd., Tianjin 300350, China; 4. College of Automobile and Transportation, Tianjin University of Technology and Education, Tianjin 300222, China; 5. College of Mechanical and Electrical Engineering, Dalian Minzu University, Dalian 116600, China) Abstract: Memory networks are a relatively new class of models designed to alleviate the problem of learning long-term dependencies in sequential data, by providing an explicit memory representation for each token in the sequence, and they can be used for learning navigation policies in an unstructured terrain, which is a complex task. Memory neural networks are highly suitable for solving time series decision-making problems, and their application in robot navigation is a very promising and emerging research field. The research progress of memory neural networks in the field of robot navigation is primarily discussed in this paper. First, the working mechanism of several basic memory neural networks used for robot navigationis introduced, and the advantages and disadvantages of different models are summarized. Then, the research progress of memory neural network in navigation field is briefly reviewed, and the development of navigation verification environment is discussed. Finally, the complex challenges faced by memory neural networks in navigation are summarized, and the future development of memory neural networks in navigation field is predicted. Keywords: memory neural network; robot navigation; deep reinforcement learning; differentiable neural computer; differentiable neural dictionary; deep learning; reinforcement learning; memory networks 自主机器人导航所在环境一般是未知的、动 态的、部分可观测的。自主机器人导航需要具备 以下能力:探索未知环境、构建地图、目标导航的 收稿日期:2020−02−27. 网络出版日期:2020−04−14. 基金项目:国家自然科学基金面上项目 (61972456);天津市教 委科研计划项目(2019KJ018);天津工业大学学位与 研究生教育改革项目(Y20180104). 通信作者:王作为. E-mail:wangzuowei@126.com. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
·836· 智能系统学报 第15卷 路径规划与执行、环境变化的适应性。 传统的导航方法基于全局定位与地图构建 记忆 记忆 记忆 (simultaneous localization and mapping,SLAM), SLAM由于定位飘移、传感器噪音、环境改变以 下文 上下文 下文 及有限的计算规划能力使得该方法很难推广到实 CN N 际应用四。近年来,由于神经网络的强大的表征 能力,尤其是强化学习与深度神经网络的结合使 得深度强化学习(deep reinforcement learning, MON RMON FRMQN DRL)广泛应用到机器人导航领域[21。然而 图1 MemNN-+DRL结构 DRL基于当前感知做出决策,很难具有泛化性和 Fig.1 MemNN+DRL structure 推理能力,并且很难应用于部分观测环境中。递 MemNN+DRL结构采用一个递归控制器 归神经网络(recurrent neural network,RNN)和长短 DRL与外部记忆MemNN进行交互,基于时间上 时记忆神经网络(long short--term memory,.LSTM) 下文实现寻址机制,有效处理了部分观测、长时 与DRL相结合在机器人导航领域虽然取得了一 依赖导航策略以及相似地图的知识迁移问题。 定进展,然而隐藏节点和权重所能记住的数据 MemNN+DRL的导航工作机理如下:将机器人最 十分有限,且只能记住一些有一定内在规律和特 近遇到的M步观察经过编码写入到MemNN中, 征的信息,对于长程记忆则显得无能为力。 相当于M步的情节记忆,采用强化学习算法端对 为了解决神经网络长程记忆的问题,近3年 端训练参数,最终获得导航能力。读写机制如图2 涌现出了各种的记忆神经网络(memory neural net-. 所示。 works,MNN)模型,MNN采用外部记忆矩阵实 p. D 现,将记忆与计算分离开来,采用可微的读写机 Soft max 制访问外部记忆网络,整个系统可微,允许端对 端的训练。MNN与DRL结合非常适合解决时间 序列决策问题,将其用于导航领域是非常有前景 (a写人 (b)读取 的新兴研究领域8。 图2 MemNN读写机制 Fig.2 Read and write mechanism of MemNN 1MNN结合导航任务的工作机理 具体模块功能如下。 近年来将MNN用于导航领域主要有3种神 1)编码模块 经网络模型:MemNN(memory networks)、DNC(dif- 将原始的图像信息提取出高层特征信息。将 ferentiable neural computer)DND(differentiable 一个c通道的h×w维的图像X,编码成一个e维 neural dictionary),下面分别介绍将其用于导航领 特征向量e 域的工作机理。 e=(X) (1) 1.1 MemNN在导航中的应用 2)写记忆操作 Sukhbaatar等io首先提出MemNN,这是一种 将最近M步的观察实现矩阵转换,以键记忆 模块和值记忆模块形式分别存储到记忆中,如式 无写操作的记忆结构,记忆存储是固定的。网络 (2)、(3): 学到的内容是如何从固定记忆池中去访问和读取 Mey =WheyE (2) 信息,而不是如何去改写内容。该模型被广泛用 M =WaE (3) 于情感分析山、对话训练等领域。Oh等1首 式中:矩阵M和M分别代表了键记忆模块和 次将MemNN与DRL相结合并在三维Mine- 值记忆模块;Wg和W是相应的线性转移矩阵; craft环境中实现导航任务。相继提出了:记忆 E,是最近M次观察的特征向量序列。 Q网络(memory Q-network,MQN)、循环记忆Q网 3)读记忆操作 络(recurrent memory Q-network,RMQN)以及反馈 机器人导航过程中,根据最近几步的观测值 循环记忆Q网络(feedback recurrent memory Q-net- 计算上下文向量h,然后通过计算上下文向量 work,FRMQN),如图1所示。 ,和键记忆模块My之间的内积,再归一化后得
路径规划与执行、环境变化的适应性。 传统的导航方法基于全局定位与地图构建 (simultaneous localization and mapping,SLAM), SLAM 由于定位飘移、传感器噪音、环境改变以 及有限的计算规划能力使得该方法很难推广到实 际应用[1]。近年来,由于神经网络的强大的表征 能力,尤其是强化学习与深度神经网络的结合使 得深度强化学习 (deep reinforcement learning, DRL) 广泛应用到机器人导航领域[ 2 - 5 ]。然而 DRL 基于当前感知做出决策,很难具有泛化性和 推理能力,并且很难应用于部分观测环境中。递 归神经网络 (recurrent neural network,RNN) 和长短 时记忆神经网络 (long short-term memory, LSTM) 与 DRL 相结合在机器人导航领域虽然取得了一 定进展[6-7] ,然而隐藏节点和权重所能记住的数据 十分有限,且只能记住一些有一定内在规律和特 征的信息,对于长程记忆则显得无能为力。 为了解决神经网络长程记忆的问题,近 3 年 涌现出了各种的记忆神经网络 (memory neural networks,MNN) 模型,MNN 采用外部记忆矩阵实 现,将记忆与计算分离开来,采用可微的读写机 制访问外部记忆网络,整个系统可微,允许端对 端的训练。MNN 与 DRL 结合非常适合解决时间 序列决策问题,将其用于导航领域是非常有前景 的新兴研究领域[8-9]。 1 MNN 结合导航任务的工作机理 近年来将 MNN 用于导航领域主要有 3 种神 经网络模型:MemNN(memory networks)、DNC(differentiable neural computer) 以及 DND(differentiable neural dictionary),下面分别介绍将其用于导航领 域的工作机理。 1.1 MemNN 在导航中的应用 Sukhbaatar 等 [10] 首先提出 MemNN,这是一种 无写操作的记忆结构,记忆存储是固定的。网络 学到的内容是如何从固定记忆池中去访问和读取 信息,而不是如何去改写内容。该模型被广泛用 于情感分析[11] 、对话训练[12] 等领域。Oh 等 [13] 首 次将 MemNN 与 DRL 相结合并在三维 Minecraft 环境中实现导航任务。相继提出了:记忆 Q 网络 (memory Q-network,MQN)、循环记忆 Q 网 络 (recurrent memory Q-network,RMQN) 以及反馈 循环记忆 Q 网络 (feedback recurrent memory Q-network,FRMQN),如图 1 所示。 Q CNN MQN xt 记忆 上下文 Q CNN RMQN xt 记忆 上下文 Q CNN FRMQN xt 记忆 上下文 图 1 MemNN+DRL 结构 Fig. 1 MemNN+DRL structure MemNN+DRL 结构采用一个递归控制器 DRL 与外部记忆 MemNN 进行交互,基于时间上 下文实现寻址机制,有效处理了部分观测、长时 依赖导航策略以及相似地图的知识迁移问题。 MemNN+DRL 的导航工作机理如下:将机器人最 近遇到的 M 步观察经过编码写入到 MemNN 中, 相当于 M 步的情节记忆,采用强化学习算法端对 端训练参数,最终获得导航能力。读写机制如图 2 所示。 Wkey Wval M blocks Soft max φ Xt ht pt ot Wval t Mval t Mkey t Wkey t (a) 写入 (b) 读取 图 2 MemNN 读写机制 Fig. 2 Read and write mechanism of MemNN 具体模块功能如下。 1) 编码模块 将原始的图像信息提取出高层特征信息。将 一个 c 通道的 h×w 维的图像 Xt 编码成一个 e 维 特征向量 et: et = φ enc (Xt) (1) 2) 写记忆操作 将最近 M 步的观察实现矩阵转换,以键记忆 模块和值记忆模块形式分别存储到记忆中,如式 (2)、(3): M key t = WkeyEt (2) Mval t = WvalEt (3) M key t Mval t Wkey Wval 式中:矩阵 和 分别代表了键记忆模块和 值记忆模块; 和 是相应的线性转移矩阵; Et 是最近 M 次观察的特征向量序列。 3) 读记忆操作 M key t 机器人导航过程中,根据最近几步的观测值 计算上下文向量 ht,然后通过计算上下文向量 ht 和键记忆模块 之间的内积,再归一化后得 ·836· 智 能 系 统 学 报 第 15 卷
第5期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·837· 到一组注意力权重p,即实现了注意力机制(at- 特征向量,利用这个特征向量0,产生相应的Q值 tention mechanism)。通过这种软注意力机制,机 输出,实现动作选择。这里的4,是一个估计的状 器人可以找到与当前观测向量五,相关的那一部 态行为值函数,用MLP多重前向网络实现。如 分记忆,即环境中的定位过程。读操作的输出0, 式(7所示: 利用注意力权重P,和值记忆模块M求出线性累加 g:=f(Whh,+0.) (7) 和。其中注意力权重公式和输出式分别为 q=Wag 式中:W、W是其权值,最后一层利用softmax作 exp(h'Mi] Pu= (4) 为输出。利用目标值函数和当前值函数的误差来 ∑exp(kM) 训练整个模型,整个过程数据流通非常平滑,全 程可微,此模型可以利用误差反向传播进行训 0 MY P (5) 练,最终优化Wo、W、W、W9矩阵。 4)注意力机制 1.2DNC在导航中的应用 注意力机制在文本识别、图像识别、问答系 Google DeepMind在Nature首次提出了 统、机器翻译中被广泛深入研究1。注意力机 DNC模型2o,。其强大的推理能力使其在自然语 制由一个注意力权重表示,越大的权重代表对应 言理解、算法推理、视觉推理中被广泛深人研 位置ⅰ越重要。在导航问题中,注意力机制不仅 究2-21。DNC具有递归神经控制器,可以通过执 关注当前观测值与记忆模块的匹配度,而且考虑 行可微的读操作和写操作去访问外部记忆资源。 之前几步观测序列与记忆模块的匹配度,因此是 DNC结构如图3所示。a为递归控制器模块,其 一种基于时间序列的注意力机制。在FRMON 输入为外部输入向量和从记忆中读出R维向量, 中,采用LSTM结构的注意力机制,如式(6)所示: 输出为外部输出向量和交互参量,这些交互参量 [hc]=LSTM([ero-1].h1.cm1) (6) 用来确定读、写操作的参数。b为多个读头和一 其中,上一步召回的记忆o1作为LSTM输入的 个写头,用来实现对记忆的读写操作。℃为记忆 一部分,这允许FRMON不仅根据当前的观测序 模块,是一个N×W的记忆矩阵。d是每个记忆位 列还根据之前检索到的记忆来实现多级推理过 置的使用度向量,用来记录目前每个记忆位置的 程,这与MemNN中的多级跳结构非常类似。 使用情况,其中时间链接矩阵记录了写入的顺 5)预测行为值函数 序,时间顺序用箭头表示。Parisotto!261首次将 记忆模块的输出是0,它表示了概率统计上 DNC用于导航任务,将记忆模块看作神经地图 的机器人的记忆模块和当前上下文输入最相关的 (neural map),下面分别对每个模块进行说明。 a.递归控制器 b.读写头 c.记忆体d.时间链接矩阵 输出 写向量 擦除向量 写操作 写关键字 交互 参量 读关键字 读取模式 读操作1 读出 读关键字 读操作2 ◆ 向量 读取模式 口 输入 读向量 图3DNC结构 Fig.3 DNC structure 1)递归控制器 量,机器人控制器根据当前输入向量S,和,来输 每个时间步1控制器从环境接收当前感知向 出向量c。c,用来得到策略输出π,(ds)。另外,控 量,机器人首先根据当前感知向量5,和当前的 制器也输出一个交互向量E,E,定义了当前时间 全局读向量,产生一个上下文向量q,接着通过 步该如何与记忆交互。控制器可以采用任何神经 读头从上一时刻神经地图M,中读取R维读入向 网络结构实现,例如:CNN结构、LSTM结构或者
Mval t 到一组注意力权重 pt,i,即实现了注意力机制 (attention mechanism)。通过这种软注意力机制,机 器人可以找到与当前观测向量 ht 相关的那一部 分记忆,即环境中的定位过程。读操作的输出 ot 利用注意力权重 Pt 和值记忆模块 求出线性累加 和。其中注意力权重公式和输出式分别为 pt,i = exp( h T t M key t [i] ) ∑M j=1 exp( h T t M key t [j] ) (4) ot = Mval t Pt (5) 4) 注意力机制 注意力机制在文本识别、图像识别、问答系 统、机器翻译中被广泛深入研究[14-18]。注意力机 制由一个注意力权重表示,越大的权重代表对应 位置 i 越重要。在导航问题中,注意力机制不仅 关注当前观测值与记忆模块的匹配度,而且考虑 之前几步观测序列与记忆模块的匹配度,因此是 一种基于时间序列的注意力机制。在 FRMQN 中,采用 LSTM 结构的注意力机制,如式 (6) 所示: [ht , ct] = LSTM([et ,ot−1],ht−1, ct−1) (6) 其中,上一步召回的记忆 ot−1 作为 LSTM 输入的 一部分,这允许 FRMQN 不仅根据当前的观测序 列还根据之前检索到的记忆来实现多级推理过 程,这与 MemNN 中的多级跳结构非常类似[19]。 5) 预测行为值函数 记忆模块的输出是 ot,它表示了概率统计上 的机器人的记忆模块和当前上下文输入最相关的 特征向量,利用这个特征向量 ot 产生相应的 Q 值 输出,实现动作选择。这里的 qt 是一个估计的状 态行为值函数,用 MLP 多重前向网络实现。如 式 (7) 所示: gt = f(Whht + ot) qt = Wq gt (7) 式中:W h 、W q 是其权值,最后一层利用 softmax 作 为输出。利用目标值函数和当前值函数的误差来 训练整个模型,整个过程数据流通非常平滑,全 程可微,此模型可以利用误差反向传播进行训 练,最终优化 W key 、W val 、W h 、W q 矩阵。 1.2 DNC 在导航中的应用 Google DeepMind 在 Nature 首次提出了 DNC 模型[20]。其强大的推理能力使其在自然语 言理解、算法推理、视觉推理中被广泛深入研 究 [21-25]。DNC 具有递归神经控制器,可以通过执 行可微的读操作和写操作去访问外部记忆资源。 DNC 结构如图 3 所示。a 为递归控制器模块,其 输入为外部输入向量和从记忆中读出 R 维向量, 输出为外部输出向量和交互参量,这些交互参量 用来确定读、写操作的参数。b 为多个读头和一 个写头,用来实现对记忆的读写操作。c 为记忆 模块,是一个 N×W 的记忆矩阵。d 是每个记忆位 置的使用度向量,用来记录目前每个记忆位置的 使用情况,其中时间链接矩阵记录了写入的顺 序,时间顺序用箭头表示。Parisotto[ 2 6 ] 首次将 DNC 用于导航任务,将记忆模块看作神经地图 (neural map),下面分别对每个模块进行说明。 输出 输入 写向量 擦除向量 写关键字 读关键字 读取模式 读关键字 读取模式 读向量 读操作2 读操作1 写操作 b. 读/写头 c. 记忆体 d. 时间链接矩阵 交互 参量 读出 向量 a. 递归控制器 图 3 DNC 结构 Fig. 3 DNC structure 1) 递归控制器 每个时间步 t 控制器从环境接收当前感知向 量 st,机器人首先根据当前感知向量 st 和当前的 全局读向量 rt 产生一个上下文向量 qt,接着通过 读头从上一时刻神经地图 Mt-1 中读取 R 维读入向 πt (a|s) 量,机器人控制器根据当前输入向量 st 和 rt 来输 出向量 ct。ct 用来得到策略输出 。另外,控 制器也输出一个交互向量 Et,Et 定义了当前时间 步该如何与记忆交互。控制器可以采用任何神经 网络结构实现,例如:CNN 结构、LSTM 结构或者 第 5 期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·837·
·838· 智能系统学报 第15卷 多级LSTM结构。 此具有更好的不同环境间的知识迁移能力及适应 2)读操作 动态环境的能力。然而DNC学到的参数较多,除 上下文向量q,基于当前输入3,和,得到,利 了学习控制器网络参数外,还要学习读写操作的 用上下文向量q,和地图M,中的每一个位置特征 交互参数E。 M,”做内积得到一个得分a,9。得分正则化处 1.3DND在导航中的应用 理后得到在地图上所有位置的一个概率分布,即 Pritzel等P)提出了神经情节控制模型(neural 实现了软注意力机制。这个概率分布用来计算在 episodic control,.NEC),用于实现机器人导航。作 所有位置特征M,”上的一个加权平均和c,。这 者指出当前的深度强化学习模型存在共同的弊 里读操作将神经地图看做联想记忆:机器人提供 端:所有深度强化学习模型(包括MemNN、 了一些不完全的信息q,读操作将返回一个与 DNC)都是参数化模型,需要采用随机梯度下降 4,最匹配的完整的记忆信息,类似于机器人可以 法学习参数矩阵,如果参数矩阵较多,收敛速度 回忆起当前的观察与记忆中的某些路标相似的东 缓慢,尤其是导航领域存在稀疏回报问题,整个 过程很难收敛。而强化学习算法本身,尤其是 西。注意力权重公式和输出公式如式(8)所示, Q学习是通过值迭代学习最优策略,而表格形式 其中W是权重矩阵: 是最适合强化学习的知识表示形式。如果能将缓 q=W[sr,d=qM 慢更新的状态表征用深度网络表示,将迅速更新 的值函数用表格的形式表示,则更为有效。因此 (8) 提出了一种无参数的记忆机构一可微神经字 G= aM 典(DND)。类似于Key-Value记忆模型,将参数 表示的键(状态S)与表格表示的值(行为值函数 3)写操作 )相结合,并在机器人选择行为期间使用基于上 给定机器人当前时刻1的位置(xy,写操作 下文的软注意力机制来检索有用的值函数。允许 的输入为:当前感知向量s,全局读向量,上下 自由读写,并且采用了追加写操作,使得写操作 文读向量c,和当前的神经地图中(xy)的特征向 更加简单。每个行为a都有对应的DND记忆模 量M,通过一个深度神经网络人产生一个新 块,学习采用N步Q强化学习算法,同时采用了 的c维向量w=f(s,r,c,M])。这个向量 类似于DQN中的回放机制。 作为新的局部(x)写候选向量。 1)NEC结构 写操作利用新的特征向量”:替换机器人 NEC结构如图4所示。该结构分成3个部 神经地图中(x)位置的特征向量,这是一种强写 分:卷积神经网络;一系列DND记忆模块(即行 入机制。写操作修改了1+1时刻的神经地图 为记忆模块M):以及一个最终的网络,该网络将 M#1。M+1除了位置(xy,)上的特征信息有所改 动作记忆模块的读出转换成Q值。卷积神经网 变,其余与旧神经地图一致,这是一个局部写入 络将视觉感知s,转换成关键字h,。每个行为对应 操作,如式(9)所示: 一个行为记忆模块M。,每个行为记忆模块M。由 M= w(a,b)=() 键记忆模块h,和值记忆模块Q,组成。记忆模块 M,(a,b)≠(,) (9) 从关键字h映射到值Q,是一个联想关系,与数据 4)注意力机制 字典类似,根据当前关键字h,在记忆模块M,中 读出相应的值Q,记忆模块M。的输出即为对应 DNC构建了3种注意力机制:基于内容的注 行为a的Q(s,ad)值,不同的记忆M,共享相同的卷 意力机制、时间机制和动态记忆分配机制。其中 积网络。机器人根据最高的Q值估计来决定在 基于内容寻址和动态记忆分配的方式决定写入记 每一步中执行哪个动作,然后根据N步Q学习更 忆的位置;基于内容寻址和时间链接矩阵决定读 新值函数和相应的权值。 出记忆位置。注意力机制由交互向量参数E,决定。 实验在三维ViZDoom环境下验证,对于更加 Q(s,a)=∑Q 复杂的迷宫环境,其长时记忆能力、泛化性能力 均优于FRMON。这是由于环境越来越大,越来 k(h,h) 越复杂,需要记忆的知识越来越多,MemNN记忆 ∑k(h,h) 结构只能记忆M步历史,而DNC可以记忆整个 图4NEC结构 地图,并且可以根据环境改变动态修改地图,因 Fig.4 NEC structure
多级 LSTM 结构。 2) 读操作 Mt (x,y) at (x,y) Mt (x,y) 上下文向量 qt 基于当前输入 st 和 rt 得到,利 用上下文向量 qt 和地图 Mt 中的每一个位置特征 做内积得到一个得分 。得分正则化处 理后得到在地图上所有位置的一个概率分布,即 实现了软注意力机制。这个概率分布用来计算在 所有位置特征 上的一个加权平均和 ct。这 里读操作将神经地图看做联想记忆:机器人提供 了一些不完全的信息 qt,读操作将返回一个与 qt 最匹配的完整的记忆信息,类似于机器人可以 回忆起当前的观察与记忆中的某些路标相似的东 西。注意力权重公式和输出公式如式(8)所示, 其中 W 是权重矩阵: qt = W [st ,rt],a (x,y) t = qt · M (x,y) t , α (x,y) t = e a (x,y) t ∑ (w,z) e a (w,z) t ct = ∑ (x,y) α (x,y) t M (x,y) t (8) 3) 写操作 M (xt ,yt) t w (xt ,yt) t+1 = fw ([st ,rt , ct , M (xt ,yt) t ]) 给定机器人当前时刻 t 的位置 (xt ,yt ),写操作 的输入为:当前感知向量 st,全局读向量 rt,上下 文读向量 ct,和当前的神经地图中 (xt ,yt ) 的特征向 量 ,通过一个深度神经网络 fw 产生一个新 的 c 维向量 。这个向量 作为新的局部 (xt ,yt ) 写候选向量。 w (xt ,yt) 写操作利用新的特征向量 t+1 替换机器人 神经地图中 (xt ,yt ) 位置的特征向量,这是一种强写 入机制。写操作修改 了 t+1 时刻的神经地 图 Mt+1。Mt+1 除了位置 (xt ,yt ) 上的特征信息有所改 变,其余与旧神经地图一致,这是一个局部写入 操作,如式(9)所示: M (a,b) t+1 = w (xt ,yt) t+1 , (a,b) = (xt , yt) M (a,b) t , (a,b) , (xt , yt) (9) 4) 注意力机制 DNC 构建了 3 种注意力机制:基于内容的注 意力机制、时间机制和动态记忆分配机制。其中 基于内容寻址和动态记忆分配的方式决定写入记 忆的位置;基于内容寻址和时间链接矩阵决定读 出记忆位置。注意力机制由交互向量参数 Et 决定。 实验在三维 ViZDoom 环境下验证,对于更加 复杂的迷宫环境,其长时记忆能力、泛化性能力 均优于 FRMQN。这是由于环境越来越大,越来 越复杂,需要记忆的知识越来越多,MemNN 记忆 结构只能记忆 M 步历史,而 DNC 可以记忆整个 地图,并且可以根据环境改变动态修改地图,因 此具有更好的不同环境间的知识迁移能力及适应 动态环境的能力。然而 DNC 学到的参数较多,除 了学习控制器网络参数外,还要学习读写操作的 交互参数 Et。 1.3 DND 在导航中的应用 Pritzel 等 [27] 提出了神经情节控制模型 (neural episodic control,NEC),用于实现机器人导航。作 者指出当前的深度强化学习模型存在共同的弊 端:所有深度强化学习模 型 (包 括 MemNN 、 DNC) 都是参数化模型,需要采用随机梯度下降 法学习参数矩阵,如果参数矩阵较多,收敛速度 缓慢,尤其是导航领域存在稀疏回报问题,整个 过程很难收敛。而强化学习算法本身,尤其是 Q 学习是通过值迭代学习最优策略,而表格形式 是最适合强化学习的知识表示形式。如果能将缓 慢更新的状态表征用深度网络表示,将迅速更新 的值函数用表格的形式表示,则更为有效。因此 提出了一种无参数的记忆机构−可微神经字 典 (DND)。类似于 Key-Value 记忆模型,将参数 表示的键 (状态 S) 与表格表示的值 (行为值函数 V) 相结合,并在机器人选择行为期间使用基于上 下文的软注意力机制来检索有用的值函数。允许 自由读写,并且采用了追加写操作,使得写操作 更加简单。每个行为 a 都有对应的 DND 记忆模 块,学习采用 N 步 Q 强化学习算法,同时采用了 类似于 DQN 中的回放机制。 1)NEC 结构 NEC 结构如图 4 所示。该结构分成 3 个部 分:卷积神经网络;一系列 DND 记忆模块 (即行 为记忆模块 Ma );以及一个最终的网络,该网络将 动作记忆模块的读出转换成 Q 值。卷积神经网 络将视觉感知 st 转换成关键字 ht。每个行为对应 一个行为记忆模块 Ma,每个行为记忆模块 Ma 由 键记忆模块 hi 和值记忆模块 Qi 组成。记忆模块 从关键字 hi 映射到值 Qi 是一个联想关系,与数据 字典类似,根据当前关键字 ht 在记忆模块 Ma 中 读出相应的值 Qt,记忆模块 Ma 的输出即为对应 行为 a 的 Q(s,a) 值,不同的记忆 Ma 共享相同的卷 积网络。机器人根据最高的 Q 值估计来决定在 每一步中执行哪个动作,然后根据 N 步 Q 学习更 新值函数和相应的权值。 s h hi Qi Q (s, a)=∑ωiQi i ∑k (h, hi ) ωi= k (h, hi ) j 图 4 NEC 结构 Fig. 4 NEC structure ·838· 智 能 系 统 学 报 第 15 卷
第5期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·839· 2)读操作 调整,是一种无参数记忆结构。 读操作就是在DND上将当前关键字h映射 4)参数更新 为输出值Q(s,a),如式(10)所示: 类似于DQN的回放机制,将每次的转移实 ∑w0,w,= k(h,h;) 例(s,a,)存储在回放缓冲区中,其中Qm(s,a (s,a)= (10) k(h,h) 作为目标函数。从回放缓冲区中随机取出的小批 量样本用于反向误差更新,这里的神经网络参数 这里h,是键记忆模块的第i个元素,Q,是值 的更新率较小。因此是一种缓慢更新的卷积网络 记忆模块的第i个元素。K(xy)是一个相似度函 和迅速更新的值函数相结合的结构,该模型大大 数。因此DND的读操作相当于在记忆中搜索与 提高了数据有效性、提高收敛速度。 h最匹配的那些记忆,输出是记忆中对应Q,值的 该方法类似于基于实例的学习,在Atari游戏 加权和,这是一种基于内容的注意力机制,没有 中验证,在数据有效性和收敛速度方面,优于DQN、 考虑时间相关性。从大容量的记忆里读取采用最 A3C、Prioritised DQN算法。 近邻方法(k-d树,详情介绍见文献[28])。 1.4不同记忆神经网络的优缺点 3)写操作 3种记忆结构都采用了软关注度机制,利用 查找结束后,将一个新的键-值对写人记忆。 DRL实现误差反向传播,整个过程均是可微的、 写入的过程是一个追加(append-only)写操作,即 端对端的结构。用于部分可观测导航任务均取得 将键-值对分别写入到键记忆模块和值记忆模块 了优于LSTM+DRL的效果。笔者分析了不同记 的末尾,无需计算写入位置,简化写入操作。如 忆神经网络的写操作、读操作、注意力机制、存储 果键已经存在记忆中,则对应的值函数Q,根据 知识、训练参数、记忆结构,以及将其应用于导航 N步Q学习更新,写入操作如式(11): 领域的各自优缺点,如表1所示。从表1可以看 2←Q+a(Q(s,a)-Q) 出,MemNN与DND存储知识是情节记忆,即存 gg0=∑gy+yame0s (11) 储了大量的经验序列,而DNC存储的是真正的空 间地图。在训练时间上,DNC训练参数最多,训 这里的写操作类似于Q表更新,只不过这里 练时间长,因此将其用于导航领域常常出现不收 的Q表示随着时间动态增长的。学习率α设置 敛的问题;而DND训练参数少,训练时间快,与 较大,类似于快门式学习,学习过程不涉及参数 基于实例的机器学习类似。 表1不同记忆结构的对比 Table 1 Comparisons of different memory structures 记忆神经网络 写操作 读操作 注意力机制存储知识 训练参数 记忆结构 解决难题 存在问题 矩阵参数 部分观测 根据内积 基于时间 固定写入 Wkgy、Wa Key-Value 长时记忆、 难以适应动 MemNN 运算求得 上下文注 情节记忆 形。、W,以及 M步观察 相似度 意力机制 神经网络 结构 相似地图的 态环境 迁移学习 参数 基于内容的 部分观测、 适应性写操 注意力机制 控制器网络 神经网铬 长时记忆、 根据内积 作、局部写 时间链接注 参数、决定读 控制器+ 不同地图间 DNC 运算求得 空间地图 参数收敛慢 操作、软写 意力机制、动 写的交互 矩阵记忆 的迁移学习、 相似度 入机制 态记忆分 参数E 结构 动态环境的 配机制 适应性 数据有效性, 相似度函 快门式学习 简单追加 卷积神经网提高收敛速 记忆空间大、 数+基于k-d 基于内容的 逐渐增加的无参数记忆、 DND (append- 络+无参数 度、部分观如何压缩 树最近邻 注意力机制 情节记忆 卷积神经网 only)写操作 记忆结构 测、 记忆 方法 络参数 延迟回报
2) 读操作 读操作就是在 DND 上将当前关键字 h 映射 为输出值 Q(s,a),如式(10)所示: Q(s,a) = ∑ i wiQi ,wi = ∑ k(h,hi) j k(h,hj) (10) 这里 hi 是键记忆模块的第 i 个元素,Qi 是值 记忆模块的第 i 个元素。K(x,y) 是一个相似度函 数。因此 DND 的读操作相当于在记忆中搜索与 h 最匹配的那些记忆,输出是记忆中对应 Qi 值的 加权和,这是一种基于内容的注意力机制,没有 考虑时间相关性。从大容量的记忆里读取采用最 近邻方法 (k-d 树,详情介绍见文献 [28])。 3) 写操作 查找结束后,将一个新的键−值对写入记忆。 写入的过程是一个追加 (append-only) 写操作,即 将键−值对分别写入到键记忆模块和值记忆模块 的末尾,无需计算写入位置,简化写入操作。如 果键已经存在记忆中,则对应的值函数 Qi 根据 N 步 Q 学习更新,写入操作如式(11): Qi ← Qi +α(Q (N) (s,a)− Qi) Q (N) (st ,a) = ∑N−1 j=0 γ j rt+j +γ Nmax a ′ Q(st+N,a ′ ) (11) α 这里的写操作类似于 Q 表更新,只不过这里 的 Q 表示随着时间动态增长的。学习率 设置 较大,类似于快门式学习,学习过程不涉及参数 调整,是一种无参数记忆结构。 4) 参数更新 Q (N) (s,a) 类似于 DQN 的回放机制,将每次的转移实 例 (st , at , rt ) 存储在回放缓冲区中,其中 作为目标函数。从回放缓冲区中随机取出的小批 量样本用于反向误差更新,这里的神经网络参数 的更新率较小。因此是一种缓慢更新的卷积网络 和迅速更新的值函数相结合的结构,该模型大大 提高了数据有效性、提高收敛速度。 该方法类似于基于实例的学习,在 Atari 游戏 中验证,在数据有效性和收敛速度方面,优于 DQN、 A3C、Prioritised DQN 算法。 1.4 不同记忆神经网络的优缺点 3 种记忆结构都采用了软关注度机制,利用 DRL 实现误差反向传播,整个过程均是可微的、 端对端的结构。用于部分可观测导航任务均取得 了优于 LSTM+DRL 的效果。笔者分析了不同记 忆神经网络的写操作、读操作、注意力机制、存储 知识、训练参数、记忆结构,以及将其应用于导航 领域的各自优缺点,如表 1 所示。从表 1 可以看 出,MemNN 与 DND 存储知识是情节记忆,即存 储了大量的经验序列,而 DNC 存储的是真正的空 间地图。在训练时间上,DNC 训练参数最多,训 练时间长,因此将其用于导航领域常常出现不收 敛的问题;而 DND 训练参数少,训练时间快,与 基于实例的机器学习类似。 表 1 不同记忆结构的对比 Table 1 Comparisons of different memory structures 记忆神经网络 写操作 读操作 注意力机制 存储知识 训练参数 记忆结构 解决难题 存在问题 MemNN 固定写入 M步观察 根据内积 运算求得 相似度 基于时间 上下文注 意力机制 情节记忆 矩阵参数 Wkey、Wval、 Wh、Wq以及 神经网络 参数 Key-Value 结构 部分观测、 长时记忆、 相似地图的 迁移学习 难以适应动 态环境 DNC 适应性写操 作、局部写 操作、软写 入机制 根据内积 运算求得 相似度 基于内容的 注意力机制、 时间链接注 意力机制、动 态记忆分 配机制 空间地图 控制器网络 参数、决定读 写的交互 参数Et 神经网络 控制器+ 矩阵记忆 结构 部分观测、 长时记忆、 不同地图间 的迁移学习、 动态环境的 适应性 参数收敛慢 DND 简单追加 (appendonly)写操作 相似度函 数+基于k-d 树最近邻 方法 基于内容的 注意力机制 逐渐增加的 情节记忆 快门式学习 无参数记忆、 卷积神经网 络参数 卷积神经网 络+无参数 记忆结构 数据有效性、 提高收敛速 度、部分观 测、 延迟回报 记忆空间大、 如何压缩 记忆 第 5 期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·839·
·840· 智能系统学报 第15卷 2MNN在导航领域的研究进展 2.1关注度机制的改进 Neural Slam2将SLAM与DNC深入结合, MNN的飞速发展也就是近三年的事情,这些 将SLAM中的运动预测和定位嵌入到软注意力 记忆结构大部分应用在自然语言处理、问题回答 寻址机制中,实现有偏的读写操作,DNC作为环 系统、视觉推理等领域,机器人导航领域没有得 境地图的表示,整个过程采用深度强化学习A3C 到广泛关注。在有限的一些文献中,主要分成以 实现,是一个端对端的训练模型,Neural Slam模 下几个改进方向。 型如图5所示。 →⊙数据 +(®关联程度 运动预测 E 定位 LSTM +(P测量更新 (w 输出策略 (e' 记忆更新 与预测值(π -(a 图5 Neural Slam结构 Fig.5 Neural Slam structure 在每个时间步中,将输入直接提供给LSTM 有更长久保持记忆的能力。 单元,它给出一个隐藏状态。使用这个隐藏状 2)主动神经定位 态h来发出一组交互参量,根据这些交互参量 文献[30]进一步对绝对位置进行改进,提出 k、B、g、p、、e、d由读头、写头计算其读权 了一种“主动神经定位器”,它是一种完全可微的 重w心,和写权重w.,这里与Parisotto等2所提出 神经网铬,能够准确有效地进行定位。该模型融 的神经地图的区别是:神经地图中的位置信息 合了传统的基于滤波的定位方法的思想,利用具 (xy)事先已知,而Neural Slam利用SLAM计算其 有乘法交互的状态结构化信念来传播信念,并将 位置的信念值。 其与策略模型相结合,利用最少的步骤精确地进 该方法优点是将SLAM与DNC很好地融合, 行定位。采用端到端强化学习的方法对主动神经 改进了DNC的软注意力机制,使得机器人不断更 定位器进行训练。 新其位置信念。缺陷是输入只是激光测距信息, 2.3与VN的融合 没有高维视觉信息,构建的是一个度量地图。 传统深度强化学习系统缺乏明确的规划计 2.2写入机制的改进 算。Tamar等s提出了值迭代网络(value itera- 如前所述,神经地图的主要缺点是机器人时 tion networks,.VIN),这是一个嵌入了“规划模块” 刻知道自己的绝对位置,并且其写入机制是一种 的完全可微的神经网络。方法的巧妙之处是观察 强写入机制(只要重新写入,之前的信息就被替 到经典的值迭代(VI)规划算法可以由特定类型 代),难以实现长期信息的维护。因此Emilio Parisotto在进一步的研究工作中26,0,将DNC看 的CNN表示,通过在标准的前馈网络中嵌入VI 做一个2维空间地图,采用了基于GU的写操作 网络模块,使得策略训练起来很简单,VIN策略 和自我为中心的神经地图(ego neural map)的模 可以更好地泛化到新的、不可见的环境。但是该 型,采用A2C算法学习。在更复杂的3维ViZ- 方法由于没有记忆模块,因此无法适应部分可观 Doom环境中验证,性能优于传统的Neural Map 测环境。下面是将VN与MNN相结合进行改进。 方法。 1)CMP 1)软写入机制 Gupta等]将地图构建和VIN模块结合,设 写操作利用新的特征向量替换记忆中当前位 计了一个CMP(cognitive mapping and planning)结 置的向量,这是一种强写入机制,强写入机制不 构用来实现部分观测环境下的导航任务,采用模 保留之前的记忆内容。文献[31]提出基于GRU 仿学习DAGGER算法实现真实室内场景下的导 的写入机制。GRU写操作在递归神经网络中有 航,性能优于LSTM+DRL模型,CMP结构如图6 着较长的研究历史,GRU写操作比强写入机制具 所示
2 MNN 在导航领域的研究进展 MNN 的飞速发展也就是近三年的事情,这些 记忆结构大部分应用在自然语言处理、问题回答 系统、视觉推理等领域,机器人导航领域没有得 到广泛关注。在有限的一些文献中,主要分成以 下几个改进方向。 2.1 关注度机制的改进 Neural Slam[29] 将 SLAM 与 DNC 深入结合, 将 SLAM 中的运动预测和定位嵌入到软注意力 寻址机制中,实现有偏的读写操作,DNC 作为环 境地图的表示,整个过程采用深度强化学习 A3C 实现,是一个端对端的训练模型,Neural Slam 模 型如图 5 所示。 LSTM 输出策略 与预测值 测量更新 记忆更新 数据 关联程度 运动预测 & 定位 M s t h t g t β t k t ρ t ζ t e t a t r t−1 r t π t V t wt r wt w 图 5 Neural Slam 结构 Fig. 5 Neural Slam structure k t、β t、g t、ρ t、ζ t、e t、a t w t r w t w 在每个时间步中,将输入直接提供给 LSTM 单元,它给出一个隐藏状态 h t。使用这个隐藏状 态 h t 来发出一组交互参量,根据这些交互参量 由读头、写头计算其读权 重 和写权重 ,这里与 Parisotto 等 [26] 所提出 的神经地图的区别是:神经地图中的位置信息 (x,y) 事先已知,而 Neural Slam 利用 SLAM 计算其 位置的信念值。 该方法优点是将 SLAM 与 DNC 很好地融合, 改进了 DNC 的软注意力机制,使得机器人不断更 新其位置信念。缺陷是输入只是激光测距信息, 没有高维视觉信息,构建的是一个度量地图。 2.2 写入机制的改进 如前所述,神经地图的主要缺点是机器人时 刻知道自己的绝对位置,并且其写入机制是一种 强写入机制 (只要重新写入,之前的信息就被替 代),难以实现长期信息的维护。因此 Emilio Parisotto 在进一步的研究工作中[26, 30] ,将 DNC 看 做一个 2 维空间地图,采用了基于 GRU 的写操作 和自我为中心的神经地图 (ego neural map) 的模 型,采用 A2C 算法学习。在更复杂的 3 维 ViZDoom 环境中验证,性能优于传统的 Neural Map 方法。 1) 软写入机制 写操作利用新的特征向量替换记忆中当前位 置的向量,这是一种强写入机制,强写入机制不 保留之前的记忆内容。文献 [31] 提出基于 GRU 的写入机制。GRU 写操作在递归神经网络中有 着较长的研究历史,GRU 写操作比强写入机制具 有更长久保持记忆的能力。 2) 主动神经定位 文献 [30] 进一步对绝对位置进行改进,提出 了一种“主动神经定位器”,它是一种完全可微的 神经网络,能够准确有效地进行定位。该模型融 合了传统的基于滤波的定位方法的思想,利用具 有乘法交互的状态结构化信念来传播信念,并将 其与策略模型相结合,利用最少的步骤精确地进 行定位。采用端到端强化学习的方法对主动神经 定位器进行训练。 2.3 与 VIN 的融合 传统深度强化学习系统缺乏明确的规划计 算。Tamar 等 [32] 提出了值迭代网络 (value iteration networks, VIN),这是一个嵌入了“规划模块” 的完全可微的神经网络。方法的巧妙之处是观察 到经典的值迭代 (VI) 规划算法可以由特定类型 的 CNN 表示,通过在标准的前馈网络中嵌入 VI 网络模块,使得策略训练起来很简单,VIN 策略 可以更好地泛化到新的、不可见的环境。但是该 方法由于没有记忆模块,因此无法适应部分可观 测环境。下面是将 VIN 与 MNN 相结合进行改进。 1) CMP Gupta 等 [33] 将地图构建和 VIN 模块结合,设 计了一个 CMP(cognitive mapping and planning) 结 构用来实现部分观测环境下的导航任务,采用模 仿学习 DAGGER 算法实现真实室内场景下的导 航,性能优于 LSTM+DRL 模型,CMP 结构如图 6 所示。 ·840· 智 能 系 统 学 报 第 15 卷
第5期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·841· 值迭代网络 VⅥ模型 VI模型 前个价值 便新后的价值 R 执行MDP 回报 0 2 矿 观察 Φ(s) 注意力机制 策略 (al (s).w(s)) 迭代K次 图6 CMP结构 Fig.6 CMP structure 图6中模型的主要改进之处如下: 2)MACN 地图构建利用机器人的观察值得到,生成一 Khan等B将DNC与VN相结合应用到部分 个以自我为中心的多尺度信念地图。地图是一个 可观测环境下的导航问题,提出了一种记忆扩展 二维的空间记忆结构,将一个三维环境投射到二 控制网络(memory augmented control network, 维栅格环境中去。信念更新方式是训练一个卷积 MACN)。结构如图7所示,该方法并没有尝试将 神经网络根据观察到的第一人称视图来预测更新。 一个三维环境投射为二维栅格环境,而是直接计 规划器利用自我为中心的多尺度信念地图和 算环境的信念空间,并把这种信念值存入一个可 目标位置来规划当前动作。规划器采用VⅥI模型, 微记忆DNC中,采用监督学习实现了连续控制的 使用一个可训练、可微的分层的值迭代网络。 机器人在一个三维环境下的导航任务。 V1模型 访间 访问 模型 模型 卷积 (1) (+1) 带记忆的访问模型 输出 传感器 Q表 更新后 动作行为 表 的预润 网络 值表 1来自VI 传感器同奖励 1的输入 权值输入() 网络(仁1) 第K次迭代 低层特征 图7MACN结构 Fig.7 MACN structure MACN是利用VI模块来学习局部信念值,并 models,GTMs)的构建在复杂的部分观测三维环 将这种局部信念值存入一个可微记忆DNC中, 境下是非常困难的。大多数GTMs,例如隐马尔 DNC描述了整个环境的信念空间。这恰恰是采 可夫模型3和卡尔曼滤波器及其非线性扩展刀 用了分层强化学习中option的思想B,更适合高 这些模型中使用的固定阶马尔可夫假设不足以描 维度的状态空间和行为空间。 述实际系统的特性。递归神经网络比固定阶马尔 规划采用了分层的结构:低层采用VN实现 科夫假设约束的模型具有显著的优势,最近的 局部规划,高层利用DNC学习全局规划。低层规 GTMs,例如变分递归神经网络B1和深度卡尔曼 划模块利用丰富表征的特征信息计算局部环境的 滤波器都是建立在递归神经网络之上,原则上 最优策略,高层规划将得到的局部策略和当前的 这些递归神经网络可以解决变阶马尔科夫问题。 稀疏表征作为输入,采用基于DNC的记忆模块, 然而由于其参数太多使得实际应用起来效率极 来产生一个全局环境的最优策略。 低。Gemici等o将记忆神经网络与生成时间模 2.4与基于模型的强化学习结合 型相结合,提出了带记忆的时间生成模型(GTMMs), 基于模型的强化学习对于实现导航任务非常 该模型实现了三维环境的感知建模,但没有实现 有效。然而生成时间模型(generative temporal 导航任务。Fraccaro等4)将生成时间模型与
注意力机制 执行 MDP 观察 fR fP R M V * P 策略 值迭代网络 VI 模型 回报 R P Q V 前个价值 迭代 K 次 更新后的价值 VI 模型 Φ (s) ψ (s) πre(a|ϕ (s), ψ (s)) 图 6 CMP 结构 Fig. 6 CMP structure 图 6 中模型的主要改进之处如下: 地图构建利用机器人的观察值得到,生成一 个以自我为中心的多尺度信念地图。地图是一个 二维的空间记忆结构,将一个三维环境投射到二 维栅格环境中去。信念更新方式是训练一个卷积 神经网络根据观察到的第一人称视图来预测更新。 规划器利用自我为中心的多尺度信念地图和 目标位置来规划当前动作。规划器采用 VI 模型, 使用一个可训练、可微的分层的值迭代网络。 2) MACN Khan 等 [34] 将 DNC 与 VIN 相结合应用到部分 可观测环境下的导航问题,提出了一种记忆扩展 控制网络 (memory augmented control network, MACN)。结构如图 7 所示,该方法并没有尝试将 一个三维环境投射为二维栅格环境,而是直接计 算环境的信念空间,并把这种信念值存入一个可 微记忆 DNC 中,采用监督学习实现了连续控制的 机器人在一个三维环境下的导航任务。 网络 带记忆的访问模型 传感器 传感器同奖励 权值输入 (i) 卷积 预测 值表 Q 表 VI 模型 更新后 的预测 值表 访问 模型 (t−1) 访问 模型 (t+1) 网络 (t−1) 输出 动作行为 低层特征 来自 VI 的输入 第 K 次迭代 图 7 MACN 结构 Fig. 7 MACN structure MACN 是利用 VI 模块来学习局部信念值,并 将这种局部信念值存入一个可微记忆 DNC 中 , DNC 描述了整个环境的信念空间。这恰恰是采 用了分层强化学习中 option 的思想[35] ,更适合高 维度的状态空间和行为空间。 规划采用了分层的结构:低层采用 VIN 实现 局部规划,高层利用 DNC 学习全局规划。低层规 划模块利用丰富表征的特征信息计算局部环境的 最优策略,高层规划将得到的局部策略和当前的 稀疏表征作为输入,采用基于 DNC 的记忆模块, 来产生一个全局环境的最优策略。 2.4 与基于模型的强化学习结合 基于模型的强化学习对于实现导航任务非常 有效。然而生成时间模型 (generative temporal models,GTMs) 的构建在复杂的部分观测三维环 境下是非常困难的。大多数 GTMs,例如隐马尔 可夫模型[36] 和卡尔曼滤波器及其非线性扩展[37] , 这些模型中使用的固定阶马尔可夫假设不足以描 述实际系统的特性。递归神经网络比固定阶马尔 科夫假设约束的模型具有显著的优势,最近的 GTMs,例如变分递归神经网络[38] 和深度卡尔曼 滤波器[39] 都是建立在递归神经网络之上,原则上 这些递归神经网络可以解决变阶马尔科夫问题。 然而由于其参数太多使得实际应用起来效率极 低。Gemici 等 [40] 将记忆神经网络与生成时间模 型相结合,提出了带记忆的时间生成模型 (GTMMs), 该模型实现了三维环境的感知建模,但没有实现 导航任务。Fraccaro 等 [ 4 1 ] 将生成时间模型与 第 5 期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·841·
·842· 智能系统学报 第15卷 DND相结合,由于在部分观测的三维环境中学习 致预测。为了解决部分可观测问题,DeepMind团队o 生成时间模型非常困难,因此提出一个动作条件 引入了一种新的模型一外部记忆、L和状态 生成模型(action-conditioned generative model)来对 推断网络相结合(MERLIN),MERLIN结构如 环境建模,在二维和三维环境中实现上百步的一 图8所示。 只读策略 基于记忆的预测 先验分布( +输入 e,m,4-p←- ·神经网络 环境 KL ↑编码 ◆记忆读/写 损失 ◆测试集 (e Vr ri T 9 ◆求和 后验分布↓解码 策略的 从上一次迭代开始 a- 损失 (le Re in det frrT ”到下一次迭代结束 /迭代结束 解码损失 图8 MERLIN结构 Fig.8 MERLIN structure 创新之处是提出基于记忆的预测器(memory-. 对状态变量更好地估计。在MERLIN中,策略模 based predictor,MBP)。MBP是一个无监督模型。 块对记忆模块只能进行只读访问。MERLIN在部 MBP的输入来自于多模态信息(例如图像信息I 分观测三维环境中验证,机器人快速地建立一个 速度信息y,回报值r-1,行为a-1以及文本命令 地图的近似模型,从这个模型中它可以快速导航 T),下一个状态根据记忆中保存的之前的状态变 回目标点。 量和行为来预测。另一种概率分布,即后验概 综上所述,MNN在导航领域的研究进展如 率,根据新的观测值修正了这一先验,从而形成 图9所示。 记忆神经网络在导航 领域的研究进展 关注机制的 写入机制的 与基于模型的 与VIN的融合 改进 改进 强化学习融合 奶妇 5 架 Active GTMMs Neural Neural MACN Gemici M GTM-SM MERLIN Ego Neural CMP SLAM Khan et Map 2017 Fraccaro M Wayne G Zhang J on Gupta et 2019 al.2017 al.2018 2018 2017 Parisotto E. Chaplot D 2017 2018 图9MNN在导航领域研究进展 Fig.9 Diagram of MNN's progress in the field of navigation 3导航验证环境的发展 文献[46]提出了一个三维房屋模拟器 House23D,建立在SUNCG7的基础上,该数据集 为了弥补仿真器和真实场景之间的鸿沟,许 包含数千个不同的合成室内场景,配有各种对象 多研究者提出了大量的真实、高仿真度的仿真环 和布局,它的视觉多样性和丰富的内容为研究强 境,可以进一步将算法移植到真实环境中去。常 化学习智能体的语义泛化开辟了道路。另外, 用的三维导航仿真环境有DeepMind Lab(Beattie HoME48I和MNOS,也提供了合成的大范围室 etal2016)4、Malmo(Johnson et al2016)、Viz- 内环境,但是均没有提供与环境的交互。文 Doom(M.Kempka,2016),然而这些仿真环境存 献[50-51]构建了一个可交互的三维高仿真环境 在一个主要的问题:没有真实场景图片。 AI2-THOR,它由逼真的三维室内场景组成,其中
DND 相结合,由于在部分观测的三维环境中学习 生成时间模型非常困难,因此提出一个动作条件 生成模型 (action-conditioned generative model) 来对 环境建模,在二维和三维环境中实现上百步的一 致预测。为了解决部分可观测问题,DeepMind 团队[42] 引入了一种新的模型−外部记忆、RL 和状态 推断网络相结合 (MERLIN),MERLIN 结构如 图 8 所示。 环境 (It , vt , rt−1, Tt ) at−1 et ot nt zt at ht mt kt Mt p q KL 损失 解码损失 策略的 损失 只读策略 编码 解码 写 读 读 后验分布 基于记忆的预测 先验分布 (It , Rt , vt , at−1, rt−1, Tt ) kt ht mt nt 输入 神经网络 记忆 读/写 测试集 求和 从上一次迭代开始 到下一次迭代结束 迭代结束 图 8 MERLIN 结构 Fig. 8 MERLIN structure 创新之处是提出基于记忆的预测器 (memorybased predictor,MBP)。MBP 是一个无监督模型。 MBP 的输入来自于多模态信息 (例如图像信息 It , 速度信息 vt , 回报值 rt−1, 行为 at−1 以及文本命令 Tt ),下一个状态根据记忆中保存的之前的状态变 量和行为来预测。另一种概率分布,即后验概 率,根据新的观测值修正了这一先验,从而形成 对状态变量更好地估计。在 MERLIN 中,策略模 块对记忆模块只能进行只读访问。MERLIN 在部 分观测三维环境中验证,机器人快速地建立一个 地图的近似模型,从这个模型中它可以快速导航 回目标点。 综上所述,MNN 在导航领域的研究进展如 图 9 所示。 记忆神经网络在导航 领域的研究进展 与 VIN 的融合 关注机制的 改进 写入机制的 改进 与基于模型的 强化学习融合 Neural SLAM Zhang J, 2017 Ego Neural Map Parisotto E, 2017 将 SLAM 与 DNC 相融合 Active Neural Localizati on Chaplot D S, 2018 CMP Gupta et al. 2017 MACN Khan et al. 2018 GTMMs Gemici M 2017 MERLIN Wayne G 2019 基于 GRU 的写入机制 主动神经 定位 将地图构建 和 VIN 结合 将 DNC 与 VIN 结合 与 GTMs 相结合 与 GTMs、与 DND 相结合 外部记忆 RL 和状态推断网 络相结合 GTM-SM Fraccaro M 2018 图 9 MNN 在导航领域研究进展 Fig. 9 Diagram of MNN’s progress in the field of navigation 3 导航验证环境的发展 为了弥补仿真器和真实场景之间的鸿沟,许 多研究者提出了大量的真实、高仿真度的仿真环 境,可以进一步将算法移植到真实环境中去。常 用的三维导航仿真环境有 DeepMind Lab (Beattie et al 2016)[43] 、Malmo (Johnson et al 2016)[44] 、ViZDoom(M. Kempka,2016)[45] ,然而这些仿真环境存 在一个主要的问题:没有真实场景图片。 文 献 [ 4 6 ] 提出了一个三维房屋模拟 器 House3D,建立在 SUNCG[47] 的基础上,该数据集 包含数千个不同的合成室内场景,配有各种对象 和布局,它的视觉多样性和丰富的内容为研究强 化学习智能体的语义泛化开辟了道路。另外, HoME[48] 和 MINOS[49] 也提供了合成的大范围室 内环境,但是均没有提供与环境的交互。文 献 [50-51] 构建了一个可交互的三维高仿真环境 AI2-THOR,它由逼真的三维室内场景组成,其中 ·842· 智 能 系 统 学 报 第 15 卷
第5期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·843· 智能体可以在场景中导航并与对象交互来执行任 Mirowski等s21提出了一种新的交互式环境 务。该环境可以实现深度强化学习、模仿学习、 “StreetLearn'”,从真实世界图片和谷歌街景中获 交互学习、规划学习、视觉问题回答、无监督表 得信息。笔者从以下几个方面总结了不同仿真环 示学习、对象检测和分割以及认知学习模型。 境的境的特点,如表2所示。 表2不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境 三维 大范围环境用户可定制真实场景图片 物理引擎 与对象交互 DeepMind Lab(Beattie et al.,2016) Malmo (Johnson et al.,2016) ViZDoom(M.Kempka,2016) V House3D HoME MINOS AI2-THOR(Eric Kolve,2019) 4结束语 其用于人机交互、时空特征的学习等领域,但是 笔者尚未发现将其用于导航领域,因此如何将联 综上所述,不同记忆神经网络的发展为解决 想记忆模型和导航领域结合是最新的研究热点。 视觉导航任务提供了很多有效的模型,但是基于 2)基于图网络的记忆结构 记忆神经网络的导航领域仍然存在多个方面的问 图网络(graph network,GN)是一种最新兴起 题,例如:部分观测、延迟回报、泛化性差、数据 的研究方向,还没有比较成熟的网络模型。图网 有效性有待提高、环境模型构建等问题。以后的 络是将消息传递的思想扩展到图结构上的神经网 发展主要集中在如何构建更有效的记忆结构,实 络。图中的每个节点都用一组神经元来表示其状 现更有效的学习;如何与新发展起来的DRL方法 态,每个节点都可以收到相邻节点的消息,并更 相结合,例如元强化学习、多目标强化学习等;如 新自己的状态。 何与概率统计模型相结合,实现更有效的基于环 应用到不同任务,有不同的图网络结构。例 境模型的视觉导航;以及与图模型相结合,发展 如图卷积网络(graph convolutional network,GCN)、 出更有效的图记忆模型。下面主要给出3个最有 消息传递网络(message passing neural network, 前景的发展方向。 MPNN)等。实际上,导航任务中的记忆地图适合 1)基于神经动力学联想记忆 用这种图网络来表示,因此将记忆网络扩展到图 以上提到的DNC、MemNN、DND的研究都 网络结构中,并应用于导航领域也是一个非常有 是基于外部记忆的。这种外部记忆的存储形式及 前景的研究方向。 读、写机制存在以下问题:①控制器与外部记忆 3)与概率图模型相结合 完全分离,是一个不严格端对端的结构,影响学 概率图模型和神经网络有着类似的网络结 习效果;②记忆的读、写过程类似于CPU访问存 构,但两者也有很大区别。概率图模型中节点是 储器的过程,缺乏生物学的解释。 随机变量,概率图的结构主要描述随机变量间的 基于神经动力学的联想记忆网络是日益兴起 依赖关系,一般是稀疏连接,优点是可以有效地 的一个热点领域。这种基于神经动力学的联想记 进行统计推断。而神经网络中的神经元是计算节 忆具有更好的生物学解释性,联想记忆网络一般 点,每个神经元没有直观解释。近些年来概率图 不受特定结构限制、可以实现增量的序列学习, 模型和神经网络结合越来越紧密,例如利用神经 并且以一种自组织、无监督的形式。Danihelka等 网络强大的表示能力来建模图模型中的推断问 将一个联想记忆模型作为部件引入LSTM网络 题(变分编码器),生成问题(生成对抗网络)等,包 中,从而在不引入额外参数的情况下增加网络容 括2.4节中提到的模型都是将概率图模型与神经 量。Paris提出自组织联想记忆网络模型,并且将 记亿网络相融合用于实现导航任务。概率图模型
智能体可以在场景中导航并与对象交互来执行任 务。该环境可以实现深度强化学习、模仿学习、 交互学习、规划学习、视觉问题回答、无监督表 示学习、对象检测和分割以及认知学习模型。 Mirowski 等 [ 5 2 ] 提出了一种新的交互式环境 “StreetLearn”,从真实世界图片和谷歌街景中获 得信息。笔者从以下几个方面总结了不同仿真环 境的境的特点,如表 2 所示。 表 2 不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境 三维 大范围环境 用户可定制 真实场景图片 物理引擎 与对象交互 DeepMind Lab (Beattie et al., 2016) √ √ Malmo (Johnson et al., 2016) √ √ √ ViZDoom(M. Kempka,2016) √ √ House3D √ √ √ √ HoME √ √ √ MINOS √ √ √ AI2-THOR(Eric Kolve,2019) √ √ √ √ √ 4 结束语 综上所述,不同记忆神经网络的发展为解决 视觉导航任务提供了很多有效的模型,但是基于 记忆神经网络的导航领域仍然存在多个方面的问 题,例如:部分观测、延迟回报、泛化性差、数据 有效性有待提高、环境模型构建等问题。以后的 发展主要集中在如何构建更有效的记忆结构,实 现更有效的学习;如何与新发展起来的 DRL 方法 相结合,例如元强化学习、多目标强化学习等;如 何与概率统计模型相结合,实现更有效的基于环 境模型的视觉导航;以及与图模型相结合,发展 出更有效的图记忆模型。下面主要给出 3 个最有 前景的发展方向。 1) 基于神经动力学联想记忆 以上提到的 DNC、MemNN、DND 的研究都 是基于外部记忆的。这种外部记忆的存储形式及 读、写机制存在以下问题:①控制器与外部记忆 完全分离,是一个不严格端对端的结构,影响学 习效果;②记忆的读、写过程类似于 CPU 访问存 储器的过程,缺乏生物学的解释。 基于神经动力学的联想记忆网络是日益兴起 的一个热点领域。这种基于神经动力学的联想记 忆具有更好的生物学解释性,联想记忆网络一般 不受特定结构限制、可以实现增量的序列学习, 并且以一种自组织、无监督的形式。Danihelka 等 将一个联想记忆模型作为部件引入 LSTM 网络 中,从而在不引入额外参数的情况下增加网络容 量。Paris 提出自组织联想记忆网络模型,并且将 其用于人机交互、时空特征的学习等领域,但是 笔者尚未发现将其用于导航领域,因此如何将联 想记忆模型和导航领域结合是最新的研究热点。 2) 基于图网络的记忆结构 图网络 (graph network, GN) 是一种最新兴起 的研究方向,还没有比较成熟的网络模型。图网 络是将消息传递的思想扩展到图结构上的神经网 络。图中的每个节点都用一组神经元来表示其状 态,每个节点都可以收到相邻节点的消息,并更 新自己的状态。 应用到不同任务,有不同的图网络结构。例 如图卷积网络 (graph convolutional network, GCN)、 消息传递网络 (message passing neural network, MPNN) 等。实际上,导航任务中的记忆地图适合 用这种图网络来表示,因此将记忆网络扩展到图 网络结构中,并应用于导航领域也是一个非常有 前景的研究方向。 3) 与概率图模型相结合 概率图模型和神经网络有着类似的网络结 构,但两者也有很大区别。概率图模型中节点是 随机变量,概率图的结构主要描述随机变量间的 依赖关系,一般是稀疏连接,优点是可以有效地 进行统计推断。而神经网络中的神经元是计算节 点,每个神经元没有直观解释。近些年来概率图 模型和神经网络结合越来越紧密,例如利用神经 网络强大的表示能力来建模图模型中的推断问 题 (变分编码器),生成问题 (生成对抗网络) 等,包 括 2.4 节中提到的模型都是将概率图模型与神经 记忆网络相融合用于实现导航任务。概率图模型 第 5 期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·843·
·844· 智能系统学报 第15卷 与记忆神经网络深度融合将是导航领域最有前景 [11]ZHANG Lei,WANG Shuai,LIU Bing.Deep learning for 的研究方向之一,最有希望实现空间地图的建 sentiment analysis:A survey[J].Wiley interdisciplinary 模,实现基于模型的强化学习。 reviews:data mining and knowledge discovery,2018, 8(4):e1253. 参考文献: [12]YOUNG T.HAZARIKA D.PORIA S.et al.Recent [1]刘强,段富海,桑勇.复杂环境下视觉SLAM闭环检测方 trends in deep learning based natural language 法综述[J.机器人,2019,41(1少112-123,136 processing[J].IEEE computational intelligence magazine, 2018.13(3):55-75. LIU Qiang,DUAN Fuhai,SANG Yong.A survey of loop- [13]OH J.CHOCKALINGAM V.SINGH S.et al.Control of closure detection method of visual SLAM in complex en- vironments[J].Robot,2019,41(1):112-123,136. memory,active perception,and action in minecraft[C]// Proceedings of the 33nd International Conference on Ma- [2]KULKARNI T D,SAEEDI A,GAUTAM S,et al.Deep chine Learning.New York,USA,2016:2790-2799 successor reinforcement learning[J].arXiv preprint arXiv: [14]BOTHE C,MAGG S,WEBER C,et al.Conversational 1606.02396v1,2016. analysis using utterance-level attention-based bidirection- [3]MNIH V.BADIA A P,MIRZA M,et al.Asynchronous al recurrent neural networks[C]//Proceedings of the 19th methods for deep reinforcement learning[C]//Proceedings Annual Conference of the International Speech Commu- of the 33rd International Conference on International Con- nication Association.Hyderabad,India,2018. ference on Machine Learning.New York,USA,2016: [15]张新生,高腾.多头注意力记忆网络的对象级情感分 1928-1937 类).模式识别与人工智能,2019,32(11):997-1005. [4]ZHU Yuke,MOTTAGHI R,KOLVE E,et al.Target-driv- ZHANG Xinsheng,GAO Teng.Aspect level sentiment en visual navigation in indoor scenes using deep reinforce- classification with multiple-head attention memory net- ment learning[Cl//Proceedings of 2017 IEEE International work[J].Pattern recognition and artificial intelligence, Conference on Robotics and Automation (ICRA).Singa- 2019,32(11):997-1005 pore,2016. [16]BAHDANAU D,CHOROWSKI J,SERDYUK D,et al. [5]MIROWSKI P,PASCANU R,VIOLA F,et al.Learning to End-to-end attention-based large vocabulary speech re- navigate in complex environments[C]//Proceedings of the cognition[C]//Proceedings of 2016 IEEE International 5th International Conference on Learning Representations. Conference on Acoustics,Speech and Signal Processing. Toulon,France,2017. Shanghai,China,2016:4945-4949. [6]JADERBERG M,MNIH V,CZARNECKI W M,et al.Re- [17]JETLEY S,LORD N A,LEE N,et al.Learn to pay atten- inforcement learning with unsupervised auxiliary tasks[Cl// tion[C]//Proceedings of the 6th International Conference Proceedings of the 5th International Conference on Learn- on Learning Representations.Vancouver,Canada,2018. ing Representations.Toulon,France,2016 [18]梁天新,杨小平,王良,等.记忆神经网络的研究与发 [7]HEESS N,HUNT JJ,LILLICRAP T P,et al.Memory- 展).软件学报,2017,28(11):2905-2924 based control with recurrent neural networks[C]//Proceed- LIANG Tianxin,YANG Xiaoping,WANG Liang,et al. ings of the Workshops of Advances in Neural Information Review on research and development of memory neural Processing Systems.Montreal,Canada,2015:301-312. networks[J].Journal of software,2017,28(11): [8]RAMANI D.A short survey on memory based reinforce- 2905-2924. ment learning[J].arXiv preprint arXiv:1904.06736v1, [19]TANG Duyu,QIN Bing,LIU Ting.Aspect level senti- 2019. ment classification with deep memory network[C]//Pro- [9]SAVINOV N,DOSOVITSKIY A,KOLTUN V.Semi- ceedings of the 2016 Conference on Empirical Methods in parametric topological memory for navigation[C]//Pro- Natural Language Processing.Austin,USA,2016. ceedings of the 6th International Conference on Learning [20]GRAVES A,WAYNE G,REYNOLDS M,et al.Hybrid Representations.Vancouver,Canada,2018. computing using a neural network with dynamic external [10]SUKHBAATAR A,WESTON J,FERGUS R,et al.End- memory[0.Nature,2016,538(7626):471-476. to-end memory networks[C]//Proceedings of the 28th In- [21]YANG Feng,ZHANG Shiyue,ZHANG Andi,et al. ternational Conference on Neural Information Processing Memory-augmented neural machine translation[C]//Pro- Systems.Montreal,Canada.2015:2440-2448 ceedings of the 2017 Conference on Empirical Methods in
与记忆神经网络深度融合将是导航领域最有前景 的研究方向之一,最有希望实现空间地图的建 模,实现基于模型的强化学习。 参考文献: 刘强, 段富海, 桑勇. 复杂环境下视觉 SLAM 闭环检测方 法综述 [J]. 机器人, 2019, 41(1): 112–123, 136. LIU Qiang, DUAN Fuhai, SANG Yong. A survey of loopclosure detection method of visual SLAM in complex environments[J]. Robot, 2019, 41(1): 112–123, 136. [1] KULKARNI T D, SAEEDI A, GAUTAM S, et al. Deep successor reinforcement learning[J]. arXiv preprint arXiv: 1606.02396v1, 2016. [2] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA, 2016: 1928−1937. [3] ZHU Yuke, MOTTAGHI R, KOLVE E, et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning[C]//Proceedings of 2017 IEEE International Conference on Robotics and Automation (ICRA). Singapore, 2016. [4] MIROWSKI P, PASCANU R, VIOLA F, et al. Learning to navigate in complex environments[C]//Proceedings of the 5th International Conference on Learning Representations. Toulon, France, 2017. [5] JADERBERG M, MNIH V, CZARNECKI W M, et al. Reinforcement learning with unsupervised auxiliary tasks[C]// Proceedings of the 5th International Conference on Learning Representations. Toulon, France, 2016. [6] HEESS N, HUNT J J, LILLICRAP T P, et al. Memorybased control with recurrent neural networks[C]//Proceedings of the Workshops of Advances in Neural Information Processing Systems. Montreal, Canada, 2015: 301−312. [7] RAMANI D. A short survey on memory based reinforcement learning[J]. arXiv preprint arXiv:1904.06736v1, 2019. [8] SAVINOV N, DOSOVITSKIY A, KOLTUN V. Semiparametric topological memory for navigation[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada, 2018. [9] SUKHBAATAR A, WESTON J, FERGUS R, et al. Endto-end memory networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada, 2015: 2440−2448. [10] ZHANG Lei, WANG Shuai, LIU Bing. Deep learning for sentiment analysis: A survey[J]. Wiley interdisciplinary reviews: data mining and knowledge discovery, 2018, 8(4): e1253. [11] YOUNG T, HAZARIKA D, PORIA S, et al. Recent trends in deep learning based natural language processing[J]. IEEE computational intelligence magazine, 2018, 13(3): 55–75. [12] OH J, CHOCKALINGAM V, SINGH S, et al. Control of memory, active perception, and action in minecraft[C]// Proceedings of the 33nd International Conference on Machine Learning. New York, USA, 2016: 2790−2799. [13] BOTHE C, MAGG S, WEBER C, et al. Conversational analysis using utterance-level attention-based bidirectional recurrent neural networks[C]//Proceedings of the 19th Annual Conference of the International Speech Communication Association. Hyderabad, India, 2018. [14] 张新生, 高腾. 多头注意力记忆网络的对象级情感分 类 [J]. 模式识别与人工智能, 2019, 32(11): 997–1005. ZHANG Xinsheng, GAO Teng. Aspect level sentiment classification with multiple-head attention memory network[J]. Pattern recognition and artificial intelligence, 2019, 32(11): 997–1005. [15] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. End-to-end attention-based large vocabulary speech recognition[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China, 2016: 4945−4949. [16] JETLEY S, LORD N A, LEE N, et al. Learn to pay attention[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada, 2018. [17] 梁天新, 杨小平, 王良, 等. 记忆神经网络的研究与发 展 [J]. 软件学报, 2017, 28(11): 2905–2924. LIANG Tianxin, YANG Xiaoping, WANG Liang, et al. Review on research and development of memory neural networks[J]. Journal of software, 2017, 28(11): 2905–2924. [18] TANG Duyu, QIN Bing, LIU Ting. Aspect level sentiment classification with deep memory network[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA, 2016. [19] GRAVES A, WAYNE G, REYNOLDS M, et al. Hybrid computing using a neural network with dynamic external memory[J]. Nature, 2016, 538(7626): 471–476. [20] YANG Feng, ZHANG Shiyue, ZHANG Andi, et al. Memory-augmented neural machine translation[C]//Proceedings of the 2017 Conference on Empirical Methods in [21] ·844· 智 能 系 统 学 报 第 15 卷