《智能系统学报》：记忆神经网络在机器人导航领域的应用与研究进展

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：4.85MB

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.202002020 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.tp.20200413.1849.002.html 记忆神经网络在机器人导航领域的应用与研究进展王作为2，徐征，张汝波，洪才森'，王殊 (1.天津工业大学计算机科学与技术学院，天津300387,2.天津工业大学机械工程学院博士后工作站，天津 300387,3.天津动核芯科技有限公司，天津300350,4.天津职业技术师范大学汽车与交通学院，天津300222,5.大连民族大学机电工程学院，辽宁大连116600) 摘要：记忆神经网络非常适合解决时间序列决策问题.将其用于机器人导航领域是非常有前景的新兴研究领域。本文主要讨论记忆神经网络在机器人导航领域的研究进展。给出几种基本记忆神经网络结合导航任务的工作机理，总结了不同模型的优缺点；对记忆神经网络在导航领域的研究进展进行简要综述：进一步介绍导航验证环境的发展：最后梳理了记忆神经网络在导航问题所面临的复杂性挑战，并预测了记忆神经网络在导航领域未来的发展方向。关键词：记忆神经网络：机器人导航：深度强化学习：可微神经计算机：可微神经字典：深度学习：强化学习：记忆网络中图分类号：TP183 文献标志码：A文章编号：1673-4785(2020)05-0835-12 中文引用格式：王作为，徐征，张汝波，等.记忆神经网络在机器人导航领域的应用与研究进展J几.智能系统学报，2020， 15(5):835-846. 英文引用格式：VANG Zuowei,,XU Zheng,ZHANG Rubo,.etal.Research progress and application of memory neural network in robot navigation[Jl.CAAI transactions on intelligent systems,2020,15(5):835-846. Research progress and application of memory neural network in robot navigation WANG Zuowei,XU Zheng,ZHANG Rubo,HONG Caisen',WANG Shu' (1.School of Computer Science and Technology,Tianjin Polytechnic University,Tianjin 300387,China;2.College of Mechanical Engineering Post-doctoral Research Station,Tianjin Polytechnic University,Tianjin 300387,China;3.DongHexin Technology Co., Ltd.,Tianjin 300350,China;4.College of Automobile and Transportation,Tianjin University of Technology and Education,Tianjin 300222,China:5.College of Mechanical and Electrical Engineering,Dalian Minzu University,Dalian 116600,China) Abstract:Memory networks are a relatively new class of models designed to alleviate the problem of learning long-term dependencies in sequential data,by providing an explicit memory representation for each token in the sequence,and they can be used for learning navigation policies in an unstructured terrain,which is a complex task.Memory neural net- works are highly suitable for solving time series decision-making problems,and their application in robot navigation is a very promising and emerging research field.The research progress of memory neural networks in the field of robot nav- igation is primarily discussed in this paper.First,the working mechanism of several basic memory neural networks used for robot navigationis introduced,and the advantages and disadvantages of different models are summarized.Then,the research progress of memory neural network in navigation field is briefly reviewed,and the development of navigation verification environment is discussed.Finally,the complex challenges faced by memory neural networks in navigation are summarized,and the future development of memory neural networks in navigation field is predicted. Keywords:memory neural network;robot navigation:deep reinforcement learning:differentiable neural computer;dif- ferentiable neural dictionary;deep learning;reinforcement learning;memory networks 收稿日期：2020-02-27.网络出版日期：2020-04-14. 自主机器人导航所在环境一般是未知的、动基金项目：国家自然科学基金面上项目(61972456)：天津市教委科研计划项目(2019KJ018);天津工业大学学位与态的、部分可观测的。自主机器人导航需要具备研究生教育改革项目(Y20180104). 通信作者：王作为.E-mail:wangzuowei@126.com 以下能力：探索未知环境、构建地图、目标导航的

DOI: 10.11992/tis.202002020 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20200413.1849.002.html 记忆神经网络在机器人导航领域的应用与研究进展王作为1,2，徐征3,4，张汝波5 ，洪才森1 ，王殊1 （1. 天津工业大学计算机科学与技术学院，天津 300387; 2. 天津工业大学机械工程学院博士后工作站，天津 300387; 3. 天津动核芯科技有限公司，天津 300350; 4. 天津职业技术师范大学汽车与交通学院，天津 300222; 5. 大连民族大学机电工程学院，辽宁大连 116600）摘要：记忆神经网络非常适合解决时间序列决策问题，将其用于机器人导航领域是非常有前景的新兴研究领域。本文主要讨论记忆神经网络在机器人导航领域的研究进展。给出几种基本记忆神经网络结合导航任务的工作机理，总结了不同模型的优缺点；对记忆神经网络在导航领域的研究进展进行简要综述；进一步介绍导航验证环境的发展；最后梳理了记忆神经网络在导航问题所面临的复杂性挑战，并预测了记忆神经网络在导航领域未来的发展方向。关键词：记忆神经网络；机器人导航；深度强化学习；可微神经计算机；可微神经字典；深度学习；强化学习；记忆网络中图分类号：TP183 文献标志码：A 文章编号：1673−4785(2020)05−0835−12 中文引用格式：王作为, 徐征, 张汝波, 等. 记忆神经网络在机器人导航领域的应用与研究进展 [J]. 智能系统学报, 2020, 15(5): 835–846. 英文引用格式：WANG Zuowei, XU Zheng, ZHANG Rubo, et al. Research progress and application of memory neural network in robot navigation[J]. CAAI transactions on intelligent systems, 2020, 15(5): 835–846. Research progress and application of memory neural network in robot navigation WANG Zuowei1,2 ，XU Zheng3,4 ，ZHANG Rubo5 ，HONG Caisen1 ，WANG Shu1 (1. School of Computer Science and Technology, Tianjin Polytechnic University, Tianjin 300387, China; 2. College of Mechanical Engineering Post-doctoral Research Station, Tianjin Polytechnic University, Tianjin 300387, China; 3. DongHexin Technology Co., Ltd., Tianjin 300350, China; 4. College of Automobile and Transportation, Tianjin University of Technology and Education, Tianjin 300222, China; 5. College of Mechanical and Electrical Engineering, Dalian Minzu University, Dalian 116600, China) Abstract: Memory networks are a relatively new class of models designed to alleviate the problem of learning long-term dependencies in sequential data, by providing an explicit memory representation for each token in the sequence, and they can be used for learning navigation policies in an unstructured terrain, which is a complex task. Memory neural networks are highly suitable for solving time series decision-making problems, and their application in robot navigation is a very promising and emerging research field. The research progress of memory neural networks in the field of robot navigation is primarily discussed in this paper. First, the working mechanism of several basic memory neural networks used for robot navigationis introduced, and the advantages and disadvantages of different models are summarized. Then, the research progress of memory neural network in navigation field is briefly reviewed, and the development of navigation verification environment is discussed. Finally, the complex challenges faced by memory neural networks in navigation are summarized, and the future development of memory neural networks in navigation field is predicted. Keywords: memory neural network; robot navigation; deep reinforcement learning; differentiable neural computer; differentiable neural dictionary; deep learning; reinforcement learning; memory networks 自主机器人导航所在环境一般是未知的、动态的、部分可观测的。自主机器人导航需要具备以下能力：探索未知环境、构建地图、目标导航的收稿日期：2020−02−27. 网络出版日期：2020−04−14. 基金项目：国家自然科学基金面上项目 (61972456)；天津市教委科研计划项目（2019KJ018）；天津工业大学学位与研究生教育改革项目（Y20180104）. 通信作者：王作为. E-mail：wangzuowei@126.com. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

·836· 智能系统学报第15卷路径规划与执行、环境变化的适应性。传统的导航方法基于全局定位与地图构建记忆记忆记忆 (simultaneous localization and mapping,SLAM), SLAM由于定位飘移、传感器噪音、环境改变以下文上下文下文及有限的计算规划能力使得该方法很难推广到实 CN N 际应用四。近年来，由于神经网络的强大的表征能力，尤其是强化学习与深度神经网络的结合使得深度强化学习(deep reinforcement learning, MON RMON FRMQN DRL)广泛应用到机器人导航领域[21。然而图1 MemNN-+DRL结构 DRL基于当前感知做出决策，很难具有泛化性和 Fig.1 MemNN+DRL structure 推理能力，并且很难应用于部分观测环境中。递 MemNN+DRL结构采用一个递归控制器归神经网络(recurrent neural network,RNN)和长短 DRL与外部记忆MemNN进行交互，基于时间上时记忆神经网络(long short--term memory,.LSTM) 下文实现寻址机制，有效处理了部分观测、长时与DRL相结合在机器人导航领域虽然取得了一依赖导航策略以及相似地图的知识迁移问题。定进展，然而隐藏节点和权重所能记住的数据 MemNN+DRL的导航工作机理如下：将机器人最十分有限，且只能记住一些有一定内在规律和特近遇到的M步观察经过编码写入到MemNN中，征的信息，对于长程记忆则显得无能为力。相当于M步的情节记忆，采用强化学习算法端对为了解决神经网络长程记忆的问题，近3年端训练参数，最终获得导航能力。读写机制如图2 涌现出了各种的记忆神经网络(memory neural net-. 所示。 works,MNN)模型，MNN采用外部记忆矩阵实 p. D 现，将记忆与计算分离开来，采用可微的读写机 Soft max 制访问外部记忆网络，整个系统可微，允许端对端的训练。MNN与DRL结合非常适合解决时间序列决策问题，将其用于导航领域是非常有前景 (a写人 (b)读取的新兴研究领域8。图2 MemNN读写机制 Fig.2 Read and write mechanism of MemNN 1MNN结合导航任务的工作机理具体模块功能如下。近年来将MNN用于导航领域主要有3种神 1)编码模块经网络模型：MemNN(memory networks)、DNC(dif- 将原始的图像信息提取出高层特征信息。将 ferentiable neural computer)DND(differentiable 一个c通道的h×w维的图像X,编码成一个e维 neural dictionary),下面分别介绍将其用于导航领特征向量e 域的工作机理。 e=(X) (1) 1.1 MemNN在导航中的应用 2)写记忆操作 Sukhbaatar等io首先提出MemNN,这是一种将最近M步的观察实现矩阵转换，以键记忆模块和值记忆模块形式分别存储到记忆中，如式无写操作的记忆结构，记忆存储是固定的。网络 (2)、(3): 学到的内容是如何从固定记忆池中去访问和读取 Mey =WheyE (2) 信息，而不是如何去改写内容。该模型被广泛用 M =WaE (3) 于情感分析山、对话训练等领域。Oh等1首式中：矩阵M和M分别代表了键记忆模块和次将MemNN与DRL相结合并在三维Mine- 值记忆模块；Wg和W是相应的线性转移矩阵； craft环境中实现导航任务。相继提出了：记忆 E,是最近M次观察的特征向量序列。 Q网络(memory Q-network,MQN)、循环记忆Q网 3)读记忆操作络(recurrent memory Q-network,RMQN)以及反馈机器人导航过程中，根据最近几步的观测值循环记忆Q网络(feedback recurrent memory Q-net- 计算上下文向量h,然后通过计算上下文向量 work,FRMQN),如图1所示。 ,和键记忆模块My之间的内积，再归一化后得

路径规划与执行、环境变化的适应性。传统的导航方法基于全局定位与地图构建 (simultaneous localization and mapping，SLAM)， SLAM 由于定位飘移、传感器噪音、环境改变以及有限的计算规划能力使得该方法很难推广到实际应用[1]。近年来，由于神经网络的强大的表征能力，尤其是强化学习与深度神经网络的结合使得深度强化学习 (deep reinforcement learning， DRL) 广泛应用到机器人导航领域[ 2 - 5 ]。然而 DRL 基于当前感知做出决策，很难具有泛化性和推理能力，并且很难应用于部分观测环境中。递归神经网络 (recurrent neural network,RNN) 和长短时记忆神经网络 (long short-term memory, LSTM) 与 DRL 相结合在机器人导航领域虽然取得了一定进展[6-7] ，然而隐藏节点和权重所能记住的数据十分有限，且只能记住一些有一定内在规律和特征的信息，对于长程记忆则显得无能为力。为了解决神经网络长程记忆的问题，近 3 年涌现出了各种的记忆神经网络 (memory neural networks，MNN) 模型，MNN 采用外部记忆矩阵实现，将记忆与计算分离开来，采用可微的读写机制访问外部记忆网络，整个系统可微，允许端对端的训练。MNN 与 DRL 结合非常适合解决时间序列决策问题，将其用于导航领域是非常有前景的新兴研究领域[8-9]。 1 MNN 结合导航任务的工作机理近年来将 MNN 用于导航领域主要有 3 种神经网络模型：MemNN(memory networks)、DNC(differentiable neural computer) 以及 DND(differentiable neural dictionary)，下面分别介绍将其用于导航领域的工作机理。 1.1 MemNN 在导航中的应用 Sukhbaatar 等 [10] 首先提出 MemNN，这是一种无写操作的记忆结构，记忆存储是固定的。网络学到的内容是如何从固定记忆池中去访问和读取信息，而不是如何去改写内容。该模型被广泛用于情感分析[11] 、对话训练[12] 等领域。Oh 等 [13] 首次将 MemNN 与 DRL 相结合并在三维 Minecraft 环境中实现导航任务。相继提出了：记忆 Q 网络 (memory Q-network，MQN)、循环记忆 Q 网络 (recurrent memory Q-network，RMQN) 以及反馈循环记忆 Q 网络 (feedback recurrent memory Q-network，FRMQN)，如图 1 所示。 Q CNN MQN xt 记忆上下文 Q CNN RMQN xt 记忆上下文 Q CNN FRMQN xt 记忆上下文图 1 MemNN+DRL 结构 Fig. 1 MemNN+DRL structure MemNN+DRL 结构采用一个递归控制器 DRL 与外部记忆 MemNN 进行交互，基于时间上下文实现寻址机制，有效处理了部分观测、长时依赖导航策略以及相似地图的知识迁移问题。 MemNN+DRL 的导航工作机理如下：将机器人最近遇到的 M 步观察经过编码写入到 MemNN 中，相当于 M 步的情节记忆，采用强化学习算法端对端训练参数，最终获得导航能力。读写机制如图 2 所示。 Wkey Wval M blocks Soft max φ Xt ht pt ot Wval t Mval t Mkey t Wkey t (a) 写入 (b) 读取图 2 MemNN 读写机制 Fig. 2 Read and write mechanism of MemNN 具体模块功能如下。 1) 编码模块将原始的图像信息提取出高层特征信息。将一个 c 通道的 h×w 维的图像 Xt 编码成一个 e 维特征向量 et： et = φ enc (Xt) (1) 2) 写记忆操作将最近 M 步的观察实现矩阵转换，以键记忆模块和值记忆模块形式分别存储到记忆中，如式 (2)、(3)： M key t = WkeyEt (2) Mval t = WvalEt (3) M key t Mval t Wkey Wval 式中：矩阵和分别代表了键记忆模块和值记忆模块；和是相应的线性转移矩阵； Et 是最近 M 次观察的特征向量序列。 3) 读记忆操作 M key t 机器人导航过程中，根据最近几步的观测值计算上下文向量 ht，然后通过计算上下文向量 ht 和键记忆模块之间的内积，再归一化后得 ·836· 智能系统学报第 15 卷

第5期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·837· 到一组注意力权重p,即实现了注意力机制(at- 特征向量，利用这个特征向量0，产生相应的Q值 tention mechanism)。通过这种软注意力机制，机输出，实现动作选择。这里的4，是一个估计的状器人可以找到与当前观测向量五，相关的那一部态行为值函数，用MLP多重前向网络实现。如分记忆，即环境中的定位过程。读操作的输出0，式(7所示：利用注意力权重P,和值记忆模块M求出线性累加 g:=f(Whh,+0.) (7) 和。其中注意力权重公式和输出式分别为 q=Wag 式中：W、W是其权值，最后一层利用softmax作 exp(h'Mi] Pu= (4) 为输出。利用目标值函数和当前值函数的误差来 ∑exp(kM) 训练整个模型，整个过程数据流通非常平滑，全程可微，此模型可以利用误差反向传播进行训 0 MY P (5) 练，最终优化Wo、W、W、W9矩阵。 4)注意力机制 1.2DNC在导航中的应用注意力机制在文本识别、图像识别、问答系 Google DeepMind在Nature首次提出了统、机器翻译中被广泛深入研究1。注意力机 DNC模型2o,。其强大的推理能力使其在自然语制由一个注意力权重表示，越大的权重代表对应言理解、算法推理、视觉推理中被广泛深人研位置ⅰ越重要。在导航问题中，注意力机制不仅究2-21。DNC具有递归神经控制器，可以通过执关注当前观测值与记忆模块的匹配度，而且考虑行可微的读操作和写操作去访问外部记忆资源。之前几步观测序列与记忆模块的匹配度，因此是 DNC结构如图3所示。a为递归控制器模块，其一种基于时间序列的注意力机制。在FRMON 输入为外部输入向量和从记忆中读出R维向量，中，采用LSTM结构的注意力机制，如式(6)所示：输出为外部输出向量和交互参量，这些交互参量 [hc]=LSTM([ero-1].h1.cm1) (6) 用来确定读、写操作的参数。b为多个读头和一其中，上一步召回的记忆o1作为LSTM输入的个写头，用来实现对记忆的读写操作。℃为记忆一部分，这允许FRMON不仅根据当前的观测序模块，是一个N×W的记忆矩阵。d是每个记忆位列还根据之前检索到的记忆来实现多级推理过置的使用度向量，用来记录目前每个记忆位置的程，这与MemNN中的多级跳结构非常类似。使用情况，其中时间链接矩阵记录了写入的顺 5)预测行为值函数序，时间顺序用箭头表示。Parisotto!261首次将记忆模块的输出是0，它表示了概率统计上 DNC用于导航任务，将记忆模块看作神经地图的机器人的记忆模块和当前上下文输入最相关的 (neural map),下面分别对每个模块进行说明。 a.递归控制器 b.读写头 c.记忆体d.时间链接矩阵输出写向量擦除向量写操作写关键字交互参量读关键字读取模式读操作1 读出读关键字读操作2 ◆ 向量读取模式口输入读向量图3DNC结构 Fig.3 DNC structure 1)递归控制器量，机器人控制器根据当前输入向量S,和，来输每个时间步1控制器从环境接收当前感知向出向量c。c,用来得到策略输出π，(ds)。另外，控量，机器人首先根据当前感知向量5，和当前的制器也输出一个交互向量E,E,定义了当前时间全局读向量，产生一个上下文向量q,接着通过步该如何与记忆交互。控制器可以采用任何神经读头从上一时刻神经地图M,中读取R维读入向网络结构实现，例如：CNN结构、LSTM结构或者

Mval t 到一组注意力权重 pt,i，即实现了注意力机制 (attention mechanism)。通过这种软注意力机制，机器人可以找到与当前观测向量 ht 相关的那一部分记忆，即环境中的定位过程。读操作的输出 ot 利用注意力权重 Pt 和值记忆模块求出线性累加和。其中注意力权重公式和输出式分别为 pt,i = exp( h T t M key t [i] ) ∑M j=1 exp( h T t M key t [j] ) (4) ot = Mval t Pt (5) 4) 注意力机制注意力机制在文本识别、图像识别、问答系统、机器翻译中被广泛深入研究[14-18]。注意力机制由一个注意力权重表示，越大的权重代表对应位置 i 越重要。在导航问题中，注意力机制不仅关注当前观测值与记忆模块的匹配度，而且考虑之前几步观测序列与记忆模块的匹配度，因此是一种基于时间序列的注意力机制。在 FRMQN 中，采用 LSTM 结构的注意力机制，如式 (6) 所示： [ht , ct] = LSTM([et ,ot−1],ht−1, ct−1) (6) 其中，上一步召回的记忆 ot−1 作为 LSTM 输入的一部分，这允许 FRMQN 不仅根据当前的观测序列还根据之前检索到的记忆来实现多级推理过程，这与 MemNN 中的多级跳结构非常类似[19]。 5) 预测行为值函数记忆模块的输出是 ot，它表示了概率统计上的机器人的记忆模块和当前上下文输入最相关的特征向量，利用这个特征向量 ot 产生相应的 Q 值输出，实现动作选择。这里的 qt 是一个估计的状态行为值函数，用 MLP 多重前向网络实现。如式 (7) 所示： gt = f(Whht + ot) qt = Wq gt (7) 式中：W h 、W q 是其权值，最后一层利用 softmax 作为输出。利用目标值函数和当前值函数的误差来训练整个模型，整个过程数据流通非常平滑，全程可微，此模型可以利用误差反向传播进行训练，最终优化 W key 、W val 、W h 、W q 矩阵。 1.2 DNC 在导航中的应用 Google DeepMind 在 Nature 首次提出了 DNC 模型[20]。其强大的推理能力使其在自然语言理解、算法推理、视觉推理中被广泛深入研究 [21-25]。DNC 具有递归神经控制器，可以通过执行可微的读操作和写操作去访问外部记忆资源。 DNC 结构如图 3 所示。a 为递归控制器模块，其输入为外部输入向量和从记忆中读出 R 维向量，输出为外部输出向量和交互参量，这些交互参量用来确定读、写操作的参数。b 为多个读头和一个写头，用来实现对记忆的读写操作。c 为记忆模块，是一个 N×W 的记忆矩阵。d 是每个记忆位置的使用度向量，用来记录目前每个记忆位置的使用情况，其中时间链接矩阵记录了写入的顺序，时间顺序用箭头表示。Parisotto[ 2 6 ] 首次将 DNC 用于导航任务，将记忆模块看作神经地图 (neural map)，下面分别对每个模块进行说明。输出输入写向量擦除向量写关键字读关键字读取模式读关键字读取模式读向量读操作2 读操作1 写操作 b. 读/写头 c. 记忆体 d. 时间链接矩阵交互参量读出向量 a. 递归控制器图 3 DNC 结构 Fig. 3 DNC structure 1) 递归控制器每个时间步 t 控制器从环境接收当前感知向量 st，机器人首先根据当前感知向量 st 和当前的全局读向量 rt 产生一个上下文向量 qt，接着通过读头从上一时刻神经地图 Mt-1 中读取 R 维读入向 πt (a|s) 量，机器人控制器根据当前输入向量 st 和 rt 来输出向量 ct。ct 用来得到策略输出。另外，控制器也输出一个交互向量 Et，Et 定义了当前时间步该如何与记忆交互。控制器可以采用任何神经网络结构实现，例如：CNN 结构、LSTM 结构或者第 5 期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·837·

·838· 智能系统学报第15卷多级LSTM结构。此具有更好的不同环境间的知识迁移能力及适应 2)读操作动态环境的能力。然而DNC学到的参数较多，除上下文向量q,基于当前输入3，和，得到，利了学习控制器网络参数外，还要学习读写操作的用上下文向量q,和地图M,中的每一个位置特征交互参数E。 M,”做内积得到一个得分a,9。得分正则化处 1.3DND在导航中的应用理后得到在地图上所有位置的一个概率分布，即 Pritzel等P)提出了神经情节控制模型(neural 实现了软注意力机制。这个概率分布用来计算在 episodic control,.NEC),用于实现机器人导航。作所有位置特征M,”上的一个加权平均和c,。这者指出当前的深度强化学习模型存在共同的弊里读操作将神经地图看做联想记忆：机器人提供端：所有深度强化学习模型（包括MemNN、了一些不完全的信息q,读操作将返回一个与 DNC)都是参数化模型，需要采用随机梯度下降 4,最匹配的完整的记忆信息，类似于机器人可以法学习参数矩阵，如果参数矩阵较多，收敛速度回忆起当前的观察与记忆中的某些路标相似的东缓慢，尤其是导航领域存在稀疏回报问题，整个过程很难收敛。而强化学习算法本身，尤其是西。注意力权重公式和输出公式如式(8)所示， Q学习是通过值迭代学习最优策略，而表格形式其中W是权重矩阵：是最适合强化学习的知识表示形式。如果能将缓 q=W[sr,d=qM 慢更新的状态表征用深度网络表示，将迅速更新的值函数用表格的形式表示，则更为有效。因此 (8) 提出了一种无参数的记忆机构一可微神经字 G= aM 典(DND)。类似于Key-Value记忆模型，将参数表示的键（状态S)与表格表示的值（行为值函数 3)写操作 )相结合，并在机器人选择行为期间使用基于上给定机器人当前时刻1的位置(xy,写操作下文的软注意力机制来检索有用的值函数。允许的输入为：当前感知向量s,全局读向量，上下自由读写，并且采用了追加写操作，使得写操作文读向量c,和当前的神经地图中(xy)的特征向更加简单。每个行为a都有对应的DND记忆模量M,通过一个深度神经网络人产生一个新块，学习采用N步Q强化学习算法，同时采用了的c维向量w=f(s,r,c,M])。这个向量类似于DQN中的回放机制。作为新的局部(x)写候选向量。 1)NEC结构写操作利用新的特征向量”：替换机器人 NEC结构如图4所示。该结构分成3个部神经地图中(x)位置的特征向量，这是一种强写分：卷积神经网络；一系列DND记忆模块（即行入机制。写操作修改了1+1时刻的神经地图为记忆模块M):以及一个最终的网络，该网络将 M#1。M+1除了位置(xy,)上的特征信息有所改动作记忆模块的读出转换成Q值。卷积神经网变，其余与旧神经地图一致，这是一个局部写入络将视觉感知s,转换成关键字h,。每个行为对应操作，如式(9)所示：一个行为记忆模块M。,每个行为记忆模块M。由 M= w(a,b)=(）键记忆模块h,和值记忆模块Q,组成。记忆模块 M,(a,b)≠(，) (9) 从关键字h映射到值Q,是一个联想关系，与数据 4)注意力机制字典类似，根据当前关键字h,在记忆模块M,中读出相应的值Q,记忆模块M。的输出即为对应 DNC构建了3种注意力机制：基于内容的注行为a的Q(s,ad)值，不同的记忆M,共享相同的卷意力机制、时间机制和动态记忆分配机制。其中积网络。机器人根据最高的Q值估计来决定在基于内容寻址和动态记忆分配的方式决定写入记每一步中执行哪个动作，然后根据N步Q学习更忆的位置；基于内容寻址和时间链接矩阵决定读新值函数和相应的权值。出记忆位置。注意力机制由交互向量参数E,决定。实验在三维ViZDoom环境下验证，对于更加 Q(s,a)=∑Q 复杂的迷宫环境，其长时记忆能力、泛化性能力均优于FRMON。这是由于环境越来越大，越来 k(h,h) 越复杂，需要记忆的知识越来越多，MemNN记忆 ∑k(h,h) 结构只能记忆M步历史，而DNC可以记忆整个图4NEC结构地图，并且可以根据环境改变动态修改地图，因 Fig.4 NEC structure

多级 LSTM 结构。 2) 读操作 Mt (x,y) at (x,y) Mt (x,y) 上下文向量 qt 基于当前输入 st 和 rt 得到，利用上下文向量 qt 和地图 Mt 中的每一个位置特征做内积得到一个得分。得分正则化处理后得到在地图上所有位置的一个概率分布，即实现了软注意力机制。这个概率分布用来计算在所有位置特征上的一个加权平均和 ct。这里读操作将神经地图看做联想记忆：机器人提供了一些不完全的信息 qt，读操作将返回一个与 qt 最匹配的完整的记忆信息，类似于机器人可以回忆起当前的观察与记忆中的某些路标相似的东西。注意力权重公式和输出公式如式（8）所示，其中 W 是权重矩阵： qt = W [st ,rt],a (x,y) t = qt · M (x,y) t , α (x,y) t = e a (x,y) t ∑ (w,z) e a (w,z) t ct = ∑ (x,y) α (x,y) t M (x,y) t (8) 3) 写操作 M (xt ,yt) t w (xt ,yt) t+1 = fw ([st ,rt , ct , M (xt ,yt) t ]) 给定机器人当前时刻 t 的位置 (xt ,yt )，写操作的输入为：当前感知向量 st，全局读向量 rt，上下文读向量 ct，和当前的神经地图中 (xt ,yt ) 的特征向量，通过一个深度神经网络 fw 产生一个新的 c 维向量。这个向量作为新的局部 (xt ,yt ) 写候选向量。 w (xt ,yt) 写操作利用新的特征向量 t+1 替换机器人神经地图中 (xt ,yt ) 位置的特征向量，这是一种强写入机制。写操作修改了 t+1 时刻的神经地图 Mt+1。Mt+1 除了位置 (xt ,yt ) 上的特征信息有所改变，其余与旧神经地图一致，这是一个局部写入操作，如式（9）所示： M (a,b) t+1 =    w (xt ,yt) t+1 , (a,b) = (xt , yt) M (a,b) t , (a,b) , (xt , yt) (9) 4) 注意力机制 DNC 构建了 3 种注意力机制：基于内容的注意力机制、时间机制和动态记忆分配机制。其中基于内容寻址和动态记忆分配的方式决定写入记忆的位置；基于内容寻址和时间链接矩阵决定读出记忆位置。注意力机制由交互向量参数 Et 决定。实验在三维 ViZDoom 环境下验证，对于更加复杂的迷宫环境，其长时记忆能力、泛化性能力均优于 FRMQN。这是由于环境越来越大，越来越复杂，需要记忆的知识越来越多，MemNN 记忆结构只能记忆 M 步历史，而 DNC 可以记忆整个地图，并且可以根据环境改变动态修改地图，因此具有更好的不同环境间的知识迁移能力及适应动态环境的能力。然而 DNC 学到的参数较多，除了学习控制器网络参数外，还要学习读写操作的交互参数 Et。 1.3 DND 在导航中的应用 Pritzel 等 [27] 提出了神经情节控制模型 (neural episodic control，NEC)，用于实现机器人导航。作者指出当前的深度强化学习模型存在共同的弊端：所有深度强化学习模型 (包括 MemNN 、 DNC) 都是参数化模型，需要采用随机梯度下降法学习参数矩阵，如果参数矩阵较多，收敛速度缓慢，尤其是导航领域存在稀疏回报问题，整个过程很难收敛。而强化学习算法本身，尤其是 Q 学习是通过值迭代学习最优策略，而表格形式是最适合强化学习的知识表示形式。如果能将缓慢更新的状态表征用深度网络表示，将迅速更新的值函数用表格的形式表示，则更为有效。因此提出了一种无参数的记忆机构−可微神经字典 (DND)。类似于 Key-Value 记忆模型，将参数表示的键 (状态 S) 与表格表示的值 (行为值函数 V) 相结合，并在机器人选择行为期间使用基于上下文的软注意力机制来检索有用的值函数。允许自由读写，并且采用了追加写操作，使得写操作更加简单。每个行为 a 都有对应的 DND 记忆模块，学习采用 N 步 Q 强化学习算法，同时采用了类似于 DQN 中的回放机制。 1)NEC 结构 NEC 结构如图 4 所示。该结构分成 3 个部分：卷积神经网络；一系列 DND 记忆模块 (即行为记忆模块 Ma )；以及一个最终的网络，该网络将动作记忆模块的读出转换成 Q 值。卷积神经网络将视觉感知 st 转换成关键字 ht。每个行为对应一个行为记忆模块 Ma，每个行为记忆模块 Ma 由键记忆模块 hi 和值记忆模块 Qi 组成。记忆模块从关键字 hi 映射到值 Qi 是一个联想关系，与数据字典类似，根据当前关键字 ht 在记忆模块 Ma 中读出相应的值 Qt，记忆模块 Ma 的输出即为对应行为 a 的 Q(s,a) 值，不同的记忆 Ma 共享相同的卷积网络。机器人根据最高的 Q 值估计来决定在每一步中执行哪个动作，然后根据 N 步 Q 学习更新值函数和相应的权值。 s h hi Qi Q (s, a)＝∑ωiQi i ∑k (h, hi ) ωi＝ k (h, hi ) j 图 4 NEC 结构 Fig. 4 NEC structure ·838· 智能系统学报第 15 卷

第5期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·839· 2)读操作调整，是一种无参数记忆结构。读操作就是在DND上将当前关键字h映射 4)参数更新为输出值Q(s,a),如式(10)所示：类似于DQN的回放机制，将每次的转移实 ∑w0,w,= k(h,h;) 例(s,a,)存储在回放缓冲区中，其中Qm(s,a (s,a)= (10) k(h,h) 作为目标函数。从回放缓冲区中随机取出的小批量样本用于反向误差更新，这里的神经网络参数这里h,是键记忆模块的第i个元素，Q,是值的更新率较小。因此是一种缓慢更新的卷积网络记忆模块的第i个元素。K(xy)是一个相似度函和迅速更新的值函数相结合的结构，该模型大大数。因此DND的读操作相当于在记忆中搜索与提高了数据有效性、提高收敛速度。 h最匹配的那些记忆，输出是记忆中对应Q,值的该方法类似于基于实例的学习，在Atari游戏加权和，这是一种基于内容的注意力机制，没有中验证，在数据有效性和收敛速度方面，优于DQN、考虑时间相关性。从大容量的记忆里读取采用最 A3C、Prioritised DQN算法。近邻方法(k-d树，详情介绍见文献[28])。 1.4不同记忆神经网络的优缺点 3)写操作 3种记忆结构都采用了软关注度机制，利用查找结束后，将一个新的键-值对写人记忆。 DRL实现误差反向传播，整个过程均是可微的、写入的过程是一个追加(append-only)写操作，即端对端的结构。用于部分可观测导航任务均取得将键-值对分别写入到键记忆模块和值记忆模块了优于LSTM+DRL的效果。笔者分析了不同记的末尾，无需计算写入位置，简化写入操作。如忆神经网络的写操作、读操作、注意力机制、存储果键已经存在记忆中，则对应的值函数Q,根据知识、训练参数、记忆结构，以及将其应用于导航 N步Q学习更新，写入操作如式(11)：领域的各自优缺点，如表1所示。从表1可以看 2←Q+a(Q(s,a)-Q) 出，MemNN与DND存储知识是情节记忆，即存 gg0=∑gy+yame0s (11) 储了大量的经验序列，而DNC存储的是真正的空间地图。在训练时间上，DNC训练参数最多，训这里的写操作类似于Q表更新，只不过这里练时间长，因此将其用于导航领域常常出现不收的Q表示随着时间动态增长的。学习率α设置敛的问题；而DND训练参数少，训练时间快，与较大，类似于快门式学习，学习过程不涉及参数基于实例的机器学习类似。表1不同记忆结构的对比 Table 1 Comparisons of different memory structures 记忆神经网络写操作读操作注意力机制存储知识训练参数记忆结构解决难题存在问题矩阵参数部分观测根据内积基于时间固定写入 Wkgy、Wa Key-Value 长时记忆、难以适应动 MemNN 运算求得上下文注情节记忆形。、W,以及 M步观察相似度意力机制神经网络结构相似地图的态环境迁移学习参数基于内容的部分观测、适应性写操注意力机制控制器网络神经网铬长时记忆、根据内积作、局部写时间链接注参数、决定读控制器+ 不同地图间 DNC 运算求得空间地图参数收敛慢操作、软写意力机制、动写的交互矩阵记忆的迁移学习、相似度入机制态记忆分参数E 结构动态环境的配机制适应性数据有效性，相似度函快门式学习简单追加卷积神经网提高收敛速记忆空间大、数+基于k-d 基于内容的逐渐增加的无参数记忆、 DND (append- 络+无参数度、部分观如何压缩树最近邻注意力机制情节记忆卷积神经网 only)写操作记忆结构测、记忆方法络参数延迟回报

2) 读操作读操作就是在 DND 上将当前关键字 h 映射为输出值 Q(s,a)，如式（10）所示： Q(s,a) = ∑ i wiQi ,wi = ∑ k(h,hi) j k(h,hj) (10) 这里 hi 是键记忆模块的第 i 个元素，Qi 是值记忆模块的第 i 个元素。K(x,y) 是一个相似度函数。因此 DND 的读操作相当于在记忆中搜索与 h 最匹配的那些记忆，输出是记忆中对应 Qi 值的加权和，这是一种基于内容的注意力机制，没有考虑时间相关性。从大容量的记忆里读取采用最近邻方法 (k-d 树，详情介绍见文献 [28])。 3) 写操作查找结束后，将一个新的键−值对写入记忆。写入的过程是一个追加 (append-only) 写操作，即将键−值对分别写入到键记忆模块和值记忆模块的末尾，无需计算写入位置，简化写入操作。如果键已经存在记忆中，则对应的值函数 Qi 根据 N 步 Q 学习更新，写入操作如式（11）： Qi ← Qi +α(Q (N) (s,a)− Qi) Q (N) (st ,a) = ∑N−1 j=0 γ j rt+j +γ Nmax a ′ Q(st+N,a ′ ) (11) α 这里的写操作类似于 Q 表更新，只不过这里的 Q 表示随着时间动态增长的。学习率设置较大，类似于快门式学习，学习过程不涉及参数调整，是一种无参数记忆结构。 4) 参数更新 Q (N) (s,a) 类似于 DQN 的回放机制，将每次的转移实例 (st , at , rt ) 存储在回放缓冲区中，其中作为目标函数。从回放缓冲区中随机取出的小批量样本用于反向误差更新，这里的神经网络参数的更新率较小。因此是一种缓慢更新的卷积网络和迅速更新的值函数相结合的结构，该模型大大提高了数据有效性、提高收敛速度。该方法类似于基于实例的学习，在 Atari 游戏中验证，在数据有效性和收敛速度方面，优于 DQN、 A3C、Prioritised DQN 算法。 1.4 不同记忆神经网络的优缺点 3 种记忆结构都采用了软关注度机制，利用 DRL 实现误差反向传播，整个过程均是可微的、端对端的结构。用于部分可观测导航任务均取得了优于 LSTM+DRL 的效果。笔者分析了不同记忆神经网络的写操作、读操作、注意力机制、存储知识、训练参数、记忆结构，以及将其应用于导航领域的各自优缺点，如表 1 所示。从表 1 可以看出，MemNN 与 DND 存储知识是情节记忆，即存储了大量的经验序列，而 DNC 存储的是真正的空间地图。在训练时间上，DNC 训练参数最多，训练时间长，因此将其用于导航领域常常出现不收敛的问题；而 DND 训练参数少，训练时间快，与基于实例的机器学习类似。表 1 不同记忆结构的对比 Table 1 Comparisons of different memory structures 记忆神经网络写操作读操作注意力机制存储知识训练参数记忆结构解决难题存在问题 MemNN 固定写入 M步观察根据内积运算求得相似度基于时间上下文注意力机制情节记忆矩阵参数 Wkey、Wval、 Wh、Wq以及神经网络参数 Key-Value 结构部分观测、长时记忆、相似地图的迁移学习难以适应动态环境 DNC 适应性写操作、局部写操作、软写入机制根据内积运算求得相似度基于内容的注意力机制、时间链接注意力机制、动态记忆分配机制空间地图控制器网络参数、决定读写的交互参数Et 神经网络控制器+ 矩阵记忆结构部分观测、长时记忆、不同地图间的迁移学习、动态环境的适应性参数收敛慢 DND 简单追加 (appendonly)写操作相似度函数+基于k-d 树最近邻方法基于内容的注意力机制逐渐增加的情节记忆快门式学习无参数记忆、卷积神经网络参数卷积神经网络+无参数记忆结构数据有效性、提高收敛速度、部分观测、延迟回报记忆空间大、如何压缩记忆第 5 期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·839·

·840· 智能系统学报第15卷 2MNN在导航领域的研究进展 2.1关注度机制的改进 Neural Slam2将SLAM与DNC深入结合， MNN的飞速发展也就是近三年的事情，这些将SLAM中的运动预测和定位嵌入到软注意力记忆结构大部分应用在自然语言处理、问题回答寻址机制中，实现有偏的读写操作，DNC作为环系统、视觉推理等领域，机器人导航领域没有得境地图的表示，整个过程采用深度强化学习A3C 到广泛关注。在有限的一些文献中，主要分成以实现，是一个端对端的训练模型，Neural Slam模下几个改进方向。型如图5所示。 →⊙数据 +(®关联程度运动预测 E 定位 LSTM +(P测量更新 (w 输出策略 (e' 记忆更新与预测值（π -(a 图5 Neural Slam结构 Fig.5 Neural Slam structure 在每个时间步中，将输入直接提供给LSTM 有更长久保持记忆的能力。单元，它给出一个隐藏状态。使用这个隐藏状 2)主动神经定位态h来发出一组交互参量，根据这些交互参量文献[30]进一步对绝对位置进行改进，提出 k、B、g、p、、e、d由读头、写头计算其读权了一种“主动神经定位器”，它是一种完全可微的重w心，和写权重w.,这里与Parisotto等2所提出神经网铬，能够准确有效地进行定位。该模型融的神经地图的区别是：神经地图中的位置信息合了传统的基于滤波的定位方法的思想，利用具 (xy)事先已知，而Neural Slam利用SLAM计算其有乘法交互的状态结构化信念来传播信念，并将位置的信念值。其与策略模型相结合，利用最少的步骤精确地进该方法优点是将SLAM与DNC很好地融合，行定位。采用端到端强化学习的方法对主动神经改进了DNC的软注意力机制，使得机器人不断更定位器进行训练。新其位置信念。缺陷是输入只是激光测距信息， 2.3与VN的融合没有高维视觉信息，构建的是一个度量地图。传统深度强化学习系统缺乏明确的规划计 2.2写入机制的改进算。Tamar等s提出了值迭代网络(value itera- 如前所述，神经地图的主要缺点是机器人时 tion networks,.VIN),这是一个嵌入了“规划模块” 刻知道自己的绝对位置，并且其写入机制是一种的完全可微的神经网络。方法的巧妙之处是观察强写入机制（只要重新写入，之前的信息就被替到经典的值迭代(VI)规划算法可以由特定类型代)，难以实现长期信息的维护。因此Emilio Parisotto在进一步的研究工作中26,0，将DNC看的CNN表示，通过在标准的前馈网络中嵌入VI 做一个2维空间地图，采用了基于GU的写操作网络模块，使得策略训练起来很简单，VIN策略和自我为中心的神经地图(ego neural map)的模可以更好地泛化到新的、不可见的环境。但是该型，采用A2C算法学习。在更复杂的3维ViZ- 方法由于没有记忆模块，因此无法适应部分可观 Doom环境中验证，性能优于传统的Neural Map 测环境。下面是将VN与MNN相结合进行改进。方法。 1)CMP 1)软写入机制 Gupta等]将地图构建和VIN模块结合，设写操作利用新的特征向量替换记忆中当前位计了一个CMP(cognitive mapping and planning)结置的向量，这是一种强写入机制，强写入机制不构用来实现部分观测环境下的导航任务，采用模保留之前的记忆内容。文献[31]提出基于GRU 仿学习DAGGER算法实现真实室内场景下的导的写入机制。GRU写操作在递归神经网络中有航，性能优于LSTM+DRL模型，CMP结构如图6 着较长的研究历史，GRU写操作比强写入机制具所示

2 MNN 在导航领域的研究进展 MNN 的飞速发展也就是近三年的事情，这些记忆结构大部分应用在自然语言处理、问题回答系统、视觉推理等领域，机器人导航领域没有得到广泛关注。在有限的一些文献中，主要分成以下几个改进方向。 2.1 关注度机制的改进 Neural Slam[29] 将 SLAM 与 DNC 深入结合，将 SLAM 中的运动预测和定位嵌入到软注意力寻址机制中，实现有偏的读写操作，DNC 作为环境地图的表示，整个过程采用深度强化学习 A3C 实现，是一个端对端的训练模型，Neural Slam 模型如图 5 所示。 LSTM 输出策略与预测值测量更新记忆更新数据关联程度运动预测 & 定位 M s t h t g t β t k t ρ t ζ t e t a t r t−1 r t π t V t wt r wt w 图 5 Neural Slam 结构 Fig. 5 Neural Slam structure k t、β t、g t、ρ t、ζ t、e t、a t w t r w t w 在每个时间步中，将输入直接提供给 LSTM 单元，它给出一个隐藏状态 h t。使用这个隐藏状态 h t 来发出一组交互参量，根据这些交互参量由读头、写头计算其读权重和写权重，这里与 Parisotto 等 [26] 所提出的神经地图的区别是：神经地图中的位置信息 (x,y) 事先已知，而 Neural Slam 利用 SLAM 计算其位置的信念值。该方法优点是将 SLAM 与 DNC 很好地融合，改进了 DNC 的软注意力机制，使得机器人不断更新其位置信念。缺陷是输入只是激光测距信息，没有高维视觉信息，构建的是一个度量地图。 2.2 写入机制的改进如前所述，神经地图的主要缺点是机器人时刻知道自己的绝对位置，并且其写入机制是一种强写入机制 (只要重新写入，之前的信息就被替代)，难以实现长期信息的维护。因此 Emilio Parisotto 在进一步的研究工作中[26, 30] ，将 DNC 看做一个 2 维空间地图，采用了基于 GRU 的写操作和自我为中心的神经地图 (ego neural map) 的模型，采用 A2C 算法学习。在更复杂的 3 维 ViZDoom 环境中验证，性能优于传统的 Neural Map 方法。 1) 软写入机制写操作利用新的特征向量替换记忆中当前位置的向量，这是一种强写入机制，强写入机制不保留之前的记忆内容。文献 [31] 提出基于 GRU 的写入机制。GRU 写操作在递归神经网络中有着较长的研究历史，GRU 写操作比强写入机制具有更长久保持记忆的能力。 2) 主动神经定位文献 [30] 进一步对绝对位置进行改进，提出了一种“主动神经定位器”，它是一种完全可微的神经网络，能够准确有效地进行定位。该模型融合了传统的基于滤波的定位方法的思想，利用具有乘法交互的状态结构化信念来传播信念，并将其与策略模型相结合，利用最少的步骤精确地进行定位。采用端到端强化学习的方法对主动神经定位器进行训练。 2.3 与 VIN 的融合传统深度强化学习系统缺乏明确的规划计算。Tamar 等 [32] 提出了值迭代网络 (value iteration networks, VIN)，这是一个嵌入了“规划模块” 的完全可微的神经网络。方法的巧妙之处是观察到经典的值迭代 (VI) 规划算法可以由特定类型的 CNN 表示，通过在标准的前馈网络中嵌入 VI 网络模块，使得策略训练起来很简单，VIN 策略可以更好地泛化到新的、不可见的环境。但是该方法由于没有记忆模块，因此无法适应部分可观测环境。下面是将 VIN 与 MNN 相结合进行改进。 1) CMP Gupta 等 [33] 将地图构建和 VIN 模块结合，设计了一个 CMP(cognitive mapping and planning) 结构用来实现部分观测环境下的导航任务，采用模仿学习 DAGGER 算法实现真实室内场景下的导航，性能优于 LSTM+DRL 模型，CMP 结构如图 6 所示。 ·840· 智能系统学报第 15 卷

第5期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·841· 值迭代网络 VⅥ模型 VI模型前个价值便新后的价值 R 执行MDP 回报 0 2 矿观察 Φ(s) 注意力机制策略 (al (s).w(s)) 迭代K次图6 CMP结构 Fig.6 CMP structure 图6中模型的主要改进之处如下： 2)MACN 地图构建利用机器人的观察值得到，生成一 Khan等B将DNC与VN相结合应用到部分个以自我为中心的多尺度信念地图。地图是一个可观测环境下的导航问题，提出了一种记忆扩展二维的空间记忆结构，将一个三维环境投射到二控制网络(memory augmented control network, 维栅格环境中去。信念更新方式是训练一个卷积 MACN)。结构如图7所示，该方法并没有尝试将神经网络根据观察到的第一人称视图来预测更新。一个三维环境投射为二维栅格环境，而是直接计规划器利用自我为中心的多尺度信念地图和算环境的信念空间，并把这种信念值存入一个可目标位置来规划当前动作。规划器采用VⅥI模型，微记忆DNC中，采用监督学习实现了连续控制的使用一个可训练、可微的分层的值迭代网络。机器人在一个三维环境下的导航任务。 V1模型访间访问模型模型卷积 (1) (+1) 带记忆的访问模型输出传感器 Q表更新后动作行为表的预润网络值表 1来自VI 传感器同奖励 1的输入权值输入() 网络（仁1）第K次迭代低层特征图7MACN结构 Fig.7 MACN structure MACN是利用VI模块来学习局部信念值，并 models,GTMs)的构建在复杂的部分观测三维环将这种局部信念值存入一个可微记忆DNC中，境下是非常困难的。大多数GTMs,例如隐马尔 DNC描述了整个环境的信念空间。这恰恰是采可夫模型3和卡尔曼滤波器及其非线性扩展刀用了分层强化学习中option的思想B,更适合高这些模型中使用的固定阶马尔可夫假设不足以描维度的状态空间和行为空间。述实际系统的特性。递归神经网络比固定阶马尔规划采用了分层的结构：低层采用VN实现科夫假设约束的模型具有显著的优势，最近的局部规划，高层利用DNC学习全局规划。低层规 GTMs,例如变分递归神经网络B1和深度卡尔曼划模块利用丰富表征的特征信息计算局部环境的滤波器都是建立在递归神经网络之上，原则上最优策略，高层规划将得到的局部策略和当前的这些递归神经网络可以解决变阶马尔科夫问题。稀疏表征作为输入，采用基于DNC的记忆模块，然而由于其参数太多使得实际应用起来效率极来产生一个全局环境的最优策略。低。Gemici等o将记忆神经网络与生成时间模 2.4与基于模型的强化学习结合型相结合，提出了带记忆的时间生成模型(GTMMs), 基于模型的强化学习对于实现导航任务非常该模型实现了三维环境的感知建模，但没有实现有效。然而生成时间模型(generative temporal 导航任务。Fraccaro等4)将生成时间模型与

注意力机制执行 MDP 观察 fR fP R M V * P 策略值迭代网络 VI 模型回报 R P Q V 前个价值迭代 K 次更新后的价值 VI 模型 Φ (s) ψ (s) πre(a|ϕ (s), ψ (s)) 图 6 CMP 结构 Fig. 6 CMP structure 图 6 中模型的主要改进之处如下：地图构建利用机器人的观察值得到，生成一个以自我为中心的多尺度信念地图。地图是一个二维的空间记忆结构，将一个三维环境投射到二维栅格环境中去。信念更新方式是训练一个卷积神经网络根据观察到的第一人称视图来预测更新。规划器利用自我为中心的多尺度信念地图和目标位置来规划当前动作。规划器采用 VI 模型，使用一个可训练、可微的分层的值迭代网络。 2) MACN Khan 等 [34] 将 DNC 与 VIN 相结合应用到部分可观测环境下的导航问题，提出了一种记忆扩展控制网络 (memory augmented control network， MACN)。结构如图 7 所示，该方法并没有尝试将一个三维环境投射为二维栅格环境，而是直接计算环境的信念空间，并把这种信念值存入一个可微记忆 DNC 中，采用监督学习实现了连续控制的机器人在一个三维环境下的导航任务。网络带记忆的访问模型传感器传感器同奖励权值输入 (i) 卷积预测值表 Q 表 VI 模型更新后的预测值表访问模型 (t−1) 访问模型 (t+1) 网络 (t−1) 输出动作行为低层特征来自 VI 的输入第 K 次迭代图 7 MACN 结构 Fig. 7 MACN structure MACN 是利用 VI 模块来学习局部信念值，并将这种局部信念值存入一个可微记忆 DNC 中， DNC 描述了整个环境的信念空间。这恰恰是采用了分层强化学习中 option 的思想[35] ，更适合高维度的状态空间和行为空间。规划采用了分层的结构：低层采用 VIN 实现局部规划，高层利用 DNC 学习全局规划。低层规划模块利用丰富表征的特征信息计算局部环境的最优策略，高层规划将得到的局部策略和当前的稀疏表征作为输入，采用基于 DNC 的记忆模块，来产生一个全局环境的最优策略。 2.4 与基于模型的强化学习结合基于模型的强化学习对于实现导航任务非常有效。然而生成时间模型 (generative temporal models，GTMs) 的构建在复杂的部分观测三维环境下是非常困难的。大多数 GTMs，例如隐马尔可夫模型[36] 和卡尔曼滤波器及其非线性扩展[37] ，这些模型中使用的固定阶马尔可夫假设不足以描述实际系统的特性。递归神经网络比固定阶马尔科夫假设约束的模型具有显著的优势，最近的 GTMs，例如变分递归神经网络[38] 和深度卡尔曼滤波器[39] 都是建立在递归神经网络之上，原则上这些递归神经网络可以解决变阶马尔科夫问题。然而由于其参数太多使得实际应用起来效率极低。Gemici 等 [40] 将记忆神经网络与生成时间模型相结合，提出了带记忆的时间生成模型 (GTMMs)，该模型实现了三维环境的感知建模，但没有实现导航任务。Fraccaro 等 [ 4 1 ] 将生成时间模型与第 5 期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·841·

·842· 智能系统学报第15卷 DND相结合，由于在部分观测的三维环境中学习致预测。为了解决部分可观测问题，DeepMind团队o 生成时间模型非常困难，因此提出一个动作条件引入了一种新的模型一外部记忆、L和状态生成模型(action-conditioned generative model)来对推断网络相结合(MERLIN),MERLIN结构如环境建模，在二维和三维环境中实现上百步的一图8所示。只读策略基于记忆的预测先验分布( +输入 e,m,4-p←- ·神经网络环境 KL ↑编码 ◆记忆读/写损失 ◆测试集 (e Vr ri T 9 ◆求和后验分布↓解码策略的从上一次迭代开始 a- 损失 (le Re in det frrT ”到下一次迭代结束 /迭代结束解码损失图8 MERLIN结构 Fig.8 MERLIN structure 创新之处是提出基于记忆的预测器(memory-. 对状态变量更好地估计。在MERLIN中，策略模 based predictor,MBP)。MBP是一个无监督模型。块对记忆模块只能进行只读访问。MERLIN在部 MBP的输入来自于多模态信息（例如图像信息I 分观测三维环境中验证，机器人快速地建立一个速度信息y,回报值r-1,行为a-1以及文本命令地图的近似模型，从这个模型中它可以快速导航 T),下一个状态根据记忆中保存的之前的状态变回目标点。量和行为来预测。另一种概率分布，即后验概综上所述，MNN在导航领域的研究进展如率，根据新的观测值修正了这一先验，从而形成图9所示。记忆神经网络在导航领域的研究进展关注机制的写入机制的与基于模型的与VIN的融合改进改进强化学习融合奶妇 5 架 Active GTMMs Neural Neural MACN Gemici M GTM-SM MERLIN Ego Neural CMP SLAM Khan et Map 2017 Fraccaro M Wayne G Zhang J on Gupta et 2019 al.2017 al.2018 2018 2017 Parisotto E. Chaplot D 2017 2018 图9MNN在导航领域研究进展 Fig.9 Diagram of MNN's progress in the field of navigation 3导航验证环境的发展文献[46]提出了一个三维房屋模拟器 House23D,建立在SUNCG7的基础上，该数据集为了弥补仿真器和真实场景之间的鸿沟，许包含数千个不同的合成室内场景，配有各种对象多研究者提出了大量的真实、高仿真度的仿真环和布局，它的视觉多样性和丰富的内容为研究强境，可以进一步将算法移植到真实环境中去。常化学习智能体的语义泛化开辟了道路。另外，用的三维导航仿真环境有DeepMind Lab(Beattie HoME48I和MNOS,也提供了合成的大范围室 etal2016)4、Malmo(Johnson et al2016)、Viz- 内环境，但是均没有提供与环境的交互。文 Doom(M.Kempka,2016),然而这些仿真环境存献[50-51]构建了一个可交互的三维高仿真环境在一个主要的问题：没有真实场景图片。 AI2-THOR,它由逼真的三维室内场景组成，其中

DND 相结合，由于在部分观测的三维环境中学习生成时间模型非常困难，因此提出一个动作条件生成模型 (action-conditioned generative model) 来对环境建模，在二维和三维环境中实现上百步的一致预测。为了解决部分可观测问题，DeepMind 团队[42] 引入了一种新的模型−外部记忆、RL 和状态推断网络相结合 (MERLIN)，MERLIN 结构如图 8 所示。环境 (It , vt , rt−1, Tt ) at−1 et ot nt zt at ht mt kt Mt p q KL 损失解码损失策略的损失只读策略编码解码写读读后验分布基于记忆的预测先验分布 (It , Rt , vt , at−1, rt−1, Tt ) kt ht mt nt 输入神经网络记忆读/写测试集求和从上一次迭代开始到下一次迭代结束迭代结束图 8 MERLIN 结构 Fig. 8 MERLIN structure 创新之处是提出基于记忆的预测器 (memorybased predictor，MBP)。MBP 是一个无监督模型。 MBP 的输入来自于多模态信息 (例如图像信息 It , 速度信息 vt , 回报值 rt−1, 行为 at−1 以及文本命令 Tt )，下一个状态根据记忆中保存的之前的状态变量和行为来预测。另一种概率分布，即后验概率，根据新的观测值修正了这一先验，从而形成对状态变量更好地估计。在 MERLIN 中，策略模块对记忆模块只能进行只读访问。MERLIN 在部分观测三维环境中验证，机器人快速地建立一个地图的近似模型，从这个模型中它可以快速导航回目标点。综上所述，MNN 在导航领域的研究进展如图 9 所示。记忆神经网络在导航领域的研究进展与 VIN 的融合关注机制的改进写入机制的改进与基于模型的强化学习融合 Neural SLAM Zhang J, 2017 Ego Neural Map Parisotto E, 2017 将 SLAM 与 DNC 相融合 Active Neural Localizati on Chaplot D S, 2018 CMP Gupta et al. 2017 MACN Khan et al. 2018 GTMMs Gemici M 2017 MERLIN Wayne G 2019 基于 GRU 的写入机制主动神经定位将地图构建和 VIN 结合将 DNC 与 VIN 结合与 GTMs 相结合与 GTMs、与 DND 相结合外部记忆 RL 和状态推断网络相结合 GTM-SM Fraccaro M 2018 图 9 MNN 在导航领域研究进展 Fig. 9 Diagram of MNN’s progress in the field of navigation 3 导航验证环境的发展为了弥补仿真器和真实场景之间的鸿沟，许多研究者提出了大量的真实、高仿真度的仿真环境，可以进一步将算法移植到真实环境中去。常用的三维导航仿真环境有 DeepMind Lab (Beattie et al 2016)[43] 、Malmo (Johnson et al 2016)[44] 、ViZDoom(M. Kempka，2016)[45] ，然而这些仿真环境存在一个主要的问题：没有真实场景图片。文献 [ 4 6 ] 提出了一个三维房屋模拟器 House3D，建立在 SUNCG[47] 的基础上，该数据集包含数千个不同的合成室内场景，配有各种对象和布局，它的视觉多样性和丰富的内容为研究强化学习智能体的语义泛化开辟了道路。另外， HoME[48] 和 MINOS[49] 也提供了合成的大范围室内环境，但是均没有提供与环境的交互。文献 [50-51] 构建了一个可交互的三维高仿真环境 AI2-THOR，它由逼真的三维室内场景组成，其中 ·842· 智能系统学报第 15 卷

第5期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·843· 智能体可以在场景中导航并与对象交互来执行任 Mirowski等s21提出了一种新的交互式环境务。该环境可以实现深度强化学习、模仿学习、 “StreetLearn'”,从真实世界图片和谷歌街景中获交互学习、规划学习、视觉问题回答、无监督表得信息。笔者从以下几个方面总结了不同仿真环示学习、对象检测和分割以及认知学习模型。境的境的特点，如表2所示。表2不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境三维大范围环境用户可定制真实场景图片物理引擎与对象交互 DeepMind Lab(Beattie et al.,2016) Malmo (Johnson et al.,2016) ViZDoom(M.Kempka,2016) V House3D HoME MINOS AI2-THOR(Eric Kolve,2019) 4结束语其用于人机交互、时空特征的学习等领域，但是笔者尚未发现将其用于导航领域，因此如何将联综上所述，不同记忆神经网络的发展为解决想记忆模型和导航领域结合是最新的研究热点。视觉导航任务提供了很多有效的模型，但是基于 2)基于图网络的记忆结构记忆神经网络的导航领域仍然存在多个方面的问图网络(graph network,GN)是一种最新兴起题，例如：部分观测、延迟回报、泛化性差、数据的研究方向，还没有比较成熟的网络模型。图网有效性有待提高、环境模型构建等问题。以后的络是将消息传递的思想扩展到图结构上的神经网发展主要集中在如何构建更有效的记忆结构，实络。图中的每个节点都用一组神经元来表示其状现更有效的学习；如何与新发展起来的DRL方法态，每个节点都可以收到相邻节点的消息，并更相结合，例如元强化学习、多目标强化学习等；如新自己的状态。何与概率统计模型相结合，实现更有效的基于环应用到不同任务，有不同的图网络结构。例境模型的视觉导航；以及与图模型相结合，发展如图卷积网络(graph convolutional network,GCN)、出更有效的图记忆模型。下面主要给出3个最有消息传递网络(message passing neural network, 前景的发展方向。 MPNN)等。实际上，导航任务中的记忆地图适合 1)基于神经动力学联想记忆用这种图网络来表示，因此将记忆网络扩展到图以上提到的DNC、MemNN、DND的研究都网络结构中，并应用于导航领域也是一个非常有是基于外部记忆的。这种外部记忆的存储形式及前景的研究方向。读、写机制存在以下问题：①控制器与外部记忆 3)与概率图模型相结合完全分离，是一个不严格端对端的结构，影响学概率图模型和神经网络有着类似的网络结习效果；②记忆的读、写过程类似于CPU访问存构，但两者也有很大区别。概率图模型中节点是储器的过程，缺乏生物学的解释。随机变量，概率图的结构主要描述随机变量间的基于神经动力学的联想记忆网络是日益兴起依赖关系，一般是稀疏连接，优点是可以有效地的一个热点领域。这种基于神经动力学的联想记进行统计推断。而神经网络中的神经元是计算节忆具有更好的生物学解释性，联想记忆网络一般点，每个神经元没有直观解释。近些年来概率图不受特定结构限制、可以实现增量的序列学习，模型和神经网络结合越来越紧密，例如利用神经并且以一种自组织、无监督的形式。Danihelka等网络强大的表示能力来建模图模型中的推断问将一个联想记忆模型作为部件引入LSTM网络题（变分编码器），生成问题（生成对抗网络）等，包中，从而在不引入额外参数的情况下增加网络容括2.4节中提到的模型都是将概率图模型与神经量。Paris提出自组织联想记忆网络模型，并且将记亿网络相融合用于实现导航任务。概率图模型

智能体可以在场景中导航并与对象交互来执行任务。该环境可以实现深度强化学习、模仿学习、交互学习、规划学习、视觉问题回答、无监督表示学习、对象检测和分割以及认知学习模型。 Mirowski 等 [ 5 2 ] 提出了一种新的交互式环境 “StreetLearn”，从真实世界图片和谷歌街景中获得信息。笔者从以下几个方面总结了不同仿真环境的境的特点，如表 2 所示。表 2 不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境三维大范围环境用户可定制真实场景图片物理引擎与对象交互 DeepMind Lab (Beattie et al., 2016) √ √ Malmo (Johnson et al., 2016) √ √ √ ViZDoom(M. Kempka，2016) √ √ House3D √ √ √ √ HoME √ √ √ MINOS √ √ √ AI2-THOR(Eric Kolve，2019) √ √ √ √ √ 4 结束语综上所述，不同记忆神经网络的发展为解决视觉导航任务提供了很多有效的模型，但是基于记忆神经网络的导航领域仍然存在多个方面的问题，例如：部分观测、延迟回报、泛化性差、数据有效性有待提高、环境模型构建等问题。以后的发展主要集中在如何构建更有效的记忆结构，实现更有效的学习；如何与新发展起来的 DRL 方法相结合，例如元强化学习、多目标强化学习等；如何与概率统计模型相结合，实现更有效的基于环境模型的视觉导航；以及与图模型相结合，发展出更有效的图记忆模型。下面主要给出 3 个最有前景的发展方向。 1) 基于神经动力学联想记忆以上提到的 DNC、MemNN、DND 的研究都是基于外部记忆的。这种外部记忆的存储形式及读、写机制存在以下问题：①控制器与外部记忆完全分离，是一个不严格端对端的结构，影响学习效果；②记忆的读、写过程类似于 CPU 访问存储器的过程，缺乏生物学的解释。基于神经动力学的联想记忆网络是日益兴起的一个热点领域。这种基于神经动力学的联想记忆具有更好的生物学解释性，联想记忆网络一般不受特定结构限制、可以实现增量的序列学习，并且以一种自组织、无监督的形式。Danihelka 等将一个联想记忆模型作为部件引入 LSTM 网络中，从而在不引入额外参数的情况下增加网络容量。Paris 提出自组织联想记忆网络模型，并且将其用于人机交互、时空特征的学习等领域，但是笔者尚未发现将其用于导航领域，因此如何将联想记忆模型和导航领域结合是最新的研究热点。 2) 基于图网络的记忆结构图网络 (graph network, GN) 是一种最新兴起的研究方向，还没有比较成熟的网络模型。图网络是将消息传递的思想扩展到图结构上的神经网络。图中的每个节点都用一组神经元来表示其状态，每个节点都可以收到相邻节点的消息，并更新自己的状态。应用到不同任务，有不同的图网络结构。例如图卷积网络 (graph convolutional network, GCN)、消息传递网络 (message passing neural network, MPNN) 等。实际上，导航任务中的记忆地图适合用这种图网络来表示，因此将记忆网络扩展到图网络结构中，并应用于导航领域也是一个非常有前景的研究方向。 3) 与概率图模型相结合概率图模型和神经网络有着类似的网络结构，但两者也有很大区别。概率图模型中节点是随机变量，概率图的结构主要描述随机变量间的依赖关系，一般是稀疏连接，优点是可以有效地进行统计推断。而神经网络中的神经元是计算节点，每个神经元没有直观解释。近些年来概率图模型和神经网络结合越来越紧密，例如利用神经网络强大的表示能力来建模图模型中的推断问题 (变分编码器)，生成问题 (生成对抗网络) 等，包括 2.4 节中提到的模型都是将概率图模型与神经记忆网络相融合用于实现导航任务。概率图模型第 5 期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·843·

·844· 智能系统学报第15卷与记忆神经网络深度融合将是导航领域最有前景 [11]ZHANG Lei,WANG Shuai,LIU Bing.Deep learning for 的研究方向之一，最有希望实现空间地图的建 sentiment analysis:A survey[J].Wiley interdisciplinary 模，实现基于模型的强化学习。 reviews:data mining and knowledge discovery,2018, 8(4):e1253. 参考文献： [12]YOUNG T.HAZARIKA D.PORIA S.et al.Recent [1]刘强，段富海，桑勇.复杂环境下视觉SLAM闭环检测方 trends in deep learning based natural language 法综述[J.机器人，2019,41(1少112-123,136 processing[J].IEEE computational intelligence magazine, 2018.13(3):55-75. LIU Qiang,DUAN Fuhai,SANG Yong.A survey of loop- [13]OH J.CHOCKALINGAM V.SINGH S.et al.Control of closure detection method of visual SLAM in complex en- vironments[J].Robot,2019,41(1):112-123,136. memory,active perception,and action in minecraft[C]// Proceedings of the 33nd International Conference on Ma- [2]KULKARNI T D,SAEEDI A,GAUTAM S,et al.Deep chine Learning.New York,USA,2016:2790-2799 successor reinforcement learning[J].arXiv preprint arXiv: [14]BOTHE C,MAGG S,WEBER C,et al.Conversational 1606.02396v1,2016. analysis using utterance-level attention-based bidirection- [3]MNIH V.BADIA A P,MIRZA M,et al.Asynchronous al recurrent neural networks[C]//Proceedings of the 19th methods for deep reinforcement learning[C]//Proceedings Annual Conference of the International Speech Commu- of the 33rd International Conference on International Con- nication Association.Hyderabad,India,2018. ference on Machine Learning.New York,USA,2016: [15]张新生，高腾.多头注意力记忆网络的对象级情感分 1928-1937 类).模式识别与人工智能，2019,32(11)：997-1005. [4]ZHU Yuke,MOTTAGHI R,KOLVE E,et al.Target-driv- ZHANG Xinsheng,GAO Teng.Aspect level sentiment en visual navigation in indoor scenes using deep reinforce- classification with multiple-head attention memory net- ment learning[Cl//Proceedings of 2017 IEEE International work[J].Pattern recognition and artificial intelligence, Conference on Robotics and Automation (ICRA).Singa- 2019,32(11):997-1005 pore,2016. [16]BAHDANAU D,CHOROWSKI J,SERDYUK D,et al. [5]MIROWSKI P,PASCANU R,VIOLA F,et al.Learning to End-to-end attention-based large vocabulary speech re- navigate in complex environments[C]//Proceedings of the cognition[C]//Proceedings of 2016 IEEE International 5th International Conference on Learning Representations. Conference on Acoustics,Speech and Signal Processing. Toulon,France,2017. Shanghai,China,2016:4945-4949. [6]JADERBERG M,MNIH V,CZARNECKI W M,et al.Re- [17]JETLEY S,LORD N A,LEE N,et al.Learn to pay atten- inforcement learning with unsupervised auxiliary tasks[Cl// tion[C]//Proceedings of the 6th International Conference Proceedings of the 5th International Conference on Learn- on Learning Representations.Vancouver,Canada,2018. ing Representations.Toulon,France,2016 [18]梁天新，杨小平，王良，等.记忆神经网络的研究与发 [7]HEESS N,HUNT JJ,LILLICRAP T P,et al.Memory- 展).软件学报，2017,28(11)：2905-2924 based control with recurrent neural networks[C]//Proceed- LIANG Tianxin,YANG Xiaoping,WANG Liang,et al. ings of the Workshops of Advances in Neural Information Review on research and development of memory neural Processing Systems.Montreal,Canada,2015:301-312. networks[J].Journal of software,2017,28(11): [8]RAMANI D.A short survey on memory based reinforce- 2905-2924. ment learning[J].arXiv preprint arXiv:1904.06736v1, [19]TANG Duyu,QIN Bing,LIU Ting.Aspect level senti- 2019. ment classification with deep memory network[C]//Pro- [9]SAVINOV N,DOSOVITSKIY A,KOLTUN V.Semi- ceedings of the 2016 Conference on Empirical Methods in parametric topological memory for navigation[C]//Pro- Natural Language Processing.Austin,USA,2016. ceedings of the 6th International Conference on Learning [20]GRAVES A,WAYNE G,REYNOLDS M,et al.Hybrid Representations.Vancouver,Canada,2018. computing using a neural network with dynamic external [10]SUKHBAATAR A,WESTON J,FERGUS R,et al.End- memory[0.Nature,2016,538(7626):471-476. to-end memory networks[C]//Proceedings of the 28th In- [21]YANG Feng,ZHANG Shiyue,ZHANG Andi,et al. ternational Conference on Neural Information Processing Memory-augmented neural machine translation[C]//Pro- Systems.Montreal,Canada.2015:2440-2448 ceedings of the 2017 Conference on Empirical Methods in

与记忆神经网络深度融合将是导航领域最有前景的研究方向之一，最有希望实现空间地图的建模，实现基于模型的强化学习。参考文献：刘强, 段富海, 桑勇. 复杂环境下视觉 SLAM 闭环检测方法综述 [J]. 机器人, 2019, 41(1): 112–123, 136. LIU Qiang, DUAN Fuhai, SANG Yong. A survey of loopclosure detection method of visual SLAM in complex environments[J]. Robot, 2019, 41(1): 112–123, 136. [1] KULKARNI T D, SAEEDI A, GAUTAM S, et al. Deep successor reinforcement learning[J]. arXiv preprint arXiv: 1606.02396v1, 2016. [2] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA, 2016: 1928−1937. [3] ZHU Yuke, MOTTAGHI R, KOLVE E, et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning[C]//Proceedings of 2017 IEEE International Conference on Robotics and Automation (ICRA). Singapore, 2016. [4] MIROWSKI P, PASCANU R, VIOLA F, et al. Learning to navigate in complex environments[C]//Proceedings of the 5th International Conference on Learning Representations. Toulon, France, 2017. [5] JADERBERG M, MNIH V, CZARNECKI W M, et al. Reinforcement learning with unsupervised auxiliary tasks[C]// Proceedings of the 5th International Conference on Learning Representations. Toulon, France, 2016. [6] HEESS N, HUNT J J, LILLICRAP T P, et al. Memorybased control with recurrent neural networks[C]//Proceedings of the Workshops of Advances in Neural Information Processing Systems. Montreal, Canada, 2015: 301−312. [7] RAMANI D. A short survey on memory based reinforcement learning[J]. arXiv preprint arXiv:1904.06736v1, 2019. [8] SAVINOV N, DOSOVITSKIY A, KOLTUN V. Semiparametric topological memory for navigation[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada, 2018. [9] SUKHBAATAR A, WESTON J, FERGUS R, et al. Endto-end memory networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada, 2015: 2440−2448. [10] ZHANG Lei, WANG Shuai, LIU Bing. Deep learning for sentiment analysis: A survey[J]. Wiley interdisciplinary reviews: data mining and knowledge discovery, 2018, 8(4): e1253. [11] YOUNG T, HAZARIKA D, PORIA S, et al. Recent trends in deep learning based natural language processing[J]. IEEE computational intelligence magazine, 2018, 13(3): 55–75. [12] OH J, CHOCKALINGAM V, SINGH S, et al. Control of memory, active perception, and action in minecraft[C]// Proceedings of the 33nd International Conference on Machine Learning. New York, USA, 2016: 2790−2799. [13] BOTHE C, MAGG S, WEBER C, et al. Conversational analysis using utterance-level attention-based bidirectional recurrent neural networks[C]//Proceedings of the 19th Annual Conference of the International Speech Communication Association. Hyderabad, India, 2018. [14] 张新生, 高腾. 多头注意力记忆网络的对象级情感分类 [J]. 模式识别与人工智能, 2019, 32(11): 997–1005. ZHANG Xinsheng, GAO Teng. Aspect level sentiment classification with multiple-head attention memory network[J]. Pattern recognition and artificial intelligence, 2019, 32(11): 997–1005. [15] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. End-to-end attention-based large vocabulary speech recognition[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China, 2016: 4945−4949. [16] JETLEY S, LORD N A, LEE N, et al. Learn to pay attention[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada, 2018. [17] 梁天新, 杨小平, 王良, 等. 记忆神经网络的研究与发展 [J]. 软件学报, 2017, 28(11): 2905–2924. LIANG Tianxin, YANG Xiaoping, WANG Liang, et al. Review on research and development of memory neural networks[J]. Journal of software, 2017, 28(11): 2905–2924. [18] TANG Duyu, QIN Bing, LIU Ting. Aspect level sentiment classification with deep memory network[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA, 2016. [19] GRAVES A, WAYNE G, REYNOLDS M, et al. Hybrid computing using a neural network with dynamic external memory[J]. Nature, 2016, 538(7626): 471–476. [20] YANG Feng, ZHANG Shiyue, ZHANG Andi, et al. Memory-augmented neural machine translation[C]//Proceedings of the 2017 Conference on Empirical Methods in [21] ·844· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录