智能体可以在场景中导航并与对象交互来执行任务。该环境可以实现深度强化学习

正在加载图片...

第5期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·843· 智能体可以在场景中导航并与对象交互来执行任 Mirowski等s21提出了一种新的交互式环境务。该环境可以实现深度强化学习、模仿学习、 “StreetLearn'”,从真实世界图片和谷歌街景中获交互学习、规划学习、视觉问题回答、无监督表得信息。笔者从以下几个方面总结了不同仿真环示学习、对象检测和分割以及认知学习模型。境的境的特点，如表2所示。表2不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境三维大范围环境用户可定制真实场景图片物理引擎与对象交互 DeepMind Lab(Beattie et al.,2016) Malmo (Johnson et al.,2016) ViZDoom(M.Kempka,2016) V House3D HoME MINOS AI2-THOR(Eric Kolve,2019) 4结束语其用于人机交互、时空特征的学习等领域，但是笔者尚未发现将其用于导航领域，因此如何将联综上所述，不同记忆神经网络的发展为解决想记忆模型和导航领域结合是最新的研究热点。视觉导航任务提供了很多有效的模型，但是基于 2)基于图网络的记忆结构记忆神经网络的导航领域仍然存在多个方面的问图网络(graph network,GN)是一种最新兴起题，例如：部分观测、延迟回报、泛化性差、数据的研究方向，还没有比较成熟的网络模型。图网有效性有待提高、环境模型构建等问题。以后的络是将消息传递的思想扩展到图结构上的神经网发展主要集中在如何构建更有效的记忆结构，实络。图中的每个节点都用一组神经元来表示其状现更有效的学习；如何与新发展起来的DRL方法态，每个节点都可以收到相邻节点的消息，并更相结合，例如元强化学习、多目标强化学习等；如新自己的状态。何与概率统计模型相结合，实现更有效的基于环应用到不同任务，有不同的图网络结构。例境模型的视觉导航；以及与图模型相结合，发展如图卷积网络(graph convolutional network,GCN)、出更有效的图记忆模型。下面主要给出3个最有消息传递网络(message passing neural network, 前景的发展方向。 MPNN)等。实际上，导航任务中的记忆地图适合 1)基于神经动力学联想记忆用这种图网络来表示，因此将记忆网络扩展到图以上提到的DNC、MemNN、DND的研究都网络结构中，并应用于导航领域也是一个非常有是基于外部记忆的。这种外部记忆的存储形式及前景的研究方向。读、写机制存在以下问题：①控制器与外部记忆 3)与概率图模型相结合完全分离，是一个不严格端对端的结构，影响学概率图模型和神经网络有着类似的网络结习效果；②记忆的读、写过程类似于CPU访问存构，但两者也有很大区别。概率图模型中节点是储器的过程，缺乏生物学的解释。随机变量，概率图的结构主要描述随机变量间的基于神经动力学的联想记忆网络是日益兴起依赖关系，一般是稀疏连接，优点是可以有效地的一个热点领域。这种基于神经动力学的联想记进行统计推断。而神经网络中的神经元是计算节忆具有更好的生物学解释性，联想记忆网络一般点，每个神经元没有直观解释。近些年来概率图不受特定结构限制、可以实现增量的序列学习，模型和神经网络结合越来越紧密，例如利用神经并且以一种自组织、无监督的形式。Danihelka等网络强大的表示能力来建模图模型中的推断问将一个联想记忆模型作为部件引入LSTM网络题（变分编码器），生成问题（生成对抗网络）等，包中，从而在不引入额外参数的情况下增加网络容括2.4节中提到的模型都是将概率图模型与神经量。Paris提出自组织联想记忆网络模型，并且将记亿网络相融合用于实现导航任务。概率图模型智能体可以在场景中导航并与对象交互来执行任务。该环境可以实现深度强化学习、模仿学习、交互学习、规划学习、视觉问题回答、无监督表示学习、对象检测和分割以及认知学习模型。 Mirowski 等 [ 5 2 ] 提出了一种新的交互式环境 “StreetLearn”，从真实世界图片和谷歌街景中获得信息。笔者从以下几个方面总结了不同仿真环境的境的特点，如表 2 所示。表 2 不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境三维大范围环境用户可定制真实场景图片物理引擎与对象交互 DeepMind Lab (Beattie et al., 2016) √ √ Malmo (Johnson et al., 2016) √ √ √ ViZDoom(M. Kempka，2016) √ √ House3D √ √ √ √ HoME √ √ √ MINOS √ √ √ AI2-THOR(Eric Kolve，2019) √ √ √ √ √ 4 结束语综上所述，不同记忆神经网络的发展为解决视觉导航任务提供了很多有效的模型，但是基于记忆神经网络的导航领域仍然存在多个方面的问题，例如：部分观测、延迟回报、泛化性差、数据有效性有待提高、环境模型构建等问题。以后的发展主要集中在如何构建更有效的记忆结构，实现更有效的学习；如何与新发展起来的 DRL 方法相结合，例如元强化学习、多目标强化学习等；如何与概率统计模型相结合，实现更有效的基于环境模型的视觉导航；以及与图模型相结合，发展出更有效的图记忆模型。下面主要给出 3 个最有前景的发展方向。 1) 基于神经动力学联想记忆以上提到的 DNC、MemNN、DND 的研究都是基于外部记忆的。这种外部记忆的存储形式及读、写机制存在以下问题：①控制器与外部记忆完全分离，是一个不严格端对端的结构，影响学习效果；②记忆的读、写过程类似于 CPU 访问存储器的过程，缺乏生物学的解释。基于神经动力学的联想记忆网络是日益兴起的一个热点领域。这种基于神经动力学的联想记忆具有更好的生物学解释性，联想记忆网络一般不受特定结构限制、可以实现增量的序列学习，并且以一种自组织、无监督的形式。Danihelka 等将一个联想记忆模型作为部件引入 LSTM 网络中，从而在不引入额外参数的情况下增加网络容量。Paris 提出自组织联想记忆网络模型，并且将其用于人机交互、时空特征的学习等领域，但是笔者尚未发现将其用于导航领域，因此如何将联想记忆模型和导航领域结合是最新的研究热点。 2) 基于图网络的记忆结构图网络 (graph network, GN) 是一种最新兴起的研究方向，还没有比较成熟的网络模型。图网络是将消息传递的思想扩展到图结构上的神经网络。图中的每个节点都用一组神经元来表示其状态，每个节点都可以收到相邻节点的消息，并更新自己的状态。应用到不同任务，有不同的图网络结构。例如图卷积网络 (graph convolutional network, GCN)、消息传递网络 (message passing neural network, MPNN) 等。实际上，导航任务中的记忆地图适合用这种图网络来表示，因此将记忆网络扩展到图网络结构中，并应用于导航领域也是一个非常有前景的研究方向。 3) 与概率图模型相结合概率图模型和神经网络有着类似的网络结构，但两者也有很大区别。概率图模型中节点是随机变量，概率图的结构主要描述随机变量间的依赖关系，一般是稀疏连接，优点是可以有效地进行统计推断。而神经网络中的神经元是计算节点，每个神经元没有直观解释。近些年来概率图模型和神经网络结合越来越紧密，例如利用神经网络强大的表示能力来建模图模型中的推断问题 (变分编码器)，生成问题 (生成对抗网络) 等，包括 2.4 节中提到的模型都是将概率图模型与神经记忆网络相融合用于实现导航任务。概率图模型第 5 期王作为，等：记忆神经网络在机器人导航领域的应用与研究进展 ·843·

<<向上翻页向下翻页>>

点击下载：《智能系统学报》：记忆神经网络在机器人导航领域的应用与研究进展