正在加载图片...
第5期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·843· 智能体可以在场景中导航并与对象交互来执行任 Mirowski等s21提出了一种新的交互式环境 务。该环境可以实现深度强化学习、模仿学习、 “StreetLearn'”,从真实世界图片和谷歌街景中获 交互学习、规划学习、视觉问题回答、无监督表 得信息。笔者从以下几个方面总结了不同仿真环 示学习、对象检测和分割以及认知学习模型。 境的境的特点,如表2所示。 表2不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境 三维 大范围环境用户可定制真实场景图片 物理引擎 与对象交互 DeepMind Lab(Beattie et al.,2016) Malmo (Johnson et al.,2016) ViZDoom(M.Kempka,2016) V House3D HoME MINOS AI2-THOR(Eric Kolve,2019) 4结束语 其用于人机交互、时空特征的学习等领域,但是 笔者尚未发现将其用于导航领域,因此如何将联 综上所述,不同记忆神经网络的发展为解决 想记忆模型和导航领域结合是最新的研究热点。 视觉导航任务提供了很多有效的模型,但是基于 2)基于图网络的记忆结构 记忆神经网络的导航领域仍然存在多个方面的问 图网络(graph network,GN)是一种最新兴起 题,例如:部分观测、延迟回报、泛化性差、数据 的研究方向,还没有比较成熟的网络模型。图网 有效性有待提高、环境模型构建等问题。以后的 络是将消息传递的思想扩展到图结构上的神经网 发展主要集中在如何构建更有效的记忆结构,实 络。图中的每个节点都用一组神经元来表示其状 现更有效的学习;如何与新发展起来的DRL方法 态,每个节点都可以收到相邻节点的消息,并更 相结合,例如元强化学习、多目标强化学习等;如 新自己的状态。 何与概率统计模型相结合,实现更有效的基于环 应用到不同任务,有不同的图网络结构。例 境模型的视觉导航;以及与图模型相结合,发展 如图卷积网络(graph convolutional network,GCN)、 出更有效的图记忆模型。下面主要给出3个最有 消息传递网络(message passing neural network, 前景的发展方向。 MPNN)等。实际上,导航任务中的记忆地图适合 1)基于神经动力学联想记忆 用这种图网络来表示,因此将记忆网络扩展到图 以上提到的DNC、MemNN、DND的研究都 网络结构中,并应用于导航领域也是一个非常有 是基于外部记忆的。这种外部记忆的存储形式及 前景的研究方向。 读、写机制存在以下问题:①控制器与外部记忆 3)与概率图模型相结合 完全分离,是一个不严格端对端的结构,影响学 概率图模型和神经网络有着类似的网络结 习效果;②记忆的读、写过程类似于CPU访问存 构,但两者也有很大区别。概率图模型中节点是 储器的过程,缺乏生物学的解释。 随机变量,概率图的结构主要描述随机变量间的 基于神经动力学的联想记忆网络是日益兴起 依赖关系,一般是稀疏连接,优点是可以有效地 的一个热点领域。这种基于神经动力学的联想记 进行统计推断。而神经网络中的神经元是计算节 忆具有更好的生物学解释性,联想记忆网络一般 点,每个神经元没有直观解释。近些年来概率图 不受特定结构限制、可以实现增量的序列学习, 模型和神经网络结合越来越紧密,例如利用神经 并且以一种自组织、无监督的形式。Danihelka等 网络强大的表示能力来建模图模型中的推断问 将一个联想记忆模型作为部件引入LSTM网络 题(变分编码器),生成问题(生成对抗网络)等,包 中,从而在不引入额外参数的情况下增加网络容 括2.4节中提到的模型都是将概率图模型与神经 量。Paris提出自组织联想记忆网络模型,并且将 记亿网络相融合用于实现导航任务。概率图模型智能体可以在场景中导航并与对象交互来执行任 务。该环境可以实现深度强化学习、模仿学习、 交互学习、规划学习、视觉问题回答、无监督表 示学习、对象检测和分割以及认知学习模型。 Mirowski 等 [ 5 2 ] 提出了一种新的交互式环境 “StreetLearn”,从真实世界图片和谷歌街景中获 得信息。笔者从以下几个方面总结了不同仿真环 境的境的特点,如表 2 所示。 表 2 不同仿真环境的特点 Table 2 Characteristics of different simulation environments 不同仿真环境 三维 大范围环境 用户可定制 真实场景图片 物理引擎 与对象交互 DeepMind Lab (Beattie et al., 2016) √ √ Malmo (Johnson et al., 2016) √ √ √ ViZDoom(M. Kempka,2016) √ √ House3D √ √ √ √ HoME √ √ √ MINOS √ √ √ AI2-THOR(Eric Kolve,2019) √ √ √ √ √ 4 结束语 综上所述,不同记忆神经网络的发展为解决 视觉导航任务提供了很多有效的模型,但是基于 记忆神经网络的导航领域仍然存在多个方面的问 题,例如:部分观测、延迟回报、泛化性差、数据 有效性有待提高、环境模型构建等问题。以后的 发展主要集中在如何构建更有效的记忆结构,实 现更有效的学习;如何与新发展起来的 DRL 方法 相结合,例如元强化学习、多目标强化学习等;如 何与概率统计模型相结合,实现更有效的基于环 境模型的视觉导航;以及与图模型相结合,发展 出更有效的图记忆模型。下面主要给出 3 个最有 前景的发展方向。 1) 基于神经动力学联想记忆 以上提到的 DNC、MemNN、DND 的研究都 是基于外部记忆的。这种外部记忆的存储形式及 读、写机制存在以下问题:①控制器与外部记忆 完全分离,是一个不严格端对端的结构,影响学 习效果;②记忆的读、写过程类似于 CPU 访问存 储器的过程,缺乏生物学的解释。 基于神经动力学的联想记忆网络是日益兴起 的一个热点领域。这种基于神经动力学的联想记 忆具有更好的生物学解释性,联想记忆网络一般 不受特定结构限制、可以实现增量的序列学习, 并且以一种自组织、无监督的形式。Danihelka 等 将一个联想记忆模型作为部件引入 LSTM 网络 中,从而在不引入额外参数的情况下增加网络容 量。Paris 提出自组织联想记忆网络模型,并且将 其用于人机交互、时空特征的学习等领域,但是 笔者尚未发现将其用于导航领域,因此如何将联 想记忆模型和导航领域结合是最新的研究热点。 2) 基于图网络的记忆结构 图网络 (graph network, GN) 是一种最新兴起 的研究方向,还没有比较成熟的网络模型。图网 络是将消息传递的思想扩展到图结构上的神经网 络。图中的每个节点都用一组神经元来表示其状 态,每个节点都可以收到相邻节点的消息,并更 新自己的状态。 应用到不同任务,有不同的图网络结构。例 如图卷积网络 (graph convolutional network, GCN)、 消息传递网络 (message passing neural network, MPNN) 等。实际上,导航任务中的记忆地图适合 用这种图网络来表示,因此将记忆网络扩展到图 网络结构中,并应用于导航领域也是一个非常有 前景的研究方向。 3) 与概率图模型相结合 概率图模型和神经网络有着类似的网络结 构,但两者也有很大区别。概率图模型中节点是 随机变量,概率图的结构主要描述随机变量间的 依赖关系,一般是稀疏连接,优点是可以有效地 进行统计推断。而神经网络中的神经元是计算节 点,每个神经元没有直观解释。近些年来概率图 模型和神经网络结合越来越紧密,例如利用神经 网络强大的表示能力来建模图模型中的推断问 题 (变分编码器),生成问题 (生成对抗网络) 等,包 括 2.4 节中提到的模型都是将概率图模型与神经 记忆网络相融合用于实现导航任务。概率图模型 第 5 期 王作为,等:记忆神经网络在机器人导航领域的应用与研究进展 ·843·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有