【人工智能】仿生机器人运动步态控制：强化学习方法综述

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：2.86MB

第15卷第1期智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992tis.201907052 仿生机器人运动步态控制：强化学习方法综述郭宪，方勇纯 (南开大学人工智能学院，天津300350)》摘要：仿生机器人是一类典型的多关节非线性欠驱动系统，其步态控制是一个非常具有挑战性的问题。对于该问题.传统的控制和规划方法需要针对具体的运动任务进行专门设计，需要耗费大量时间和精力，而且所设计出来的控制器往往没有通用性。基于数据驱动的强化学习方法能对不同的任务进行自主学习，且对不同的机器人和运动任务具有良好的通用性。因此，近年来这种基于强化学习的方法在仿生机器人运动步态控制方面获得了不少应用。针对这方面的研究，本文从问题形式化、策略表示方法和策略学习方法3个方面对现有的研究情况进行了分析和总结，总结了强化学习应用于仿生机器人步态控制中尚待解决的问题.并指出了后续的发展方向。关键词：仿生机器人：运动步态；控制方法：强化学习；数据驱动：多关节：非线性；欠驱动中图分类号：TPI8文献标志码：A 文章编号：1673-4785(2020)01-0152-08 中文引用格式：郭宪，方勇纯.仿生机器人运动步态控制：强化学习方法综述八.智能系统学报，2020,15(1)：152-159，英文引用格式：GUO Xian,FANG Yongchun.Locomotion gait control for bionic robots:a review of reinforcement learning meth- odsJ.CAAI transactions on intelligent systems,2020,15(1):152-159. Locomotion gait control for bionic robots:a review of reinforcement learning methods GUO Xian,FANG Yongchun (College of Artificial Intelligence,Nankai University,Tianjin 300350,China) Abstract:The bionic robot is a typical multi-joint,nonlinear,underactuated system,for which locomotion gait control is of much challenge.For this problem,traditional control and planning methods need to be carefully designed for specific locomotion tasks,which takes a lot of time and efforts,yet lacks generality.On the contrary,data-driven reinforcement learning method can autonomously learn the controller for different locomotion tasks,and it presents the advantage of good generality for different bionic robots and locomotions.Therefore,in recent years,this reinforcement learning-based method has been widely used in the field of bionic robots to construct various locomotion gait controllers.In this paper, the current research status of reinforcement learning-based methods for the locomotion control of bionic robots is com- prehensively analyzed,respectively from the following three aspects:formulation of the problem,policy representation, and policy learning.Finally,the problems to be solved in the field are and summarized,and the possible future research directions are provided. Keywords:bionic robot;locomotion gait;control method;reinforcement learning;data-driven;multi-joint;nonlinear, underactuated 自然界中的动物种类繁多、遍布于世界的各·于所处的环境。为了更好地服务于人类的生产和个角落，数亿年的进化使得它们的形态完全适应生活，学者们模仿动物的形态发明了多类仿生机收稿日期：2019-07-29 器人，如仿生足类机器人、仿生蛇形机器人等。基金项目：国家自然科学基金项目(61603200，天津市自然科学与轮式机器人相比，这些仿生机器人在各种各样基金青年项目(19 JCQNJC03200). 通信作者：方勇纯.E-mail:fangyc@nankai.edu.cn. 的复杂环境下，如山地、沟壑、海洋、丛林、沼泽

DOI: 10.11992/tis.201907052 仿生机器人运动步态控制：强化学习方法综述郭宪，方勇纯（南开大学人工智能学院，天津 300350）摘要：仿生机器人是一类典型的多关节非线性欠驱动系统，其步态控制是一个非常具有挑战性的问题。对于该问题，传统的控制和规划方法需要针对具体的运动任务进行专门设计，需要耗费大量时间和精力，而且所设计出来的控制器往往没有通用性。基于数据驱动的强化学习方法能对不同的任务进行自主学习，且对不同的机器人和运动任务具有良好的通用性。因此，近年来这种基于强化学习的方法在仿生机器人运动步态控制方面获得了不少应用。针对这方面的研究，本文从问题形式化、策略表示方法和策略学习方法 3 个方面对现有的研究情况进行了分析和总结，总结了强化学习应用于仿生机器人步态控制中尚待解决的问题，并指出了后续的发展方向。关键词：仿生机器人；运动步态；控制方法；强化学习；数据驱动；多关节；非线性；欠驱动中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2020)01−0152−08 中文引用格式：郭宪, 方勇纯. 仿生机器人运动步态控制：强化学习方法综述 [J]. 智能系统学报, 2020, 15(1): 152–159. 英文引用格式：GUO Xian, FANG Yongchun. Locomotion gait control for bionic robots: a review of reinforcement learning methods[J]. CAAI transactions on intelligent systems, 2020, 15(1): 152–159. Locomotion gait control for bionic robots: a review of reinforcement learning methods GUO Xian，FANG Yongchun (College of Artificial Intelligence, Nankai University, Tianjin 300350, China) Abstract: The bionic robot is a typical multi-joint, nonlinear, underactuated system, for which locomotion gait control is of much challenge. For this problem, traditional control and planning methods need to be carefully designed for specific locomotion tasks, which takes a lot of time and efforts, yet lacks generality. On the contrary, data-driven reinforcement learning method can autonomously learn the controller for different locomotion tasks, and it presents the advantage of good generality for different bionic robots and locomotions. Therefore, in recent years, this reinforcement learning-based method has been widely used in the field of bionic robots to construct various locomotion gait controllers. In this paper, the current research status of reinforcement learning-based methods for the locomotion control of bionic robots is comprehensively analyzed, respectively from the following three aspects: formulation of the problem, policy representation, and policy learning. Finally, the problems to be solved in the field are and summarized, and the possible future research directions are provided. Keywords: bionic robot; locomotion gait; control method; reinforcement learning; data-driven; multi-joint; nonlinear; underactuated 自然界中的动物种类繁多、遍布于世界的各个角落，数亿年的进化使得它们的形态完全适应于所处的环境。为了更好地服务于人类的生产和生活，学者们模仿动物的形态发明了多类仿生机器人，如仿生足类机器人、仿生蛇形机器人等。与轮式机器人相比，这些仿生机器人在各种各样的复杂环境下，如山地、沟壑、海洋、丛林、沼泽收稿日期：2019−07−29. 基金项目：国家自然科学基金项目（61603200);天津市自然科学基金青年项目 (19JCQNJC03200). 通信作者：方勇纯. E-mail:fangyc@nankai.edu.cn. 第 15 卷第 1 期智能系统学报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020

第1期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·153· 等，展示出更好的运动性能，因此仿生机器人在在仿真环境中训练二维人形机器人实现行走运动民用、军事、星球探测等领域具有广泛的应用空步态控制。Schulman等2-提出TRPO和PPO算法间。与自然界中的动物类似，仿生机器人通过周并利用actor-critic框架实现稳定的训练算法。Peng 期性地改变身体的构型，如足类机器人改变腿部等利用分层深度强化学习算法在仿真环境中训构型，蛇形机器人改变身体关节等，并与环境相练3维仿生机器人的运动。最近，更高效稳定的深互作用从而实现各种各样的运动，我们将这种运度强化学习算法如MPO算法、SAC算法6、TD3 动方式称为运动步态。算法叨被提出来。除了在仿真环境中进行仿生机由于仿生机器人是多刚体非线性欠驱动系器人运动步态的训练，Hwangbo等us1将在仿真环统，因此其运动步态的控制是一项非常富有挑战境中的训练结果直接应用到ANYmal四足机器人，性的工作。经过学者们多年不断的努力，目前最实现了稳定高效的四足运动步态控制；Haarnoja 高效的运动步态控制方法是通过将运动任务分解等利用改进的SAC算法直接在Minitaur四足机为不同的子模块，并对子模块分别进行控制。例器人上进行训练，实现了多种运动步态控制。如，足类机器人为了进行运动步态控制常常需要针对强化学习算法在仿生机器人运动步态控进行状态估计、接触点选择、轨迹优化、足端点规制上的研究，本文从以下几个方面对当前的研究划、模型预测控制和操作空间控制等工作-。这进行综述：首先将仿生机器人的运动步态控制问种控制方法能使得目前的仿生机器人获得高机动题进行数学形式化，将该问题纳人到马尔可夫决的运动能力，如波士顿动力公司的四足机器人可策过程的理论框架中；然后对现有的策略表示方以在野外)和室内做高机动抗扰动和自平衡运法进行调研；之后介绍不同的策略学习方法，最动、MIT的猎豹可以实现高达5ms的速度日后给出总结和展望。本东京工业大学的系列蛇形机器人可以在野外和 1问题形式化水下等环境下自由运动、卡内基梅隆大学的模块化蛇形机器人可以爬树、爬管道等。日本通强化学习通过试错的方法实现折扣累积回报信大学设计的模块化蛇形机器人可以在废墟环境期望的最大化。智能体与环境交互的过程可以用以履带步态方式进行运动⑧。但是，这些步态控马尔可夫决策过程来描述，而马尔可夫决策过程制方法需要大量的专业知识，且通用性不强，即可以利用一个五元组(S,孔r,Py)来描述，其中S 使对于同款机器人，针对不同的运动任务仍需大为状态空间，孔为动作空间，(s,a)为与状量工作调整设计控制方法，而不同款的机器人则态和动作相关的立即回报，P:S×A×S→R为状需要利用不同的专业知识来重新设计控制器。此态转移概率，即给定状态S,和动作a,转移到新的外，利用这种步态控制方法所得到的运动一般并状态s41的概率，即p(s+s,a,y为计算折扣累积回不是最优的，抗干扰能力较差。报的折扣因子。令π表示一个随机策略，即π：S×孔→ 自然界中动物娴熟的运动技能是在出生后不 [0,1],则智能体与环境交互的过程可以表述为智断与环境交互通过试错学习而获得的。近年来广能体在状态s处，采取策略π(s)得到动作a,并泛应用的强化学习便是这样一种试错的学习方法，与境进行交互，根据状态转移概率p(ss,a,)得该方法并不直接考虑机器人的运动学和动力学，而到下一时刻的状态同时获得立即回报r(s,a)的过是一种基于数据驱动的控制器设计方法。研究表程。智能体不断地与环境进行交互便产生了一条明：通过强化学习方法来设计仿生机器人的运动步状态和动作的轨迹，用r来表示，即T=[so,a,1,a1,…, 态控制器可以克服上述分别进行子模块设计所带 sm,anJ,我们用（π）来表示折扣累积回报的期望，即来的局限。然而，仿生机器人运动步态的控制涉及 π) r(si,a 连续的高维观测空间和动作空间，计算量非常大，因此由于实时性等方面的原因，传统的强化学习算经典强化学习算法在数学上可以进行如下形法往往难以直接应用。随着深度学习技术的出现，式化描述0：将强化学习与深度学习相结合而形成的深度强化学习技术得到快速发展，并在视频游戏9、围棋 max Yr(s..a (1) 等领域取得突破性进展。近年来，深度强化学习技经典强化学习算法包括基于值函数的方法、术也被广泛应用到仿生机器人的运动步态控制器基于直接策略搜索的方法以及基于actor-critic的的设计中。Levine等结合轨迹最优和监督学习方法。仿生机器人运动步态的状态空间和动作空

等，展示出更好的运动性能，因此仿生机器人在民用、军事、星球探测等领域具有广泛的应用空间。与自然界中的动物类似，仿生机器人通过周期性地改变身体的构型，如足类机器人改变腿部构型，蛇形机器人改变身体关节等，并与环境相互作用从而实现各种各样的运动，我们将这种运动方式称为运动步态。由于仿生机器人是多刚体非线性欠驱动系统，因此其运动步态的控制是一项非常富有挑战性的工作。经过学者们多年不断的努力，目前最高效的运动步态控制方法是通过将运动任务分解为不同的子模块，并对子模块分别进行控制。例如，足类机器人为了进行运动步态控制常常需要进行状态估计、接触点选择、轨迹优化、足端点规划、模型预测控制和操作空间控制等工作[1−2]。这种控制方法能使得目前的仿生机器人获得高机动的运动能力，如波士顿动力公司的四足机器人可以在野外[3] 和室内[4] 做高机动抗扰动和自平衡运动、MIT 的猎豹可以实现高达 5 m/s 的速度[5] ，日本东京工业大学的系列蛇形机器人可以在野外和水下等环境下自由运动[6] 、卡内基梅隆大学的模块化蛇形机器人可以爬树、爬管道等[7]。日本通信大学设计的模块化蛇形机器人可以在废墟环境以履带步态方式进行运动[8]。但是，这些步态控制方法需要大量的专业知识，且通用性不强，即使对于同款机器人，针对不同的运动任务仍需大量工作调整设计控制方法，而不同款的机器人则需要利用不同的专业知识来重新设计控制器。此外，利用这种步态控制方法所得到的运动一般并不是最优的，抗干扰能力较差。自然界中动物娴熟的运动技能是在出生后不断与环境交互通过试错学习而获得的。近年来广泛应用的强化学习便是这样一种试错的学习方法，该方法并不直接考虑机器人的运动学和动力学，而是一种基于数据驱动的控制器设计方法。研究表明：通过强化学习方法来设计仿生机器人的运动步态控制器可以克服上述分别进行子模块设计所带来的局限。然而，仿生机器人运动步态的控制涉及连续的高维观测空间和动作空间，计算量非常大，因此由于实时性等方面的原因，传统的强化学习算法往往难以直接应用。随着深度学习技术的出现，将强化学习与深度学习相结合而形成的深度强化学习技术得到快速发展，并在视频游戏[9] 、围棋[10] 等领域取得突破性进展。近年来，深度强化学习技术也被广泛应用到仿生机器人的运动步态控制器的设计中。Levine 等 [11] 结合轨迹最优和监督学习在仿真环境中训练二维人形机器人实现行走运动步态控制。Schulman 等 [12−13] 提出 TRPO 和 PPO 算法并利用 actor-critic 框架实现稳定的训练算法。Peng 等 [14] 利用分层深度强化学习算法在仿真环境中训练 3 维仿生机器人的运动。最近，更高效稳定的深度强化学习算法如 MPO 算法[15] 、SAC 算法[16] 、TD3 算法[17] 被提出来。除了在仿真环境中进行仿生机器人运动步态的训练，Hwangbo 等 [18] 将在仿真环境中的训练结果直接应用到 ANYmal 四足机器人，实现了稳定高效的四足运动步态控制；Haarnoja 等 [19] 利用改进的 SAC 算法直接在 Minitaur 四足机器人上进行训练，实现了多种运动步态控制。针对强化学习算法在仿生机器人运动步态控制上的研究，本文从以下几个方面对当前的研究进行综述：首先将仿生机器人的运动步态控制问题进行数学形式化，将该问题纳入到马尔可夫决策过程的理论框架中；然后对现有的策略表示方法进行调研；之后介绍不同的策略学习方法，最后给出总结和展望。 1 问题形式化 (S,A,r,P, γ) S A r(st ,at) P : S ×A × S → R st at st+1 p(st+1|st ,at) γ π π : S ×A → [0,1] st π(st) at p(st+1|st ,at) r(st ,at) τ τ = [s0,a0,s1,a1,··· , sn,an] η(π) 强化学习通过试错的方法实现折扣累积回报期望的最大化。智能体与环境交互的过程可以用马尔可夫决策过程来描述，而马尔可夫决策过程可以利用一个五元组来描述，其中为状态空间，为动作空间，为与状态和动作相关的立即回报，为状态转移概率，即给定状态和动作转移到新的状态的概率,即，为计算折扣累积回报的折扣因子。令表示一个随机策略，即，则智能体与环境交互的过程可以表述为智能体在状态处，采取策略得到动作，并与境进行交互，根据状态转移概率得到下一时刻的状态同时获得立即回报的过程。智能体不断地与环境进行交互便产生了一条状态和动作的轨迹，用来表示，即，我们用来表示折扣累积回报的期望，即 η(π) = Eτ   ∑∞ t=0 γ t r(st ,at)   经典强化学习算法在数学上可以进行如下形式化描述[20] ： max π Eτ   ∑∞ t=0 γ t r(st ,at)   (1) 经典强化学习算法包括基于值函数的方法、基于直接策略搜索的方法以及基于 actor-critic 的方法。仿生机器人运动步态的状态空间和动作空第 1 期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·153·

·154· 智能系统学报第15卷间都是连续的，因此最常用的为基于直接策略搜动步态控制进行有效的学习，学者们提出了很多索的方法和基于actor-.critic的方法。其中，前者更有效的策略表示方法。最常用的为策略梯度的方法及其变种，如TRPO 2.1基于领域知识的策略参数化方法的方法和PPO的方法，后者最常用的为DDPG2 2.1.1基于CPG的策略表示方法的方法。 CPG即中枢模式发生器，研究发现CPG广泛经典强化学习进行数学形式化时并未显式地存在于脊椎动物和非脊椎动物的体内，用于控制考虑策略的探索性，因此该类算法容易陷入到局动物有节律的呼吸、心跳、肠胃蠕动、行走、奔部最优。为了将探索策略考虑在内，学者们提出跑、游动等。仿生机器人学家利用CPG模型产在优化折扣累积回报的期望的同时优化策略的生周期信号控制机器人的运动步态，可以大大简熵，因此提出了最大熵强化学习的问题形式化：化动作空间，因此CPG在人形机器人、四足机器 max E, y(r(sa )-a,logz.(als,)) 人、蛇形机器人等仿生机器人的运动步态控制中 (2) 得到广泛应用。现有的CPG模型包括Matsuoka 由式(2)描述的最优策略对外界的扰动具有更模型2、锁相性模型2和范德波尔模型27。其中强的鲁棒性，同时在训练过程中充分考虑了策略的在仿生机器人中被广泛应用的为Matsuoka模型。探索性，从而加快了学习速度，实验证明该形式化第j个神经元震荡器的动力学模型为在仿生机器人运动步态的学习中取得最好的表现。仿生机器人是典型的机电一体化系统，其本吃，=--4-+*0 k=1 身的机械强度和驱动功率都有限制条件，如最大 t%=-2+4i 加速度、最大力矩等。然而，典型的最大期望强化 qj=max(0,z) 学习或者最大嫡强化学习的最优解往往都是高频式中：t、t、c为调节常数；为平均膜势能；之表的bang-bang控制信号，实际的仿生机器人在执行示衰减项；y为衰减系数；q为神经元的输出；w决这些控制信号时要么非常容易损坏，要么根本达表示第k个神经元对第j个神经元的抑制作用；不到要求四。因此，对于仿生机器人而言，确保加 a为反馈信号。当采用CPG模型作为运动步态速度约束、速度约束、力矩约束都是关键的。为控制器时，常常将CPG模型中的反馈信号a:参数化，作为优化控制项。了将这些约束考虑进去，仿生机器人的运动步态对于简单的二维人形机器人，Matsubara将控制问题可以纳入到约束马尔可夫决策过程的框架中2)。约束马尔可夫决策过程可以用六元组 CPG模型分别放在两个臀关节和一个状态机控制器来控制膝关节2。而对于三维人形机器人， (S,孔，Py,r,c)来表示。其中，前5个元素表示了马由于关节数目多达21个，采用CPG模型描述关尔可夫决策过程，第6个元素c表示约束。约束节角非常复杂。为了对多关节人形机器人进行控马尔可夫决策过程形式化为带约束的优化问题，即制，Endo等将CPG模型用到任务空间，而状态表 max E 示也只考虑了表示姿态的角速度，其具体的策略表示方法为 s.t.E a0=u2anta爱yo 式中：a为振幅，y~P(yx:w),即y从随机策略 2策略表示方法研究 P(yxw)中采样得到。其中随机策略为高斯强化学习最终目标是得到最优的控制策略，策略：如前所示用策略π：S×A→0,1]来表示。对于仿 1 p(vix;w")= exp(v-M/x:w) 生机器人步态控制来说，状态空间包括机器人的 V2π0，(w） 2σ2(w)）每个关节角度q、相应的角速度9、整个身体质心其中要优化的参数为(w",w),μ(x;w)采用的是的位姿p、相应的速度p、足端或身体与外部的接归一化高斯网络0，x=(,o,0,)F为输入观测。触力F,动作空间为每个关节处的驱动力矩t。 2.1.2基于仿生运动曲线的策略表示方法然而，仿生机器人都是多关节系统，少则十几个仿生蛇形机器人的运动步态控制常用仿生曲关节，多则几十个关节，因此仿生机器人的状态线来表示。最常用的仿生曲线为日本广濑教授提空间和动作空间都是高维的连续空间，这给强化出的serpenoid曲线，该仿生曲线可表示为B川学习带来了非常多的挑战。为了对仿生机器人运 0:=00+Asin(Wssi-Wrt) (3)

间都是连续的，因此最常用的为基于直接策略搜索的方法和基于 actor-critic 的方法。其中，前者最常用的为策略梯度的方法及其变种，如 TRPO 的方法和 PPO 的方法，后者最常用的为 DDPG[21] 的方法。经典强化学习进行数学形式化时并未显式地考虑策略的探索性，因此该类算法容易陷入到局部最优。为了将探索策略考虑在内，学者们提出在优化折扣累积回报的期望的同时优化策略的熵，因此提出了最大熵强化学习的问题形式化[19] ： max π Eτ   ∑∞ t=0 γ t (r(st ,at)−αt logπt(at |st))   (2) 由式 (2) 描述的最优策略对外界的扰动具有更强的鲁棒性，同时在训练过程中充分考虑了策略的探索性，从而加快了学习速度，实验证明该形式化在仿生机器人运动步态的学习中取得最好的表现。 (S,A,P, γ,r, c) 仿生机器人是典型的机电一体化系统，其本身的机械强度和驱动功率都有限制条件，如最大加速度、最大力矩等。然而，典型的最大期望强化学习或者最大熵强化学习的最优解往往都是高频的 bang-bang 控制信号，实际的仿生机器人在执行这些控制信号时要么非常容易损坏，要么根本达不到要求[22]。因此，对于仿生机器人而言，确保加速度约束、速度约束、力矩约束都是关键的。为了将这些约束考虑进去，仿生机器人的运动步态控制问题可以纳入到约束马尔可夫决策过程的框架中[23]。约束马尔可夫决策过程可以用六元组来表示。其中，前 5 个元素表示了马尔可夫决策过程，第 6 个元素 c 表示约束。约束马尔可夫决策过程形式化为带约束的优化问题，即 max π Eτ   ∑∞ t=0 γ t r(st ,at)   s.t.Eτ   ∑∞ t=0 γ t c(st ,at)   ⩽ C¯ 2 策略表示方法研究 π : S ×A → [0,1] q q˙ p p˙ Fext τ 强化学习最终目标是得到最优的控制策略，如前所示用策略来表示。对于仿生机器人步态控制来说，状态空间包括机器人的每个关节角度、相应的角速度、整个身体质心的位姿、相应的速度、足端或身体与外部的接触力，动作空间为每个关节处的驱动力矩。然而，仿生机器人都是多关节系统，少则十几个关节，多则几十个关节，因此仿生机器人的状态空间和动作空间都是高维的连续空间，这给强化学习带来了非常多的挑战。为了对仿生机器人运动步态控制进行有效的学习，学者们提出了很多更有效的策略表示方法。 2.1 基于领域知识的策略参数化方法 2.1.1 基于 CPG 的策略表示方法 CPG 即中枢模式发生器，研究发现 CPG 广泛存在于脊椎动物和非脊椎动物的体内，用于控制动物有节律的呼吸、心跳、肠胃蠕动、行走、奔跑、游动等[24]。仿生机器人学家利用 CPG 模型产生周期信号控制机器人的运动步态，可以大大简化动作空间，因此 CPG 在人形机器人、四足机器人、蛇形机器人等仿生机器人的运动步态控制中得到广泛应用。现有的 CPG 模型包括 Matsuoka 模型[25] 、锁相性模型[26] 和范德波尔模型[27]。其中在仿生机器人中被广泛应用的为 Matsuoka 模型。第 j 个神经元震荡器的动力学模型为[28] τz˙j = −zj − ∑n k=1 wjkqk −γz ′ j +c+aj τ ′ z˙ ′ j = −zj +qj qj = max(0,zj) τ、τ ′、c zj z ′ j γ qj wjk k j aj aj 式中：为调节常数；为平均膜势能；表示衰减项；为衰减系数；为神经元的输出；表示第个神经元对第个神经元的抑制作用；为反馈信号。当采用 CPG 模型作为运动步态控制器时，常常将 CPG 模型中的反馈信号参数化，作为优化控制项。对于简单的二维人形机器人，Matsubara 将 CPG 模型分别放在两个臀关节和一个状态机控制器来控制膝关节[29]。而对于三维人形机器人，由于关节数目多达 21 个，采用 CPG 模型描述关节角非常复杂。为了对多关节人形机器人进行控制，Endo 等将 CPG 模型用到任务空间，而状态表示也只考虑了表示姿态的角速度，其具体的策略表示方法为 aj(t) = a max j 2 π arctan( π 2 νj(t)) a max j νj ∼ P(νj |x;w µ ) νj P(νj |x;w µ ) 式中：为振幅，，即从随机策略中采样得到。其中随机策略为高斯策略： p(νj |x;w µ ) = 1 √ 2πσj(wσ) exp( −(νj −µj(x;w µ ))2 2σ 2 j (wσ) ) (w µ ,w σ ) µj(x;w µ ) x = (θ˙ roll, θ˙ pitch) T 其中要优化的参数为，采用的是归一化高斯网络[30] ，为输入观测。 2.1.2 基于仿生运动曲线的策略表示方法仿生蛇形机器人的运动步态控制常用仿生曲线来表示。最常用的仿生曲线为日本广濑教授提出的 serpenoid 曲线，该仿生曲线可表示为[31] θi = θ0 + Asin(wssi −wT t) (3) ·154· 智能系统学报第 15 卷

第1期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·155· 式中：%为角度偏置项；A为振幅；w,为空间频地面的碰撞作用，为此在状态空间的表示上应该率，表示波动沿着身体传播的速度；wr为时间角反映出碰撞作用。Yu等B]利用一个特殊的二值频率，表示单个关节的震荡频率。蛇形曲线来表向量c表示每条腿是否与地面接触，状态空间为示控制策略大大简化了控制步态的参数个数。在 s=【,d,c,]。Haarnoja等9利用连续的5帧观测蛇形曲线式(3)中需要控制的参数为(a,A,wr)。Fang 总共112维的向量作为状态向量来建模实际仿生等网利用强化学习方法直接对这3个参数进行优四足机器人由于信号延迟和地面碰撞作用产生非化，Sartoretti等B将当前的形状参数作为状态输马尔可夫性。Hwangbo等u1利用关节历史信息入并将参数A,w利用神经网络表示成为形状参建模腿与地面的碰撞作用，其建立的状态空间为数的非线性函数。 =[,r,w,中，，⊙，ak-1,C。对于复杂的运动任 2.1.3基于DMP的策略表示方法务%，如不同地形下的运动步态控制，状态往往包动态运动基元(DMP)方法用一组微分方程表括两部分，即s=[s,sl,一部分为仿生机器人本示光滑的运动策略，通过调整耦合项可以灵活地对身的状态信息5，另一部分为面临的地形特征描运动策略进行调制，在仿生机器人尤其是足类机器述57。对于仿生蛇形机器人，为了得到能量利用人中得到广泛应用。一组节律运动基元可表示为率最高的步态，状态除了自身的特征外，还需要 N 知道关节力B7,即5，=[中，，，t, 平w 对于动作的表示，可以直接利用关节的力矩 il Ty=z+ π来表示，也可以利用每个关节的期望关节角 ∑ 度来表示，然后利用PD控制或者阻抗控制器得到每个关节的关节力矩。Peng等B研究发现 t2=a,(B.0ym-y）-z) 直接优化期望关节角度比直接优化力矩更稳定。式中：0y,z)为控制信号；平=exp(-h:(mod(,2m)-c方有了状态的表示和动作的表示之后，策略常 CiE[0,2)i=[rcos rsino],To=1 Ti=-u(r-ro) 常可以利用带有两个隐含层的神经网络来表示从强化学习需要优化的参数为，常用的学习状态到动作的映射。对于带有地形适应的步态控方法为策略梯度法。制，则地形部分的描述往往需要经过若干卷积层 2.2基于深度神经网络的策略参数化方法后，再与表示机器人自身特征的状态串接在一前面基于领域知识的策略表示方法耦合了大起，输入到一个前向神经网络中。量先验知识，如步态的周期性、对称性等，这种表示方法使得强化学习所需要优化的参数量大幅度 3策略学习方法减少，因此只需要几百次或上千次的训练就能得强化学习方法可以分为基于值函数的方法、基到最优解，而且所得到的解能应用到实际的仿生于直接策略搜索的方法和基于Actor-Critic框架的机器人中。然而，基于领域知识的策略表示方法方法。基于值函数的方法常用于离散动作空间。表示能力非常有限，无法表示一般的运动步态。仿生机器人的动作空间为高维的连续空间，因此常因此，这些基于领域知识的策略表示方法对不同用的学习方法为后两种。现有的仿生机器人策略的运动任务没有通用性，只能使得仿生机器人实学习方法可以分为两大类，第1类是将仿生机器人现常见的行走。随着深度学习技术的进步，深度视为单智能体，所有的驱动关节空间为动作空间，强化学习在仿生机器人运动步态控制领域得到更利用单智能体强化学习的方法进行学习；第2类则深入的研究。通用的深度神经网络用来表示运动是将仿生机器人按照不同的足或者身体部位视为步态控制率。与基于领域知识的控制策略不同，不同的智能体，整个仿生机器人视为多个智能体系基于深度神经网络的控制策略没有考虑先验知统，其步态运动控制视为多个智能体的协同运动，识，因此更具有通用性，并且随着网络参数的增利用多智能强化学习的方法学习策略。加，其表示能力增强，而且可以根据不同的运动 3.1单智能体强化学习方法任务学习不同的运动控制策略。 3.1.1基于轨迹最优的方法对于状态的表示，用中：和：来表示仿生机器基于轨迹最优的GPS方法由Levine等u提人的关节角和关节角速度，用0o,aol,0pach,pueh来出，该方法通过交叉优化最优控制策略P,(x)和表示仿生机器人整体的滚转角度、角速度，俯仰神经网络策略π(x)学习得到最优的神经网络策角度和角速度。足类仿生机器人与仿生蛇形机器略。具体学习过程如下。人不同，足类机器人的状态空间还应该包括足与 1)利用轨迹最优算法，如微分动态规划等来

θ0 A ws wT (θ0,A,wT ) {A,w} 式中：为角度偏置项；为振幅；为空间频率，表示波动沿着身体传播的速度；为时间角频率，表示单个关节的震荡频率。蛇形曲线来表示控制策略大大简化了控制步态的参数个数。在蛇形曲线式 (3) 中需要控制的参数为。Fang 等 [32] 利用强化学习方法直接对这 3 个参数进行优化，Sartoretti 等 [31] 将当前的形状参数作为状态输入并将参数利用神经网络表示成为形状参数的非线性函数。 2.1.3 基于 DMP 的策略表示方法动态运动基元 (DMP) 方法用一组微分方程表示光滑的运动策略，通过调整耦合项可以灵活地对运动策略进行调制，在仿生机器人尤其是足类机器人中得到广泛应用。一组节律运动基元可表示为[33] τy˙ = z+ ∑N i=1 Ψiw T i υ˜ ∑N i=1 Ψi τz˙ = αz(βz(ym −y)−z) (y,z) Ψi = exp(−hi( mod (ϕ,2π)−ci) 2 ) ci ∈ [0,2π] υ˜ = [r cosϕ rsinϕ] T τϕ˙=1 τr˙ = −µ(r −r0) 式中：为控制信号；；，，。 w T 强化学习需要优化的参数为 i , 常用的学习方法为策略梯度法[34]。 2.2 基于深度神经网络的策略参数化方法前面基于领域知识的策略表示方法耦合了大量先验知识，如步态的周期性、对称性等，这种表示方法使得强化学习所需要优化的参数量大幅度减少，因此只需要几百次或上千次的训练就能得到最优解，而且所得到的解能应用到实际的仿生机器人中。然而，基于领域知识的策略表示方法表示能力非常有限，无法表示一般的运动步态。因此，这些基于领域知识的策略表示方法对不同的运动任务没有通用性，只能使得仿生机器人实现常见的行走。随着深度学习技术的进步，深度强化学习在仿生机器人运动步态控制领域得到更深入的研究。通用的深度神经网络用来表示运动步态控制率。与基于领域知识的控制策略不同，基于深度神经网络的控制策略没有考虑先验知识，因此更具有通用性，并且随着网络参数的增加，其表示能力增强，而且可以根据不同的运动任务学习不同的运动控制策略。 ϕi ϕ˙ i θroll θ˙ roll θpitch θ˙ pitch 对于状态的表示，用和来表示仿生机器人的关节角和关节角速度，用 , , , 来表示仿生机器人整体的滚转角度、角速度，俯仰角度和角速度。足类仿生机器人与仿生蛇形机器人不同，足类机器人的状态空间还应该包括足与 c s = [ϕ,ϕ,˙ c,υˆ] sk = [ϕ g ,rz ,ν,w, ϕi ,ϕ˙ i ,Θ,ak−1,C] s = [sc ,sT ] sc sT st = [ϕi ,ϕ˙ i , υ1,τi , υt] 地面的碰撞作用，为此在状态空间的表示上应该反映出碰撞作用。Yu 等 [35] 利用一个特殊的二值向量表示每条腿是否与地面接触，状态空间为。Haarnoja 等 [19] 利用连续的 5 帧观测总共 112 维的向量作为状态向量来建模实际仿生四足机器人由于信号延迟和地面碰撞作用产生非马尔可夫性。Hwangbo 等 [18] 利用关节历史信息建模腿与地面的碰撞作用，其建立的状态空间为。对于复杂的运动任务 [36] ，如不同地形下的运动步态控制，状态往往包括两部分，即，一部分为仿生机器人本身的状态信息，另一部分为面临的地形特征描述。对于仿生蛇形机器人，为了得到能量利用率最高的步态，状态除了自身的特征外，还需要知道关节力[37] ，即。 τ ϕ d i 对于动作的表示，可以直接利用关节的力矩来表示[11] ，也可以利用每个关节的期望关节角度来表示, 然后利用 PD 控制或者阻抗控制器得到每个关节的关节力矩。Peng 等 [38] 研究发现直接优化期望关节角度比直接优化力矩更稳定。有了状态的表示和动作的表示之后，策略常常可以利用带有两个隐含层的神经网络来表示从状态到动作的映射。对于带有地形适应的步态控制，则地形部分的描述往往需要经过若干卷积层后，再与表示机器人自身特征的状态串接在一起，输入到一个前向神经网络中。 3 策略学习方法强化学习方法可以分为基于值函数的方法、基于直接策略搜索的方法和基于 Actor-Critic 框架的方法。基于值函数的方法常用于离散动作空间。仿生机器人的动作空间为高维的连续空间，因此常用的学习方法为后两种。现有的仿生机器人策略学习方法可以分为两大类，第 1 类是将仿生机器人视为单智能体，所有的驱动关节空间为动作空间，利用单智能体强化学习的方法进行学习；第 2 类则是将仿生机器人按照不同的足或者身体部位视为不同的智能体，整个仿生机器人视为多个智能体系统，其步态运动控制视为多个智能体的协同运动，利用多智能强化学习的方法学习策略。 3.1 单智能体强化学习方法 3.1.1 基于轨迹最优的方法 pi(u|x) πθ(x) 基于轨迹最优的 GPS 方法由 Levine 等 [11] 提出，该方法通过交叉优化最优控制策略和神经网络策略学习得到最优的神经网络策略。具体学习过程如下。 1) 利用轨迹最优算法，如微分动态规划等来第 1 期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·155·

·156· 智能系统学报第15卷优化得到最优的策略，其优化目标为 3.1.3基于最大熵的方法 L(q)=DxL(q(T)llp(T))+ 当仿生机器人的自由度很高时，GPS的方法 ∑ADu(g)zlk,lg4,》难以拟合局部动力学，DDPG的方法则需要额外的探索策略，学习效率低。基于最大熵的强化学 2)得到最优控制策略后，利用该最优策略在习算法将探索策略耦合到优化之中，因此增强了数据点τ处，利用监督学习的方法对神经网络策学习效率。根据策略迭代方法提出来的soft-act- 略进行训练，其优化目标为 or-critic方法I6充分利用了最大熵原理，在保证收敛性的同时，能快速地收敛到最优解。最大熵强 L(O=∑∑Dx((wqlxa)q((k》化学习的问题形式化为式(2)所示。为了求解式 3)更新对偶变量入，更新规则为 (1),需要依次优化如下3个损失函数：入入+Dx(q(x)r(w,lx)lg(x,4) Je(0)=E4ol[0(,a)-((s,a,)+yVa.(S+》闩与传统的基于随机策略搜索的方法相比， (4) GPS的方法利用轨迹最优方法得到局部最优解， J.(=E-aloga(als小）-mi2n(s,a） (5) 图1,24 并利用最优解进行监督训练，避免了随机探索。经过训练得到的通用神经网络策略能泛化到其他 J(a)=E-D4[-alogπ(al小s,)-aH (6) 其中式(4)为行为值函数的损失函数，由贝尔曼情况下。实验证明，该方法能高效地学习游动、参数的均方和来给出。为了移除过优估计，使用跳跃、行走、奔跑等运动。 3.12基于确定性策略梯度的方法 2套独立的参数0和。式(5)为最大熵策略的损失函数，式(6)为自动调整因此α的损失函数，仿生机器人一般拥有十几个甚至是几十个控制输入，使得其动作空间为十几维甚至是几十维其中α为式(3)中嫡所占的比重，该参数在优化的连续空间。基于随机策略梯度的方法在进行梯的过程中不断发生变化。SAC算法被成功应用度估计的时候需要在如此高维的空间进行大量采到四足机器人的运动步态控制中。值得一提的是，该算法可以在真实的四足机器人上直接进行样，使得学习效率很低。基于确定性策略梯度的训练，经过2h的训练，四足机器人就能学会行走。方法不需要在动作空间进行采样，只需在状态空间进行采样。尤其是深度确定性策略梯度算法 3.1.4基于最大后验策略优化的方法即DDPG算法2利用深度神经网络逼近行为值最大后验策略优化的方法从概率的角度出函数，并利用off-policy的方法估计行为值函数，发，将强化学习问题建模为推理问题。假设大大提升了数据效率，在连续运动控制中得到广 P(O=1)为完成任务的概率，则根据推理问题，该泛应用。DDPG的方法为Actor-Critic框架的强化概率为问学习算法，在该算法中行为值函数和策略函数都 logp.(0=1)=log∫p.(r)p(O=lr)dr≥ 由神经网络来逼近，其更新规则为 ∫(logp(O=lr)+-log P( g(T) 6,=r,+yQw(+14g(s+i)-Q(s,a) 令损失函数： Wit1=W:+am6,VO"(sa) 0=0,+aoVopto(S:)VaO"(Sa)l=ps) Jq,)=】 -KL(q(r川p.(r) 式中：w、w、0、分别为行为值函数网络的估计 ∑o 参数、目标网络参数、策略网络的估计参数、目标式中：q()为提议分布。该优化问题可通过策略网参数。 EM方法进行求解，在E步优化得到最优的提议 DDPG方法在连续控制问题取得普遍较好的分布q(π)，在该步中非参数优化解为结果。然而，由于off-policy的存在，行为值函数 qu(dls)cπ(ads,)exp Qa(s,ad）的估计普遍存在过优估计的问题。同时，由于行为值函数参数的更新与策略网络参数的更新同时其中最优温度项根据式(7)优化得到：交叉更新，这使得学习过程非常不稳定。为了解 ne+s)log fr(as.0)exp2a(sa dads 决这些问题，各种各样的改进的DDPG算法被提 (7) 出来，其中Fujimoto等提出TD3的方法m,利用在M步中，利用最优的提议分布更新神经网 Double Q--learning9的方法来解决过优估计问题，络策略：利用策略网络延迟更新的方法解决学习不稳定，在连续控制问题上取得当前最好的结果。 max J(qi0)=max E(s [Edo flog(als,]]+log p(0)

优化得到最优的策略，其优化目标为 L(q) = DKL(q(τ)||ρ(τ))+ ∑T t=1 λtDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 2) 得到最优控制策略后，利用该最优策略在数据点 τ 处，利用监督学习的方法对神经网络策略进行训练，其优化目标为 L(θ) = ∑T t=1 λt ∑N i=1 DKL(πθ(ut |xti)||q(ut |xti)) 3）更新对偶变量 λt更新规则为 λt ← λt +ηDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 与传统的基于随机策略搜索的方法相比， GPS 的方法利用轨迹最优方法得到局部最优解，并利用最优解进行监督训练，避免了随机探索。经过训练得到的通用神经网络策略能泛化到其他情况下。实验证明，该方法能高效地学习游动、跳跃、行走、奔跑等运动。 3.1.2 基于确定性策略梯度的方法仿生机器人一般拥有十几个甚至是几十个控制输入，使得其动作空间为十几维甚至是几十维的连续空间。基于随机策略梯度的方法在进行梯度估计的时候需要在如此高维的空间进行大量采样，使得学习效率很低。基于确定性策略梯度的方法不需要在动作空间进行采样，只需在状态空间进行采样。尤其是深度确定性策略梯度算法即 DDPG 算法[21] 利用深度神经网络逼近行为值函数，并利用 off-policy 的方法估计行为值函数，大大提升了数据效率，在连续运动控制中得到广泛应用。DDPG 的方法为 Actor-Critic 框架的强化学习算法，在该算法中行为值函数和策略函数都由神经网络来逼近，其更新规则为 δt = rt +γQ w − (st+1, µθ − (st+1))− Q w (st ,at) wt+1 = wt +αmδt∇wQ w (st ,at) θt+1 = θt +αθ∇θµθ(st)∇aQ w (st ,at)|a=µθ (s) w w − θ θ 式中： − 、、、分别为行为值函数网络的估计参数、目标网络参数、策略网络的估计参数、目标策略网参数。 DDPG 方法在连续控制问题取得普遍较好的结果。然而，由于 off-policy 的存在，行为值函数的估计普遍存在过优估计的问题。同时，由于行为值函数参数的更新与策略网络参数的更新同时交叉更新，这使得学习过程非常不稳定。为了解决这些问题，各种各样的改进的 DDPG 算法被提出来，其中 Fujimoto 等提出 TD3 的方法[17] ，利用 Double Q-learning[39] 的方法来解决过优估计问题，利用策略网络延迟更新的方法解决学习不稳定，在连续控制问题上取得当前最好的结果。 3.1.3 基于最大熵的方法当仿生机器人的自由度很高时，GPS 的方法难以拟合局部动力学，DDPG 的方法则需要额外的探索策略，学习效率低。基于最大熵的强化学习算法将探索策略耦合到优化之中，因此增强了学习效率。根据策略迭代方法提出来的 soft-actor-critic 方法[16] 充分利用了最大熵原理，在保证收敛性的同时，能快速地收敛到最优解。最大熵强化学习的问题形式化为式 (2) 所示。为了求解式 (1)，需要依次优化如下 3 个损失函数： JQ(θ) = E(st ,at ,st+1)∼D[(Qθ(st ,at)−(r(st ,at)+γVθ1 ,θ2 (st+1)))2 ] (4) Jπ(ϕ) = Est∼D,at∼πϕ [ αlogπϕ(at |st)− min i∈{1,2} Qθi (st ,at) ] (5) J(α) = Est∼D,at∼πϕ [−αlogπϕ(at |st)−αH] (6) θ1 θ2 α α 其中式 (4) 为行为值函数的损失函数，由贝尔曼参数的均方和来给出。为了移除过优估计，使用 2 套独立的参数和。式 (5) 为最大熵策略的损失函数，式 (6) 为自动调整因此的损失函数，其中为式 (3) 中熵所占的比重，该参数在优化的过程中不断发生变化。SAC 算法被成功应用到四足机器人的运动步态控制中。值得一提的是，该算法可以在真实的四足机器人上直接进行训练，经过 2 h 的训练，四足机器人就能学会行走。 3.1.4 基于最大后验策略优化的方法 pπ(O = 1) 最大后验策略优化的方法从概率的角度出发，将强化学习问题建模为推理问题。假设为完成任务的概率，则根据推理问题，该概率为[15] log pπ(O = 1) = log∫ pπ(τ)p(O = 1|τ)dτ ⩾ ∫ q(τ) [ logp(O = 1|τ)+log pπ(τ) q(τ) ] dτ 令损失函数： J(q, π) = Eq   ∑ t rt/α  −KL(q(τ)||pπ(τ)) q(τ) q(τ) 式中：为提议分布。该优化问题可通过 EM 方法进行求解，在 E 步优化得到最优的提议分布，在该步中非参数优化解为 qi(a|s) ∝ π(a|s, θi) exp( Qθi (s,a) η ∗ ) η 其中最优温度项 ∗根据式（7）优化得到： g(η) = ηε+η ∫ µ(s)log∫ π(a|s, θi) exp( Qθi (s,a) η ) dads (7) 在 M 步中，利用最优的提议分布更新神经网络策略： max θ J(qi , θ) = max θ Eµq (s)[Eq(a|s)[logπ(a|s, θ)]]+log p(θ) ·156· 智能系统学报第 15 卷

第1期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·157· 基于最大后验策略优化的方法与基于轨迹最态，然而实际模型与仿真模型往往存在较大差优的方法类似，都是先优化得到一个局部最优策异，这就导致在仿真环境中训练的策略直接迁移略，然后以该策略为目标进行监督学习。不同的到实际机器人上会产生很大的偏差。因此，从仿是，基于轨迹最优的方法需要先拟合一个动力学真到实际机器人平台的迁移学习是有待研究的重模型，然后根据轨迹最优方法得到局部最优策要问题。略，是基于模型的方法；而基于最大后验策略优 4)鲁棒性差化则是完全根据数据进行的无模型优化方法。因对于实际的机器人系统，由于各种传感器存此基于最大后验策略优化的方法具有更大的应用在着误差，这就导致机器人实际的观测是带有噪范围和通用性。音的，而在无噪音条件下训练的策略往往失效， 3.2多智能体强化学习方法因此如何得到鲁棒的强化学习算法是有待研究的将仿生机器人的驱动关节分成若干个独立的重要问题。智能体，每个智能体共享一套同样的控制策略，针对上述存在的问题，目前仿生机器人运动利用异步的分布式方法对多智能体系统进行训练步态学习的发展趋势如下。可以加速学习的过程。Sartoretti等利用A3C的方 4.2发展趋势法利用分布式强化学习对仿生蛇形机器人和仿生 1)基于模型的强化学习六足机器人进行训练B。更具体来说，对于仿生为了提升强化学习算法的样本效率，基于模蛇形机器人，整个身体关节可以看成6个智能体，型的强化学习算法近年来成为该领域研究的热每个智能体的策略利用仿生曲线式(9)进行参数点。Ha等0提出创建世界模型，在进行策略学化，并利用共享回报和A3C的方法对共享策略进习之前先学习一个世界模型，然后利用世界模型行训练。对于六足机器人，每条足视为一个智能对下一个状态进行预测，预测的状态作为输入的体，利用基于CPG的方法参数化共享策略。一部分耦合进策略学习中。当输入为像素时，状态空间为高维输入，机器人一般需要大量的交互 4存在的问题及发展趋势数据进行步态的学习，Ebert等提出创建图像预测模型，利用该模型创建虚拟环境，在虚拟环境本文对强化学习算法在仿生机器人的步态控中进行局部训练，为了不断降低虚拟环境的误制领域的研究和发展进行了综述，具体包括仿生差，智能体通过与真实世界的交互不断优化虚拟机器人运动步态控制的问题形式化、现有的策略环境，从而最终减少与真实世界的交互。表示方法研究、现有的策略研究方法研究。总体 2)元强化学习来说，目前强化学习算法在仿生机器人领域得到为了使得机器人快速地学习多项任务，元强快速发展，不过目前普遍存在很多问题。化学习算法近年来成为研究热点。与经典强化学 4.1存在的问题习算法不同，元强化学习是在任务空间进行训 1)样本效率低练，学习到任务空间的先验知识，以便在学习新人类能快速地学会走路、奔跑、跳跃等运动的任务时能利用以前的先验知识进行快速地学步态，然而现有的强化学习方法则需要几十万甚习。为了使得智能体具有连续学习的能力，Finn 至上百万次的尝试。这不仅需要耗费大量的时间等提出在线元强化学习的方法，从而使得机器和能量，还会导致仿生机器人严重磨损甚至坏人能连续学习多个运动任务。掉。如何提升样本效率，这是强化学习应用于实 3)分层强化学习际的仿生机器人步态学习中急需解决的重要问题。在仿生机器人学习越障、踢球等复杂的运动 2)无法有效地进行多任务学习任务时，任务本身具有很强的不同水平的决策的现有的强化学习算法大都只能学习单一的运特性。简单的端到端的学习面临着学习效率低、动步态，当学习其他类型的运动步态或任务时，学习效果差等问题。为此，分层强化学习算法成需要重新训练；如何通过一次训练便可以学会多为解决该问题的研究热点。Peng等在解决仿生机个运动步态或完成多个运动任务是当前研究中存器人复杂运动任务时，将动作空间分成两层：上层在的一个重要问题。的目标位置和底层的关节动作，通过两层决策实 3)从仿真环境到实际平台的迁移性差现学习目的。Mahjourian等)在解决乒乓球机器现有的强化学习方法大都是先构建机器人的人打球的运动任务时采用分层的策略，其中底层仿真模型，在仿真环境中训练机器人的运动步采用基于模型的控制器，高层采用强化学习的方

基于最大后验策略优化的方法与基于轨迹最优的方法类似，都是先优化得到一个局部最优策略，然后以该策略为目标进行监督学习。不同的是，基于轨迹最优的方法需要先拟合一个动力学模型，然后根据轨迹最优方法得到局部最优策略，是基于模型的方法；而基于最大后验策略优化则是完全根据数据进行的无模型优化方法。因此基于最大后验策略优化的方法具有更大的应用范围和通用性。 3.2 多智能体强化学习方法将仿生机器人的驱动关节分成若干个独立的智能体，每个智能体共享一套同样的控制策略，利用异步的分布式方法对多智能体系统进行训练可以加速学习的过程。Sartoretti 等利用 A3C 的方法利用分布式强化学习对仿生蛇形机器人和仿生六足机器人进行训练[31]。更具体来说，对于仿生蛇形机器人，整个身体关节可以看成 6 个智能体，每个智能体的策略利用仿生曲线式 (9) 进行参数化，并利用共享回报和 A3C 的方法对共享策略进行训练。对于六足机器人，每条足视为一个智能体，利用基于 CPG 的方法参数化共享策略。 4 存在的问题及发展趋势本文对强化学习算法在仿生机器人的步态控制领域的研究和发展进行了综述，具体包括仿生机器人运动步态控制的问题形式化、现有的策略表示方法研究、现有的策略研究方法研究。总体来说，目前强化学习算法在仿生机器人领域得到快速发展，不过目前普遍存在很多问题。 4.1 存在的问题 1) 样本效率低人类能快速地学会走路、奔跑、跳跃等运动步态，然而现有的强化学习方法则需要几十万甚至上百万次的尝试。这不仅需要耗费大量的时间和能量，还会导致仿生机器人严重磨损甚至坏掉。如何提升样本效率，这是强化学习应用于实际的仿生机器人步态学习中急需解决的重要问题。 2) 无法有效地进行多任务学习现有的强化学习算法大都只能学习单一的运动步态，当学习其他类型的运动步态或任务时，需要重新训练；如何通过一次训练便可以学会多个运动步态或完成多个运动任务是当前研究中存在的一个重要问题。 3) 从仿真环境到实际平台的迁移性差现有的强化学习方法大都是先构建机器人的仿真模型，在仿真环境中训练机器人的运动步态，然而实际模型与仿真模型往往存在较大差异，这就导致在仿真环境中训练的策略直接迁移到实际机器人上会产生很大的偏差。因此，从仿真到实际机器人平台的迁移学习是有待研究的重要问题。 4) 鲁棒性差对于实际的机器人系统，由于各种传感器存在着误差，这就导致机器人实际的观测是带有噪音的，而在无噪音条件下训练的策略往往失效，因此如何得到鲁棒的强化学习算法是有待研究的重要问题。针对上述存在的问题，目前仿生机器人运动步态学习的发展趋势如下。 4.2 发展趋势 1) 基于模型的强化学习为了提升强化学习算法的样本效率，基于模型的强化学习算法近年来成为该领域研究的热点。Ha 等 [40] 提出创建世界模型，在进行策略学习之前先学习一个世界模型，然后利用世界模型对下一个状态进行预测，预测的状态作为输入的一部分耦合进策略学习中。当输入为像素时，状态空间为高维输入，机器人一般需要大量的交互数据进行步态的学习，Ebert 等 [41] 提出创建图像预测模型，利用该模型创建虚拟环境，在虚拟环境中进行局部训练，为了不断降低虚拟环境的误差，智能体通过与真实世界的交互不断优化虚拟环境，从而最终减少与真实世界的交互。 2) 元强化学习为了使得机器人快速地学习多项任务，元强化学习算法近年来成为研究热点。与经典强化学习算法不同，元强化学习是在任务空间进行训练，学习到任务空间的先验知识，以便在学习新的任务时能利用以前的先验知识进行快速地学习。为了使得智能体具有连续学习的能力，Finn 等 [42] 提出在线元强化学习的方法，从而使得机器人能连续学习多个运动任务。 3) 分层强化学习在仿生机器人学习越障、踢球等复杂的运动任务时，任务本身具有很强的不同水平的决策的特性。简单的端到端的学习面临着学习效率低、学习效果差等问题。为此，分层强化学习算法成为解决该问题的研究热点。Peng 等在解决仿生机器人复杂运动任务时，将动作空间分成两层：上层的目标位置和底层的关节动作，通过两层决策实现学习目的。Mahjourian 等 [43] 在解决乒乓球机器人打球的运动任务时采用分层的策略，其中底层采用基于模型的控制器，高层采用强化学习的方第 1 期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·157·

·158· 智能系统学报第15卷法学习无模型的控制器，获得了高效的学习算法。 bots by annealed chain fitting and keyframe wave extrac- tion[C]//Proceedings of 2009 IEEE/RSJ International Con- 5结束语 ference on Intelligent Robots and Systems.St.Louis,USA, 2009:840-845. 本文从问题形式化、策略表示方法和策略学 [8]TAKEMORI T,TANAKA M,MATSUNO F.Gait design 习3个方面对当前强化学习算法应用到仿生机器 for a snake robot by connecting curve segments and experi- 人的运动步态控制任务中的研究情况进行了分析 mental demonstration[J].IEEE transactions on robotics. 和总结，并给出了强化学习算法应用到该领域尚 2018.34(5:1384-1391. 待解决的问题和未来的发展方向。总体而言，不 [9]MNIH V.KAVUKCUOGLU K.SILVER D,et al.Human- 同于仿真环境，仿生机器人的步态运动控制受到 level control through deep reinforcement learning[J]. 实际机器人系统的驱动、机构、通信等多方面的 Nature,.2015,518(7540):529-533. 限制，使得强化学习算法在该领域中的应用表现 [10]SILVER D.SCHRITTWIESER J.SIMONYAN K.et al. 出极大的挑战。一般而言，在形式化方面，需要 Mastering the game of Go without human knowledge[J]. 利用约束马尔可夫决策过程对该问题进行建模； Nature.2017,550(7676):354-359. [11]LEVINE S,KOLTUN V.Learning complex neural net- 在策略表示方面，更倾向于领域结构化的表示方 work policies with trajectory optimization[C]//Proceed- 法；在策略学习方面，高效的直接策略搜索方法 ings of the 31st International Conference on Machine 表现更佳。然而，目前强化学习算法用于仿生机 Learning.Beijing,China,2014:829-837. 器人运动步态学习和控制仍然面临着样本效率 [12]SCHULMAN J.LEVINE S.MORITZ P.et al.Trust re- 低、无法有效地进行多任务学习、从仿真环境到 gion policy optimization[C]//Proceedings of the 31st In- 实际平台的迁移性差和学习鲁棒性差等问题。新 ternational Conference on Machine Learning.Lille, 的方法如基于模型的强化学习、元强化学习和分 France,2015:1889-1897. 层强化学习等有望解决或缓解这些问题。 [13]SCHULMAN J.WOLSKI F.DHARIWAL P.et al.Prox- imal policy optimization algorithms[EB/OL].(2017-08- 参考文献 28).https://arxiv.org/abs/1707.06347. [14]PENG Xuebin,BERSETH G,YIN Kangkang,et al. [1]GEHRING C,COROS S,HUTTER M.et al.Practice DeepLoco:dynamic locomotion skills using hierarchical makes perfect:an optimization-based approach to con- deep reinforcement learning[J].ACM transactions on trolling agile motions for a quadruped robot[J].IEEE ro- graphics.2017,36(4):1-13. botics&automation magazine,2016,23(1):34-43. [15]ABDOLMALEKI A.SPRINGENBERG J T.TASSA Y. [2]APGAR T,CLARY P,GREEN K,et al.Fast online tra- et al.Maximum a posteriori policy optimisation[EB/OL]. jectory optimization for the bipedal robot Cassie[Cl//Pro- (2018-06-14).https://arxiv.org/abs/1806.06920. ceedings of Robotics:Science and Systems 2018.Pitts- [16]HAARNOJA T.ZHOU A,HARTIKAINEN K,et al.Soft burgh,USA,2018. actor-critic algorithms and applications[EB/OL].(2019- [3]RAIBERT M.BLANKESPOOR K,NELSON G,et al. 01-29).https://arxiv.org/abs/1812.05905. BigDog,the rough-terrain quadruped robot[C]//Proceed- [17]FUJIMOTO S,VAN HOOF H,MEGER D.Addressing ings of the 17th World Congress of the International Feder- function approximation error in actor-critic methods[C]// ation of Automatic Control.Seoul,Korea,2008: Proceedings of the 35th International Conference on Ma- 10822-10825 chine Learning.Stockholmsmassan,Sweden,2018: [4]Spotmini autonomous navigation[EB/OL].[2018-08-11]. 1587-1596. https://ucrazy.ru/video/1526182828-spotmini-autonomous- [18]HWANGBO J.LEE J.DOSOVITSKIY A.et al.Learn- navigation.html. ing agile and dynamic motor skills for legged robots[J]. [5]PARK H W,PARK S,KIM S.Variable-speed quadruped- Science robotics,2019,4(26):5872-5880. al bounding using impulse planning:Untethered high- [19]HAARNOJA T,HA S,ZHOU A,et al.Learning to walk speed 3D running of MIT Cheetah 2[Cl//Proceedings of via deep reinforcement learning[EB/OL].(2019-06-19) 2015 IEEE International Conference on Robotics and https://arxiv.org/abs/1812.11103 Automation.Seattle,USA,2015:5163-5170. [20]SUTTON R S,BARTO A G.Reinforcement learning:an [6]HIROSE S.YAMADA H.Snake-like robots:machine introduction[M].Cambridge:MIT Press,1998. design of biologically inspired robots[J].IEEE robotics and [21]LILLICRAP T P,HUNT JJ,PRITZEL A,et al.Continu- automation magazine,2009,16(1):88-98 ous control with deep reinforcement learning[J].Com- [7]HATTON RL,CHOSET H.Generating gaits for snake ro- puter science,2015,8(6):A187

法学习无模型的控制器，获得了高效的学习算法。 5 结束语本文从问题形式化、策略表示方法和策略学习 3 个方面对当前强化学习算法应用到仿生机器人的运动步态控制任务中的研究情况进行了分析和总结，并给出了强化学习算法应用到该领域尚待解决的问题和未来的发展方向。总体而言，不同于仿真环境，仿生机器人的步态运动控制受到实际机器人系统的驱动、机构、通信等多方面的限制，使得强化学习算法在该领域中的应用表现出极大的挑战。一般而言，在形式化方面，需要利用约束马尔可夫决策过程对该问题进行建模；在策略表示方面，更倾向于领域结构化的表示方法；在策略学习方面，高效的直接策略搜索方法表现更佳。然而，目前强化学习算法用于仿生机器人运动步态学习和控制仍然面临着样本效率低、无法有效地进行多任务学习、从仿真环境到实际平台的迁移性差和学习鲁棒性差等问题。新的方法如基于模型的强化学习、元强化学习和分层强化学习等有望解决或缓解这些问题。参考文献： GEHRING C, COROS S, HUTTER M, et al. Practice makes perfect: an optimization-based approach to controlling agile motions for a quadruped robot[J]. IEEE robotics & automation magazine, 2016, 23(1): 34–43. [1] APGAR T, CLARY P, GREEN K, et al. Fast online trajectory optimization for the bipedal robot Cassie[C]//Proceedings of Robotics: Science and Systems 2018. Pittsburgh, USA, 2018. [2] RAIBERT M, BLANKESPOOR K, NELSON G, et al. BigDog, the rough-terrain quadruped robot[C]//Proceedings of the 17th World Congress of the International Federation of Automatic Control. Seoul, Korea, 2008: 10822−10825. [3] Spotmini autonomous navigation[EB/OL].[2018-08-11]. https://ucrazy.ru/video/1526182828-spotmini-autonomousnavigation.html. [4] PARK H W, PARK S, KIM S. Variable-speed quadrupedal bounding using impulse planning: Untethered highspeed 3D running of MIT Cheetah 2[C]//Proceedings of 2015 IEEE International Conference on Robotics and Automation. Seattle, USA, 2015: 5163−5170. [5] HIROSE S, YAMADA H. Snake-like robots: machine design of biologically inspired robots[J]. IEEE robotics and automation magazine, 2009, 16(1): 88–98. [6] [7] HATTON R L, CHOSET H. Generating gaits for snake robots by annealed chain fitting and keyframe wave extraction[C]//Proceedings of 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. St. Louis, USA, 2009: 840−845. TAKEMORI T, TANAKA M, MATSUNO F. Gait design for a snake robot by connecting curve segments and experimental demonstration[J]. IEEE transactions on robotics, 2018, 34(5): 1384–1391. [8] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Humanlevel control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. [9] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676): 354–359. [10] LEVINE S, KOLTUN V. Learning complex neural network policies with trajectory optimization[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014: 829−837. [11] SCHULMAN J, LEVINE S, MORITZ P, et al. Trust region policy optimization[C]//Proceedings of the 31st International Conference on Machine Learning. Lille, France, 2015: 1889−1897. [12] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-08- 28). https://arxiv.org/abs/1707.06347. [13] PENG Xuebin, BERSETH G, YIN Kangkang, et al. DeepLoco: dynamic locomotion skills using hierarchical deep reinforcement learning[J]. ACM transactions on graphics, 2017, 36(4): 1–13. [14] ABDOLMALEKI A, SPRINGENBERG J T, TASSA Y, et al. Maximum a posteriori policy optimisation[EB/OL]. (2018-06-14). https://arxiv.org/abs/1806.06920. [15] HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[EB/OL]. (2019- 01-29). https://arxiv.org/abs/1812.05905. [16] FUJIMOTO S, VAN HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]// Proceedings of the 35th International Conference on Machine Learning. Stockholmsmässan, Sweden, 2018: 1587−1596. [17] HWANGBO J, LEE J, DOSOVITSKIY A, et al. Learning agile and dynamic motor skills for legged robots[J]. Science robotics, 2019, 4(26): 5872–5880. [18] HAARNOJA T, HA S, ZHOU A, et al. Learning to walk via deep reinforcement learning[EB/OL]. (2019-06-19). https://arxiv.org/abs/1812.11103 [19] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998. [20] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. Computer science, 2015, 8(6): A187. [21] ·158· 智能系统学报第 15 卷

第1期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·159· [22]BOHEZ S,ABDOLMALEKI A,NEUNERT M,et al. and low-energy locomotion[J].ACM transactions on Value constrained model-free continuous control[EB/OL]. graphics,2018,374):144-150. (2019-02-12).https://arxiv.org/abs/1902.04623 [36]PENG Xuebin.BERSETH G.VAN DE PANNE M.Ter- [23]ALTMAN E.Constrained Markov decision processes[M] rain-adaptive locomotion skills using deep reinforcement London:Chapman and Hall,1999. learning[J].ACM transactions on graphics,2016,35(4): [24]DELCOMYN F.Neural basis of rhythmic behavior in an- 81-88. imals[J.Science,1980,210(4469:492-498 [37]BING Zhenshan,LEMKE C,JIANG Zhuangyi,et al.En- [25]MATSUOKA K.Sustained oscillations generated by mu- ergy-efficient slithering gait exploration for a snake-like tually inhibiting neurons with adaptation[].Biological robot based on reinforcement learning[EB/OL].(2019-04- cybernetics.1985,52(6):367-376. 16).https://arxiv.org/abs/1904.07788v1. [26]COHEN A H.HOLMES P J.RAND R H.The nature of [38]PENG Xuebin,VAN DE PANNE M.Learning loco- the coupling between segmental oscillators of the lamprey motion skills using DeepRL:does the choice of action spinal generator for locomotion:a mathematical model[J]. space matter?[C]//Proceeding of ACM SIGGRAPH/Euro- Journal of mathematical biology,1982,13(3):345-369. [27]BAY J S,HEMAMI H.Modeling of a neural pattern gen- graphics Symposium on Computer Animation.Los Angeles,USA,2017:12-20. erator with coupled nonlinear oscillators[J].IEEE transac- [39]VAN HASSELT H.Double q-learning[Cl//Proceedings tions on biomedical engineering,1987,BME-34(4): of the 23rd International Conference on Neural Informa- 297-306. [28]ENDO G,MORIMOTO J,MATSUBARA T,et al. tion Processing Systems.Red Hook,USA,2010: Learning CPG-based biped locomotion with a policy 2613-2621. gradient method:application to a humanoid robot[J].The [40]HA D,SCHMIDHUBER J.World Models[EB/OL]. international journal of robotics research,2008,27(2): (2018-05-09).https::/arxiv..org/abs/1803.10122 213-228. [41]EBERT F,FINN C,DASARI S,et al.Visual foresight: [29]MATSUBARA T,MORIMOTO J,NAKANISHI J,et al. model-based deep reinforcement learning for vision-based Learning CPG-based biped locomotion with a policy robotic control[EB/OL].(2018-12-03).https://arxiv.org/abs/ gradient method[C]//Proceedings of the 5th IEEE-RAS 1812.00568. International Conference on Humanoid Robots.Tsukuba, [42]FINN C,RAJESWARAN A.KAKADE S.et al.Online Japan,2005. meta-learning[EB/OL].(2019-07-03).https://arxiv.org/abs/ [30]DOYA K.Reinforcement learning in continuous time and 1902.08438 space[J].Neural computation,2000,12(1):219-245. [43]MAHJOURIAN R,MII KKULAINEN R,LAZIC N,et [31]SARTORETTI G,PAIVINE W,SHI Yunfei,et al.Dis- al.Hierarchical policy design for sample-efficient learn- tributed learning of decentralized control policies for ar- ing of robot table tennis through self-play[EB/OL].(2019- ticulated mobile robots[J].IEEE transactions on robotics, 02-17).https://arxiv.org/abs/1811.12927?context=cs. 2019,35(5)1109-1122. 作者简介： [32]方勇纯，朱威，郭宪.基于路径积分强化学习方法的蛇郭宪，讲师，博土，主要研究方向形机器人目标导向运动J].模式识别与人工智能，为仿生机器人设计与智能运动控制。 2019,32(11-9 主持国家自然科学基金项目1项，省 FANG Yongchun,ZHU Wei,GUO Xian.Target-directed 部级项目2项。 locomotion of a snake-like robot based on path integral reinforcement learning[J].Pattern recognition and artifi- cial intelligence,2019,32(1):1-9. [33]IJSPEERT A J,SCHAAL S.Learning attractor land- 方勇纯，教授，博士生导师.南开 scapes for learning motor primitives[M]//THRUN S, 大学人工智能学院院长，主要研究方 SAUL L K,SCHOLKOPF B.Advances in Neural In- 向为机器人视觉控制、欠驱动吊运系 formation Processing Systems.Cambridge,MA:MIT 统控制、仿生机器人运动控制和微纳 Press,.2002:1547-1554. 米操作。主持国家重点研发计划项 [34]SCHAAL S,PETERS J,NAKANISHI J,et al.Learning 目、国家基金重点项目、“十二五”国家 movement primitives[M]//DARIORAJA P,CHATILA R. 技术支撑计划课题、国家基金仪器专 Robotics Research.The Eleventh International Symposi- 项等项目。获吴文俊人工智能自然科学奖一等奖、天津市专 um.Berlin,Germany:Springer,2005. 利奖金奖、天津市自然科学一等奖、高等教育教学成果一等 [35]YU Wenhao,TURK G,LIU C K.Learning symmetric 奖等多项奖励，发表学术论文100余篇

BOHEZ S, ABDOLMALEKI A, NEUNERT M, et al. Value constrained model-free continuous control[EB/OL]. (2019-02-12). https://arxiv.org/abs/1902.04623. [22] ALTMAN E. Constrained Markov decision processes[M]. London: Chapman and Hall, 1999. [23] DELCOMYN F. Neural basis of rhythmic behavior in animals[J]. Science, 1980, 210(4469): 492–498. [24] MATSUOKA K. Sustained oscillations generated by mutually inhibiting neurons with adaptation[J]. Biological cybernetics, 1985, 52(6): 367–376. [25] COHEN A H, HOLMES P J, RAND R H. The nature of the coupling between segmental oscillators of the lamprey spinal generator for locomotion: a mathematical model[J]. Journal of mathematical biology, 1982, 13(3): 345–369. [26] BAY J S, HEMAMI H. Modeling of a neural pattern generator with coupled nonlinear oscillators[J]. IEEE transactions on biomedical engineering, 1987, BME−34(4): 297–306. [27] ENDO G, MORIMOTO J, MATSUBARA T, et al. Learning CPG-based biped locomotion with a policy gradient method: application to a humanoid robot[J]. The international journal of robotics research, 2008, 27(2): 213–228. [28] MATSUBARA T, MORIMOTO J, NAKANISHI J, et al. Learning CPG-based biped locomotion with a policy gradient method[C]//Proceedings of the 5th IEEE-RAS International Conference on Humanoid Robots. Tsukuba, Japan, 2005. [29] DOYA K. Reinforcement learning in continuous time and space[J]. Neural computation, 2000, 12(1): 219–245. [30] SARTORETTI G, PAIVINE W, SHI Yunfei, et al. Distributed learning of decentralized control policies for articulated mobile robots[J]. IEEE transactions on robotics, 2019, 35(5): 1109–1122. [31] 方勇纯, 朱威, 郭宪. 基于路径积分强化学习方法的蛇形机器人目标导向运动 [J]. 模式识别与人工智能, 2019, 32(1): 1–9. FANG Yongchun, ZHU Wei, GUO Xian. Target-directed locomotion of a snake-like robot based on path integral reinforcement learning[J]. Pattern recognition and artificial intelligence, 2019, 32(1): 1–9. [32] IJSPEERT A J, SCHAAL S. Learning attractor landscapes for learning motor primitives[M]//THRUN S, SAUL L K, SCHOLKOPF B. Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2002: 1547−1554. [33] SCHAAL S, PETERS J, NAKANISHI J, et al. Learning movement primitives[M]//DARIORAJA P, CHATILA R. Robotics Research. The Eleventh International Symposium. Berlin, Germany: Springer, 2005. [34] [35] YU Wenhao, TURK G, LIU C K. Learning symmetric and low-energy locomotion[J]. ACM transactions on graphics, 2018, 37(4): 144–150. PENG Xuebin, BERSETH G, VAN DE PANNE M. Terrain-adaptive locomotion skills using deep reinforcement learning[J]. ACM transactions on graphics, 2016, 35(4): 81–88. [36] BING Zhenshan, LEMKE C, JIANG Zhuangyi, et al. Energy-efficient slithering gait exploration for a snake-like robot based on reinforcement learning[EB/OL]. (2019-04- 16). https://arxiv.org/abs/1904.07788v1. [37] PENG Xuebin, VAN DE PANNE M. Learning locomotion skills using DeepRL: does the choice of action space matter?[C]//Proceeding of ACM SIGGRAPH/Eurographics Symposium on Computer Animation. Los Angeles, USA, 2017: 12−20. [38] VAN HASSELT H. Double q-learning[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Red Hook, USA, 2010: 2613−2621. [39] HA D, SCHMIDHUBER J. World Models[EB/OL]. (2018-05-09). https://arxiv.org/abs/1803.10122. [40] EBERT F, FINN C, DASARI S, et al. Visual foresight: model-based deep reinforcement learning for vision-based robotic control[EB/OL]. (2018-12-03). https://arxiv.org/abs/ 1812.00568. [41] FINN C, RAJESWARAN A, KAKADE S, et al. Online meta-learning[EB/OL]. (2019-07-03). https://arxiv.org/abs/ 1902.08438. [42] MAHJOURIAN R, MⅡKKULAINEN R, LAZIC N, et al. Hierarchical policy design for sample-efficient learning of robot table tennis through self-play[EB/OL]. (2019- 02-17). https://arxiv.org/abs/1811.12927?context=cs. [43] 作者简介：郭宪，讲师，博士，主要研究方向为仿生机器人设计与智能运动控制。主持国家自然科学基金项目 1 项，省部级项目 2 项。方勇纯，教授，博士生导师，南开大学人工智能学院院长，主要研究方向为机器人视觉控制、欠驱动吊运系统控制、仿生机器人运动控制和微纳米操作。主持国家重点研发计划项目、国家基金重点项目、“十二五”国家技术支撑计划课题、国家基金仪器专项等项目。获吴文俊人工智能自然科学奖一等奖、天津市专利奖金奖、天津市自然科学一等奖、高等教育教学成果一等奖等多项奖励，发表学术论文 100 余篇。第 1 期郭宪，等：仿生机器人运动步态控制：强化学习方法综述 ·159·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录