第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992tis.201907052 仿生机器人运动步态控制:强化学习方法综述 郭宪,方勇纯 (南开大学人工智能学院,天津300350)》 摘要:仿生机器人是一类典型的多关节非线性欠驱动系统,其步态控制是一个非常具有挑战性的问题。对于 该问题.传统的控制和规划方法需要针对具体的运动任务进行专门设计,需要耗费大量时间和精力,而且所设 计出来的控制器往往没有通用性。基于数据驱动的强化学习方法能对不同的任务进行自主学习,且对不同的 机器人和运动任务具有良好的通用性。因此,近年来这种基于强化学习的方法在仿生机器人运动步态控制方 面获得了不少应用。针对这方面的研究,本文从问题形式化、策略表示方法和策略学习方法3个方面对现有的 研究情况进行了分析和总结,总结了强化学习应用于仿生机器人步态控制中尚待解决的问题.并指出了后续的 发展方向。 关键词:仿生机器人:运动步态;控制方法:强化学习;数据驱动:多关节:非线性;欠驱动 中图分类号:TPI8文献标志码:A 文章编号:1673-4785(2020)01-0152-08 中文引用格式:郭宪,方勇纯.仿生机器人运动步态控制:强化学习方法综述八.智能系统学报,2020,15(1):152-159, 英文引用格式:GUO Xian,FANG Yongchun.Locomotion gait control for bionic robots:a review of reinforcement learning meth- odsJ.CAAI transactions on intelligent systems,2020,15(1):152-159. Locomotion gait control for bionic robots:a review of reinforcement learning methods GUO Xian,FANG Yongchun (College of Artificial Intelligence,Nankai University,Tianjin 300350,China) Abstract:The bionic robot is a typical multi-joint,nonlinear,underactuated system,for which locomotion gait control is of much challenge.For this problem,traditional control and planning methods need to be carefully designed for specific locomotion tasks,which takes a lot of time and efforts,yet lacks generality.On the contrary,data-driven reinforcement learning method can autonomously learn the controller for different locomotion tasks,and it presents the advantage of good generality for different bionic robots and locomotions.Therefore,in recent years,this reinforcement learning-based method has been widely used in the field of bionic robots to construct various locomotion gait controllers.In this paper, the current research status of reinforcement learning-based methods for the locomotion control of bionic robots is com- prehensively analyzed,respectively from the following three aspects:formulation of the problem,policy representation, and policy learning.Finally,the problems to be solved in the field are and summarized,and the possible future research directions are provided. Keywords:bionic robot;locomotion gait;control method;reinforcement learning;data-driven;multi-joint;nonlinear, underactuated 自然界中的动物种类繁多、遍布于世界的各·于所处的环境。为了更好地服务于人类的生产和 个角落,数亿年的进化使得它们的形态完全适应 生活,学者们模仿动物的形态发明了多类仿生机 收稿日期:2019-07-29 器人,如仿生足类机器人、仿生蛇形机器人等。 基金项目:国家自然科学基金项目(61603200,天津市自然科学 与轮式机器人相比,这些仿生机器人在各种各样 基金青年项目(19 JCQNJC03200). 通信作者:方勇纯.E-mail:fangyc@nankai.edu.cn. 的复杂环境下,如山地、沟壑、海洋、丛林、沼泽
DOI: 10.11992/tis.201907052 仿生机器人运动步态控制:强化学习方法综述 郭宪,方勇纯 (南开大学 人工智能学院,天津 300350) 摘 要:仿生机器人是一类典型的多关节非线性欠驱动系统,其步态控制是一个非常具有挑战性的问题。对于 该问题,传统的控制和规划方法需要针对具体的运动任务进行专门设计,需要耗费大量时间和精力,而且所设 计出来的控制器往往没有通用性。基于数据驱动的强化学习方法能对不同的任务进行自主学习,且对不同的 机器人和运动任务具有良好的通用性。因此,近年来这种基于强化学习的方法在仿生机器人运动步态控制方 面获得了不少应用。针对这方面的研究,本文从问题形式化、策略表示方法和策略学习方法 3 个方面对现有的 研究情况进行了分析和总结,总结了强化学习应用于仿生机器人步态控制中尚待解决的问题,并指出了后续的 发展方向。 关键词:仿生机器人;运动步态;控制方法;强化学习;数据驱动;多关节;非线性;欠驱动 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2020)01−0152−08 中文引用格式:郭宪, 方勇纯. 仿生机器人运动步态控制:强化学习方法综述 [J]. 智能系统学报, 2020, 15(1): 152–159. 英文引用格式:GUO Xian, FANG Yongchun. Locomotion gait control for bionic robots: a review of reinforcement learning methods[J]. CAAI transactions on intelligent systems, 2020, 15(1): 152–159. Locomotion gait control for bionic robots: a review of reinforcement learning methods GUO Xian,FANG Yongchun (College of Artificial Intelligence, Nankai University, Tianjin 300350, China) Abstract: The bionic robot is a typical multi-joint, nonlinear, underactuated system, for which locomotion gait control is of much challenge. For this problem, traditional control and planning methods need to be carefully designed for specific locomotion tasks, which takes a lot of time and efforts, yet lacks generality. On the contrary, data-driven reinforcement learning method can autonomously learn the controller for different locomotion tasks, and it presents the advantage of good generality for different bionic robots and locomotions. Therefore, in recent years, this reinforcement learning-based method has been widely used in the field of bionic robots to construct various locomotion gait controllers. In this paper, the current research status of reinforcement learning-based methods for the locomotion control of bionic robots is comprehensively analyzed, respectively from the following three aspects: formulation of the problem, policy representation, and policy learning. Finally, the problems to be solved in the field are and summarized, and the possible future research directions are provided. Keywords: bionic robot; locomotion gait; control method; reinforcement learning; data-driven; multi-joint; nonlinear; underactuated 自然界中的动物种类繁多、遍布于世界的各 个角落,数亿年的进化使得它们的形态完全适应 于所处的环境。为了更好地服务于人类的生产和 生活,学者们模仿动物的形态发明了多类仿生机 器人,如仿生足类机器人、仿生蛇形机器人等。 与轮式机器人相比,这些仿生机器人在各种各样 的复杂环境下,如山地、沟壑、海洋、丛林、沼泽 收稿日期:2019−07−29. 基金项目:国家自然科学基金项目(61603200);天津市自然科学 基金青年项目 (19JCQNJC03200). 通信作者:方勇纯. E-mail:fangyc@nankai.edu.cn. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
第1期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·153· 等,展示出更好的运动性能,因此仿生机器人在 在仿真环境中训练二维人形机器人实现行走运动 民用、军事、星球探测等领域具有广泛的应用空 步态控制。Schulman等2-提出TRPO和PPO算法 间。与自然界中的动物类似,仿生机器人通过周 并利用actor-critic框架实现稳定的训练算法。Peng 期性地改变身体的构型,如足类机器人改变腿部 等利用分层深度强化学习算法在仿真环境中训 构型,蛇形机器人改变身体关节等,并与环境相 练3维仿生机器人的运动。最近,更高效稳定的深 互作用从而实现各种各样的运动,我们将这种运 度强化学习算法如MPO算法、SAC算法6、TD3 动方式称为运动步态。 算法叨被提出来。除了在仿真环境中进行仿生机 由于仿生机器人是多刚体非线性欠驱动系 器人运动步态的训练,Hwangbo等us1将在仿真环 统,因此其运动步态的控制是一项非常富有挑战 境中的训练结果直接应用到ANYmal四足机器人, 性的工作。经过学者们多年不断的努力,目前最 实现了稳定高效的四足运动步态控制;Haarnoja 高效的运动步态控制方法是通过将运动任务分解 等利用改进的SAC算法直接在Minitaur四足机 为不同的子模块,并对子模块分别进行控制。例 器人上进行训练,实现了多种运动步态控制。 如,足类机器人为了进行运动步态控制常常需要 针对强化学习算法在仿生机器人运动步态控 进行状态估计、接触点选择、轨迹优化、足端点规 制上的研究,本文从以下几个方面对当前的研究 划、模型预测控制和操作空间控制等工作-。这 进行综述:首先将仿生机器人的运动步态控制问 种控制方法能使得目前的仿生机器人获得高机动 题进行数学形式化,将该问题纳人到马尔可夫决 的运动能力,如波士顿动力公司的四足机器人可 策过程的理论框架中;然后对现有的策略表示方 以在野外)和室内做高机动抗扰动和自平衡运 法进行调研;之后介绍不同的策略学习方法,最 动、MIT的猎豹可以实现高达5ms的速度日 后给出总结和展望。 本东京工业大学的系列蛇形机器人可以在野外和 1问题形式化 水下等环境下自由运动、卡内基梅隆大学的模 块化蛇形机器人可以爬树、爬管道等。日本通 强化学习通过试错的方法实现折扣累积回报 信大学设计的模块化蛇形机器人可以在废墟环境 期望的最大化。智能体与环境交互的过程可以用 以履带步态方式进行运动⑧。但是,这些步态控 马尔可夫决策过程来描述,而马尔可夫决策过程 制方法需要大量的专业知识,且通用性不强,即 可以利用一个五元组(S,孔r,Py)来描述,其中S 使对于同款机器人,针对不同的运动任务仍需大 为状态空间,孔为动作空间,(s,a)为与状 量工作调整设计控制方法,而不同款的机器人则 态和动作相关的立即回报,P:S×A×S→R为状 需要利用不同的专业知识来重新设计控制器。此 态转移概率,即给定状态S,和动作a,转移到新的 外,利用这种步态控制方法所得到的运动一般并 状态s41的概率,即p(s+s,a,y为计算折扣累积回 不是最优的,抗干扰能力较差。 报的折扣因子。令π表示一个随机策略,即π:S×孔→ 自然界中动物娴熟的运动技能是在出生后不 [0,1],则智能体与环境交互的过程可以表述为智 断与环境交互通过试错学习而获得的。近年来广 能体在状态s处,采取策略π(s)得到动作a,并 泛应用的强化学习便是这样一种试错的学习方法, 与境进行交互,根据状态转移概率p(ss,a,)得 该方法并不直接考虑机器人的运动学和动力学,而 到下一时刻的状态同时获得立即回报r(s,a)的过 是一种基于数据驱动的控制器设计方法。研究表 程。智能体不断地与环境进行交互便产生了一条 明:通过强化学习方法来设计仿生机器人的运动步 状态和动作的轨迹,用r来表示,即T=[so,a,1,a1,…, 态控制器可以克服上述分别进行子模块设计所带 sm,anJ,我们用(π)来表示折扣累积回报的期望,即 来的局限。然而,仿生机器人运动步态的控制涉及 π) r(si,a 连续的高维观测空间和动作空间,计算量非常大, 因此由于实时性等方面的原因,传统的强化学习算 经典强化学习算法在数学上可以进行如下形 法往往难以直接应用。随着深度学习技术的出现, 式化描述0: 将强化学习与深度学习相结合而形成的深度强化 学习技术得到快速发展,并在视频游戏9、围棋 max Yr(s..a (1) 等领域取得突破性进展。近年来,深度强化学习技 经典强化学习算法包括基于值函数的方法、 术也被广泛应用到仿生机器人的运动步态控制器 基于直接策略搜索的方法以及基于actor-critic的 的设计中。Levine等结合轨迹最优和监督学习 方法。仿生机器人运动步态的状态空间和动作空
等,展示出更好的运动性能,因此仿生机器人在 民用、军事、星球探测等领域具有广泛的应用空 间。与自然界中的动物类似,仿生机器人通过周 期性地改变身体的构型,如足类机器人改变腿部 构型,蛇形机器人改变身体关节等,并与环境相 互作用从而实现各种各样的运动,我们将这种运 动方式称为运动步态。 由于仿生机器人是多刚体非线性欠驱动系 统,因此其运动步态的控制是一项非常富有挑战 性的工作。经过学者们多年不断的努力,目前最 高效的运动步态控制方法是通过将运动任务分解 为不同的子模块,并对子模块分别进行控制。例 如,足类机器人为了进行运动步态控制常常需要 进行状态估计、接触点选择、轨迹优化、足端点规 划、模型预测控制和操作空间控制等工作[1−2]。这 种控制方法能使得目前的仿生机器人获得高机动 的运动能力,如波士顿动力公司的四足机器人可 以在野外[3] 和室内[4] 做高机动抗扰动和自平衡运 动、MIT 的猎豹可以实现高达 5 m/s 的速度[5] ,日 本东京工业大学的系列蛇形机器人可以在野外和 水下等环境下自由运动[6] 、卡内基梅隆大学的模 块化蛇形机器人可以爬树、爬管道等[7]。日本通 信大学设计的模块化蛇形机器人可以在废墟环境 以履带步态方式进行运动[8]。但是,这些步态控 制方法需要大量的专业知识,且通用性不强,即 使对于同款机器人,针对不同的运动任务仍需大 量工作调整设计控制方法,而不同款的机器人则 需要利用不同的专业知识来重新设计控制器。此 外,利用这种步态控制方法所得到的运动一般并 不是最优的,抗干扰能力较差。 自然界中动物娴熟的运动技能是在出生后不 断与环境交互通过试错学习而获得的。近年来广 泛应用的强化学习便是这样一种试错的学习方法, 该方法并不直接考虑机器人的运动学和动力学,而 是一种基于数据驱动的控制器设计方法。研究表 明:通过强化学习方法来设计仿生机器人的运动步 态控制器可以克服上述分别进行子模块设计所带 来的局限。然而,仿生机器人运动步态的控制涉及 连续的高维观测空间和动作空间,计算量非常大, 因此由于实时性等方面的原因,传统的强化学习算 法往往难以直接应用。随着深度学习技术的出现, 将强化学习与深度学习相结合而形成的深度强化 学习技术得到快速发展,并在视频游戏[9] 、围棋[10] 等领域取得突破性进展。近年来,深度强化学习技 术也被广泛应用到仿生机器人的运动步态控制器 的设计中。Levine 等 [11] 结合轨迹最优和监督学习 在仿真环境中训练二维人形机器人实现行走运动 步态控制。Schulman 等 [12−13] 提出 TRPO 和 PPO 算法 并利用 actor-critic 框架实现稳定的训练算法。Peng 等 [14] 利用分层深度强化学习算法在仿真环境中训 练 3 维仿生机器人的运动。最近,更高效稳定的深 度强化学习算法如 MPO 算法[15] 、SAC 算法[16] 、TD3 算法[17] 被提出来。除了在仿真环境中进行仿生机 器人运动步态的训练,Hwangbo 等 [18] 将在仿真环 境中的训练结果直接应用到 ANYmal 四足机器人, 实现了稳定高效的四足运动步态控制;Haarnoja 等 [19] 利用改进的 SAC 算法直接在 Minitaur 四足机 器人上进行训练,实现了多种运动步态控制。 针对强化学习算法在仿生机器人运动步态控 制上的研究,本文从以下几个方面对当前的研究 进行综述:首先将仿生机器人的运动步态控制问 题进行数学形式化,将该问题纳入到马尔可夫决 策过程的理论框架中;然后对现有的策略表示方 法进行调研;之后介绍不同的策略学习方法,最 后给出总结和展望。 1 问题形式化 (S,A,r,P, γ) S A r(st ,at) P : S ×A × S → R st at st+1 p(st+1|st ,at) γ π π : S ×A → [0,1] st π(st) at p(st+1|st ,at) r(st ,at) τ τ = [s0,a0,s1,a1,··· , sn,an] η(π) 强化学习通过试错的方法实现折扣累积回报 期望的最大化。智能体与环境交互的过程可以用 马尔可夫决策过程来描述,而马尔可夫决策过程 可以利用一个五元组 来描述,其中 为状态空间, 为动作空间, 为与状 态和动作相关的立即回报, 为状 态转移概率,即给定状态 和动作 转移到新的 状态 的概率,即 , 为计算折扣累积回 报的折扣因子。令 表示一个随机策略,即 ,则智能体与环境交互的过程可以表述为智 能体在状态 处,采取策略 得到动作 ,并 与 境进行交互,根据状态转移概率 得 到下一时刻的状态同时获得立即回报 的过 程。智能体不断地与环境进行交互便产生了一条 状态和动作的轨迹,用 来表示,即 ,我们用 来表示折扣累积回报的期望,即 η(π) = Eτ ∑∞ t=0 γ t r(st ,at) 经典强化学习算法在数学上可以进行如下形 式化描述[20] : max π Eτ ∑∞ t=0 γ t r(st ,at) (1) 经典强化学习算法包括基于值函数的方法、 基于直接策略搜索的方法以及基于 actor-critic 的 方法。仿生机器人运动步态的状态空间和动作空 第 1 期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·153·
·154· 智能系统学报 第15卷 间都是连续的,因此最常用的为基于直接策略搜 动步态控制进行有效的学习,学者们提出了很多 索的方法和基于actor-.critic的方法。其中,前者 更有效的策略表示方法。 最常用的为策略梯度的方法及其变种,如TRPO 2.1基于领域知识的策略参数化方法 的方法和PPO的方法,后者最常用的为DDPG2 2.1.1基于CPG的策略表示方法 的方法。 CPG即中枢模式发生器,研究发现CPG广泛 经典强化学习进行数学形式化时并未显式地 存在于脊椎动物和非脊椎动物的体内,用于控制 考虑策略的探索性,因此该类算法容易陷入到局 动物有节律的呼吸、心跳、肠胃蠕动、行走、奔 部最优。为了将探索策略考虑在内,学者们提出 跑、游动等。仿生机器人学家利用CPG模型产 在优化折扣累积回报的期望的同时优化策略的 生周期信号控制机器人的运动步态,可以大大简 熵,因此提出了最大熵强化学习的问题形式化: 化动作空间,因此CPG在人形机器人、四足机器 max E, y(r(sa )-a,logz.(als,)) 人、蛇形机器人等仿生机器人的运动步态控制中 (2) 得到广泛应用。现有的CPG模型包括Matsuoka 由式(2)描述的最优策略对外界的扰动具有更 模型2、锁相性模型2和范德波尔模型27。其中 强的鲁棒性,同时在训练过程中充分考虑了策略的 在仿生机器人中被广泛应用的为Matsuoka模型。 探索性,从而加快了学习速度,实验证明该形式化 第j个神经元震荡器的动力学模型为 在仿生机器人运动步态的学习中取得最好的表现。 仿生机器人是典型的机电一体化系统,其本 吃,=--4-+*0 k=1 身的机械强度和驱动功率都有限制条件,如最大 t%=-2+4i 加速度、最大力矩等。然而,典型的最大期望强化 qj=max(0,z) 学习或者最大嫡强化学习的最优解往往都是高频 式中:t、t、c为调节常数;为平均膜势能;之表 的bang-bang控制信号,实际的仿生机器人在执行 示衰减项;y为衰减系数;q为神经元的输出;w决 这些控制信号时要么非常容易损坏,要么根本达 表示第k个神经元对第j个神经元的抑制作用; 不到要求四。因此,对于仿生机器人而言,确保加 a为反馈信号。当采用CPG模型作为运动步态 速度约束、速度约束、力矩约束都是关键的。为 控制器时,常常将CPG模型中的反馈信号a:参数 化,作为优化控制项。 了将这些约束考虑进去,仿生机器人的运动步态 对于简单的二维人形机器人,Matsubara将 控制问题可以纳入到约束马尔可夫决策过程的框 架中2)。约束马尔可夫决策过程可以用六元组 CPG模型分别放在两个臀关节和一个状态机控 制器来控制膝关节2。而对于三维人形机器人, (S,孔,Py,r,c)来表示。其中,前5个元素表示了马 由于关节数目多达21个,采用CPG模型描述关 尔可夫决策过程,第6个元素c表示约束。约束 节角非常复杂。为了对多关节人形机器人进行控 马尔可夫决策过程形式化为带约束的优化问题,即 制,Endo等将CPG模型用到任务空间,而状态表 max E 示也只考虑了表示姿态的角速度,其具体的策略 表示方法为 s.t.E a0=u2anta爱yo 式中:a为振幅,y~P(yx:w),即y从随机策略 2策略表示方法研究 P(yxw)中采样得到。其中随机策略为高斯 强化学习最终目标是得到最优的控制策略, 策略: 如前所示用策略π:S×A→0,1]来表示。对于仿 1 p(vix;w")= exp(v-M/x:w) 生机器人步态控制来说,状态空间包括机器人的 V2π0,(w) 2σ2(w)) 每个关节角度q、相应的角速度9、整个身体质心 其中要优化的参数为(w",w),μ(x;w)采用的是 的位姿p、相应的速度p、足端或身体与外部的接 归一化高斯网络0,x=(,o,0,)F为输入观测。 触力F,动作空间为每个关节处的驱动力矩t。 2.1.2基于仿生运动曲线的策略表示方法 然而,仿生机器人都是多关节系统,少则十几个 仿生蛇形机器人的运动步态控制常用仿生曲 关节,多则几十个关节,因此仿生机器人的状态 线来表示。最常用的仿生曲线为日本广濑教授提 空间和动作空间都是高维的连续空间,这给强化 出的serpenoid曲线,该仿生曲线可表示为B川 学习带来了非常多的挑战。为了对仿生机器人运 0:=00+Asin(Wssi-Wrt) (3)
间都是连续的,因此最常用的为基于直接策略搜 索的方法和基于 actor-critic 的方法。其中,前者 最常用的为策略梯度的方法及其变种,如 TRPO 的方法和 PPO 的方法,后者最常用的为 DDPG[21] 的方法。 经典强化学习进行数学形式化时并未显式地 考虑策略的探索性,因此该类算法容易陷入到局 部最优。为了将探索策略考虑在内,学者们提出 在优化折扣累积回报的期望的同时优化策略的 熵,因此提出了最大熵强化学习的问题形式化[19] : max π Eτ ∑∞ t=0 γ t (r(st ,at)−αt logπt(at |st)) (2) 由式 (2) 描述的最优策略对外界的扰动具有更 强的鲁棒性,同时在训练过程中充分考虑了策略的 探索性,从而加快了学习速度,实验证明该形式化 在仿生机器人运动步态的学习中取得最好的表现。 (S,A,P, γ,r, c) 仿生机器人是典型的机电一体化系统,其本 身的机械强度和驱动功率都有限制条件,如最大 加速度、最大力矩等。然而,典型的最大期望强化 学习或者最大熵强化学习的最优解往往都是高频 的 bang-bang 控制信号,实际的仿生机器人在执行 这些控制信号时要么非常容易损坏,要么根本达 不到要求[22]。因此,对于仿生机器人而言,确保加 速度约束、速度约束、力矩约束都是关键的。为 了将这些约束考虑进去,仿生机器人的运动步态 控制问题可以纳入到约束马尔可夫决策过程的框 架中[23]。约束马尔可夫决策过程可以用六元组 来表示。其中,前 5 个元素表示了马 尔可夫决策过程,第 6 个元素 c 表示约束。约束 马尔可夫决策过程形式化为带约束的优化问题,即 max π Eτ ∑∞ t=0 γ t r(st ,at) s.t.Eτ ∑∞ t=0 γ t c(st ,at) ⩽ C¯ 2 策略表示方法研究 π : S ×A → [0,1] q q˙ p p˙ Fext τ 强化学习最终目标是得到最优的控制策略, 如前所示用策略 来表示。对于仿 生机器人步态控制来说,状态空间包括机器人的 每个关节角度 、相应的角速度 、整个身体质心 的位姿 、相应的速度 、足端或身体与外部的接 触力 ,动作空间为每个关节处的驱动力矩 。 然而,仿生机器人都是多关节系统,少则十几个 关节,多则几十个关节,因此仿生机器人的状态 空间和动作空间都是高维的连续空间,这给强化 学习带来了非常多的挑战。为了对仿生机器人运 动步态控制进行有效的学习,学者们提出了很多 更有效的策略表示方法。 2.1 基于领域知识的策略参数化方法 2.1.1 基于 CPG 的策略表示方法 CPG 即中枢模式发生器,研究发现 CPG 广泛 存在于脊椎动物和非脊椎动物的体内,用于控制 动物有节律的呼吸、心跳、肠胃蠕动、行走、奔 跑、游动等[24]。仿生机器人学家利用 CPG 模型产 生周期信号控制机器人的运动步态,可以大大简 化动作空间,因此 CPG 在人形机器人、四足机器 人、蛇形机器人等仿生机器人的运动步态控制中 得到广泛应用。现有的 CPG 模型包括 Matsuoka 模型[25] 、锁相性模型[26] 和范德波尔模型[27]。其中 在仿生机器人中被广泛应用的为 Matsuoka 模型。 第 j 个神经元震荡器的动力学模型为[28] τz˙j = −zj − ∑n k=1 wjkqk −γz ′ j +c+aj τ ′ z˙ ′ j = −zj +qj qj = max(0,zj) τ、τ ′、c zj z ′ j γ qj wjk k j aj aj 式中: 为调节常数; 为平均膜势能; 表 示衰减项; 为衰减系数; 为神经元的输出; 表示第 个神经元对第 个神经元的抑制作用; 为反馈信号。当采用 CPG 模型作为运动步态 控制器时,常常将 CPG 模型中的反馈信号 参数 化,作为优化控制项。 对于简单的二维人形机器人,Matsubara 将 CPG 模型分别放在两个臀关节和一个状态机控 制器来控制膝关节[29]。而对于三维人形机器人, 由于关节数目多达 21 个,采用 CPG 模型描述关 节角非常复杂。为了对多关节人形机器人进行控 制,Endo 等将 CPG 模型用到任务空间,而状态表 示也只考虑了表示姿态的角速度,其具体的策略 表示方法为 aj(t) = a max j 2 π arctan( π 2 νj(t)) a max j νj ∼ P(νj |x;w µ ) νj P(νj |x;w µ ) 式中: 为振幅, ,即 从随机策略 中采样得到。其中随机策略为高斯 策略: p(νj |x;w µ ) = 1 √ 2πσj(wσ) exp( −(νj −µj(x;w µ ))2 2σ 2 j (wσ) ) (w µ ,w σ ) µj(x;w µ ) x = (θ˙ roll, θ˙ pitch) T 其中要优化的参数为 , 采用的是 归一化高斯网络[30] , 为输入观测。 2.1.2 基于仿生运动曲线的策略表示方法 仿生蛇形机器人的运动步态控制常用仿生曲 线来表示。最常用的仿生曲线为日本广濑教授提 出的 serpenoid 曲线,该仿生曲线可表示为[31] θi = θ0 + Asin(wssi −wT t) (3) ·154· 智 能 系 统 学 报 第 15 卷
第1期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·155· 式中:%为角度偏置项;A为振幅;w,为空间频 地面的碰撞作用,为此在状态空间的表示上应该 率,表示波动沿着身体传播的速度;wr为时间角 反映出碰撞作用。Yu等B]利用一个特殊的二值 频率,表示单个关节的震荡频率。蛇形曲线来表 向量c表示每条腿是否与地面接触,状态空间为 示控制策略大大简化了控制步态的参数个数。在 s=【,d,c,]。Haarnoja等9利用连续的5帧观测 蛇形曲线式(3)中需要控制的参数为(a,A,wr)。Fang 总共112维的向量作为状态向量来建模实际仿生 等网利用强化学习方法直接对这3个参数进行优 四足机器人由于信号延迟和地面碰撞作用产生非 化,Sartoretti等B将当前的形状参数作为状态输 马尔可夫性。Hwangbo等u1利用关节历史信息 入并将参数A,w利用神经网络表示成为形状参 建模腿与地面的碰撞作用,其建立的状态空间为 数的非线性函数。 =[,r,w,中,,⊙,ak-1,C。对于复杂的运动任 2.1.3基于DMP的策略表示方法 务%,如不同地形下的运动步态控制,状态往往包 动态运动基元(DMP)方法用一组微分方程表 括两部分,即s=[s,sl,一部分为仿生机器人本 示光滑的运动策略,通过调整耦合项可以灵活地对 身的状态信息5,另一部分为面临的地形特征描 运动策略进行调制,在仿生机器人尤其是足类机器 述57。对于仿生蛇形机器人,为了得到能量利用 人中得到广泛应用。 一组节律运动基元可表示为 率最高的步态,状态除了自身的特征外,还需要 N 知道关节力B7,即5,=[中,,,t, 平w 对于动作的表示,可以直接利用关节的力矩 il Ty=z+ π来表示,也可以利用每个关节的期望关节角 ∑ 度来表示,然后利用PD控制或者阻抗控制器 得到每个关节的关节力矩。Peng等B研究发现 t2=a,(B.0ym-y)-z) 直接优化期望关节角度比直接优化力矩更稳定。 式中:0y,z)为控制信号;平=exp(-h:(mod(,2m)-c方 有了状态的表示和动作的表示之后,策略常 CiE[0,2)i=[rcos rsino],To=1 Ti=-u(r-ro) 常可以利用带有两个隐含层的神经网络来表示从 强化学习需要优化的参数为,常用的学习 状态到动作的映射。对于带有地形适应的步态控 方法为策略梯度法。 制,则地形部分的描述往往需要经过若干卷积层 2.2基于深度神经网络的策略参数化方法 后,再与表示机器人自身特征的状态串接在一 前面基于领域知识的策略表示方法耦合了大 起,输入到一个前向神经网络中。 量先验知识,如步态的周期性、对称性等,这种表 示方法使得强化学习所需要优化的参数量大幅度 3策略学习方法 减少,因此只需要几百次或上千次的训练就能得 强化学习方法可以分为基于值函数的方法、基 到最优解,而且所得到的解能应用到实际的仿生 于直接策略搜索的方法和基于Actor-Critic框架的 机器人中。然而,基于领域知识的策略表示方法 方法。基于值函数的方法常用于离散动作空间。 表示能力非常有限,无法表示一般的运动步态。 仿生机器人的动作空间为高维的连续空间,因此常 因此,这些基于领域知识的策略表示方法对不同 用的学习方法为后两种。现有的仿生机器人策略 的运动任务没有通用性,只能使得仿生机器人实 学习方法可以分为两大类,第1类是将仿生机器人 现常见的行走。随着深度学习技术的进步,深度 视为单智能体,所有的驱动关节空间为动作空间, 强化学习在仿生机器人运动步态控制领域得到更 利用单智能体强化学习的方法进行学习;第2类则 深入的研究。通用的深度神经网络用来表示运动 是将仿生机器人按照不同的足或者身体部位视为 步态控制率。与基于领域知识的控制策略不同, 不同的智能体,整个仿生机器人视为多个智能体系 基于深度神经网络的控制策略没有考虑先验知 统,其步态运动控制视为多个智能体的协同运动, 识,因此更具有通用性,并且随着网络参数的增 利用多智能强化学习的方法学习策略。 加,其表示能力增强,而且可以根据不同的运动 3.1单智能体强化学习方法 任务学习不同的运动控制策略。 3.1.1基于轨迹最优的方法 对于状态的表示,用中:和:来表示仿生机器 基于轨迹最优的GPS方法由Levine等u提 人的关节角和关节角速度,用0o,aol,0pach,pueh来 出,该方法通过交叉优化最优控制策略P,(x)和 表示仿生机器人整体的滚转角度、角速度,俯仰 神经网络策略π(x)学习得到最优的神经网络策 角度和角速度。足类仿生机器人与仿生蛇形机器 略。具体学习过程如下。 人不同,足类机器人的状态空间还应该包括足与 1)利用轨迹最优算法,如微分动态规划等来
θ0 A ws wT (θ0,A,wT ) {A,w} 式中: 为角度偏置项; 为振幅; 为空间频 率,表示波动沿着身体传播的速度; 为时间角 频率,表示单个关节的震荡频率。蛇形曲线来表 示控制策略大大简化了控制步态的参数个数。在 蛇形曲线式 (3) 中需要控制的参数为 。Fang 等 [32] 利用强化学习方法直接对这 3 个参数进行优 化,Sartoretti 等 [31] 将当前的形状参数作为状态输 入并将参数 利用神经网络表示成为形状参 数的非线性函数。 2.1.3 基于 DMP 的策略表示方法 动态运动基元 (DMP) 方法用一组微分方程表 示光滑的运动策略,通过调整耦合项可以灵活地对 运动策略进行调制,在仿生机器人尤其是足类机器 人中得到广泛应用。一组节律运动基元可表示为[33] τy˙ = z+ ∑N i=1 Ψiw T i υ˜ ∑N i=1 Ψi τz˙ = αz(βz(ym −y)−z) (y,z) Ψi = exp(−hi( mod (ϕ,2π)−ci) 2 ) ci ∈ [0,2π] υ˜ = [r cosϕ rsinϕ] T τϕ˙=1 τr˙ = −µ(r −r0) 式中: 为控制信号; ; , , 。 w T 强化学习需要优化的参数为 i , 常用的学习 方法为策略梯度法[34]。 2.2 基于深度神经网络的策略参数化方法 前面基于领域知识的策略表示方法耦合了大 量先验知识,如步态的周期性、对称性等,这种表 示方法使得强化学习所需要优化的参数量大幅度 减少,因此只需要几百次或上千次的训练就能得 到最优解,而且所得到的解能应用到实际的仿生 机器人中。然而,基于领域知识的策略表示方法 表示能力非常有限,无法表示一般的运动步态。 因此,这些基于领域知识的策略表示方法对不同 的运动任务没有通用性,只能使得仿生机器人实 现常见的行走。随着深度学习技术的进步,深度 强化学习在仿生机器人运动步态控制领域得到更 深入的研究。通用的深度神经网络用来表示运动 步态控制率。与基于领域知识的控制策略不同, 基于深度神经网络的控制策略没有考虑先验知 识,因此更具有通用性,并且随着网络参数的增 加,其表示能力增强,而且可以根据不同的运动 任务学习不同的运动控制策略。 ϕi ϕ˙ i θroll θ˙ roll θpitch θ˙ pitch 对于状态的表示,用 和 来表示仿生机器 人的关节角和关节角速度,用 , , , 来 表示仿生机器人整体的滚转角度、角速度,俯仰 角度和角速度。足类仿生机器人与仿生蛇形机器 人不同,足类机器人的状态空间还应该包括足与 c s = [ϕ,ϕ,˙ c,υˆ] sk = [ϕ g ,rz ,ν,w, ϕi ,ϕ˙ i ,Θ,ak−1,C] s = [sc ,sT ] sc sT st = [ϕi ,ϕ˙ i , υ1,τi , υt] 地面的碰撞作用,为此在状态空间的表示上应该 反映出碰撞作用。Yu 等 [35] 利用一个特殊的二值 向量 表示每条腿是否与地面接触,状态空间为 。Haarnoja 等 [19] 利用连续的 5 帧观测 总共 112 维的向量作为状态向量来建模实际仿生 四足机器人由于信号延迟和地面碰撞作用产生非 马尔可夫性。Hwangbo 等 [18] 利用关节历史信息 建模腿与地面的碰撞作用,其建立的状态空间为 。对于复杂的运动任 务 [36] ,如不同地形下的运动步态控制,状态往往包 括两部分,即 ,一部分为仿生机器人本 身的状态信息 ,另一部分为面临的地形特征描 述 。对于仿生蛇形机器人,为了得到能量利用 率最高的步态,状态除了自身的特征外,还需要 知道关节力[37] ,即 。 τ ϕ d i 对于动作的表示,可以直接利用关节的力矩 来表示[11] ,也可以利用每个关节的期望关节角 度 来表示, 然后利用 PD 控制或者阻抗控制器 得到每个关节的关节力矩。Peng 等 [38] 研究发现 直接优化期望关节角度比直接优化力矩更稳定。 有了状态的表示和动作的表示之后,策略常 常可以利用带有两个隐含层的神经网络来表示从 状态到动作的映射。对于带有地形适应的步态控 制,则地形部分的描述往往需要经过若干卷积层 后,再与表示机器人自身特征的状态串接在一 起,输入到一个前向神经网络中。 3 策略学习方法 强化学习方法可以分为基于值函数的方法、基 于直接策略搜索的方法和基于 Actor-Critic 框架的 方法。基于值函数的方法常用于离散动作空间。 仿生机器人的动作空间为高维的连续空间,因此常 用的学习方法为后两种。现有的仿生机器人策略 学习方法可以分为两大类,第 1 类是将仿生机器人 视为单智能体,所有的驱动关节空间为动作空间, 利用单智能体强化学习的方法进行学习;第 2 类则 是将仿生机器人按照不同的足或者身体部位视为 不同的智能体,整个仿生机器人视为多个智能体系 统,其步态运动控制视为多个智能体的协同运动, 利用多智能强化学习的方法学习策略。 3.1 单智能体强化学习方法 3.1.1 基于轨迹最优的方法 pi(u|x) πθ(x) 基于轨迹最优的 GPS 方法由 Levine 等 [11] 提 出,该方法通过交叉优化最优控制策略 和 神经网络策略 学习得到最优的神经网络策 略。具体学习过程如下。 1) 利用轨迹最优算法,如微分动态规划等来 第 1 期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·155·
·156· 智能系统学报 第15卷 优化得到最优的策略,其优化目标为 3.1.3基于最大熵的方法 L(q)=DxL(q(T)llp(T))+ 当仿生机器人的自由度很高时,GPS的方法 ∑ADu(g)zlk,lg4,》 难以拟合局部动力学,DDPG的方法则需要额外 的探索策略,学习效率低。基于最大熵的强化学 2)得到最优控制策略后,利用该最优策略在 习算法将探索策略耦合到优化之中,因此增强了 数据点τ处,利用监督学习的方法对神经网络策 学习效率。根据策略迭代方法提出来的soft-act- 略进行训练,其优化目标为 or-critic方法I6充分利用了最大熵原理,在保证收 敛性的同时,能快速地收敛到最优解。最大熵强 L(O=∑∑Dx((wqlxa)q((k》 化学习的问题形式化为式(2)所示。为了求解式 3)更新对偶变量入,更新规则为 (1),需要依次优化如下3个损失函数: 入入+Dx(q(x)r(w,lx)lg(x,4) Je(0)=E4ol[0(,a)-((s,a,)+yVa.(S+》闩 与传统的基于随机策略搜索的方法相比, (4) GPS的方法利用轨迹最优方法得到局部最优解, J.(=E-aloga(als小)-mi2n(s,a) (5) 图1,24 并利用最优解进行监督训练,避免了随机探索。 经过训练得到的通用神经网络策略能泛化到其他 J(a)=E-D4[-alogπ(al小s,)-aH (6) 其中式(4)为行为值函数的损失函数,由贝尔曼 情况下。实验证明,该方法能高效地学习游动、 参数的均方和来给出。为了移除过优估计,使用 跳跃、行走、奔跑等运动。 3.12基于确定性策略梯度的方法 2套独立的参数0和。式(5)为最大熵策略的 损失函数,式(6)为自动调整因此α的损失函数, 仿生机器人一般拥有十几个甚至是几十个控 制输入,使得其动作空间为十几维甚至是几十维 其中α为式(3)中嫡所占的比重,该参数在优化 的连续空间。基于随机策略梯度的方法在进行梯 的过程中不断发生变化。SAC算法被成功应用 度估计的时候需要在如此高维的空间进行大量采 到四足机器人的运动步态控制中。值得一提的 是,该算法可以在真实的四足机器人上直接进行 样,使得学习效率很低。基于确定性策略梯度的 训练,经过2h的训练,四足机器人就能学会行走。 方法不需要在动作空间进行采样,只需在状态空 间进行采样。尤其是深度确定性策略梯度算法 3.1.4基于最大后验策略优化的方法 即DDPG算法2利用深度神经网络逼近行为值 最大后验策略优化的方法从概率的角度出 函数,并利用off-policy的方法估计行为值函数, 发,将强化学习问题建模为推理问题。假设 大大提升了数据效率,在连续运动控制中得到广 P(O=1)为完成任务的概率,则根据推理问题,该 泛应用。DDPG的方法为Actor-Critic框架的强化 概率为问 学习算法,在该算法中行为值函数和策略函数都 logp.(0=1)=log∫p.(r)p(O=lr)dr≥ 由神经网络来逼近,其更新规则为 ∫(logp(O=lr)+-log P( g(T) 6,=r,+yQw(+14g(s+i)-Q(s,a) 令损失函数: Wit1=W:+am6,VO"(sa) 0=0,+aoVopto(S:)VaO"(Sa)l=ps) Jq,)=】 -KL(q(r川p.(r) 式中:w、w、0、分别为行为值函数网络的估计 ∑o 参数、目标网络参数、策略网络的估计参数、目标 式中:q()为提议分布。该优化问题可通过 策略网参数。 EM方法进行求解,在E步优化得到最优的提议 DDPG方法在连续控制问题取得普遍较好的 分布q(π),在该步中非参数优化解为 结果。然而,由于off-policy的存在,行为值函数 qu(dls)cπ(ads,)exp Qa(s,ad) 的估计普遍存在过优估计的问题。同时,由于行 为值函数参数的更新与策略网络参数的更新同时 其中最优温度项根据式(7)优化得到: 交叉更新,这使得学习过程非常不稳定。为了解 ne+s)log fr(as.0)exp2a(sa dads 决这些问题,各种各样的改进的DDPG算法被提 (7) 出来,其中Fujimoto等提出TD3的方法m,利用 在M步中,利用最优的提议分布更新神经网 Double Q--learning9的方法来解决过优估计问题, 络策略: 利用策略网络延迟更新的方法解决学习不稳定, 在连续控制问题上取得当前最好的结果。 max J(qi0)=max E(s [Edo flog(als,]]+log p(0)
优化得到最优的策略,其优化目标为 L(q) = DKL(q(τ)||ρ(τ))+ ∑T t=1 λtDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 2) 得到最优控制策略后,利用该最优策略在 数据点 τ 处,利用监督学习的方法对神经网络策 略进行训练,其优化目标为 L(θ) = ∑T t=1 λt ∑N i=1 DKL(πθ(ut |xti)||q(ut |xti)) 3)更新对偶变量 λt更新规则为 λt ← λt +ηDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 与传统的基于随机策略搜索的方法相比, GPS 的方法利用轨迹最优方法得到局部最优解, 并利用最优解进行监督训练,避免了随机探索。 经过训练得到的通用神经网络策略能泛化到其他 情况下。实验证明,该方法能高效地学习游动、 跳跃、行走、奔跑等运动。 3.1.2 基于确定性策略梯度的方法 仿生机器人一般拥有十几个甚至是几十个控 制输入,使得其动作空间为十几维甚至是几十维 的连续空间。基于随机策略梯度的方法在进行梯 度估计的时候需要在如此高维的空间进行大量采 样,使得学习效率很低。基于确定性策略梯度的 方法不需要在动作空间进行采样,只需在状态空 间进行采样。尤其是深度确定性策略梯度算法 即 DDPG 算法[21] 利用深度神经网络逼近行为值 函数,并利用 off-policy 的方法估计行为值函数, 大大提升了数据效率,在连续运动控制中得到广 泛应用。DDPG 的方法为 Actor-Critic 框架的强化 学习算法,在该算法中行为值函数和策略函数都 由神经网络来逼近,其更新规则为 δt = rt +γQ w − (st+1, µθ − (st+1))− Q w (st ,at) wt+1 = wt +αmδt∇wQ w (st ,at) θt+1 = θt +αθ∇θµθ(st)∇aQ w (st ,at)|a=µθ (s) w w − θ θ 式中: − 、 、 、 分别为行为值函数网络的估计 参数、目标网络参数、策略网络的估计参数、目标 策略网参数。 DDPG 方法在连续控制问题取得普遍较好的 结果。然而,由于 off-policy 的存在,行为值函数 的估计普遍存在过优估计的问题。同时,由于行 为值函数参数的更新与策略网络参数的更新同时 交叉更新,这使得学习过程非常不稳定。为了解 决这些问题,各种各样的改进的 DDPG 算法被提 出来,其中 Fujimoto 等提出 TD3 的方法[17] ,利用 Double Q-learning[39] 的方法来解决过优估计问题, 利用策略网络延迟更新的方法解决学习不稳定, 在连续控制问题上取得当前最好的结果。 3.1.3 基于最大熵的方法 当仿生机器人的自由度很高时,GPS 的方法 难以拟合局部动力学,DDPG 的方法则需要额外 的探索策略,学习效率低。基于最大熵的强化学 习算法将探索策略耦合到优化之中,因此增强了 学习效率。根据策略迭代方法提出来的 soft-actor-critic 方法[16] 充分利用了最大熵原理,在保证收 敛性的同时,能快速地收敛到最优解。最大熵强 化学习的问题形式化为式 (2) 所示。为了求解式 (1),需要依次优化如下 3 个损失函数: JQ(θ) = E(st ,at ,st+1)∼D[(Qθ(st ,at)−(r(st ,at)+γVθ1 ,θ2 (st+1)))2 ] (4) Jπ(ϕ) = Est∼D,at∼πϕ [ αlogπϕ(at |st)− min i∈{1,2} Qθi (st ,at) ] (5) J(α) = Est∼D,at∼πϕ [−αlogπϕ(at |st)−αH] (6) θ1 θ2 α α 其中式 (4) 为行为值函数的损失函数,由贝尔曼 参数的均方和来给出。为了移除过优估计,使用 2 套独立的参数 和 。式 (5) 为最大熵策略的 损失函数,式 (6) 为自动调整因此 的损失函数, 其中 为式 (3) 中熵所占的比重,该参数在优化 的过程中不断发生变化。SAC 算法被成功应用 到四足机器人的运动步态控制中。值得一提的 是,该算法可以在真实的四足机器人上直接进行 训练,经过 2 h 的训练,四足机器人就能学会行走。 3.1.4 基于最大后验策略优化的方法 pπ(O = 1) 最大后验策略优化的方法从概率的角度出 发,将强化学习问题建模为推理问题。假设 为完成任务的概率,则根据推理问题,该 概率为[15] log pπ(O = 1) = log∫ pπ(τ)p(O = 1|τ)dτ ⩾ ∫ q(τ) [ logp(O = 1|τ)+log pπ(τ) q(τ) ] dτ 令损失函数: J(q, π) = Eq ∑ t rt/α −KL(q(τ)||pπ(τ)) q(τ) q(τ) 式中: 为提议分布。该优化问题可通 过 EM 方法进行求解,在 E 步优化得到最优的提议 分布 ,在该步中非参数优化解为 qi(a|s) ∝ π(a|s, θi) exp( Qθi (s,a) η ∗ ) η 其中最优温度项 ∗根据式(7)优化得到: g(η) = ηε+η ∫ µ(s)log∫ π(a|s, θi) exp( Qθi (s,a) η ) dads (7) 在 M 步中,利用最优的提议分布更新神经网 络策略: max θ J(qi , θ) = max θ Eµq (s)[Eq(a|s)[logπ(a|s, θ)]]+log p(θ) ·156· 智 能 系 统 学 报 第 15 卷
第1期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·157· 基于最大后验策略优化的方法与基于轨迹最 态,然而实际模型与仿真模型往往存在较大差 优的方法类似,都是先优化得到一个局部最优策 异,这就导致在仿真环境中训练的策略直接迁移 略,然后以该策略为目标进行监督学习。不同的 到实际机器人上会产生很大的偏差。因此,从仿 是,基于轨迹最优的方法需要先拟合一个动力学 真到实际机器人平台的迁移学习是有待研究的重 模型,然后根据轨迹最优方法得到局部最优策 要问题。 略,是基于模型的方法;而基于最大后验策略优 4)鲁棒性差 化则是完全根据数据进行的无模型优化方法。因 对于实际的机器人系统,由于各种传感器存 此基于最大后验策略优化的方法具有更大的应用 在着误差,这就导致机器人实际的观测是带有噪 范围和通用性。 音的,而在无噪音条件下训练的策略往往失效, 3.2多智能体强化学习方法 因此如何得到鲁棒的强化学习算法是有待研究的 将仿生机器人的驱动关节分成若干个独立的 重要问题。 智能体,每个智能体共享一套同样的控制策略, 针对上述存在的问题,目前仿生机器人运动 利用异步的分布式方法对多智能体系统进行训练 步态学习的发展趋势如下。 可以加速学习的过程。Sartoretti等利用A3C的方 4.2发展趋势 法利用分布式强化学习对仿生蛇形机器人和仿生 1)基于模型的强化学习 六足机器人进行训练B。更具体来说,对于仿生 为了提升强化学习算法的样本效率,基于模 蛇形机器人,整个身体关节可以看成6个智能体, 型的强化学习算法近年来成为该领域研究的热 每个智能体的策略利用仿生曲线式(9)进行参数 点。Ha等0提出创建世界模型,在进行策略学 化,并利用共享回报和A3C的方法对共享策略进 习之前先学习一个世界模型,然后利用世界模型 行训练。对于六足机器人,每条足视为一个智能 对下一个状态进行预测,预测的状态作为输入的 体,利用基于CPG的方法参数化共享策略。 一部分耦合进策略学习中。当输入为像素时,状 态空间为高维输入,机器人一般需要大量的交互 4存在的问题及发展趋势 数据进行步态的学习,Ebert等提出创建图像预 测模型,利用该模型创建虚拟环境,在虚拟环境 本文对强化学习算法在仿生机器人的步态控 中进行局部训练,为了不断降低虚拟环境的误 制领域的研究和发展进行了综述,具体包括仿生 差,智能体通过与真实世界的交互不断优化虚拟 机器人运动步态控制的问题形式化、现有的策略 环境,从而最终减少与真实世界的交互。 表示方法研究、现有的策略研究方法研究。总体 2)元强化学习 来说,目前强化学习算法在仿生机器人领域得到 为了使得机器人快速地学习多项任务,元强 快速发展,不过目前普遍存在很多问题。 化学习算法近年来成为研究热点。与经典强化学 4.1存在的问题 习算法不同,元强化学习是在任务空间进行训 1)样本效率低 练,学习到任务空间的先验知识,以便在学习新 人类能快速地学会走路、奔跑、跳跃等运动 的任务时能利用以前的先验知识进行快速地学 步态,然而现有的强化学习方法则需要几十万甚 习。为了使得智能体具有连续学习的能力,Finn 至上百万次的尝试。这不仅需要耗费大量的时间 等提出在线元强化学习的方法,从而使得机器 和能量,还会导致仿生机器人严重磨损甚至坏 人能连续学习多个运动任务。 掉。如何提升样本效率,这是强化学习应用于实 3)分层强化学习 际的仿生机器人步态学习中急需解决的重要问题。 在仿生机器人学习越障、踢球等复杂的运动 2)无法有效地进行多任务学习 任务时,任务本身具有很强的不同水平的决策的 现有的强化学习算法大都只能学习单一的运 特性。简单的端到端的学习面临着学习效率低、 动步态,当学习其他类型的运动步态或任务时, 学习效果差等问题。为此,分层强化学习算法成 需要重新训练;如何通过一次训练便可以学会多 为解决该问题的研究热点。Peng等在解决仿生机 个运动步态或完成多个运动任务是当前研究中存 器人复杂运动任务时,将动作空间分成两层:上层 在的一个重要问题。 的目标位置和底层的关节动作,通过两层决策实 3)从仿真环境到实际平台的迁移性差 现学习目的。Mahjourian等)在解决乒乓球机器 现有的强化学习方法大都是先构建机器人的 人打球的运动任务时采用分层的策略,其中底层 仿真模型,在仿真环境中训练机器人的运动步 采用基于模型的控制器,高层采用强化学习的方
基于最大后验策略优化的方法与基于轨迹最 优的方法类似,都是先优化得到一个局部最优策 略,然后以该策略为目标进行监督学习。不同的 是,基于轨迹最优的方法需要先拟合一个动力学 模型,然后根据轨迹最优方法得到局部最优策 略,是基于模型的方法;而基于最大后验策略优 化则是完全根据数据进行的无模型优化方法。因 此基于最大后验策略优化的方法具有更大的应用 范围和通用性。 3.2 多智能体强化学习方法 将仿生机器人的驱动关节分成若干个独立的 智能体,每个智能体共享一套同样的控制策略, 利用异步的分布式方法对多智能体系统进行训练 可以加速学习的过程。Sartoretti 等利用 A3C 的方 法利用分布式强化学习对仿生蛇形机器人和仿生 六足机器人进行训练[31]。更具体来说,对于仿生 蛇形机器人,整个身体关节可以看成 6 个智能体, 每个智能体的策略利用仿生曲线式 (9) 进行参数 化,并利用共享回报和 A3C 的方法对共享策略进 行训练。对于六足机器人,每条足视为一个智能 体,利用基于 CPG 的方法参数化共享策略。 4 存在的问题及发展趋势 本文对强化学习算法在仿生机器人的步态控 制领域的研究和发展进行了综述,具体包括仿生 机器人运动步态控制的问题形式化、现有的策略 表示方法研究、现有的策略研究方法研究。总体 来说,目前强化学习算法在仿生机器人领域得到 快速发展,不过目前普遍存在很多问题。 4.1 存在的问题 1) 样本效率低 人类能快速地学会走路、奔跑、跳跃等运动 步态,然而现有的强化学习方法则需要几十万甚 至上百万次的尝试。这不仅需要耗费大量的时间 和能量,还会导致仿生机器人严重磨损甚至坏 掉。如何提升样本效率,这是强化学习应用于实 际的仿生机器人步态学习中急需解决的重要问题。 2) 无法有效地进行多任务学习 现有的强化学习算法大都只能学习单一的运 动步态,当学习其他类型的运动步态或任务时, 需要重新训练;如何通过一次训练便可以学会多 个运动步态或完成多个运动任务是当前研究中存 在的一个重要问题。 3) 从仿真环境到实际平台的迁移性差 现有的强化学习方法大都是先构建机器人的 仿真模型,在仿真环境中训练机器人的运动步 态,然而实际模型与仿真模型往往存在较大差 异,这就导致在仿真环境中训练的策略直接迁移 到实际机器人上会产生很大的偏差。因此,从仿 真到实际机器人平台的迁移学习是有待研究的重 要问题。 4) 鲁棒性差 对于实际的机器人系统,由于各种传感器存 在着误差,这就导致机器人实际的观测是带有噪 音的,而在无噪音条件下训练的策略往往失效, 因此如何得到鲁棒的强化学习算法是有待研究的 重要问题。 针对上述存在的问题,目前仿生机器人运动 步态学习的发展趋势如下。 4.2 发展趋势 1) 基于模型的强化学习 为了提升强化学习算法的样本效率,基于模 型的强化学习算法近年来成为该领域研究的热 点。Ha 等 [40] 提出创建世界模型,在进行策略学 习之前先学习一个世界模型,然后利用世界模型 对下一个状态进行预测,预测的状态作为输入的 一部分耦合进策略学习中。当输入为像素时,状 态空间为高维输入,机器人一般需要大量的交互 数据进行步态的学习,Ebert 等 [41] 提出创建图像预 测模型,利用该模型创建虚拟环境,在虚拟环境 中进行局部训练,为了不断降低虚拟环境的误 差,智能体通过与真实世界的交互不断优化虚拟 环境,从而最终减少与真实世界的交互。 2) 元强化学习 为了使得机器人快速地学习多项任务,元强 化学习算法近年来成为研究热点。与经典强化学 习算法不同,元强化学习是在任务空间进行训 练,学习到任务空间的先验知识,以便在学习新 的任务时能利用以前的先验知识进行快速地学 习。为了使得智能体具有连续学习的能力,Finn 等 [42] 提出在线元强化学习的方法,从而使得机器 人能连续学习多个运动任务。 3) 分层强化学习 在仿生机器人学习越障、踢球等复杂的运动 任务时,任务本身具有很强的不同水平的决策的 特性。简单的端到端的学习面临着学习效率低、 学习效果差等问题。为此,分层强化学习算法成 为解决该问题的研究热点。Peng 等在解决仿生机 器人复杂运动任务时,将动作空间分成两层:上层 的目标位置和底层的关节动作,通过两层决策实 现学习目的。Mahjourian 等 [43] 在解决乒乓球机器 人打球的运动任务时采用分层的策略,其中底层 采用基于模型的控制器,高层采用强化学习的方 第 1 期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·157·
·158· 智能系统学报 第15卷 法学习无模型的控制器,获得了高效的学习算法。 bots by annealed chain fitting and keyframe wave extrac- tion[C]//Proceedings of 2009 IEEE/RSJ International Con- 5结束语 ference on Intelligent Robots and Systems.St.Louis,USA, 2009:840-845. 本文从问题形式化、策略表示方法和策略学 [8]TAKEMORI T,TANAKA M,MATSUNO F.Gait design 习3个方面对当前强化学习算法应用到仿生机器 for a snake robot by connecting curve segments and experi- 人的运动步态控制任务中的研究情况进行了分析 mental demonstration[J].IEEE transactions on robotics. 和总结,并给出了强化学习算法应用到该领域尚 2018.34(5:1384-1391. 待解决的问题和未来的发展方向。总体而言,不 [9]MNIH V.KAVUKCUOGLU K.SILVER D,et al.Human- 同于仿真环境,仿生机器人的步态运动控制受到 level control through deep reinforcement learning[J]. 实际机器人系统的驱动、机构、通信等多方面的 Nature,.2015,518(7540):529-533. 限制,使得强化学习算法在该领域中的应用表现 [10]SILVER D.SCHRITTWIESER J.SIMONYAN K.et al. 出极大的挑战。一般而言,在形式化方面,需要 Mastering the game of Go without human knowledge[J]. 利用约束马尔可夫决策过程对该问题进行建模; Nature.2017,550(7676):354-359. [11]LEVINE S,KOLTUN V.Learning complex neural net- 在策略表示方面,更倾向于领域结构化的表示方 work policies with trajectory optimization[C]//Proceed- 法;在策略学习方面,高效的直接策略搜索方法 ings of the 31st International Conference on Machine 表现更佳。然而,目前强化学习算法用于仿生机 Learning.Beijing,China,2014:829-837. 器人运动步态学习和控制仍然面临着样本效率 [12]SCHULMAN J.LEVINE S.MORITZ P.et al.Trust re- 低、无法有效地进行多任务学习、从仿真环境到 gion policy optimization[C]//Proceedings of the 31st In- 实际平台的迁移性差和学习鲁棒性差等问题。新 ternational Conference on Machine Learning.Lille, 的方法如基于模型的强化学习、元强化学习和分 France,2015:1889-1897. 层强化学习等有望解决或缓解这些问题。 [13]SCHULMAN J.WOLSKI F.DHARIWAL P.et al.Prox- imal policy optimization algorithms[EB/OL].(2017-08- 参考文献 28).https://arxiv.org/abs/1707.06347. [14]PENG Xuebin,BERSETH G,YIN Kangkang,et al. [1]GEHRING C,COROS S,HUTTER M.et al.Practice DeepLoco:dynamic locomotion skills using hierarchical makes perfect:an optimization-based approach to con- deep reinforcement learning[J].ACM transactions on trolling agile motions for a quadruped robot[J].IEEE ro- graphics.2017,36(4):1-13. botics&automation magazine,2016,23(1):34-43. [15]ABDOLMALEKI A.SPRINGENBERG J T.TASSA Y. [2]APGAR T,CLARY P,GREEN K,et al.Fast online tra- et al.Maximum a posteriori policy optimisation[EB/OL]. jectory optimization for the bipedal robot Cassie[Cl//Pro- (2018-06-14).https://arxiv.org/abs/1806.06920. ceedings of Robotics:Science and Systems 2018.Pitts- [16]HAARNOJA T.ZHOU A,HARTIKAINEN K,et al.Soft burgh,USA,2018. actor-critic algorithms and applications[EB/OL].(2019- [3]RAIBERT M.BLANKESPOOR K,NELSON G,et al. 01-29).https://arxiv.org/abs/1812.05905. BigDog,the rough-terrain quadruped robot[C]//Proceed- [17]FUJIMOTO S,VAN HOOF H,MEGER D.Addressing ings of the 17th World Congress of the International Feder- function approximation error in actor-critic methods[C]// ation of Automatic Control.Seoul,Korea,2008: Proceedings of the 35th International Conference on Ma- 10822-10825 chine Learning.Stockholmsmassan,Sweden,2018: [4]Spotmini autonomous navigation[EB/OL].[2018-08-11]. 1587-1596. https://ucrazy.ru/video/1526182828-spotmini-autonomous- [18]HWANGBO J.LEE J.DOSOVITSKIY A.et al.Learn- navigation.html. ing agile and dynamic motor skills for legged robots[J]. [5]PARK H W,PARK S,KIM S.Variable-speed quadruped- Science robotics,2019,4(26):5872-5880. al bounding using impulse planning:Untethered high- [19]HAARNOJA T,HA S,ZHOU A,et al.Learning to walk speed 3D running of MIT Cheetah 2[Cl//Proceedings of via deep reinforcement learning[EB/OL].(2019-06-19) 2015 IEEE International Conference on Robotics and https://arxiv.org/abs/1812.11103 Automation.Seattle,USA,2015:5163-5170. [20]SUTTON R S,BARTO A G.Reinforcement learning:an [6]HIROSE S.YAMADA H.Snake-like robots:machine introduction[M].Cambridge:MIT Press,1998. design of biologically inspired robots[J].IEEE robotics and [21]LILLICRAP T P,HUNT JJ,PRITZEL A,et al.Continu- automation magazine,2009,16(1):88-98 ous control with deep reinforcement learning[J].Com- [7]HATTON RL,CHOSET H.Generating gaits for snake ro- puter science,2015,8(6):A187
法学习无模型的控制器,获得了高效的学习算法。 5 结束语 本文从问题形式化、策略表示方法和策略学 习 3 个方面对当前强化学习算法应用到仿生机器 人的运动步态控制任务中的研究情况进行了分析 和总结,并给出了强化学习算法应用到该领域尚 待解决的问题和未来的发展方向。总体而言,不 同于仿真环境,仿生机器人的步态运动控制受到 实际机器人系统的驱动、机构、通信等多方面的 限制,使得强化学习算法在该领域中的应用表现 出极大的挑战。一般而言,在形式化方面,需要 利用约束马尔可夫决策过程对该问题进行建模; 在策略表示方面,更倾向于领域结构化的表示方 法;在策略学习方面,高效的直接策略搜索方法 表现更佳。然而,目前强化学习算法用于仿生机 器人运动步态学习和控制仍然面临着样本效率 低、无法有效地进行多任务学习、从仿真环境到 实际平台的迁移性差和学习鲁棒性差等问题。新 的方法如基于模型的强化学习、元强化学习和分 层强化学习等有望解决或缓解这些问题。 参考文献: GEHRING C, COROS S, HUTTER M, et al. Practice makes perfect: an optimization-based approach to controlling agile motions for a quadruped robot[J]. IEEE robotics & automation magazine, 2016, 23(1): 34–43. [1] APGAR T, CLARY P, GREEN K, et al. Fast online trajectory optimization for the bipedal robot Cassie[C]//Proceedings of Robotics: Science and Systems 2018. Pittsburgh, USA, 2018. [2] RAIBERT M, BLANKESPOOR K, NELSON G, et al. BigDog, the rough-terrain quadruped robot[C]//Proceedings of the 17th World Congress of the International Federation of Automatic Control. Seoul, Korea, 2008: 10822−10825. [3] Spotmini autonomous navigation[EB/OL].[2018-08-11]. https://ucrazy.ru/video/1526182828-spotmini-autonomousnavigation.html. [4] PARK H W, PARK S, KIM S. Variable-speed quadrupedal bounding using impulse planning: Untethered highspeed 3D running of MIT Cheetah 2[C]//Proceedings of 2015 IEEE International Conference on Robotics and Automation. Seattle, USA, 2015: 5163−5170. [5] HIROSE S, YAMADA H. Snake-like robots: machine design of biologically inspired robots[J]. IEEE robotics and automation magazine, 2009, 16(1): 88–98. [6] [7] HATTON R L, CHOSET H. Generating gaits for snake robots by annealed chain fitting and keyframe wave extraction[C]//Proceedings of 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. St. Louis, USA, 2009: 840−845. TAKEMORI T, TANAKA M, MATSUNO F. Gait design for a snake robot by connecting curve segments and experimental demonstration[J]. IEEE transactions on robotics, 2018, 34(5): 1384–1391. [8] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Humanlevel control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. [9] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676): 354–359. [10] LEVINE S, KOLTUN V. Learning complex neural network policies with trajectory optimization[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014: 829−837. [11] SCHULMAN J, LEVINE S, MORITZ P, et al. Trust region policy optimization[C]//Proceedings of the 31st International Conference on Machine Learning. Lille, France, 2015: 1889−1897. [12] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-08- 28). https://arxiv.org/abs/1707.06347. [13] PENG Xuebin, BERSETH G, YIN Kangkang, et al. DeepLoco: dynamic locomotion skills using hierarchical deep reinforcement learning[J]. ACM transactions on graphics, 2017, 36(4): 1–13. [14] ABDOLMALEKI A, SPRINGENBERG J T, TASSA Y, et al. Maximum a posteriori policy optimisation[EB/OL]. (2018-06-14). https://arxiv.org/abs/1806.06920. [15] HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[EB/OL]. (2019- 01-29). https://arxiv.org/abs/1812.05905. [16] FUJIMOTO S, VAN HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]// Proceedings of the 35th International Conference on Machine Learning. Stockholmsmässan, Sweden, 2018: 1587−1596. [17] HWANGBO J, LEE J, DOSOVITSKIY A, et al. Learning agile and dynamic motor skills for legged robots[J]. Science robotics, 2019, 4(26): 5872–5880. [18] HAARNOJA T, HA S, ZHOU A, et al. Learning to walk via deep reinforcement learning[EB/OL]. (2019-06-19). https://arxiv.org/abs/1812.11103 [19] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998. [20] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. Computer science, 2015, 8(6): A187. [21] ·158· 智 能 系 统 学 报 第 15 卷
第1期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·159· [22]BOHEZ S,ABDOLMALEKI A,NEUNERT M,et al. and low-energy locomotion[J].ACM transactions on Value constrained model-free continuous control[EB/OL]. graphics,2018,374):144-150. (2019-02-12).https://arxiv.org/abs/1902.04623 [36]PENG Xuebin.BERSETH G.VAN DE PANNE M.Ter- [23]ALTMAN E.Constrained Markov decision processes[M] rain-adaptive locomotion skills using deep reinforcement London:Chapman and Hall,1999. learning[J].ACM transactions on graphics,2016,35(4): [24]DELCOMYN F.Neural basis of rhythmic behavior in an- 81-88. imals[J.Science,1980,210(4469:492-498 [37]BING Zhenshan,LEMKE C,JIANG Zhuangyi,et al.En- [25]MATSUOKA K.Sustained oscillations generated by mu- ergy-efficient slithering gait exploration for a snake-like tually inhibiting neurons with adaptation[].Biological robot based on reinforcement learning[EB/OL].(2019-04- cybernetics.1985,52(6):367-376. 16).https://arxiv.org/abs/1904.07788v1. [26]COHEN A H.HOLMES P J.RAND R H.The nature of [38]PENG Xuebin,VAN DE PANNE M.Learning loco- the coupling between segmental oscillators of the lamprey motion skills using DeepRL:does the choice of action spinal generator for locomotion:a mathematical model[J]. space matter?[C]//Proceeding of ACM SIGGRAPH/Euro- Journal of mathematical biology,1982,13(3):345-369. [27]BAY J S,HEMAMI H.Modeling of a neural pattern gen- graphics Symposium on Computer Animation.Los Angeles,USA,2017:12-20. erator with coupled nonlinear oscillators[J].IEEE transac- [39]VAN HASSELT H.Double q-learning[Cl//Proceedings tions on biomedical engineering,1987,BME-34(4): of the 23rd International Conference on Neural Informa- 297-306. [28]ENDO G,MORIMOTO J,MATSUBARA T,et al. tion Processing Systems.Red Hook,USA,2010: Learning CPG-based biped locomotion with a policy 2613-2621. gradient method:application to a humanoid robot[J].The [40]HA D,SCHMIDHUBER J.World Models[EB/OL]. international journal of robotics research,2008,27(2): (2018-05-09).https::/arxiv..org/abs/1803.10122 213-228. [41]EBERT F,FINN C,DASARI S,et al.Visual foresight: [29]MATSUBARA T,MORIMOTO J,NAKANISHI J,et al. model-based deep reinforcement learning for vision-based Learning CPG-based biped locomotion with a policy robotic control[EB/OL].(2018-12-03).https://arxiv.org/abs/ gradient method[C]//Proceedings of the 5th IEEE-RAS 1812.00568. International Conference on Humanoid Robots.Tsukuba, [42]FINN C,RAJESWARAN A.KAKADE S.et al.Online Japan,2005. meta-learning[EB/OL].(2019-07-03).https://arxiv.org/abs/ [30]DOYA K.Reinforcement learning in continuous time and 1902.08438 space[J].Neural computation,2000,12(1):219-245. [43]MAHJOURIAN R,MII KKULAINEN R,LAZIC N,et [31]SARTORETTI G,PAIVINE W,SHI Yunfei,et al.Dis- al.Hierarchical policy design for sample-efficient learn- tributed learning of decentralized control policies for ar- ing of robot table tennis through self-play[EB/OL].(2019- ticulated mobile robots[J].IEEE transactions on robotics, 02-17).https://arxiv.org/abs/1811.12927?context=cs. 2019,35(5)1109-1122. 作者简介: [32]方勇纯,朱威,郭宪.基于路径积分强化学习方法的蛇 郭宪,讲师,博土,主要研究方向 形机器人目标导向运动J].模式识别与人工智能, 为仿生机器人设计与智能运动控制。 2019,32(11-9 主持国家自然科学基金项目1项,省 FANG Yongchun,ZHU Wei,GUO Xian.Target-directed 部级项目2项。 locomotion of a snake-like robot based on path integral reinforcement learning[J].Pattern recognition and artifi- cial intelligence,2019,32(1):1-9. [33]IJSPEERT A J,SCHAAL S.Learning attractor land- 方勇纯,教授,博士生导师.南开 scapes for learning motor primitives[M]//THRUN S, 大学人工智能学院院长,主要研究方 SAUL L K,SCHOLKOPF B.Advances in Neural In- 向为机器人视觉控制、欠驱动吊运系 formation Processing Systems.Cambridge,MA:MIT 统控制、仿生机器人运动控制和微纳 Press,.2002:1547-1554. 米操作。主持国家重点研发计划项 [34]SCHAAL S,PETERS J,NAKANISHI J,et al.Learning 目、国家基金重点项目、“十二五”国家 movement primitives[M]//DARIORAJA P,CHATILA R. 技术支撑计划课题、国家基金仪器专 Robotics Research.The Eleventh International Symposi- 项等项目。获吴文俊人工智能自然科学奖一等奖、天津市专 um.Berlin,Germany:Springer,2005. 利奖金奖、天津市自然科学一等奖、高等教育教学成果一等 [35]YU Wenhao,TURK G,LIU C K.Learning symmetric 奖等多项奖励,发表学术论文100余篇
BOHEZ S, ABDOLMALEKI A, NEUNERT M, et al. Value constrained model-free continuous control[EB/OL]. (2019-02-12). https://arxiv.org/abs/1902.04623. [22] ALTMAN E. Constrained Markov decision processes[M]. London: Chapman and Hall, 1999. [23] DELCOMYN F. Neural basis of rhythmic behavior in animals[J]. Science, 1980, 210(4469): 492–498. [24] MATSUOKA K. Sustained oscillations generated by mutually inhibiting neurons with adaptation[J]. Biological cybernetics, 1985, 52(6): 367–376. [25] COHEN A H, HOLMES P J, RAND R H. The nature of the coupling between segmental oscillators of the lamprey spinal generator for locomotion: a mathematical model[J]. Journal of mathematical biology, 1982, 13(3): 345–369. [26] BAY J S, HEMAMI H. Modeling of a neural pattern generator with coupled nonlinear oscillators[J]. IEEE transactions on biomedical engineering, 1987, BME−34(4): 297–306. [27] ENDO G, MORIMOTO J, MATSUBARA T, et al. Learning CPG-based biped locomotion with a policy gradient method: application to a humanoid robot[J]. The international journal of robotics research, 2008, 27(2): 213–228. [28] MATSUBARA T, MORIMOTO J, NAKANISHI J, et al. Learning CPG-based biped locomotion with a policy gradient method[C]//Proceedings of the 5th IEEE-RAS International Conference on Humanoid Robots. Tsukuba, Japan, 2005. [29] DOYA K. Reinforcement learning in continuous time and space[J]. Neural computation, 2000, 12(1): 219–245. [30] SARTORETTI G, PAIVINE W, SHI Yunfei, et al. Distributed learning of decentralized control policies for articulated mobile robots[J]. IEEE transactions on robotics, 2019, 35(5): 1109–1122. [31] 方勇纯, 朱威, 郭宪. 基于路径积分强化学习方法的蛇 形机器人目标导向运动 [J]. 模式识别与人工智能, 2019, 32(1): 1–9. FANG Yongchun, ZHU Wei, GUO Xian. Target-directed locomotion of a snake-like robot based on path integral reinforcement learning[J]. Pattern recognition and artificial intelligence, 2019, 32(1): 1–9. [32] IJSPEERT A J, SCHAAL S. Learning attractor landscapes for learning motor primitives[M]//THRUN S, SAUL L K, SCHOLKOPF B. Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2002: 1547−1554. [33] SCHAAL S, PETERS J, NAKANISHI J, et al. Learning movement primitives[M]//DARIORAJA P, CHATILA R. Robotics Research. The Eleventh International Symposium. Berlin, Germany: Springer, 2005. [34] [35] YU Wenhao, TURK G, LIU C K. Learning symmetric and low-energy locomotion[J]. ACM transactions on graphics, 2018, 37(4): 144–150. PENG Xuebin, BERSETH G, VAN DE PANNE M. Terrain-adaptive locomotion skills using deep reinforcement learning[J]. ACM transactions on graphics, 2016, 35(4): 81–88. [36] BING Zhenshan, LEMKE C, JIANG Zhuangyi, et al. Energy-efficient slithering gait exploration for a snake-like robot based on reinforcement learning[EB/OL]. (2019-04- 16). https://arxiv.org/abs/1904.07788v1. [37] PENG Xuebin, VAN DE PANNE M. Learning locomotion skills using DeepRL: does the choice of action space matter?[C]//Proceeding of ACM SIGGRAPH/Eurographics Symposium on Computer Animation. Los Angeles, USA, 2017: 12−20. [38] VAN HASSELT H. Double q-learning[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Red Hook, USA, 2010: 2613−2621. [39] HA D, SCHMIDHUBER J. World Models[EB/OL]. (2018-05-09). https://arxiv.org/abs/1803.10122. [40] EBERT F, FINN C, DASARI S, et al. Visual foresight: model-based deep reinforcement learning for vision-based robotic control[EB/OL]. (2018-12-03). https://arxiv.org/abs/ 1812.00568. [41] FINN C, RAJESWARAN A, KAKADE S, et al. Online meta-learning[EB/OL]. (2019-07-03). https://arxiv.org/abs/ 1902.08438. [42] MAHJOURIAN R, MⅡKKULAINEN R, LAZIC N, et al. Hierarchical policy design for sample-efficient learning of robot table tennis through self-play[EB/OL]. (2019- 02-17). https://arxiv.org/abs/1811.12927?context=cs. [43] 作者简介: 郭宪,讲师,博士,主要研究方向 为仿生机器人设计与智能运动控制。 主持国家自然科学基金项目 1 项,省 部级项目 2 项。 方勇纯,教授,博士生导师,南开 大学人工智能学院院长,主要研究方 向为机器人视觉控制、欠驱动吊运系 统控制、仿生机器人运动控制和微纳 米操作。主持国家重点研发计划项 目、国家基金重点项目、“十二五”国家 技术支撑计划课题、国家基金仪器专 项等项目。获吴文俊人工智能自然科学奖一等奖、天津市专 利奖金奖、天津市自然科学一等奖、高等教育教学成果一等 奖等多项奖励,发表学术论文 100 余篇。 第 1 期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·159·