正在加载图片...
第1期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·153· 等,展示出更好的运动性能,因此仿生机器人在 在仿真环境中训练二维人形机器人实现行走运动 民用、军事、星球探测等领域具有广泛的应用空 步态控制。Schulman等2-提出TRPO和PPO算法 间。与自然界中的动物类似,仿生机器人通过周 并利用actor-critic框架实现稳定的训练算法。Peng 期性地改变身体的构型,如足类机器人改变腿部 等利用分层深度强化学习算法在仿真环境中训 构型,蛇形机器人改变身体关节等,并与环境相 练3维仿生机器人的运动。最近,更高效稳定的深 互作用从而实现各种各样的运动,我们将这种运 度强化学习算法如MPO算法、SAC算法6、TD3 动方式称为运动步态。 算法叨被提出来。除了在仿真环境中进行仿生机 由于仿生机器人是多刚体非线性欠驱动系 器人运动步态的训练,Hwangbo等us1将在仿真环 统,因此其运动步态的控制是一项非常富有挑战 境中的训练结果直接应用到ANYmal四足机器人, 性的工作。经过学者们多年不断的努力,目前最 实现了稳定高效的四足运动步态控制;Haarnoja 高效的运动步态控制方法是通过将运动任务分解 等利用改进的SAC算法直接在Minitaur四足机 为不同的子模块,并对子模块分别进行控制。例 器人上进行训练,实现了多种运动步态控制。 如,足类机器人为了进行运动步态控制常常需要 针对强化学习算法在仿生机器人运动步态控 进行状态估计、接触点选择、轨迹优化、足端点规 制上的研究,本文从以下几个方面对当前的研究 划、模型预测控制和操作空间控制等工作-。这 进行综述:首先将仿生机器人的运动步态控制问 种控制方法能使得目前的仿生机器人获得高机动 题进行数学形式化,将该问题纳人到马尔可夫决 的运动能力,如波士顿动力公司的四足机器人可 策过程的理论框架中;然后对现有的策略表示方 以在野外)和室内做高机动抗扰动和自平衡运 法进行调研;之后介绍不同的策略学习方法,最 动、MIT的猎豹可以实现高达5ms的速度日 后给出总结和展望。 本东京工业大学的系列蛇形机器人可以在野外和 1问题形式化 水下等环境下自由运动、卡内基梅隆大学的模 块化蛇形机器人可以爬树、爬管道等。日本通 强化学习通过试错的方法实现折扣累积回报 信大学设计的模块化蛇形机器人可以在废墟环境 期望的最大化。智能体与环境交互的过程可以用 以履带步态方式进行运动⑧。但是,这些步态控 马尔可夫决策过程来描述,而马尔可夫决策过程 制方法需要大量的专业知识,且通用性不强,即 可以利用一个五元组(S,孔r,Py)来描述,其中S 使对于同款机器人,针对不同的运动任务仍需大 为状态空间,孔为动作空间,(s,a)为与状 量工作调整设计控制方法,而不同款的机器人则 态和动作相关的立即回报,P:S×A×S→R为状 需要利用不同的专业知识来重新设计控制器。此 态转移概率,即给定状态S,和动作a,转移到新的 外,利用这种步态控制方法所得到的运动一般并 状态s41的概率,即p(s+s,a,y为计算折扣累积回 不是最优的,抗干扰能力较差。 报的折扣因子。令π表示一个随机策略,即π:S×孔→ 自然界中动物娴熟的运动技能是在出生后不 [0,1],则智能体与环境交互的过程可以表述为智 断与环境交互通过试错学习而获得的。近年来广 能体在状态s处,采取策略π(s)得到动作a,并 泛应用的强化学习便是这样一种试错的学习方法, 与境进行交互,根据状态转移概率p(ss,a,)得 该方法并不直接考虑机器人的运动学和动力学,而 到下一时刻的状态同时获得立即回报r(s,a)的过 是一种基于数据驱动的控制器设计方法。研究表 程。智能体不断地与环境进行交互便产生了一条 明:通过强化学习方法来设计仿生机器人的运动步 状态和动作的轨迹,用r来表示,即T=[so,a,1,a1,…, 态控制器可以克服上述分别进行子模块设计所带 sm,anJ,我们用(π)来表示折扣累积回报的期望,即 来的局限。然而,仿生机器人运动步态的控制涉及 π) r(si,a 连续的高维观测空间和动作空间,计算量非常大, 因此由于实时性等方面的原因,传统的强化学习算 经典强化学习算法在数学上可以进行如下形 法往往难以直接应用。随着深度学习技术的出现, 式化描述0: 将强化学习与深度学习相结合而形成的深度强化 学习技术得到快速发展,并在视频游戏9、围棋 max Yr(s..a (1) 等领域取得突破性进展。近年来,深度强化学习技 经典强化学习算法包括基于值函数的方法、 术也被广泛应用到仿生机器人的运动步态控制器 基于直接策略搜索的方法以及基于actor-critic的 的设计中。Levine等结合轨迹最优和监督学习 方法。仿生机器人运动步态的状态空间和动作空等,展示出更好的运动性能,因此仿生机器人在 民用、军事、星球探测等领域具有广泛的应用空 间。与自然界中的动物类似,仿生机器人通过周 期性地改变身体的构型,如足类机器人改变腿部 构型,蛇形机器人改变身体关节等,并与环境相 互作用从而实现各种各样的运动,我们将这种运 动方式称为运动步态。 由于仿生机器人是多刚体非线性欠驱动系 统,因此其运动步态的控制是一项非常富有挑战 性的工作。经过学者们多年不断的努力,目前最 高效的运动步态控制方法是通过将运动任务分解 为不同的子模块,并对子模块分别进行控制。例 如,足类机器人为了进行运动步态控制常常需要 进行状态估计、接触点选择、轨迹优化、足端点规 划、模型预测控制和操作空间控制等工作[1−2]。这 种控制方法能使得目前的仿生机器人获得高机动 的运动能力,如波士顿动力公司的四足机器人可 以在野外[3] 和室内[4] 做高机动抗扰动和自平衡运 动、MIT 的猎豹可以实现高达 5 m/s 的速度[5] ,日 本东京工业大学的系列蛇形机器人可以在野外和 水下等环境下自由运动[6] 、卡内基梅隆大学的模 块化蛇形机器人可以爬树、爬管道等[7]。日本通 信大学设计的模块化蛇形机器人可以在废墟环境 以履带步态方式进行运动[8]。但是,这些步态控 制方法需要大量的专业知识,且通用性不强,即 使对于同款机器人,针对不同的运动任务仍需大 量工作调整设计控制方法,而不同款的机器人则 需要利用不同的专业知识来重新设计控制器。此 外,利用这种步态控制方法所得到的运动一般并 不是最优的,抗干扰能力较差。 自然界中动物娴熟的运动技能是在出生后不 断与环境交互通过试错学习而获得的。近年来广 泛应用的强化学习便是这样一种试错的学习方法, 该方法并不直接考虑机器人的运动学和动力学,而 是一种基于数据驱动的控制器设计方法。研究表 明:通过强化学习方法来设计仿生机器人的运动步 态控制器可以克服上述分别进行子模块设计所带 来的局限。然而,仿生机器人运动步态的控制涉及 连续的高维观测空间和动作空间,计算量非常大, 因此由于实时性等方面的原因,传统的强化学习算 法往往难以直接应用。随着深度学习技术的出现, 将强化学习与深度学习相结合而形成的深度强化 学习技术得到快速发展,并在视频游戏[9] 、围棋[10] 等领域取得突破性进展。近年来,深度强化学习技 术也被广泛应用到仿生机器人的运动步态控制器 的设计中。Levine 等 [11] 结合轨迹最优和监督学习 在仿真环境中训练二维人形机器人实现行走运动 步态控制。Schulman 等 [12−13] 提出 TRPO 和 PPO 算法 并利用 actor-critic 框架实现稳定的训练算法。Peng 等 [14] 利用分层深度强化学习算法在仿真环境中训 练 3 维仿生机器人的运动。最近,更高效稳定的深 度强化学习算法如 MPO 算法[15] 、SAC 算法[16] 、TD3 算法[17] 被提出来。除了在仿真环境中进行仿生机 器人运动步态的训练,Hwangbo 等 [18] 将在仿真环 境中的训练结果直接应用到 ANYmal 四足机器人, 实现了稳定高效的四足运动步态控制;Haarnoja 等 [19] 利用改进的 SAC 算法直接在 Minitaur 四足机 器人上进行训练,实现了多种运动步态控制。 针对强化学习算法在仿生机器人运动步态控 制上的研究,本文从以下几个方面对当前的研究 进行综述:首先将仿生机器人的运动步态控制问 题进行数学形式化,将该问题纳入到马尔可夫决 策过程的理论框架中;然后对现有的策略表示方 法进行调研;之后介绍不同的策略学习方法,最 后给出总结和展望。 1 问题形式化 (S,A,r,P, γ) S A r(st ,at) P : S ×A × S → R st at st+1 p(st+1|st ,at) γ π π : S ×A → [0,1] st π(st) at p(st+1|st ,at) r(st ,at) τ τ = [s0,a0,s1,a1,··· , sn,an] η(π) 强化学习通过试错的方法实现折扣累积回报 期望的最大化。智能体与环境交互的过程可以用 马尔可夫决策过程来描述,而马尔可夫决策过程 可以利用一个五元组 来描述,其中 为状态空间, 为动作空间, 为与状 态和动作相关的立即回报, 为状 态转移概率,即给定状态 和动作 转移到新的 状态 的概率,即 , 为计算折扣累积回 报的折扣因子。令 表示一个随机策略,即 ,则智能体与环境交互的过程可以表述为智 能体在状态 处,采取策略 得到动作 ,并 与 境进行交互,根据状态转移概率 得 到下一时刻的状态同时获得立即回报 的过 程。智能体不断地与环境进行交互便产生了一条 状态和动作的轨迹,用 来表示,即 ,我们用 来表示折扣累积回报的期望,即 η(π) = Eτ   ∑∞ t=0 γ t r(st ,at)   经典强化学习算法在数学上可以进行如下形 式化描述[20] : max π Eτ   ∑∞ t=0 γ t r(st ,at)   (1) 经典强化学习算法包括基于值函数的方法、 基于直接策略搜索的方法以及基于 actor-critic 的 方法。仿生机器人运动步态的状态空间和动作空 第 1 期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·153·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有