正在加载图片...
第1期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·155· 式中:%为角度偏置项;A为振幅;w,为空间频 地面的碰撞作用,为此在状态空间的表示上应该 率,表示波动沿着身体传播的速度;wr为时间角 反映出碰撞作用。Yu等B]利用一个特殊的二值 频率,表示单个关节的震荡频率。蛇形曲线来表 向量c表示每条腿是否与地面接触,状态空间为 示控制策略大大简化了控制步态的参数个数。在 s=【,d,c,]。Haarnoja等9利用连续的5帧观测 蛇形曲线式(3)中需要控制的参数为(a,A,wr)。Fang 总共112维的向量作为状态向量来建模实际仿生 等网利用强化学习方法直接对这3个参数进行优 四足机器人由于信号延迟和地面碰撞作用产生非 化,Sartoretti等B将当前的形状参数作为状态输 马尔可夫性。Hwangbo等u1利用关节历史信息 入并将参数A,w利用神经网络表示成为形状参 建模腿与地面的碰撞作用,其建立的状态空间为 数的非线性函数。 =[,r,w,中,,⊙,ak-1,C。对于复杂的运动任 2.1.3基于DMP的策略表示方法 务%,如不同地形下的运动步态控制,状态往往包 动态运动基元(DMP)方法用一组微分方程表 括两部分,即s=[s,sl,一部分为仿生机器人本 示光滑的运动策略,通过调整耦合项可以灵活地对 身的状态信息5,另一部分为面临的地形特征描 运动策略进行调制,在仿生机器人尤其是足类机器 述57。对于仿生蛇形机器人,为了得到能量利用 人中得到广泛应用。 一组节律运动基元可表示为 率最高的步态,状态除了自身的特征外,还需要 N 知道关节力B7,即5,=[中,,,t, 平w 对于动作的表示,可以直接利用关节的力矩 il Ty=z+ π来表示,也可以利用每个关节的期望关节角 ∑ 度来表示,然后利用PD控制或者阻抗控制器 得到每个关节的关节力矩。Peng等B研究发现 t2=a,(B.0ym-y)-z) 直接优化期望关节角度比直接优化力矩更稳定。 式中:0y,z)为控制信号;平=exp(-h:(mod(,2m)-c方 有了状态的表示和动作的表示之后,策略常 CiE[0,2)i=[rcos rsino],To=1 Ti=-u(r-ro) 常可以利用带有两个隐含层的神经网络来表示从 强化学习需要优化的参数为,常用的学习 状态到动作的映射。对于带有地形适应的步态控 方法为策略梯度法。 制,则地形部分的描述往往需要经过若干卷积层 2.2基于深度神经网络的策略参数化方法 后,再与表示机器人自身特征的状态串接在一 前面基于领域知识的策略表示方法耦合了大 起,输入到一个前向神经网络中。 量先验知识,如步态的周期性、对称性等,这种表 示方法使得强化学习所需要优化的参数量大幅度 3策略学习方法 减少,因此只需要几百次或上千次的训练就能得 强化学习方法可以分为基于值函数的方法、基 到最优解,而且所得到的解能应用到实际的仿生 于直接策略搜索的方法和基于Actor-Critic框架的 机器人中。然而,基于领域知识的策略表示方法 方法。基于值函数的方法常用于离散动作空间。 表示能力非常有限,无法表示一般的运动步态。 仿生机器人的动作空间为高维的连续空间,因此常 因此,这些基于领域知识的策略表示方法对不同 用的学习方法为后两种。现有的仿生机器人策略 的运动任务没有通用性,只能使得仿生机器人实 学习方法可以分为两大类,第1类是将仿生机器人 现常见的行走。随着深度学习技术的进步,深度 视为单智能体,所有的驱动关节空间为动作空间, 强化学习在仿生机器人运动步态控制领域得到更 利用单智能体强化学习的方法进行学习;第2类则 深入的研究。通用的深度神经网络用来表示运动 是将仿生机器人按照不同的足或者身体部位视为 步态控制率。与基于领域知识的控制策略不同, 不同的智能体,整个仿生机器人视为多个智能体系 基于深度神经网络的控制策略没有考虑先验知 统,其步态运动控制视为多个智能体的协同运动, 识,因此更具有通用性,并且随着网络参数的增 利用多智能强化学习的方法学习策略。 加,其表示能力增强,而且可以根据不同的运动 3.1单智能体强化学习方法 任务学习不同的运动控制策略。 3.1.1基于轨迹最优的方法 对于状态的表示,用中:和:来表示仿生机器 基于轨迹最优的GPS方法由Levine等u提 人的关节角和关节角速度,用0o,aol,0pach,pueh来 出,该方法通过交叉优化最优控制策略P,(x)和 表示仿生机器人整体的滚转角度、角速度,俯仰 神经网络策略π(x)学习得到最优的神经网络策 角度和角速度。足类仿生机器人与仿生蛇形机器 略。具体学习过程如下。 人不同,足类机器人的状态空间还应该包括足与 1)利用轨迹最优算法,如微分动态规划等来θ0 A ws wT (θ0,A,wT ) {A,w} 式中: 为角度偏置项; 为振幅; 为空间频 率,表示波动沿着身体传播的速度; 为时间角 频率,表示单个关节的震荡频率。蛇形曲线来表 示控制策略大大简化了控制步态的参数个数。在 蛇形曲线式 (3) 中需要控制的参数为 。Fang 等 [32] 利用强化学习方法直接对这 3 个参数进行优 化,Sartoretti 等 [31] 将当前的形状参数作为状态输 入并将参数 利用神经网络表示成为形状参 数的非线性函数。 2.1.3 基于 DMP 的策略表示方法 动态运动基元 (DMP) 方法用一组微分方程表 示光滑的运动策略,通过调整耦合项可以灵活地对 运动策略进行调制,在仿生机器人尤其是足类机器 人中得到广泛应用。一组节律运动基元可表示为[33] τy˙ = z+ ∑N i=1 Ψiw T i υ˜ ∑N i=1 Ψi τz˙ = αz(βz(ym −y)−z) (y,z) Ψi = exp(−hi( mod (ϕ,2π)−ci) 2 ) ci ∈ [0,2π] υ˜ = [r cosϕ rsinϕ] T τϕ˙=1 τr˙ = −µ(r −r0) 式中: 为控制信号; ; , , 。 w T 强化学习需要优化的参数为 i , 常用的学习 方法为策略梯度法[34]。 2.2 基于深度神经网络的策略参数化方法 前面基于领域知识的策略表示方法耦合了大 量先验知识,如步态的周期性、对称性等,这种表 示方法使得强化学习所需要优化的参数量大幅度 减少,因此只需要几百次或上千次的训练就能得 到最优解,而且所得到的解能应用到实际的仿生 机器人中。然而,基于领域知识的策略表示方法 表示能力非常有限,无法表示一般的运动步态。 因此,这些基于领域知识的策略表示方法对不同 的运动任务没有通用性,只能使得仿生机器人实 现常见的行走。随着深度学习技术的进步,深度 强化学习在仿生机器人运动步态控制领域得到更 深入的研究。通用的深度神经网络用来表示运动 步态控制率。与基于领域知识的控制策略不同, 基于深度神经网络的控制策略没有考虑先验知 识,因此更具有通用性,并且随着网络参数的增 加,其表示能力增强,而且可以根据不同的运动 任务学习不同的运动控制策略。 ϕi ϕ˙ i θroll θ˙ roll θpitch θ˙ pitch 对于状态的表示,用 和 来表示仿生机器 人的关节角和关节角速度,用 , , , 来 表示仿生机器人整体的滚转角度、角速度,俯仰 角度和角速度。足类仿生机器人与仿生蛇形机器 人不同,足类机器人的状态空间还应该包括足与 c s = [ϕ,ϕ,˙ c,υˆ] sk = [ϕ g ,rz ,ν,w, ϕi ,ϕ˙ i ,Θ,ak−1,C] s = [sc ,sT ] sc sT st = [ϕi ,ϕ˙ i , υ1,τi , υt] 地面的碰撞作用,为此在状态空间的表示上应该 反映出碰撞作用。Yu 等 [35] 利用一个特殊的二值 向量 表示每条腿是否与地面接触,状态空间为 。Haarnoja 等 [19] 利用连续的 5 帧观测 总共 112 维的向量作为状态向量来建模实际仿生 四足机器人由于信号延迟和地面碰撞作用产生非 马尔可夫性。Hwangbo 等 [18] 利用关节历史信息 建模腿与地面的碰撞作用,其建立的状态空间为 。对于复杂的运动任 务 [36] ,如不同地形下的运动步态控制,状态往往包 括两部分,即 ,一部分为仿生机器人本 身的状态信息 ,另一部分为面临的地形特征描 述 。对于仿生蛇形机器人,为了得到能量利用 率最高的步态,状态除了自身的特征外,还需要 知道关节力[37] ,即 。 τ ϕ d i 对于动作的表示,可以直接利用关节的力矩 来表示[11] ,也可以利用每个关节的期望关节角 度 来表示, 然后利用 PD 控制或者阻抗控制器 得到每个关节的关节力矩。Peng 等 [38] 研究发现 直接优化期望关节角度比直接优化力矩更稳定。 有了状态的表示和动作的表示之后,策略常 常可以利用带有两个隐含层的神经网络来表示从 状态到动作的映射。对于带有地形适应的步态控 制,则地形部分的描述往往需要经过若干卷积层 后,再与表示机器人自身特征的状态串接在一 起,输入到一个前向神经网络中。 3 策略学习方法 强化学习方法可以分为基于值函数的方法、基 于直接策略搜索的方法和基于 Actor-Critic 框架的 方法。基于值函数的方法常用于离散动作空间。 仿生机器人的动作空间为高维的连续空间,因此常 用的学习方法为后两种。现有的仿生机器人策略 学习方法可以分为两大类,第 1 类是将仿生机器人 视为单智能体,所有的驱动关节空间为动作空间, 利用单智能体强化学习的方法进行学习;第 2 类则 是将仿生机器人按照不同的足或者身体部位视为 不同的智能体,整个仿生机器人视为多个智能体系 统,其步态运动控制视为多个智能体的协同运动, 利用多智能强化学习的方法学习策略。 3.1 单智能体强化学习方法 3.1.1 基于轨迹最优的方法 pi(u|x) πθ(x) 基于轨迹最优的 GPS 方法由 Levine 等 [11] 提 出,该方法通过交叉优化最优控制策略 和 神经网络策略 学习得到最优的神经网络策 略。具体学习过程如下。 1) 利用轨迹最优算法,如微分动态规划等来 第 1 期 郭宪,等:仿生机器人运动步态控制:强化学习方法综述 ·155·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有