正在加载图片...
·154· 智能系统学报 第15卷 间都是连续的,因此最常用的为基于直接策略搜 动步态控制进行有效的学习,学者们提出了很多 索的方法和基于actor-.critic的方法。其中,前者 更有效的策略表示方法。 最常用的为策略梯度的方法及其变种,如TRPO 2.1基于领域知识的策略参数化方法 的方法和PPO的方法,后者最常用的为DDPG2 2.1.1基于CPG的策略表示方法 的方法。 CPG即中枢模式发生器,研究发现CPG广泛 经典强化学习进行数学形式化时并未显式地 存在于脊椎动物和非脊椎动物的体内,用于控制 考虑策略的探索性,因此该类算法容易陷入到局 动物有节律的呼吸、心跳、肠胃蠕动、行走、奔 部最优。为了将探索策略考虑在内,学者们提出 跑、游动等。仿生机器人学家利用CPG模型产 在优化折扣累积回报的期望的同时优化策略的 生周期信号控制机器人的运动步态,可以大大简 熵,因此提出了最大熵强化学习的问题形式化: 化动作空间,因此CPG在人形机器人、四足机器 max E, y(r(sa )-a,logz.(als,)) 人、蛇形机器人等仿生机器人的运动步态控制中 (2) 得到广泛应用。现有的CPG模型包括Matsuoka 由式(2)描述的最优策略对外界的扰动具有更 模型2、锁相性模型2和范德波尔模型27。其中 强的鲁棒性,同时在训练过程中充分考虑了策略的 在仿生机器人中被广泛应用的为Matsuoka模型。 探索性,从而加快了学习速度,实验证明该形式化 第j个神经元震荡器的动力学模型为 在仿生机器人运动步态的学习中取得最好的表现。 仿生机器人是典型的机电一体化系统,其本 吃,=--4-+*0 k=1 身的机械强度和驱动功率都有限制条件,如最大 t%=-2+4i 加速度、最大力矩等。然而,典型的最大期望强化 qj=max(0,z) 学习或者最大嫡强化学习的最优解往往都是高频 式中:t、t、c为调节常数;为平均膜势能;之表 的bang-bang控制信号,实际的仿生机器人在执行 示衰减项;y为衰减系数;q为神经元的输出;w决 这些控制信号时要么非常容易损坏,要么根本达 表示第k个神经元对第j个神经元的抑制作用; 不到要求四。因此,对于仿生机器人而言,确保加 a为反馈信号。当采用CPG模型作为运动步态 速度约束、速度约束、力矩约束都是关键的。为 控制器时,常常将CPG模型中的反馈信号a:参数 化,作为优化控制项。 了将这些约束考虑进去,仿生机器人的运动步态 对于简单的二维人形机器人,Matsubara将 控制问题可以纳入到约束马尔可夫决策过程的框 架中2)。约束马尔可夫决策过程可以用六元组 CPG模型分别放在两个臀关节和一个状态机控 制器来控制膝关节2。而对于三维人形机器人, (S,孔,Py,r,c)来表示。其中,前5个元素表示了马 由于关节数目多达21个,采用CPG模型描述关 尔可夫决策过程,第6个元素c表示约束。约束 节角非常复杂。为了对多关节人形机器人进行控 马尔可夫决策过程形式化为带约束的优化问题,即 制,Endo等将CPG模型用到任务空间,而状态表 max E 示也只考虑了表示姿态的角速度,其具体的策略 表示方法为 s.t.E a0=u2anta爱yo 式中:a为振幅,y~P(yx:w),即y从随机策略 2策略表示方法研究 P(yxw)中采样得到。其中随机策略为高斯 强化学习最终目标是得到最优的控制策略, 策略: 如前所示用策略π:S×A→0,1]来表示。对于仿 1 p(vix;w")= exp(v-M/x:w) 生机器人步态控制来说,状态空间包括机器人的 V2π0,(w) 2σ2(w)) 每个关节角度q、相应的角速度9、整个身体质心 其中要优化的参数为(w",w),μ(x;w)采用的是 的位姿p、相应的速度p、足端或身体与外部的接 归一化高斯网络0,x=(,o,0,)F为输入观测。 触力F,动作空间为每个关节处的驱动力矩t。 2.1.2基于仿生运动曲线的策略表示方法 然而,仿生机器人都是多关节系统,少则十几个 仿生蛇形机器人的运动步态控制常用仿生曲 关节,多则几十个关节,因此仿生机器人的状态 线来表示。最常用的仿生曲线为日本广濑教授提 空间和动作空间都是高维的连续空间,这给强化 出的serpenoid曲线,该仿生曲线可表示为B川 学习带来了非常多的挑战。为了对仿生机器人运 0:=00+Asin(Wssi-Wrt) (3)间都是连续的,因此最常用的为基于直接策略搜 索的方法和基于 actor-critic 的方法。其中,前者 最常用的为策略梯度的方法及其变种,如 TRPO 的方法和 PPO 的方法,后者最常用的为 DDPG[21] 的方法。 经典强化学习进行数学形式化时并未显式地 考虑策略的探索性,因此该类算法容易陷入到局 部最优。为了将探索策略考虑在内,学者们提出 在优化折扣累积回报的期望的同时优化策略的 熵,因此提出了最大熵强化学习的问题形式化[19] : max π Eτ   ∑∞ t=0 γ t (r(st ,at)−αt logπt(at |st))   (2) 由式 (2) 描述的最优策略对外界的扰动具有更 强的鲁棒性,同时在训练过程中充分考虑了策略的 探索性,从而加快了学习速度,实验证明该形式化 在仿生机器人运动步态的学习中取得最好的表现。 (S,A,P, γ,r, c) 仿生机器人是典型的机电一体化系统,其本 身的机械强度和驱动功率都有限制条件,如最大 加速度、最大力矩等。然而,典型的最大期望强化 学习或者最大熵强化学习的最优解往往都是高频 的 bang-bang 控制信号,实际的仿生机器人在执行 这些控制信号时要么非常容易损坏,要么根本达 不到要求[22]。因此,对于仿生机器人而言,确保加 速度约束、速度约束、力矩约束都是关键的。为 了将这些约束考虑进去,仿生机器人的运动步态 控制问题可以纳入到约束马尔可夫决策过程的框 架中[23]。约束马尔可夫决策过程可以用六元组 来表示。其中,前 5 个元素表示了马 尔可夫决策过程,第 6 个元素 c 表示约束。约束 马尔可夫决策过程形式化为带约束的优化问题,即 max π Eτ   ∑∞ t=0 γ t r(st ,at)   s.t.Eτ   ∑∞ t=0 γ t c(st ,at)   ⩽ C¯ 2 策略表示方法研究 π : S ×A → [0,1] q q˙ p p˙ Fext τ 强化学习最终目标是得到最优的控制策略, 如前所示用策略 来表示。对于仿 生机器人步态控制来说,状态空间包括机器人的 每个关节角度 、相应的角速度 、整个身体质心 的位姿 、相应的速度 、足端或身体与外部的接 触力 ,动作空间为每个关节处的驱动力矩 。 然而,仿生机器人都是多关节系统,少则十几个 关节,多则几十个关节,因此仿生机器人的状态 空间和动作空间都是高维的连续空间,这给强化 学习带来了非常多的挑战。为了对仿生机器人运 动步态控制进行有效的学习,学者们提出了很多 更有效的策略表示方法。 2.1 基于领域知识的策略参数化方法 2.1.1 基于 CPG 的策略表示方法 CPG 即中枢模式发生器,研究发现 CPG 广泛 存在于脊椎动物和非脊椎动物的体内,用于控制 动物有节律的呼吸、心跳、肠胃蠕动、行走、奔 跑、游动等[24]。仿生机器人学家利用 CPG 模型产 生周期信号控制机器人的运动步态,可以大大简 化动作空间,因此 CPG 在人形机器人、四足机器 人、蛇形机器人等仿生机器人的运动步态控制中 得到广泛应用。现有的 CPG 模型包括 Matsuoka 模型[25] 、锁相性模型[26] 和范德波尔模型[27]。其中 在仿生机器人中被广泛应用的为 Matsuoka 模型。 第 j 个神经元震荡器的动力学模型为[28] τz˙j = −zj − ∑n k=1 wjkqk −γz ′ j +c+aj τ ′ z˙ ′ j = −zj +qj qj = max(0,zj) τ、τ ′、c zj z ′ j γ qj wjk k j aj aj 式中: 为调节常数; 为平均膜势能; 表 示衰减项; 为衰减系数; 为神经元的输出; 表示第 个神经元对第 个神经元的抑制作用; 为反馈信号。当采用 CPG 模型作为运动步态 控制器时,常常将 CPG 模型中的反馈信号 参数 化,作为优化控制项。 对于简单的二维人形机器人,Matsubara 将 CPG 模型分别放在两个臀关节和一个状态机控 制器来控制膝关节[29]。而对于三维人形机器人, 由于关节数目多达 21 个,采用 CPG 模型描述关 节角非常复杂。为了对多关节人形机器人进行控 制,Endo 等将 CPG 模型用到任务空间,而状态表 示也只考虑了表示姿态的角速度,其具体的策略 表示方法为 aj(t) = a max j 2 π arctan( π 2 νj(t)) a max j νj ∼ P(νj |x;w µ ) νj P(νj |x;w µ ) 式中: 为振幅, ,即 从随机策略 中采样得到。其中随机策略为高斯 策略: p(νj |x;w µ ) = 1 √ 2πσj(wσ) exp( −(νj −µj(x;w µ ))2 2σ 2 j (wσ) ) (w µ ,w σ ) µj(x;w µ ) x = (θ˙ roll, θ˙ pitch) T 其中要优化的参数为 , 采用的是 归一化高斯网络[30] , 为输入观测。 2.1.2 基于仿生运动曲线的策略表示方法 仿生蛇形机器人的运动步态控制常用仿生曲 线来表示。最常用的仿生曲线为日本广濑教授提 出的 serpenoid 曲线,该仿生曲线可表示为[31] θi = θ0 + Asin(wssi −wT t) (3) ·154· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有