优化得到最优的策略，其优化目标为 L(q) = DKL(q(τ)||ρ(τ

正在加载图片...

·156· 智能系统学报第15卷优化得到最优的策略，其优化目标为 3.1.3基于最大熵的方法 L(q)=DxL(q(T)llp(T))+ 当仿生机器人的自由度很高时，GPS的方法 ∑ADu(g)zlk,lg4,》难以拟合局部动力学，DDPG的方法则需要额外的探索策略，学习效率低。基于最大熵的强化学 2)得到最优控制策略后，利用该最优策略在习算法将探索策略耦合到优化之中，因此增强了数据点τ处，利用监督学习的方法对神经网络策学习效率。根据策略迭代方法提出来的soft-act- 略进行训练，其优化目标为 or-critic方法I6充分利用了最大熵原理，在保证收敛性的同时，能快速地收敛到最优解。最大熵强 L(O=∑∑Dx((wqlxa)q((k》化学习的问题形式化为式(2)所示。为了求解式 3)更新对偶变量入，更新规则为 (1),需要依次优化如下3个损失函数：入入+Dx(q(x)r(w,lx)lg(x,4) Je(0)=E4ol[0(,a)-((s,a,)+yVa.(S+》闩与传统的基于随机策略搜索的方法相比， (4) GPS的方法利用轨迹最优方法得到局部最优解， J.(=E-aloga(als小）-mi2n(s,a） (5) 图1,24 并利用最优解进行监督训练，避免了随机探索。经过训练得到的通用神经网络策略能泛化到其他 J(a)=E-D4[-alogπ(al小s,)-aH (6) 其中式(4)为行为值函数的损失函数，由贝尔曼情况下。实验证明，该方法能高效地学习游动、参数的均方和来给出。为了移除过优估计，使用跳跃、行走、奔跑等运动。 3.12基于确定性策略梯度的方法 2套独立的参数0和。式(5)为最大熵策略的损失函数，式(6)为自动调整因此α的损失函数，仿生机器人一般拥有十几个甚至是几十个控制输入，使得其动作空间为十几维甚至是几十维其中α为式(3)中嫡所占的比重，该参数在优化的连续空间。基于随机策略梯度的方法在进行梯的过程中不断发生变化。SAC算法被成功应用度估计的时候需要在如此高维的空间进行大量采到四足机器人的运动步态控制中。值得一提的是，该算法可以在真实的四足机器人上直接进行样，使得学习效率很低。基于确定性策略梯度的训练，经过2h的训练，四足机器人就能学会行走。方法不需要在动作空间进行采样，只需在状态空间进行采样。尤其是深度确定性策略梯度算法 3.1.4基于最大后验策略优化的方法即DDPG算法2利用深度神经网络逼近行为值最大后验策略优化的方法从概率的角度出函数，并利用off-policy的方法估计行为值函数，发，将强化学习问题建模为推理问题。假设大大提升了数据效率，在连续运动控制中得到广 P(O=1)为完成任务的概率，则根据推理问题，该泛应用。DDPG的方法为Actor-Critic框架的强化概率为问学习算法，在该算法中行为值函数和策略函数都 logp.(0=1)=log∫p.(r)p(O=lr)dr≥ 由神经网络来逼近，其更新规则为 ∫(logp(O=lr)+-log P( g(T) 6,=r,+yQw(+14g(s+i)-Q(s,a) 令损失函数： Wit1=W:+am6,VO"(sa) 0=0,+aoVopto(S:)VaO"(Sa)l=ps) Jq,)=】 -KL(q(r川p.(r) 式中：w、w、0、分别为行为值函数网络的估计 ∑o 参数、目标网络参数、策略网络的估计参数、目标式中：q()为提议分布。该优化问题可通过策略网参数。 EM方法进行求解，在E步优化得到最优的提议 DDPG方法在连续控制问题取得普遍较好的分布q(π)，在该步中非参数优化解为结果。然而，由于off-policy的存在，行为值函数 qu(dls)cπ(ads,)exp Qa(s,ad）的估计普遍存在过优估计的问题。同时，由于行为值函数参数的更新与策略网络参数的更新同时其中最优温度项根据式(7)优化得到：交叉更新，这使得学习过程非常不稳定。为了解 ne+s)log fr(as.0)exp2a(sa dads 决这些问题，各种各样的改进的DDPG算法被提 (7) 出来，其中Fujimoto等提出TD3的方法m,利用在M步中，利用最优的提议分布更新神经网 Double Q--learning9的方法来解决过优估计问题，络策略：利用策略网络延迟更新的方法解决学习不稳定，在连续控制问题上取得当前最好的结果。 max J(qi0)=max E(s [Edo flog(als,]]+log p(0)优化得到最优的策略，其优化目标为 L(q) = DKL(q(τ)||ρ(τ))+ ∑T t=1 λtDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 2) 得到最优控制策略后，利用该最优策略在数据点 τ 处，利用监督学习的方法对神经网络策略进行训练，其优化目标为 L(θ) = ∑T t=1 λt ∑N i=1 DKL(πθ(ut |xti)||q(ut |xti)) 3）更新对偶变量 λt更新规则为 λt ← λt +ηDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 与传统的基于随机策略搜索的方法相比， GPS 的方法利用轨迹最优方法得到局部最优解，并利用最优解进行监督训练，避免了随机探索。经过训练得到的通用神经网络策略能泛化到其他情况下。实验证明，该方法能高效地学习游动、跳跃、行走、奔跑等运动。 3.1.2 基于确定性策略梯度的方法仿生机器人一般拥有十几个甚至是几十个控制输入，使得其动作空间为十几维甚至是几十维的连续空间。基于随机策略梯度的方法在进行梯度估计的时候需要在如此高维的空间进行大量采样，使得学习效率很低。基于确定性策略梯度的方法不需要在动作空间进行采样，只需在状态空间进行采样。尤其是深度确定性策略梯度算法即 DDPG 算法[21] 利用深度神经网络逼近行为值函数，并利用 off-policy 的方法估计行为值函数，大大提升了数据效率，在连续运动控制中得到广泛应用。DDPG 的方法为 Actor-Critic 框架的强化学习算法，在该算法中行为值函数和策略函数都由神经网络来逼近，其更新规则为 δt = rt +γQ w − (st+1, µθ − (st+1))− Q w (st ,at) wt+1 = wt +αmδt∇wQ w (st ,at) θt+1 = θt +αθ∇θµθ(st)∇aQ w (st ,at)|a=µθ (s) w w − θ θ 式中： − 、、、分别为行为值函数网络的估计参数、目标网络参数、策略网络的估计参数、目标策略网参数。 DDPG 方法在连续控制问题取得普遍较好的结果。然而，由于 off-policy 的存在，行为值函数的估计普遍存在过优估计的问题。同时，由于行为值函数参数的更新与策略网络参数的更新同时交叉更新，这使得学习过程非常不稳定。为了解决这些问题，各种各样的改进的 DDPG 算法被提出来，其中 Fujimoto 等提出 TD3 的方法[17] ，利用 Double Q-learning[39] 的方法来解决过优估计问题，利用策略网络延迟更新的方法解决学习不稳定，在连续控制问题上取得当前最好的结果。 3.1.3 基于最大熵的方法当仿生机器人的自由度很高时，GPS 的方法难以拟合局部动力学，DDPG 的方法则需要额外的探索策略，学习效率低。基于最大熵的强化学习算法将探索策略耦合到优化之中，因此增强了学习效率。根据策略迭代方法提出来的 soft-actor-critic 方法[16] 充分利用了最大熵原理，在保证收敛性的同时，能快速地收敛到最优解。最大熵强化学习的问题形式化为式 (2) 所示。为了求解式 (1)，需要依次优化如下 3 个损失函数： JQ(θ) = E(st ,at ,st+1)∼D[(Qθ(st ,at)−(r(st ,at)+γVθ1 ,θ2 (st+1)))2 ] (4) Jπ(ϕ) = Est∼D,at∼πϕ [ αlogπϕ(at |st)− min i∈{1,2} Qθi (st ,at) ] (5) J(α) = Est∼D,at∼πϕ [−αlogπϕ(at |st)−αH] (6) θ1 θ2 α α 其中式 (4) 为行为值函数的损失函数，由贝尔曼参数的均方和来给出。为了移除过优估计，使用 2 套独立的参数和。式 (5) 为最大熵策略的损失函数，式 (6) 为自动调整因此的损失函数，其中为式 (3) 中熵所占的比重，该参数在优化的过程中不断发生变化。SAC 算法被成功应用到四足机器人的运动步态控制中。值得一提的是，该算法可以在真实的四足机器人上直接进行训练，经过 2 h 的训练，四足机器人就能学会行走。 3.1.4 基于最大后验策略优化的方法 pπ(O = 1) 最大后验策略优化的方法从概率的角度出发，将强化学习问题建模为推理问题。假设为完成任务的概率，则根据推理问题，该概率为[15] log pπ(O = 1) = log∫ pπ(τ)p(O = 1|τ)dτ ⩾ ∫ q(τ) [ logp(O = 1|τ)+log pπ(τ) q(τ) ] dτ 令损失函数： J(q, π) = Eq   ∑ t rt/α  −KL(q(τ)||pπ(τ)) q(τ) q(τ) 式中：为提议分布。该优化问题可通过 EM 方法进行求解，在 E 步优化得到最优的提议分布，在该步中非参数优化解为 qi(a|s) ∝ π(a|s, θi) exp( Qθi (s,a) η ∗ ) η 其中最优温度项 ∗根据式（7）优化得到： g(η) = ηε+η ∫ µ(s)log∫ π(a|s, θi) exp( Qθi (s,a) η ) dads (7) 在 M 步中，利用最优的提议分布更新神经网络策略： max θ J(qi , θ) = max θ Eµq (s)[Eq(a|s)[logπ(a|s, θ)]]+log p(θ) ·156· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【人工智能】仿生机器人运动步态控制：强化学习方法综述