正在加载图片...
·156· 智能系统学报 第15卷 优化得到最优的策略,其优化目标为 3.1.3基于最大熵的方法 L(q)=DxL(q(T)llp(T))+ 当仿生机器人的自由度很高时,GPS的方法 ∑ADu(g)zlk,lg4,》 难以拟合局部动力学,DDPG的方法则需要额外 的探索策略,学习效率低。基于最大熵的强化学 2)得到最优控制策略后,利用该最优策略在 习算法将探索策略耦合到优化之中,因此增强了 数据点τ处,利用监督学习的方法对神经网络策 学习效率。根据策略迭代方法提出来的soft-act- 略进行训练,其优化目标为 or-critic方法I6充分利用了最大熵原理,在保证收 敛性的同时,能快速地收敛到最优解。最大熵强 L(O=∑∑Dx((wqlxa)q((k》 化学习的问题形式化为式(2)所示。为了求解式 3)更新对偶变量入,更新规则为 (1),需要依次优化如下3个损失函数: 入入+Dx(q(x)r(w,lx)lg(x,4) Je(0)=E4ol[0(,a)-((s,a,)+yVa.(S+》闩 与传统的基于随机策略搜索的方法相比, (4) GPS的方法利用轨迹最优方法得到局部最优解, J.(=E-aloga(als小)-mi2n(s,a) (5) 图1,24 并利用最优解进行监督训练,避免了随机探索。 经过训练得到的通用神经网络策略能泛化到其他 J(a)=E-D4[-alogπ(al小s,)-aH (6) 其中式(4)为行为值函数的损失函数,由贝尔曼 情况下。实验证明,该方法能高效地学习游动、 参数的均方和来给出。为了移除过优估计,使用 跳跃、行走、奔跑等运动。 3.12基于确定性策略梯度的方法 2套独立的参数0和。式(5)为最大熵策略的 损失函数,式(6)为自动调整因此α的损失函数, 仿生机器人一般拥有十几个甚至是几十个控 制输入,使得其动作空间为十几维甚至是几十维 其中α为式(3)中嫡所占的比重,该参数在优化 的连续空间。基于随机策略梯度的方法在进行梯 的过程中不断发生变化。SAC算法被成功应用 度估计的时候需要在如此高维的空间进行大量采 到四足机器人的运动步态控制中。值得一提的 是,该算法可以在真实的四足机器人上直接进行 样,使得学习效率很低。基于确定性策略梯度的 训练,经过2h的训练,四足机器人就能学会行走。 方法不需要在动作空间进行采样,只需在状态空 间进行采样。尤其是深度确定性策略梯度算法 3.1.4基于最大后验策略优化的方法 即DDPG算法2利用深度神经网络逼近行为值 最大后验策略优化的方法从概率的角度出 函数,并利用off-policy的方法估计行为值函数, 发,将强化学习问题建模为推理问题。假设 大大提升了数据效率,在连续运动控制中得到广 P(O=1)为完成任务的概率,则根据推理问题,该 泛应用。DDPG的方法为Actor-Critic框架的强化 概率为问 学习算法,在该算法中行为值函数和策略函数都 logp.(0=1)=log∫p.(r)p(O=lr)dr≥ 由神经网络来逼近,其更新规则为 ∫(logp(O=lr)+-log P( g(T) 6,=r,+yQw(+14g(s+i)-Q(s,a) 令损失函数: Wit1=W:+am6,VO"(sa) 0=0,+aoVopto(S:)VaO"(Sa)l=ps) Jq,)=】 -KL(q(r川p.(r) 式中:w、w、0、分别为行为值函数网络的估计 ∑o 参数、目标网络参数、策略网络的估计参数、目标 式中:q()为提议分布。该优化问题可通过 策略网参数。 EM方法进行求解,在E步优化得到最优的提议 DDPG方法在连续控制问题取得普遍较好的 分布q(π),在该步中非参数优化解为 结果。然而,由于off-policy的存在,行为值函数 qu(dls)cπ(ads,)exp Qa(s,ad) 的估计普遍存在过优估计的问题。同时,由于行 为值函数参数的更新与策略网络参数的更新同时 其中最优温度项根据式(7)优化得到: 交叉更新,这使得学习过程非常不稳定。为了解 ne+s)log fr(as.0)exp2a(sa dads 决这些问题,各种各样的改进的DDPG算法被提 (7) 出来,其中Fujimoto等提出TD3的方法m,利用 在M步中,利用最优的提议分布更新神经网 Double Q--learning9的方法来解决过优估计问题, 络策略: 利用策略网络延迟更新的方法解决学习不稳定, 在连续控制问题上取得当前最好的结果。 max J(qi0)=max E(s [Edo flog(als,]]+log p(0)优化得到最优的策略,其优化目标为 L(q) = DKL(q(τ)||ρ(τ))+ ∑T t=1 λtDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 2) 得到最优控制策略后,利用该最优策略在 数据点 τ 处,利用监督学习的方法对神经网络策 略进行训练,其优化目标为 L(θ) = ∑T t=1 λt ∑N i=1 DKL(πθ(ut |xti)||q(ut |xti)) 3)更新对偶变量 λt更新规则为 λt ← λt +ηDKL(q(xt)πθ(ut |xt)||q(xt ,ut)) 与传统的基于随机策略搜索的方法相比, GPS 的方法利用轨迹最优方法得到局部最优解, 并利用最优解进行监督训练,避免了随机探索。 经过训练得到的通用神经网络策略能泛化到其他 情况下。实验证明,该方法能高效地学习游动、 跳跃、行走、奔跑等运动。 3.1.2 基于确定性策略梯度的方法 仿生机器人一般拥有十几个甚至是几十个控 制输入,使得其动作空间为十几维甚至是几十维 的连续空间。基于随机策略梯度的方法在进行梯 度估计的时候需要在如此高维的空间进行大量采 样,使得学习效率很低。基于确定性策略梯度的 方法不需要在动作空间进行采样,只需在状态空 间进行采样。尤其是深度确定性策略梯度算法 即 DDPG 算法[21] 利用深度神经网络逼近行为值 函数,并利用 off-policy 的方法估计行为值函数, 大大提升了数据效率,在连续运动控制中得到广 泛应用。DDPG 的方法为 Actor-Critic 框架的强化 学习算法,在该算法中行为值函数和策略函数都 由神经网络来逼近,其更新规则为 δt = rt +γQ w − (st+1, µθ − (st+1))− Q w (st ,at) wt+1 = wt +αmδt∇wQ w (st ,at) θt+1 = θt +αθ∇θµθ(st)∇aQ w (st ,at)|a=µθ (s) w w − θ θ 式中: − 、 、 、 分别为行为值函数网络的估计 参数、目标网络参数、策略网络的估计参数、目标 策略网参数。 DDPG 方法在连续控制问题取得普遍较好的 结果。然而,由于 off-policy 的存在,行为值函数 的估计普遍存在过优估计的问题。同时,由于行 为值函数参数的更新与策略网络参数的更新同时 交叉更新,这使得学习过程非常不稳定。为了解 决这些问题,各种各样的改进的 DDPG 算法被提 出来,其中 Fujimoto 等提出 TD3 的方法[17] ,利用 Double Q-learning[39] 的方法来解决过优估计问题, 利用策略网络延迟更新的方法解决学习不稳定, 在连续控制问题上取得当前最好的结果。 3.1.3 基于最大熵的方法 当仿生机器人的自由度很高时,GPS 的方法 难以拟合局部动力学,DDPG 的方法则需要额外 的探索策略,学习效率低。基于最大熵的强化学 习算法将探索策略耦合到优化之中,因此增强了 学习效率。根据策略迭代方法提出来的 soft-act￾or-critic 方法[16] 充分利用了最大熵原理,在保证收 敛性的同时,能快速地收敛到最优解。最大熵强 化学习的问题形式化为式 (2) 所示。为了求解式 (1),需要依次优化如下 3 个损失函数: JQ(θ) = E(st ,at ,st+1)∼D[(Qθ(st ,at)−(r(st ,at)+γVθ1 ,θ2 (st+1)))2 ] (4) Jπ(ϕ) = Est∼D,at∼πϕ [ αlogπϕ(at |st)− min i∈{1,2} Qθi (st ,at) ] (5) J(α) = Est∼D,at∼πϕ [−αlogπϕ(at |st)−αH] (6) θ1 θ2 α α 其中式 (4) 为行为值函数的损失函数,由贝尔曼 参数的均方和来给出。为了移除过优估计,使用 2 套独立的参数 和 。式 (5) 为最大熵策略的 损失函数,式 (6) 为自动调整因此 的损失函数, 其中 为式 (3) 中熵所占的比重,该参数在优化 的过程中不断发生变化。SAC 算法被成功应用 到四足机器人的运动步态控制中。值得一提的 是,该算法可以在真实的四足机器人上直接进行 训练,经过 2 h 的训练,四足机器人就能学会行走。 3.1.4 基于最大后验策略优化的方法 pπ(O = 1) 最大后验策略优化的方法从概率的角度出 发,将强化学习问题建模为推理问题。假设 为完成任务的概率,则根据推理问题,该 概率为[15] log pπ(O = 1) = log∫ pπ(τ)p(O = 1|τ)dτ ⩾ ∫ q(τ) [ logp(O = 1|τ)+log pπ(τ) q(τ) ] dτ 令损失函数: J(q, π) = Eq   ∑ t rt/α  −KL(q(τ)||pπ(τ)) q(τ) q(τ) 式中: 为提议分布。该优化问题可通 过 EM 方法进行求解,在 E 步优化得到最优的提议 分布 ,在该步中非参数优化解为 qi(a|s) ∝ π(a|s, θi) exp( Qθi (s,a) η ∗ ) η 其中最优温度项 ∗根据式(7)优化得到: g(η) = ηε+η ∫ µ(s)log∫ π(a|s, θi) exp( Qθi (s,a) η ) dads (7) 在 M 步中,利用最优的提议分布更新神经网 络策略: max θ J(qi , θ) = max θ Eµq (s)[Eq(a|s)[logπ(a|s, θ)]]+log p(θ) ·156· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有