正在加载图片...
·933· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 器参数随当前状态自适应调节,因此取得的无人 为其后的算法带来启发,这些算法包括深度Q学 机路径控制效果均优于传统PD方法。目前类似 习2网、双Q学习0、决斗Q学习算法,但是Q学 的方法还没有应用于无人机降落至移动平台任务, 习算法由于其离散的输入和输出,只能解决复杂 在无人机降落问题中,使用结合PD理论和强化 度低的低维度问题。 学习原理的方法,具有创新性和可行性。在文献 2.2深度强化学习 [23]中,作者提出一种矫正纠偏(corrective advice 在实际任务执行时,状态和动作的表示是连 communicated humans,COACH)框架,使用人类建 续的,由于维度爆炸的问题,在连续的动作状态 议,用于帮助强化学习算法寻找最优的控制策 空间中使用离散的状态和动作难以实现。因此, 略,效果显著,能优化获得的最终策略。 本文使用神经网络非线性拟合的特点,对动作价 本文提出一种结合PD原理和强化学习理论 值函数进行估计,为了更好的表示动作价值函 的方法,完成无人机降落到移动平台的任务,应 数,本方法定义损失函数L()=E0y,-Qs,a,le)] 用矫正纠偏框架,优化最终训练得到的策略。上 来优化网络参数P,其中y=(s,a)+yQ(s41,a+ile)。 层的控制策略选择确定性策略梯度方法,该方法 如果策略是确定的,则可以将状态映射到动作 有着连续的输入和输出,在连续空间上,有潜力 上,即:S→A,之后本文定义动作网络俨,其遵循 实现优秀的控制效果。下层应用PD方法,用于 J(π)进行更新,使得J(π)变大,即根据7J(π≈ 保证无人机降落的稳定性。 EVeQ(s,dee儿==g]=EV.O(s,alee)儿==a7e4(se儿=l 进行更新。 2强化学习算法描述 确定性策略梯度方法是一种解决在连续状 2.1强化学习 态空间和动作空间的无模型算法。此方法使用动 作-评论家的结构,有两个主要的人工神经网络, 人工智能领域中,强化学习通常根据特定的 一个用于拟合动作价值函数,称为价值网络,另 状态寻找最优动作,并将动作执行进而完成相应 一个网络用于产生动作,成为动作网络俨。在这 的任务。基于强化学习原理的方法已经在多个领 域取得亮眼表现,包括围棋、电脑游戏2s2等。 两个网络进行更新时,网络的迭代会不稳定和发 散,因此,使用两个目标网络(目标价值网络和 在理论上,基于强化学习的方法在经过一定回合 目标动作网络俨)对更新的两个主网络进行软更 的训练后,所获得的智能体可以在不同场景实现 新,提高其稳定性。两个目标网络分别与价值网 特定的任务。一个标准的强化学习问题可以由 络和动作网络有着相同的结构。在训练时,每个 S、A、P、r、y定义。其中S和A分别代表输入状 输出动作有随机的干扰,用于增加算法探索的空 态和输出动作的集合,s和a表示某一时间的状 间,动作作用于环境后,智能体会将观察数组 态和动作,P表示状态转移概率,r是奖励信息,” (sep,aep,'ep,Sep1)储存到记忆库中,记忆库达到 是折扣因子,同时定义总体奖励R= 定数最后,按公式L=(付)∑-Qa更新 其中∫是最后的回合数。 价值网络参数使得L减小,其中B是样本取样个 智能体在环境中进行训练,不断优化当前的 数,y=(s,a)+yQ(s41,μ(s+ilG)0),之后按照7J≈ 策略,对于一个特定的策略π,本文以公式V(s)= E[Rls=,π定义价值函数V。同样由公式Q(s,a,)= B∑.Qxd儿P.对动作网路D进 E[Rs=s,a=a,π定义动作价值函数。同时本文使 行更新,使得J增大,接着,本方法对两个目标网 用J(π)定义策略π的评价标准,具体为J(π)=E[R,]。 络进行软更新,具体公式为:0=tP+(1-r)ge和 最后使用π来代表最优的控制策略,即, =t伊+(1-T)。最后经过不断地训练,会得到 π"=arg max O'(s,a) 两个主网络,用于实际问题的解决。 智能体不断地在环境中训练,并使用贝尔曼方程: 2.3使用矫正纠偏框架的强化学习方法 a)=.a4)ty》P之en 使用深度强化学习算法需要大量的时间进行 训练,并且训练的时间随着动作空间维度的增加 不断更新状态价值函数,因此智能体在强化学 而显著增加。为了减少训练的时间并提升训练的 习算法的规则下不断训练并获得最优的控制策略。 效果,一种矫正纠偏框架用于提升训练的效率, 在强化学习的发展过程中,最具有代表性的 在智能体输出动作时,使用人类的建议(一个二 算法2叨是Q学习算法2,算法本身结构简单,并 值化的量)对智能体产生的动作进行增强或者减器参数随当前状态自适应调节,因此取得的无人 机路径控制效果均优于传统 PID 方法。目前类似 的方法还没有应用于无人机降落至移动平台任务, 在无人机降落问题中,使用结合 PID 理论和强化 学习原理的方法,具有创新性和可行性。在文献 [23] 中,作者提出一种矫正纠偏(corrective advice communicated humans, COACH)框架,使用人类建 议,用于帮助强化学习算法寻找最优的控制策 略,效果显著,能优化获得的最终策略。 本文提出一种结合 PID 原理和强化学习理论 的方法,完成无人机降落到移动平台的任务,应 用矫正纠偏框架,优化最终训练得到的策略。上 层的控制策略选择确定性策略梯度方法,该方法 有着连续的输入和输出,在连续空间上,有潜力 实现优秀的控制效果。下层应用 PID 方法,用于 保证无人机降落的稳定性。 2 强化学习算法描述 2.1 强化学习 Rt = ∑ f i=t γ i−t r(si ,ai) 人工智能领域中,强化学习通常根据特定的 状态寻找最优动作,并将动作执行进而完成相应 的任务。基于强化学习原理的方法已经在多个领 域取得亮眼表现,包括围棋[24] 、电脑游戏[25-26] 等。 在理论上,基于强化学习的方法在经过一定回合 的训练后,所获得的智能体可以在不同场景实现 特定的任务。一个标准的强化学习问题可以由 S、A、P、r、γ 定义。其中 S 和 A 分别代表输入状 态和输出动作的集合,s 和 a 表示某一时间的状 态和动作,P 表示状态转移概率,r 是奖励信息,γ 是折扣因子,同时定义总体奖励 , 其中 f 是最后的回合数。 V π (st) = E[Rt |s = st , π] V π Q π (st ,at) = E[Rt |s = st ,a = at , π] J(π) J(π) = E[Rt |π] π ∗ 智能体在环境中进行训练,不断优化当前的 策略,对于一个特定的策略 π,本文以公式 定义价值函数 。同样由公式 定义动作价值函数。同时本文使 用 定义策略 π 的评价标准,具体为 。 最后使用 来代表最优的控制策略,即, π ∗ = argmaxQ ∗ (st ,at) 智能体不断地在环境中训练,并使用贝尔曼方程: Q(st ,at) = r(st ,at)+γ ∑ st+1∈S P at st ,st+1 ∑ at+1∈A Q(st+1,at+1) 不断更新状态价值函数,因此智能体在强化学 习算法的规则下不断训练并获得最优的控制策略。 在强化学习的发展过程中,最具有代表性的 算法[27] 是 Q 学习算法[28] ,算法本身结构简单,并 为其后的算法带来启发,这些算法包括深度 Q 学 习 [29] 、双 Q 学习[30] 、决斗 Q 学习算法[31] ,但是 Q 学 习算法由于其离散的输入和输出,只能解决复杂 度低的低维度问题。 2.2 深度强化学习 L(θ Q ) = E[(yt − Q(st ,at |θ Q ))2 ] θ Q yt = r(st ,at)+γQ(st+1,at+1|θ Q ) µ : S → A θ µ J(π) J(π) ∇θ µ J(π) ≈ E[∇θ µQ(s,a|θ Q )|s=si,a=µ(si|θ µ )]= E[∇aQ(s,a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|s=si ] 在实际任务执行时,状态和动作的表示是连 续的,由于维度爆炸的问题,在连续的动作状态 空间中使用离散的状态和动作难以实现。因此, 本文使用神经网络非线性拟合的特点,对动作价 值函数进行估计,为了更好的表示动作价值函 数,本方法定义损失函数 来优化网络参数 ,其中 。 如果策略是确定的,则可以将状态映射到动作 上,即 ,之后本文定义动作网络 ,其遵循 进行更新,使得 变大,即根据 进行更新。 θ Q θ µ θ Q ′ θ µ ′ (sstep,astep,rstep,sstep+1) L = ( 1 B ) · ∑ i (yi − Q(si ,ai |θ Q ))2 θ Q B yt = r(st ,at)+γQ(st+1, µ(st+1|θ µ ′ )|θ Q′ ) ∇θµ J ≈ 1 B ∑ i ∇aQ(s, a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|si θ µ J θ Q ′ = τθQ+(1−τ)θ Q ′ θ µ ′ = τθµ +(1−τ)θ µ ′ 确定性策略梯度方法[19] 是一种解决在连续状 态空间和动作空间的无模型算法。此方法使用动 作–评论家的结构,有两个主要的人工神经网络, 一个用于拟合动作价值函数,称为价值网络 ,另 一个网络用于产生动作,成为动作网络 。在这 两个网络进行更新时,网络的迭代会不稳定和发 散,因此,使用两个目标网络(目标价值网络 和 目标动作网络 )对更新的两个主网络进行软更 新,提高其稳定性。两个目标网络分别与价值网 络和动作网络有着相同的结构。在训练时,每个 输出动作有随机的干扰,用于增加算法探索的空 间,动作作用于环境后,智能体会将观察数组 储存到记忆库中,记忆库达到一 定数量后,按公式 更新 价值网络参数 使得 L 减小,其中 是样本取样个 数, ,之后按照 对动作网络 进 行更新,使得 增大,接着,本方法对两个目标网 络进行软更新,具体公式为: 和 。最后经过不断地训练,会得到 两个主网络,用于实际问题的解决。 2.3 使用矫正纠偏框架的强化学习方法 使用深度强化学习算法需要大量的时间进行 训练,并且训练的时间随着动作空间维度的增加 而显著增加。为了减少训练的时间并提升训练的 效果,一种矫正纠偏框架用于提升训练的效率, 在智能体输出动作时,使用人类的建议(一个二 值化的量)对智能体产生的动作进行增强或者减 ·933· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有