的动作的集合； P t st a t+1 st+1 s ′ 表示状态的条件

正在加载图片...

·754· 智能系统学报第17卷的动作的集合： agent DDPG(MADDPG)☒ P表示状态的条件转移概率，表示代理在t时其中，DQN引入了两个重要策略实现了强化刻s,状态下采取动作a后，在t+1时刻的状态s41的学习算法与深度神经网络的融合。第一个策略是状态为s的概率，其公式表述为目标网络的阶段性更新策略，保证了训练Q网络 P(s'ls,a)=P(st=s'ls:=s,a=a) 的Q值稳定性。另一个策略是经验回放机制，这 R为MDP的评价函数，是算法在s状态下执行个机制使得算法可以多次重复利用代理获得的经动作a后变换为s的过程对算法目标结果好坏的验，通过重复性采样，提高了经验的利用率，并有量化评价标准，其定义为效降低了样本数据间的及关联参数，具体训练流 R(s,a,)=E[R4is,=S,a,=a,S41=](I) 程如图3所示。 y是折扣因子，表示MDP中每一个决策环节对相对于决策过程中未来的决策环节的重要性，代理环境 y≤1恒成立，表示算法更看重当前奖励而不是未 Sp an Sui 来的奖励。 MDP的实际流程可以表示为图2，环境中受算法控制的代理对象在状态so∈S的条件下初始 O(s a) 经验池化，并由算法根据状态so选择建议动作ao∈S并由 Q网络数代理对象完成该动作，环境根据所执行的动作，更根据条件转移概率P(slso,ao)转移至下一状态s1, () 目标 Q网络同时，环境给出对应奖励ro(so,ao,s)。此后算法根 DQN 据状态5选择新的建议动作，并重复执行上述步图3DQN算法训练流程骤直至达到终止条件。 Fig.3 DQN algorithm training process DQN是应用于离散动作空间的算法，这导致无法应对控制精度高、动作空间复杂的问题。而 DDPG作为解决连续控制型问题的算法适合本文图2马尔可夫决策过程所遇到的难题，其算法流程如图4所示。 Fig.2 Markov decision process 代理环境 2.2深度强化学习 Sn an r,Sw 深度强化学习(deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知 + 策略网络π口 Q网络经能力与强化学习的决策能力相结合，并能够通过 k步更新】步更新端对端的学习方式实现从原始输入到输出的直接目标策略网络新目标Q网络控制，在模拟环境中，从个人收集的所有数据都用于在中央服务器中进行训练"，例如深度Q学习网络(deep Q-learning,DQN)2解决了使用强化图4DDPG算法训练流程 Fig.4 DDPG algorithm training process 学习算法求解Atari游戏最优决策问题，此后，又有诸如深度确定策略网络梯度(deep deterministic 3多特征策略梯度优化算法 policy gradient,.DDPG)l),信赖邻域策略梯度优化 (trust region policy optimization,TRPO)l,近似策在现有的深度确定性策略梯度算法的基础上略梯度优化(proximal policy optimization,PPO)l 通过对机器人导航任务的任务奖励进行拆分，并等算法都取得了较好的成果，实验证明，深度强构建了各自的Q值网络用于优化策略网络，并在化学习可以处理解决复杂的高纬度状态动作映射此基础上行构建了基于策略梯度优化算法的多特问题，从而实现更全面感知决策，具有较强的实征策略梯度优化算法。用性i6-20。在一些多智能体强化学习(multi-agent 3.1策略网络优化 reinforcement learning,MARL)研究工作中，集中针对前述算法中将机器人的导航奖励设计为训练和分散执行方案用于训练多智能体系统，例统一奖励值的算法中存在的奖励显著性下降的问 counterfactual multi-agent (COMA)multi- 题，本文将机器人的导航问题分为避障任务和导的动作的集合； P t st a t+1 st+1 s ′ 表示状态的条件转移概率，表示代理在时刻状态下采取动作后，在时刻的状态的状态为的概率，其公式表述为 P(s ′ |s,a) = P(st+1 = s ′ |st = s,at = a) R s a s ′ 为 MDP 的评价函数，是算法在状态下执行动作后变换为的过程对算法目标结果好坏的量化评价标准，其定义为 R(s,a,s ′ ) = E[Rt+1 |st = s,at = a,st+1 = s ′ ] (1) γ γ ⩽ 1 是折扣因子，表示 MDP 中每一个决策环节对相对于决策过程中未来的决策环节的重要性，恒成立，表示算法更看重当前奖励而不是未来的奖励。 s0 ∈ S s0 a0 ∈ S P(s1|s0,a0) s1 r0(s0,a0,s1) s1 MDP 的实际流程可以表示为图 2，环境中受算法控制的代理对象在状态的条件下初始化，并由算法根据状态选择建议动作并由代理对象完成该动作，环境根据所执行的动作，根据条件转移概率转移至下一状态，同时，环境给出对应奖励。此后算法根据状态选择新的建议动作，并重复执行上述步骤直至达到终止条件。 s0 a0 s1 a1 s2 r0 r1 r2 a2 图 2 马尔可夫决策过程 Fig. 2 Markov decision process 2.2 深度强化学习深度强化学习 (deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制，在模拟环境中，从个人收集的所有数据都用于在中央服务器中进行训练[9-11] ，例如深度 Q 学习网络 (deep Q-learning, DQN)[12] 解决了使用强化学习算法求解 Atari 游戏最优决策问题，此后，又有诸如深度确定策略网络梯度 (deep deterministic policy gradient, DDPG)[13] ，信赖邻域策略梯度优化 (trust region policy optimization, TRPO)[14] ，近似策略梯度优化 (proximal policy optimization, PPO)[15] 等算法都取得了较好的成果，实验证明，深度强化学习可以处理解决复杂的高纬度状态动作映射问题，从而实现更全面感知决策，具有较强的实用性[16-20]。在一些多智能体强化学习 (multi-agent reinforcement learning, MARL) 研究工作中，集中训练和分散执行方案用于训练多智能体系统，例如 counterfactual multi-agent (COMA) [21] 和 multiagent DDPG(MADDPG) [22]。其中，DQN 引入了两个重要策略实现了强化学习算法与深度神经网络的融合。第一个策略是目标网络的阶段性更新策略，保证了训练 Q 网络的 Q 值稳定性。另一个策略是经验回放机制，这个机制使得算法可以多次重复利用代理获得的经验，通过重复性采样，提高了经验的利用率，并有效降低了样本数据间的及关联参数，具体训练流程如图 3 所示。代理环境 at+1 st+1 at+1 Q 网络目标 Q 网络参经验池数更新 DQN st , at , r, st+1 Q (st , at ) Q (st+1, a) 图 3 DQN 算法训练流程 Fig. 3 DQN algorithm training process DQN 是应用于离散动作空间的算法，这导致无法应对控制精度高、动作空间复杂的问题。而 DDPG 作为解决连续控制型问题的算法适合本文所遇到的难题，其算法流程如图 4 所示。代理环境 at st st , at , r, st+1 策略网络 πθ 目标策略网络 π'θ 参数更新经验回放 Q 网络目标 Q 网络 k 步更新 k 步更新图 4 DDPG 算法训练流程 Fig. 4 DDPG algorithm training process 3 多特征策略梯度优化算法在现有的深度确定性策略梯度算法的基础上通过对机器人导航任务的任务奖励进行拆分，并构建了各自的 Q 值网络用于优化策略网络，并在此基础上行构建了基于策略梯度优化算法的多特征策略梯度优化算法。 3.1 策略网络优化针对前述算法中将机器人的导航奖励设计为统一奖励值的算法中存在的奖励显著性下降的问题，本文将机器人的导航问题分为避障任务和导 ·754· 智能系统学报第 17 卷

<<向上翻页向下翻页>>

点击下载：【智能系统】动态环境下分布式异构多机器人避障方法研究