正在加载图片...
·96· 智能系统学报 第14卷 状态以及奖赏值,不断地优化奖赏值来得到最优 件驱动的强化学习压缩了整个学习的解空间,但在 的Q函数。基于事件驱动的Q学习不同于经典 计算和通信资源限制下,基于事件驱动的强化学 的Q学习算法,智能体首先判断事件条件是否触 习通过减少智能体的动作决策,能在短时间内找 发,来决定是否基于当前的状态值,更新动作与 到一个动作总量为K2的可行的编队策略,通过不 环境进行交互。多智能体从各自的初始位置点出 断更新迭代,最终寻求到最小化群体的动作总量。 发,当每个智能体都抵达期望位置点时,称为一 轮Episode学习终止。则对于事件驱动的强化学 3数值仿真分析 习多智能体编队算法可描述为 为了定量比较经典Q学习和事件驱动Q学 1)初始化Q矩阵; 习动作决策频率的大小,假设智能体随机初始化 2)初始化多智能体的当前状态so: 在大小为20×20的格子世界中,如图4所示,存 3)智能体i以行为策略(ε-贪心策略)选择 在3个智能体,每个智能体动作集合为A(s),可 动作au; 观测到格子的可能为“障碍物”“目标点”“普通格 4)智能体i与环境交互,获取下一个状态s 子”,奖赏,可写成式(3): 和即时的奖赏值r n=ω+0.1B+X+5 (3) 5)智能体i更新当前状态Su和au的Q(s,a) 式中,当智能体i未抵达目标点时ω为-1,否则 值: 为0;智能体i抵达期望点时B为-1,否则为0;当 △Q(si,a)=ru+ymax0(Sa,a)-Q(s,a) 智能体i移动到边界或者撞上L型的障碍物时, Q(su,ai)←Q(S,a)+a△Q(S,a) 式中,0<a<1为学习率,0<y<1为折扣因子; 智能体保持不动,此时X为-1,否则为0:当智能 6)如果每个智能体都抵达各自期望位置,则 体i与智能j在同一时刻向同一格子移动时,两 终止一轮Episode; 个智能体保持不动,此时(为-1,否则为0 7)判断是否满足事件触发条件,如果满足返 回步骤3),不满足返回步骤4)。 2.3资源消耗对比 Q学习中计算资源消耗,主要体现在遍历所 有的策略来寻求最优解。每次学习过程中,智能 体都要基于当前的状态遍历Q(s,d)值表,查找一 个最优的策略。Q(s,a)值表的实现采用Lookup 表格,其中seS和a∈A:(s,表的大小为S×A的 乘积的元素个数。下面举例说明Q(s,a)表大小, 假设存在N个智能体,每个智能体有M个动作, 环境中共存在n2状态,那么Q(s,a)值表的大小为 图4多智能体编队 M×n2w,在p步中,智能体共需遍历MN×n2w×p Fig.4 Formation of multi-agents systems 次Q(s,a)值表,做Mp次动作决策,这需要占用极 表1比较了事件驱动Q学习和经典Q学习 大的通信和计算资源。假设智能体在在P步中, 的动作决策次数,为方便表达做如下定义:为经 有1次不被驱动,则通信次数减少为M(p-)次, 典Q学习决策次数,?为事件驱动Q学习决策次 遍历次数减少为MN×n2w×(p-)次。虽然基于事 数,则减少决策率n可由如式(4)计算: 表1事件驱动与经典Q学习动作决策次数对比 Table 1 A comparison of action times between event-triggered O and classical O case 1=0.05 =0.02 0=0.01 经典Q学习 事件驱动Q学习减少决策率刀% 事件驱动Q学习减少决策率)% 事件驱动Q学习减少决策率% 600000 192976 67.79 129628 78.32 100143 83.31 900000 372463 58.61 257586 71.37 246968 72.56 1200000 591433 50.71 475579 60.36 406864 66.10 1500000 828361 44.77 689172 54.05 587553 60.83Q Q Q 状态以及奖赏值,不断地优化奖赏值来得到最优 的 函数。基于事件驱动的 学习不同于经典 的 学习算法,智能体首先判断事件条件是否触 发,来决定是否基于当前的状态值,更新动作与 环境进行交互。多智能体从各自的初始位置点出 发,当每个智能体都抵达期望位置点时,称为一 轮 Episode 学习终止。则对于事件驱动的强化学 习多智能体编队算法可描述为 1) 初始化 Q 矩阵; 2) 初始化多智能体的当前状态 s0; i ε− at,i 3) 智能体 以行为策略 ( 贪心策略) 选择 动作 ; i s ′ t rt,i 4) 智能体 与环境交互,获取下一个状态 和即时的奖赏值 ; i st,i at,i Qt,i(st,i 5) 智能体 更新当前状态 和 的 ,at,i) 值: ∆Qt,i(st,i ,at,i) = rt,i +γmaxQt,i(s ′ t,i ,at,i)− Qt,i(st,i ,at,i) Qt,i(st,i ,at,i) ← Qt,i(st,i ,at,i)+α∆Qt,i(st,i ,at,i) 式中, 0 < α < 1 为学习率, 0 < γ < 1 为折扣因子; 6) 如果每个智能体都抵达各自期望位置,则 终止一轮 Episode; 7) 判断是否满足事件触发条件,如果满足返 回步骤 3),不满足返回步骤 4)。 2.3 资源消耗对比 Q Q(s,a) Q(s,a) s ∈ S a ∈ Ai(s) S × A Q(s,a) N M n 2 Q(s,a) MN ×n 2N ρ MN ×n 2N ×ρ Q(s,a) Mρ ρ λ M(ρ−λ) MN ×n 2N ×(ρ−λ) 学习中计算资源消耗,主要体现在遍历所 有的策略来寻求最优解。每次学习过程中,智能 体都要基于当前的状态遍历 值表,查找一 个最优的策略。 值表的实现采用 Lookup 表格,其中 和 ,表的大小为 的 乘积的元素个数。下面举例说明 表大小, 假设存在 个智能体,每个智能体有 个动作, 环境中共存在 状态,那么 值表的大小为 ,在 步中,智能体共需遍历 次 值表,做 次动作决策,这需要占用极 大的通信和计算资源。假设智能体在在 步中, 有 次不被驱动,则通信次数减少为 次, 遍历次数减少为 次。虽然基于事 K2 件驱动的强化学习压缩了整个学习的解空间,但在 计算和通信资源限制下,基于事件驱动的强化学 习通过减少智能体的动作决策,能在短时间内找 到一个动作总量为 的可行的编队策略,通过不 断更新迭代,最终寻求到最小化群体的动作总量。 3 数值仿真分析 Q Q 20×20 Ai(s) ri 为了定量比较经典 学习和事件驱动 学 习动作决策频率的大小,假设智能体随机初始化 在大小为 的格子世界中,如图 4 所示,存 在 3 个智能体,每个智能体动作集合为 ,可 观测到格子的可能为“障碍物”“目标点”“普通格 子”,奖赏 可写成式 (3): ri = ω+0.1β+χ+ξ (3) i ω i β i L χ i j ζ 式中,当智能体 未抵达目标点时 为−1,否则 为 0;智能体 抵达期望点时 为−1,否则为 0;当 智能体 移动到边界或者撞上 型的障碍物时, 智能体保持不动,此时 为−1,否则为 0;当智能 体 与智能 在同一时刻向同一格子移动时,两 个智能体保持不动,此时 为−1,否则为 0。 图 4 多智能体编队 Fig. 4 Formation of multi-agents systems Q Q κ1 Q κ2 Q η 表 1 比较了事件驱动 学习和经典 学习 的动作决策次数,为方便表达做如下定义: 为经 典 学习决策次数, 为事件驱动 学习决策次 数,则减少决策率 可由如式 (4) 计算: 表 1 事件驱动与经典 Q 学习动作决策次数对比 Table 1 A comparison of action times between event-triggered Q and classical Q case 经典 Q 学习 σi = 0.05 σi = 0.02 σi = 0.01 事件驱动 Q 学习 减少决策率 η /% 事件驱动 Q 学习 减少决策率 η /% 事件驱动 Q 学习 减少决策率 η /% 600 000 192 976 67.79 129 628 78.32 100 143 83.31 900 000 372 463 58.61 257 586 71.37 246 968 72.56 1 200 000 591 433 50.71 475 579 60.36 406 864 66.10 1 500 000 828 361 44.77 689 172 54.05 587 553 60.83 ·96· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有