正在加载图片...
·206· 智能系统学报 第13卷 合行动a: 图中实线表示一个UAV和两个UGV组成的异构 2,(s(),a)=(1-)Q,(s(t0),a)+ (7) 多智能体团队,虚线表示只有两个UGV组成的团 aR(s(t),a)+max(Q(s(t+1),a) 队。从图中可以看出,两种智能体团队对地图的覆 盖成功率都随着强化学习算法的迭代不断得到提 4仿真结果 高。但是,在存在UAV的团队中,因为UAV可以 仿真实验考虑一个20×20大小的栅格地图环 对UGV的覆盖行动进行指导,所以在经过700幕 境,如图4所示,最外围是地图边界,黑色区域表示 左右学习时,团队覆盖成功率就开始趋于稳定,而 障碍物,智能体的初始位置固定,五角星表示UAV, 只有UGV的团队,需要900幕左右的学习才开始趋 圆圈表示UGV。智能体团队的任务为尽可能多地 于稳定,因此体现出UAV与UGV协作覆盖的优势。 访问到所有栅格,即完成对格子世界的覆盖。当走 1.0 0.9 过的栅格超过95%以上时,认为此次覆盖任务成功: 0.8 当智能体在1500步仍不能完成95%的覆盖时,认 0.6 为此次任务失败。定义学习率为0.6,折扣因子为 g0.5 0.4 0.2,u=0.4,B=0.3。仿真实验在MATLAB2012b环 0.3 境下进行,并利用Mysql数据库存储Q值表。 0.2 一个UAV和两个UGV合作覆盖 0.1 -…两个UGV合作覆盖 0 2 3456 7891010 学习幕数 图6覆盖试验成功率 Fig.6 The success rate of coverage 最后,在地图左上角设置了一个影响整体覆盖 效果的“陷阱”区域,用以进一步的验证在强化学习 过程中,UAV对UGV的引导效果。陷阱区域如图4 中虚线圈区域所示,为边界与障碍物所夹的6个栅 格,访问此区域的回报R=0.3,低于访问其他空旷区 1234567891011121314151617181920 域的回报。当覆盖率达到95%时,认为本次覆盖任 务成功,但陷阱区域属于不应该访问的5%部分,每 图4多智能体覆盖环境 幕覆盖实验结束后,记录陷阱区域被访问的次数, Fig.4 The coverage environment of multi-agent 执行1000幕覆盖实验后的学习效果如图5所 每20个学习幕进行一次采样。 图7对比了UAV加入覆盖任务时对陷阱区域 示,可以看出随着学习幕数的增加,经过700幕左 右学习后,智能体团队完成地图覆盖所需步数逐渐 的访问效果,由图中可以看出,两种智能体团队对 收敛到较稳定的值,其中虚线为覆盖步数拟合曲 陷阱区的访问次数,都将随着学习幕数的增加而逐 线,图中覆盖步数存在的毛刺原因为智能体的观测 渐减少,最终将不再访问陷阱区,体现了强化学习 带有不确定性,当观测信息出现错误时,可能使智 算法对于覆盖问题的有效性。但是,在只有两个 能体当前学习幕的覆盖完成步数出现波动。 UGV组成的团队进行覆盖任务时,由于UGV的观 测范围较小,团队需要更多的学习幕数后,才能减 ×10P 少对陷阱区域的访问。 70 一个UAV和两个UGV合作覆盖 60象 两个UGV合作覆盖 50 40 5 30 23 4567890x10 10 学习幕数 200 400600 800 1000 图5异构多智能体覆盖完成步数 学习幕数 Fig.5 The coverage steps of heterogeneous multi-agent 图7陷阱区域访问次数统计 图6对比了UAV加入任务时的覆盖成功率, Fig.7 The count of visits to the trap合行动 a: Qt (s(t), a) = (1−α)Qt (s(t), a)+ α [ R(s(t), a)+max a {Qt (s(t+1), a)} ] (7) 4 仿真结果 20×20 µ=0.4 β=0.3 仿真实验考虑一个 大小的栅格地图环 境,如图 4 所示,最外围是地图边界,黑色区域表示 障碍物,智能体的初始位置固定,五角星表示 UAV, 圆圈表示 UGV。智能体团队的任务为尽可能多地 访问到所有栅格,即完成对格子世界的覆盖。当走 过的栅格超过 95% 以上时,认为此次覆盖任务成功; 当智能体在 1 500 步仍不能完成 95% 的覆盖时,认 为此次任务失败。定义学习率为 0.6,折扣因子为 0.2, , 。仿真实验在 MATLAB 2012b 环 境下进行,并利用 Mysql 数据库存储 Q 值表。 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Y 1 2 3 4 5 6 7 8 9 1011121314151617181920 图 4 多智能体覆盖环境 Fig. 4 The coverage environment of multi-agent 执行 1 000 幕覆盖实验后的学习效果如图 5 所 示,可以看出随着学习幕数的增加,经过 700 幕左 右学习后,智能体团队完成地图覆盖所需步数逐渐 收敛到较稳定的值,其中虚线为覆盖步数拟合曲 线,图中覆盖步数存在的毛刺原因为智能体的观测 带有不确定性,当观测信息出现错误时,可能使智 能体当前学习幕的覆盖完成步数出现波动。 0 1 2 3 4 5 6 7 8 9 10 5 10 15 ႒Όᎁ᪜ Ⴘ᜼㺲Ⰲᝬ䰬ₑ᪜ ×102 ×102 图 5 异构多智能体覆盖完成步数 Fig. 5 The coverage steps of heterogeneous multi-agent 图 6 对比了 UAV 加入任务时的覆盖成功率, 图中实线表示一个 UAV 和两个 UGV 组成的异构 多智能体团队,虚线表示只有两个 UGV 组成的团 队。从图中可以看出,两种智能体团队对地图的覆 盖成功率都随着强化学习算法的迭代不断得到提 高。但是,在存在 UAV 的团队中,因为 UAV 可以 对 UGV 的覆盖行动进行指导,所以在经过 700 幕 左右学习时,团队覆盖成功率就开始趋于稳定,而 只有 UGV 的团队,需要 900 幕左右的学习才开始趋 于稳定,因此体现出 UAV 与 UGV 协作覆盖的优势。 0 1 2 3 4 5 6 7 8 9 10 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ႒Όᎁ᪜ 㺲Ⰲ᜼ߋ⢳ ̬͖UAVস͖͐UGVऴ҈㺲Ⰲ ͖͐UGVऴ҈㺲Ⰲ ×102 图 6 覆盖试验成功率 Fig. 6 The success rate of coverage R = 0.3 最后,在地图左上角设置了一个影响整体覆盖 效果的“陷阱”区域,用以进一步的验证在强化学习 过程中,UAV 对 UGV 的引导效果。陷阱区域如图 4 中虚线圈区域所示,为边界与障碍物所夹的 6 个栅 格,访问此区域的回报 ,低于访问其他空旷区 域的回报。当覆盖率达到 95% 时,认为本次覆盖任 务成功,但陷阱区域属于不应该访问的 5% 部分,每 幕覆盖实验结束后,记录陷阱区域被访问的次数, 每 20 个学习幕进行一次采样。 图 7 对比了 UAV 加入覆盖任务时对陷阱区域 的访问效果,由图中可以看出,两种智能体团队对 陷阱区的访问次数,都将随着学习幕数的增加而逐 渐减少,最终将不再访问陷阱区,体现了强化学习 算法对于覆盖问题的有效性。但是,在只有两个 UGV 组成的团队进行覆盖任务时,由于 UGV 的观 测范围较小,团队需要更多的学习幕数后,才能减 少对陷阱区域的访问。 0 200 400 600 800 1 000 10 20 30 40 50 60 70 ႒Όᎁ᪜ 䃫䬚䮣䭝ࡦഋ⮰⁍᪜ ̬͖UAVস͖͐UGVऴ҈㺲Ⰲ ͖͐UGVऴ҈㺲Ⰲ 图 7 陷阱区域访问次数统计 Fig. 7 The count of visits to the trap ·206· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有