正在加载图片...
第2期 张小川,等:一种军棋机器博弈的多棋子协同博弈方法 ·403· 600, 一极大极小值 效率,值越大,学习效率就越高。y参数影响着系 500 a-B 统学习过程中经验的影响力,y值越大,以往的经 ◆MCTS 400 UCT 验就显得越重要。当α=0.4,y=0.6时多棋子Q强 300 化学习系统对战其它算法系统的结果相对最好。 200 单子作战系统重防守、轻攻击,很难做到主 动攻击。而加入多棋子协同作战策略后的军棋机 器博弈系统能够自我组织协同策略,多棋子联合 0.2 0.40.6 0.81.0 作战,增加了系统的主动进攻意识。本文为了测 试军棋多棋子协同博弈系统主动作战意识是否提 图7Y为固定值1,a取值参数对比 Fig.7 The comparison chart ofy is the value of 1 with a is 高,采用了与其它搜索算法系统对战的模式,并 a parameter 统计出棋子作战过程中主动进攻的步数进行对比 由以上实验结果可知,参数α和y对系统的 研究,研究发现该系统能够达到攻守平衡的状 作战能力影响极大,α参数值影响着系统学习的 态,统计结果如表1所示。 表1算法系统走步对比 Table 1 The comparison table of algorithm system walking 非 方式 极大极小搜索 a-搜索 MCTS搜索 UCT搜索 Q强化学习 进攻 > 9 13 9 21 防守 24 25 29 27 18 磨棋 29 23 24 26 19 军棋多棋子协同博弈系统由于棋子种类多的 法进行高价值棋子激活,分别对战500局后,在军 问题导致的“维度灾难”问题成为系统对战成败 棋博弈的69步范围之内计算出每一步的平均搜 的关键性因素,针对此问题系统采用多种搜索算 索时间如图8所示。 16 米一未加激活算法 +一极大极小值激活 O-MCTS激活 A-UCT激活 13172125293337414549535761656973 博弈步数/步 图8激活算法系统走步搜索时间对比 Fig.8 The comparison chart of Activation algorithm system walking search time 由图8可知,在未加激活算法时搜索的时间博弈系统中多棋子协同矩阵,增加了多棋子协同 较长,而军棋机器博弈比赛是在限定的时间内搜 作战的意识,增强了博弈系统主动出击诱导敌方 索到走步,否则认为系统搜索超时判负,加入各 的进攻趋势。利用部分重要棋子激活的方法解决 种激活算法后,系统搜索时间明显降低,尤其在 了棋子数量巨大造成的“维度灾难”问题,使得搜 加入UCT搜索算法时,系统搜索时间降低最明显。 索时间得到提升,避免了军棋计算机博弈系统在 4结束语 正式比赛过程中由于超时被判负的情况。未来将 考虑利用计算智能算法加入此系统,进一步优化 本文利用Q学算法优化迭代更新军棋计算机 多棋子协同矩阵。α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 200 100 0 300 400 500 600 Q学习算法胜利局数/局 图 7 γ 为固定值 1, α 取值参数对比 Fig. 7 The comparison chart of γ is the value of 1 with α is a parameter α γ α 由以上实验结果可知,参数 和 对系统的 作战能力影响极大, 参数值影响着系统学习的 γ γ α γ 效率,值越大,学习效率就越高。 参数影响着系 统学习过程中经验的影响力, 值越大,以往的经 验就显得越重要。当 =0.4, =0.6 时多棋子 Q 强 化学习系统对战其它算法系统的结果相对最好。 单子作战系统重防守、轻攻击,很难做到主 动攻击。而加入多棋子协同作战策略后的军棋机 器博弈系统能够自我组织协同策略,多棋子联合 作战,增加了系统的主动进攻意识。本文为了测 试军棋多棋子协同博弈系统主动作战意识是否提 高,采用了与其它搜索算法系统对战的模式,并 统计出棋子作战过程中主动进攻的步数进行对比 研究,研究发现该系统能够达到攻守平衡的状 态,统计结果如表 1 所示。 表 1 算法系统走步对比 Table 1 The comparison table of algorithm system walking 步 方式 极大极小搜索 α−β搜索 MCTS搜索 UCT搜索 Q强化学习 进攻 7 9 13 12 21 防守 24 25 29 27 18 磨棋 29 23 24 26 19 军棋多棋子协同博弈系统由于棋子种类多的 问题导致的“维度灾难”问题成为系统对战成败 的关键性因素,针对此问题系统采用多种搜索算 法进行高价值棋子激活,分别对战 500 局后,在军 棋博弈的 69 步范围之内计算出每一步的平均搜 索时间如图 8 所示[14]。 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 0 2 4 6 8 10 12 14 16 未加激活算法 极大极小值激活 MCTS激活 UCT激活 t/s 博弈步数/步 图 8 激活算法系统走步搜索时间对比 Fig. 8 The comparison chart of Activation algorithm system walking search time 由图 8 可知,在未加激活算法时搜索的时间 较长,而军棋机器博弈比赛是在限定的时间内搜 索到走步,否则认为系统搜索超时判负,加入各 种激活算法后,系统搜索时间明显降低,尤其在 加入 UCT 搜索算法时,系统搜索时间降低最明显。 4 结束语 本文利用 Q 学算法优化迭代更新军棋计算机 博弈系统中多棋子协同矩阵,增加了多棋子协同 作战的意识,增强了博弈系统主动出击诱导敌方 的进攻趋势。利用部分重要棋子激活的方法解决 了棋子数量巨大造成的“维度灾难”问题,使得搜 索时间得到提升,避免了军棋计算机博弈系统在 正式比赛过程中由于超时被判负的情况。未来将 考虑利用计算智能算法加入此系统,进一步优化 多棋子协同矩阵[15]。 第 2 期 张小川,等:一种军棋机器博弈的多棋子协同博弈方法 ·403·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有