α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS

正在加载图片...

第2期张小川，等：一种军棋机器博弈的多棋子协同博弈方法 ·403· 600, 一极大极小值效率，值越大，学习效率就越高。y参数影响着系 500 a-B 统学习过程中经验的影响力，y值越大，以往的经 ◆MCTS 400 UCT 验就显得越重要。当α=0.4，y=0.6时多棋子Q强 300 化学习系统对战其它算法系统的结果相对最好。 200 单子作战系统重防守、轻攻击，很难做到主动攻击。而加入多棋子协同作战策略后的军棋机器博弈系统能够自我组织协同策略，多棋子联合 0.2 0.40.6 0.81.0 作战，增加了系统的主动进攻意识。本文为了测试军棋多棋子协同博弈系统主动作战意识是否提图7Y为固定值1，a取值参数对比 Fig.7 The comparison chart ofy is the value of 1 with a is 高，采用了与其它搜索算法系统对战的模式，并 a parameter 统计出棋子作战过程中主动进攻的步数进行对比由以上实验结果可知，参数α和y对系统的研究，研究发现该系统能够达到攻守平衡的状作战能力影响极大，α参数值影响着系统学习的态，统计结果如表1所示。表1算法系统走步对比 Table 1 The comparison table of algorithm system walking 非方式极大极小搜索 a-搜索 MCTS搜索 UCT搜索 Q强化学习进攻 > 9 13 9 21 防守 24 25 29 27 18 磨棋 29 23 24 26 19 军棋多棋子协同博弈系统由于棋子种类多的法进行高价值棋子激活，分别对战500局后，在军问题导致的“维度灾难”问题成为系统对战成败棋博弈的69步范围之内计算出每一步的平均搜的关键性因素，针对此问题系统采用多种搜索算索时间如图8所示。 16 米一未加激活算法 +一极大极小值激活 O-MCTS激活 A-UCT激活 13172125293337414549535761656973 博弈步数/步图8激活算法系统走步搜索时间对比 Fig.8 The comparison chart of Activation algorithm system walking search time 由图8可知，在未加激活算法时搜索的时间博弈系统中多棋子协同矩阵，增加了多棋子协同较长，而军棋机器博弈比赛是在限定的时间内搜作战的意识，增强了博弈系统主动出击诱导敌方索到走步，否则认为系统搜索超时判负，加入各的进攻趋势。利用部分重要棋子激活的方法解决种激活算法后，系统搜索时间明显降低，尤其在了棋子数量巨大造成的“维度灾难”问题，使得搜加入UCT搜索算法时，系统搜索时间降低最明显。索时间得到提升，避免了军棋计算机博弈系统在 4结束语正式比赛过程中由于超时被判负的情况。未来将考虑利用计算智能算法加入此系统，进一步优化本文利用Q学算法优化迭代更新军棋计算机多棋子协同矩阵。α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 200 100 0 300 400 500 600 Q学习算法胜利局数/局图 7 γ 为固定值 1， α 取值参数对比 Fig. 7 The comparison chart of γ is the value of 1 with α is a parameter α γ α 由以上实验结果可知，参数和对系统的作战能力影响极大，参数值影响着系统学习的 γ γ α γ 效率，值越大，学习效率就越高。参数影响着系统学习过程中经验的影响力，值越大，以往的经验就显得越重要。当 =0.4， =0.6 时多棋子 Q 强化学习系统对战其它算法系统的结果相对最好。单子作战系统重防守、轻攻击，很难做到主动攻击。而加入多棋子协同作战策略后的军棋机器博弈系统能够自我组织协同策略，多棋子联合作战，增加了系统的主动进攻意识。本文为了测试军棋多棋子协同博弈系统主动作战意识是否提高，采用了与其它搜索算法系统对战的模式，并统计出棋子作战过程中主动进攻的步数进行对比研究，研究发现该系统能够达到攻守平衡的状态，统计结果如表 1 所示。表 1 算法系统走步对比 Table 1 The comparison table of algorithm system walking 步方式极大极小搜索 α−β搜索 MCTS搜索 UCT搜索 Q强化学习进攻 7 9 13 12 21 防守 24 25 29 27 18 磨棋 29 23 24 26 19 军棋多棋子协同博弈系统由于棋子种类多的问题导致的“维度灾难”问题成为系统对战成败的关键性因素，针对此问题系统采用多种搜索算法进行高价值棋子激活，分别对战 500 局后，在军棋博弈的 69 步范围之内计算出每一步的平均搜索时间如图 8 所示[14]。 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 0 2 4 6 8 10 12 14 16 未加激活算法极大极小值激活 MCTS激活 UCT激活 t/s 博弈步数/步图 8 激活算法系统走步搜索时间对比 Fig. 8 The comparison chart of Activation algorithm system walking search time 由图 8 可知，在未加激活算法时搜索的时间较长，而军棋机器博弈比赛是在限定的时间内搜索到走步，否则认为系统搜索超时判负，加入各种激活算法后，系统搜索时间明显降低，尤其在加入 UCT 搜索算法时，系统搜索时间降低最明显。 4 结束语本文利用 Q 学算法优化迭代更新军棋计算机博弈系统中多棋子协同矩阵，增加了多棋子协同作战的意识，增强了博弈系统主动出击诱导敌方的进攻趋势。利用部分重要棋子激活的方法解决了棋子数量巨大造成的“维度灾难”问题，使得搜索时间得到提升，避免了军棋计算机博弈系统在正式比赛过程中由于超时被判负的情况。未来将考虑利用计算智能算法加入此系统，进一步优化多棋子协同矩阵[15]。第 2 期张小川，等：一种军棋机器博弈的多棋子协同博弈方法 ·403·

<<向上翻页向下翻页>>

点击下载：【人工智能】一种军棋机器博弈的多棋子协同博弈方法