Q i t (st 出新的局面−行为对的值函数 ,at) ； 8) 判断是

正在加载图片...

·402· 智能系统学报第15卷出新的局面-行为对的值函数Q(s,a,): 600 8)判断是否满足学习的终止条件，若满足则里500 结束学习，不满足则返回第2)步继续迭代。判定当前状态是否满足多棋子Q学习算法的终止条件，如果满足，则停止学习，否则返回第2)步。 200 一极大极小值 2.3构建军棋博弈系统 +a-β -MCTS 由于军棋在开局的时候对敌方信息处于未 -UCT 知状态。因此在军棋博弈系统中先跟据人类先 0 0.2 0.40.6 0.810 验知识以及蒙特卡罗模拟对棋盘进行完备化。搜索模块采用UCT搜索算法模拟走步，返回价图3y为固定值0.2，a取值参数对比值高并且模拟次数多的走步，并激活行动价值高 Fig.3 The comparison chart ofy is the value of 0.2 with a is a parameter 的走步。通过Q学习算法对棋子协同矩阵优化， 800 选择出最优走步。军棋博弈系统流程图如图2 空700 所示。开始 500 400 当前棋盘（非完备） 300 一极大极小值、200 +a-B MCTS 抽样棋盘（完备） 100 UCT 0.2 0.40.6 0.81.0 走法产生器图4y为固定值0.4，a取值参数对比 UCT搜索模块 Fig.4 The comparison chart ofy is the value of 0.4 with a is a parameter 局面估值 1000 +极大极小值 900 —a-B 800 ◆MCTS 模拟结束一 +UCT 600 统计模拟次数并激活 500 价值高的走步 400 300 Q学习选出棋子 200 配合策略 0.2 0.40.6 0.81.0 最终走步图5y为固定值0.6，a取值参数对比 Fig.5 The comparison chart ofy is the value of 0.6 with a 结束 is a parameter 800 图2军棋博弈搜索系统流程 Fig.2 Flow chart of the military chess game search system 600 3实验结果分析 500 400 为了测试多棋子Q强化学习算法在实战中是 300 ◆极大极小值否占据优势，本文采用与其他算法系统进行对打 200 -a-B 100 。MCTS 模式测试本算法的实用性，通过分先后手对战极 ·UCT 0 0.2 0.40.6 0.8 1.0 大极小值搜索算法、alpha-beta搜索算法、 d MCTS搜索算法以及UCT搜索算法各1000局并图6Y为固定值0.8，a取值参数对比不断调整多棋子Q强化学习算法的参数，以得到 Fig.6 The comparison chart ofy is the value of 0.8 with a 最优值，实验结果如图3~7所示。 is a parameterQ i t (st 出新的局面−行为对的值函数 ,at) ； 8) 判断是否满足学习的终止条件，若满足则结束学习，不满足则返回第 2) 步继续迭代。判定当前状态是否满足多棋子 Q 学习算法的终止条件，如果满足，则停止学习，否则返回第 2) 步。 2.3 构建军棋博弈系统由于军棋在开局的时候对敌方信息处于未知状态。因此在军棋博弈系统中先跟据人类先验知识以及蒙特卡罗模拟对棋盘进行完备化[13]。搜索模块采用 UCT 搜索算法模拟走步，返回价值高并且模拟次数多的走步，并激活行动价值高的走步。通过 Q 学习算法对棋子协同矩阵优化，选择出最优走步。军棋博弈系统流程图如图 2 所示。图 2 军棋博弈搜索系统流程 Fig. 2 Flow chart of the military chess game search system 3 实验结果分析为了测试多棋子 Q 强化学习算法在实战中是否占据优势，本文采用与其他算法系统进行对打模式测试本算法的实用性，通过分先后手对战极大极小值搜索算法、 alpha−bet a 搜索算法、 MCTS 搜索算法以及 UCT 搜索算法各 1 000 局并不断调整多棋子 Q 强化学习算法的参数，以得到最优值，实验结果如图 3~7 所示。 0 100 200 300 400 500 600 极大极小值 α-β MCTS UCT Q学习算法胜利局数/局 α 0.2 0.4 0.6 0.8 1.0 图 3 γ 为固定值 0.2，α 取值参数对比 Fig. 3 The comparison chart of γ is the value of 0.2 with α is a parameter α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 0 100 200 300 400 500 600 700 800 Q学习算法胜利局数/局图 4 γ 为固定值 0.4，α 取值参数对比 Fig. 4 The comparison chart of γ is the value of 0.4 with α is a parameter α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 200 300 400 500 600 700 800 900 1 000 Q学习算法胜利局数/局图 5 γ 为固定值 0.6, α 取值参数对比 Fig. 5 The comparison chart of γ is the value of 0.6 with α is a parameter α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 200 100 0 300 400 500 600 700 800 Q学习算法胜利局数/局图 6 γ 为固定值 0.8，α 取值参数对比 Fig. 6 The comparison chart of γ is the value of 0.8 with α is a parameter ·402· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【人工智能】一种军棋机器博弈的多棋子协同博弈方法