正在加载图片...
·402· 智能系统学报 第15卷 出新的局面-行为对的值函数Q(s,a,): 600 8)判断是否满足学习的终止条件,若满足则 里500 结束学习,不满足则返回第2)步继续迭代。判定 当前状态是否满足多棋子Q学习算法的终止条 件,如果满足,则停止学习,否则返回第2)步。 200 一极大极小值 2.3构建军棋博弈系统 +a-β -MCTS 由于军棋在开局的时候对敌方信息处于未 -UCT 知状态。因此在军棋博弈系统中先跟据人类先 0 0.2 0.40.6 0.810 验知识以及蒙特卡罗模拟对棋盘进行完备化。 搜索模块采用UCT搜索算法模拟走步,返回价 图3y为固定值0.2,a取值参数对比 值高并且模拟次数多的走步,并激活行动价值高 Fig.3 The comparison chart ofy is the value of 0.2 with a is a parameter 的走步。通过Q学习算法对棋子协同矩阵优化, 800 选择出最优走步。军棋博弈系统流程图如图2 空700 所示。 开始 500 400 当前棋盘(非完备) 300 一极大极小值 、200 +a-B MCTS 抽样棋盘(完备) 100 UCT 0.2 0.40.6 0.81.0 走法产生器 图4y为固定值0.4,a取值参数对比 UCT搜索模块 Fig.4 The comparison chart ofy is the value of 0.4 with a is a parameter 局面估值 1000 +极大极小值 900 —a-B 800 ◆MCTS 模拟结束一 +UCT 600 统计模拟次数并激活 500 价值高的走步 400 300 Q学习选出棋子 200 配合策略 0.2 0.40.6 0.81.0 最终走步 图5y为固定值0.6,a取值参数对比 Fig.5 The comparison chart ofy is the value of 0.6 with a 结束 is a parameter 800 图2军棋博弈搜索系统流程 Fig.2 Flow chart of the military chess game search system 600 3实验结果分析 500 400 为了测试多棋子Q强化学习算法在实战中是 300 ◆极大极小值 否占据优势,本文采用与其他算法系统进行对打 200 -a-B 100 。MCTS 模式测试本算法的实用性,通过分先后手对战极 ·UCT 0 0.2 0.40.6 0.8 1.0 大极小值搜索算法、alpha-beta搜索算法、 d MCTS搜索算法以及UCT搜索算法各1000局并 图6Y为固定值0.8,a取值参数对比 不断调整多棋子Q强化学习算法的参数,以得到 Fig.6 The comparison chart ofy is the value of 0.8 with a 最优值,实验结果如图3~7所示。 is a parameterQ i t (st 出新的局面−行为对的值函数 ,at) ; 8) 判断是否满足学习的终止条件,若满足则 结束学习,不满足则返回第 2) 步继续迭代。判定 当前状态是否满足多棋子 Q 学习算法的终止条 件,如果满足,则停止学习,否则返回第 2) 步。 2.3 构建军棋博弈系统 由于军棋在开局的时候对敌方信息处于未 知状态。因此在军棋博弈系统中先跟据人类先 验知识以及蒙特卡罗模拟对棋盘进行完备化[13]。 搜索模块采用 UCT 搜索算法模拟走步,返回价 值高并且模拟次数多的走步,并激活行动价值高 的走步。通过 Q 学习算法对棋子协同矩阵优化, 选择出最优走步。军棋博弈系统流程图如图 2 所示。 图 2 军棋博弈搜索系统流程 Fig. 2 Flow chart of the military chess game search system 3 实验结果分析 为了测试多棋子 Q 强化学习算法在实战中是 否占据优势,本文采用与其他算法系统进行对打 模式测试本算法的实用性,通过分先后手对战极 大极小值搜索算法、 alpha−bet a 搜索算法、 MCTS 搜索算法以及 UCT 搜索算法各 1 000 局并 不断调整多棋子 Q 强化学习算法的参数,以得到 最优值,实验结果如图 3~7 所示。 0 100 200 300 400 500 600 极大极小值 α-β MCTS UCT Q学习算法胜利局数/局 α 0.2 0.4 0.6 0.8 1.0 图 3 γ 为固定值 0.2,α 取值参数对比 Fig. 3 The comparison chart of γ is the value of 0.2 with α is a parameter α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 0 100 200 300 400 500 600 700 800 Q学习算法胜利局数/局 图 4 γ 为固定值 0.4,α 取值参数对比 Fig. 4 The comparison chart of γ is the value of 0.4 with α is a parameter α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 200 300 400 500 600 700 800 900 1 000 Q学习算法胜利局数/局 图 5 γ 为固定值 0.6, α 取值参数对比 Fig. 5 The comparison chart of γ is the value of 0.6 with α is a parameter α 0.2 0.4 0.6 0.8 1.0 极大极小值 α-β MCTS UCT 200 100 0 300 400 500 600 700 800 Q学习算法胜利局数/局 图 6 γ 为固定值 0.8,α 取值参数对比 Fig. 6 The comparison chart of γ is the value of 0.8 with α is a parameter ·402· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有