表 3 训练参数设置及测试精度对照表 Table 3 Comparison

正在加载图片...

第3期高强，等：一种基于经验的德州扑克博弈系统架构 ·473· 表3训练参数设置及测试精度对照表 Table 3 Comparison of the training parameters'setting and test accuracy 训练次数训练量测试次数测试量精度% 500 32 10 32 88.12 1000 128 10 128 94 1000 1024 10 1024 99.12 2000 1024 10 1024 99.3 5000 1024 10 1024 99.74 4.2适用于德州扑克问题的专家经验库 1000局（对弈规则：每局双方分别拥有20000个博弈树展开过程中，对于玩家节点，一般有筹码，筹码量一局一复位；大小盲注身份一局一 3种下注行为（即着法，博弈树中玩家节点的分交换；以最终赢得筹码量的多少判定胜负关系)，支)。为了提高德州扑克博弈树展开的效率，本文根据胜负关系来比较两个系统的优劣。依据专家经验，为本方玩家节点选择最佳决策行为。根据表4显示的对弈结果可知，EXP+CNN 德州扑克在Preflop阶段，没有发放公共牌，版本的系统对弈EXP+EXP版本时，赢得了比较不确定性过大，如果展开博弈树，由于博弈树中多的筹码，说明利用深度学习模型预测对手行为包含太多随机因素，搜索效率很低且不够准确。更加准确：实验中的人类玩家就是专家库的开发因此，本文在Preflop阶段，不展开博弈树，而是根者，从表4可看到，人类玩家与EXP+EXP版本的据本方手牌牌型和对方的下注行为，来查询专家系统对弈水平十分接近。另外，EXP+CNN版本库，直接决定本方下注行为。本文分别建立了的德州扑克博弈系统在2018中国大学生计算机 Preflop阶段手牌分析专家库及Flop、Turn、River 博弈大赛上获得季军。没有取得更好成绩的主要阶段专家库。原因：作为深度学习神经网络的输入数据，历史 4.3实验牌局没有经过仔细的筛选，如果选择那些更高水将专家库+深度学习（以下简称为EXP+ 平德州扑克博弈系统比赛的历史牌局作为输入数 CNN)德州扑克博弈系统与专家库+专家库（以下据，训练得到的深度学习网络模型一定能够给出简称为EXP+EXP)版本的博弈系统进行对弈更优的决策行为。表4两个版本博弈系统对弈1000局的胜负关系 Table 4 Results of two versions of the game system playing 1 000 games 系统版本 EXP +CNN EXP+EXP Human Expert EXP+CNN 32620筹码 92561筹码 EXP+EXP -32620筹码 631筹码 Human Expert -92561筹码 -631筹码 5结束语平。对于未来的研究工作，应该参考冷扑大师的算法架构，在博弈系统中加入虚拟遗憾最小化算本文提出一种二人赌注无上限的德州扑克博法(counterfactual regret minimization,CFR),进一步弈系统架构，在系统的搜索模块中，构建了一种提高德州扑克博弈系统的对弈水平。分阶段的德州扑克博弈树；在知识库模块中，构建了专家经验库，引导博弈树中本方玩家节点的参考文献：决策分支展开；并通过学习海量历史牌局数据得 [1]OSBORNE M J,RUBINSTEIN A.A course in game the- 到一个深度学习神经网络，利用历史经验引导德 ory[M].Cambridge:MIT Press,1994. 州扑克博弈树中对方玩家节点的决策分支展开： [2]胡裕靖，高阳.扑克游戏中的不完美信息博弈凹.中国计对于系统的估值核心模块，构建了一种基于哈希算机学会通讯，2014,10(9)：37-42. 技术的牌型对照表，以提高系统判定胜负的效 HU Yujing,GAO Yang.Games with incomplete informa- 率。实验表明，该博弈系统具有较高的博弈水 tion in Pokers[J].China computer society newsletter,2014.表 3 训练参数设置及测试精度对照表 Table 3 Comparison of the training parameters’ setting and test accuracy 训练次数训练量测试次数测试量精度/% 500 32 10 32 88.12 1 000 128 10 128 94 1 000 1 024 10 1 024 99.12 2 000 1 024 10 1 024 99.3 5 000 1 024 10 1 024 99.74 4.2 适用于德州扑克问题的专家经验库博弈树展开过程中，对于玩家节点，一般有 3 种下注行为 (即着法，博弈树中玩家节点的分支)。为了提高德州扑克博弈树展开的效率，本文依据专家经验，为本方玩家节点选择最佳决策行为。德州扑克在 Preflop 阶段，没有发放公共牌，不确定性过大，如果展开博弈树，由于博弈树中包含太多随机因素，搜索效率很低且不够准确。因此，本文在 Preflop 阶段，不展开博弈树，而是根据本方手牌牌型和对方的下注行为，来查询专家库，直接决定本方下注行为。本文分别建立了 Preflop 阶段手牌分析专家库及 Flop、Turn、River 阶段专家库。 4.3 实验将专家库 +深度学习 (以下简称为 EXP + CNN) 德州扑克博弈系统与专家库+专家库 (以下简称为 EXP+EXP) 版本的博弈系统进行对弈 1 000 局 (对弈规则：每局双方分别拥有 20 000 个筹码，筹码量一局一复位；大小盲注身份一局一交换；以最终赢得筹码量的多少判定胜负关系)，根据胜负关系来比较两个系统的优劣。根据表 4 显示的对弈结果可知，EXP + CNN 版本的系统对弈 EXP+EXP 版本时，赢得了比较多的筹码，说明利用深度学习模型预测对手行为更加准确；实验中的人类玩家就是专家库的开发者，从表 4 可看到，人类玩家与 EXP+EXP 版本的系统对弈水平十分接近。另外，EXP + CNN 版本的德州扑克博弈系统在 2018 中国大学生计算机博弈大赛上获得季军。没有取得更好成绩的主要原因：作为深度学习神经网络的输入数据，历史牌局没有经过仔细的筛选，如果选择那些更高水平德州扑克博弈系统比赛的历史牌局作为输入数据，训练得到的深度学习网络模型一定能够给出更优的决策行为。表 4 两个版本博弈系统对弈 1 000 局的胜负关系 Table 4 Results of two versions of the game system playing 1 000 games 系统版本 EXP + CNN EXP+EXP Human Expert EXP+CNN — 32 620筹码 92 561筹码 EXP+EXP −32 620筹码 — 631筹码 Human Expert −92 561筹码 −631筹码 — 5 结束语本文提出一种二人赌注无上限的德州扑克博弈系统架构，在系统的搜索模块中，构建了一种分阶段的德州扑克博弈树；在知识库模块中，构建了专家经验库，引导博弈树中本方玩家节点的决策分支展开；并通过学习海量历史牌局数据得到一个深度学习神经网络，利用历史经验引导德州扑克博弈树中对方玩家节点的决策分支展开；对于系统的估值核心模块，构建了一种基于哈希技术的牌型对照表，以提高系统判定胜负的效率。实验表明，该博弈系统具有较高的博弈水平。对于未来的研究工作，应该参考冷扑大师的算法架构，在博弈系统中加入虚拟遗憾最小化算法 (counterfactual regret minimization，CFR)，进一步提高德州扑克博弈系统的对弈水平。参考文献： OSBORNE M J, RUBINSTEIN A. A course in game theory[M]. Cambridge: MIT Press, 1994. [1] 胡裕靖, 高阳. 扑克游戏中的不完美信息博弈 [J]. 中国计算机学会通讯, 2014, 10(9): 37–42. HU Yujing, GAO Yang. Games with incomplete information in Pokers[J]. China computer society newsletter, 2014, [2] 第 3 期高强，等：一种基于经验的德州扑克博弈系统架构 ·473·

<<向上翻页向下翻页>>

点击下载：【智能系统】一种基于经验的德州扑克博弈系统架构