正在加载图片...
第3期 高强,等:一种基于经验的德州扑克博弈系统架构 ·473· 表3训练参数设置及测试精度对照表 Table 3 Comparison of the training parameters'setting and test accuracy 训练次数 训练量 测试次数 测试量 精度% 500 32 10 32 88.12 1000 128 10 128 94 1000 1024 10 1024 99.12 2000 1024 10 1024 99.3 5000 1024 10 1024 99.74 4.2适用于德州扑克问题的专家经验库 1000局(对弈规则:每局双方分别拥有20000个 博弈树展开过程中,对于玩家节点,一般有 筹码,筹码量一局一复位;大小盲注身份一局一 3种下注行为(即着法,博弈树中玩家节点的分 交换;以最终赢得筹码量的多少判定胜负关系), 支)。为了提高德州扑克博弈树展开的效率,本文 根据胜负关系来比较两个系统的优劣。 依据专家经验,为本方玩家节点选择最佳决策行为。 根据表4显示的对弈结果可知,EXP+CNN 德州扑克在Preflop阶段,没有发放公共牌, 版本的系统对弈EXP+EXP版本时,赢得了比较 不确定性过大,如果展开博弈树,由于博弈树中 多的筹码,说明利用深度学习模型预测对手行为 包含太多随机因素,搜索效率很低且不够准确。 更加准确:实验中的人类玩家就是专家库的开发 因此,本文在Preflop阶段,不展开博弈树,而是根 者,从表4可看到,人类玩家与EXP+EXP版本的 据本方手牌牌型和对方的下注行为,来查询专家 系统对弈水平十分接近。另外,EXP+CNN版本 库,直接决定本方下注行为。本文分别建立了 的德州扑克博弈系统在2018中国大学生计算机 Preflop阶段手牌分析专家库及Flop、Turn、River 博弈大赛上获得季军。没有取得更好成绩的主要 阶段专家库。 原因:作为深度学习神经网络的输入数据,历史 4.3实验 牌局没有经过仔细的筛选,如果选择那些更高水 将专家库+深度学习(以下简称为EXP+ 平德州扑克博弈系统比赛的历史牌局作为输入数 CNN)德州扑克博弈系统与专家库+专家库(以下 据,训练得到的深度学习网络模型一定能够给出 简称为EXP+EXP)版本的博弈系统进行对弈 更优的决策行为。 表4两个版本博弈系统对弈1000局的胜负关系 Table 4 Results of two versions of the game system playing 1 000 games 系统版本 EXP +CNN EXP+EXP Human Expert EXP+CNN 32620筹码 92561筹码 EXP+EXP -32620筹码 631筹码 Human Expert -92561筹码 -631筹码 5结束语 平。对于未来的研究工作,应该参考冷扑大师的 算法架构,在博弈系统中加入虚拟遗憾最小化算 本文提出一种二人赌注无上限的德州扑克博 法(counterfactual regret minimization,CFR),进一步 弈系统架构,在系统的搜索模块中,构建了一种 提高德州扑克博弈系统的对弈水平。 分阶段的德州扑克博弈树;在知识库模块中,构 建了专家经验库,引导博弈树中本方玩家节点的 参考文献: 决策分支展开;并通过学习海量历史牌局数据得 [1]OSBORNE M J,RUBINSTEIN A.A course in game the- 到一个深度学习神经网络,利用历史经验引导德 ory[M].Cambridge:MIT Press,1994. 州扑克博弈树中对方玩家节点的决策分支展开: [2]胡裕靖,高阳.扑克游戏中的不完美信息博弈凹.中国计 对于系统的估值核心模块,构建了一种基于哈希 算机学会通讯,2014,10(9):37-42. 技术的牌型对照表,以提高系统判定胜负的效 HU Yujing,GAO Yang.Games with incomplete informa- 率。实验表明,该博弈系统具有较高的博弈水 tion in Pokers[J].China computer society newsletter,2014.表 3 训练参数设置及测试精度对照表 Table 3 Comparison of the training parameters’ setting and test accuracy 训练次数 训练量 测试次数 测试量 精度/% 500 32 10 32 88.12 1 000 128 10 128 94 1 000 1 024 10 1 024 99.12 2 000 1 024 10 1 024 99.3 5 000 1 024 10 1 024 99.74 4.2 适用于德州扑克问题的专家经验库 博弈树展开过程中,对于玩家节点,一般有 3 种下注行为 (即着法,博弈树中玩家节点的分 支)。为了提高德州扑克博弈树展开的效率,本文 依据专家经验,为本方玩家节点选择最佳决策行为。 德州扑克在 Preflop 阶段,没有发放公共牌, 不确定性过大,如果展开博弈树,由于博弈树中 包含太多随机因素,搜索效率很低且不够准确。 因此,本文在 Preflop 阶段,不展开博弈树,而是根 据本方手牌牌型和对方的下注行为,来查询专家 库,直接决定本方下注行为。本文分别建立了 Preflop 阶段手牌分析专家库及 Flop、Turn、River 阶段专家库。 4.3 实验 将专家库 +深度学 习 (以下简称 为 EXP + CNN) 德州扑克博弈系统与专家库+专家库 (以下 简称为 EXP+EXP) 版本的博弈系统进行对弈 1 000 局 (对弈规则:每局双方分别拥有 20 000 个 筹码,筹码量一局一复位;大小盲注身份一局一 交换;以最终赢得筹码量的多少判定胜负关系), 根据胜负关系来比较两个系统的优劣。 根据表 4 显示的对弈结果可知,EXP + CNN 版本的系统对弈 EXP+EXP 版本时,赢得了比较 多的筹码,说明利用深度学习模型预测对手行为 更加准确;实验中的人类玩家就是专家库的开发 者,从表 4 可看到,人类玩家与 EXP+EXP 版本的 系统对弈水平十分接近。另外,EXP + CNN 版本 的德州扑克博弈系统在 2018 中国大学生计算机 博弈大赛上获得季军。没有取得更好成绩的主要 原因:作为深度学习神经网络的输入数据,历史 牌局没有经过仔细的筛选,如果选择那些更高水 平德州扑克博弈系统比赛的历史牌局作为输入数 据,训练得到的深度学习网络模型一定能够给出 更优的决策行为。 表 4 两个版本博弈系统对弈 1 000 局的胜负关系 Table 4 Results of two versions of the game system playing 1 000 games 系统版本 EXP + CNN EXP+EXP Human Expert EXP+CNN — 32 620筹码 92 561筹码 EXP+EXP −32 620筹码 — 631筹码 Human Expert −92 561筹码 −631筹码 — 5 结束语 本文提出一种二人赌注无上限的德州扑克博 弈系统架构,在系统的搜索模块中,构建了一种 分阶段的德州扑克博弈树;在知识库模块中,构 建了专家经验库,引导博弈树中本方玩家节点的 决策分支展开;并通过学习海量历史牌局数据得 到一个深度学习神经网络,利用历史经验引导德 州扑克博弈树中对方玩家节点的决策分支展开; 对于系统的估值核心模块,构建了一种基于哈希 技术的牌型对照表,以提高系统判定胜负的效 率。实验表明,该博弈系统具有较高的博弈水 平。对于未来的研究工作,应该参考冷扑大师的 算法架构,在博弈系统中加入虚拟遗憾最小化算 法 (counterfactual regret minimization,CFR),进一步 提高德州扑克博弈系统的对弈水平。 参考文献: OSBORNE M J, RUBINSTEIN A. A course in game the￾ory[M]. Cambridge: MIT Press, 1994. [1] 胡裕靖, 高阳. 扑克游戏中的不完美信息博弈 [J]. 中国计 算机学会通讯, 2014, 10(9): 37–42. HU Yujing, GAO Yang. Games with incomplete informa￾tion in Pokers[J]. China computer society newsletter, 2014, [2] 第 3 期 高强,等:一种基于经验的德州扑克博弈系统架构 ·473·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有