策过程，博弈时棋面可以认为是状态空间。给定一个棋面，可以继续走子的位置有

正在加载图片...

·180· 智能系统学报第15卷策过程，博弈时棋面可以认为是状态空间。给定果映射回原问题当中，于是得到原问题的纳什均一个棋面，可以继续走子的位置有限，因此选择衡解，如图2所示1。此外，强化学习越来越多地可走子的位置就是当前状态下可以采取的动作集应用于非完全信息博弈的策略求解，在连续动态合。一旦走子之后，棋面发生改变，即以转移概的环境中做出合理的决策正是强化学习的模型所率p=1的概率转换到下一状态，因为围棋总是在擅长的内容。下棋的过程中逐步建立优势并最终取得胜利，所原游戏博弈树抽象所得游戏以回报的大小可以由当前的双方局势的优劣来决博弈树定。这样就将围棋博弈转换成了马尔科夫决策过抽象算法程，而所求解的策略就是使得这个马尔科夫决策过程总回报的期望最大的策略。AlphaGo Zero就是在求取这样的策略。 AlphaGo Zero之所以能在自博弈的过程中提反向映射升自己的策略，是因为它使用了深度强化学习模原游戏抽象所得纳什均衡解纳什均衡解型进行策略估计和策略提升。在深度强化学习中，有两个深度神经网络，一个是策略网络，一个图2非完全信息博弈的策略求解是价值网络，这两个网络是同一个网络的两个分 Fig.2 Process of solving an incomplete information game 支，将棋面作为图像输入网络，经过卷积等操作， 3.2.2无限注多人德州扑克策略求解最后输出当前状态的收益以及在当前状态下应当与棋类游戏在完全信息条件下进行不同，扑采取的策略。克游戏是一种非完全信息博弈。在扑克游戏中，这里的策略网络并不是直接输出当前局势下每个玩家无法知道对手的手牌，这也使得求解博的走子位置，而是输出几个预测位置，并按照策弈策略变得极为困难。比如在这种博弈过程中无略网络的预测进行蒙特卡洛树搜索，将蒙特卡洛法计算局势的收益，这导致了不能按照完全信息树搜索所得策略作为最终的落子策略。蒙特博弈方法来解决非完全信息博弈问题。2018年，卡洛树搜索是一种结合随机模拟和采样的最优决智能体Libratus首次在双人德州扑克中击败人类策方法，依靠快速的搜索效率和可靠的搜索结选手向，2019年，使用类似算法的Pluribus在多人果，它被广泛应用于完全信息博弈中。蒙特卡洛德州扑克中也获得胜利。树搜索的过程包括路径选择(selection)、节点扩展在德州扑克游戏中，先要对庞大的博弈树进 (expansion)、模拟实验(simulation)和反向传播行剪枝，形成一个抽象游戏。具体来说，需要将 (backpropagation)4个步骤，通过这4个步骤的不相近的状态节点进行合并，压缩博弈树的大小，断重复，确定不同行动的回报，并做出决策。在此外还需要将每次下注的金额限制在几个固定数 AlphaGo Zero中，蒙特卡洛最终模拟的结果还被额上，从而减小行为空间的大小。反馈到了深度神经网络中，用于训练价值网络的 Pluribus和Libratus的训练不断通过自博弈过参数。程来完成。这个自博弈过程中使用了虚拟遗憾值 3.2非完全信息下的博弈最小化算法。所谓遗憾值指在过去几轮模拟博 3.2.1非完全信息博弈的特点弈中，某一局势下采取其他策略与当前的策略带相对于完全信息的博弈，不完全信息下的博来的收益之差的累加。利用遗憾值就可以更新策弈更加符合现实场景，能够指导人们对现实问题略，使得智能体对所采取的新策略“遗憾”较少，的科学决策。在非完全信息的纳什均衡求解中，也就收益更高。虽然扑克游戏的博弈过程比围棋对手采取的行动不一定是可见的，仅能根据部分所用时间短，但也无法立刻得知每一步博弈后的已知的信息进行决策。非完全信息博弈树通常规收益，所以需要通过“虚拟”方法来计算每一步行模非常大，因为在中间状态下可能采取的行动一为的期望收益。一旦计算得到期望收益，就可以般有无穷多种，为了削减搜索空间，人们需要使比较当前策略与其他策略的虚拟遗憾值，并根据用一些抽象算法对原有博弈问题进行压缩，即合遗憾值的大小来更新策略。并博弈树中的相似状态、压缩搜索层数以及剪枝在实际游戏时，由于局势是不断动态变化的，等，最终得到一个相对简单的抽象问题，然后求仅仅依靠预训练所得策略难以完成决策，因此在解这个抽象问题的纳什均衡解，最后将所求解结博弈的过程中还需要不断根据局势来缩小博弈搜策过程，博弈时棋面可以认为是状态空间。给定一个棋面，可以继续走子的位置有限，因此选择可走子的位置就是当前状态下可以采取的动作集合。一旦走子之后，棋面发生改变，即以转移概率 p=1 的概率转换到下一状态，因为围棋总是在下棋的过程中逐步建立优势并最终取得胜利，所以回报的大小可以由当前的双方局势的优劣来决定。这样就将围棋博弈转换成了马尔科夫决策过程，而所求解的策略就是使得这个马尔科夫决策过程总回报的期望最大的策略。AlphaGo Zero 就是在求取这样的策略。 AlphaGo Zero 之所以能在自博弈的过程中提升自己的策略，是因为它使用了深度强化学习模型进行策略估计和策略提升。在深度强化学习中，有两个深度神经网络，一个是策略网络，一个是价值网络，这两个网络是同一个网络的两个分支，将棋面作为图像输入网络，经过卷积等操作，最后输出当前状态的收益以及在当前状态下应当采取的策略。这里的策略网络并不是直接输出当前局势下的走子位置，而是输出几个预测位置，并按照策略网络的预测进行蒙特卡洛树搜索，将蒙特卡洛树搜索[32] 所得策略作为最终的落子策略。蒙特卡洛树搜索是一种结合随机模拟和采样的最优决策方法，依靠快速的搜索效率和可靠的搜索结果，它被广泛应用于完全信息博弈中。蒙特卡洛树搜索的过程包括路径选择 (selection)、节点扩展 (expansion)、模拟实验 (simulation) 和反向传播 (backpropagation) 4 个步骤，通过这 4 个步骤的不断重复，确定不同行动的回报，并做出决策。在 AlphaGo Zero 中，蒙特卡洛最终模拟的结果还被反馈到了深度神经网络中，用于训练价值网络的参数。 3.2 非完全信息下的博弈 3.2.1 非完全信息博弈的特点相对于完全信息的博弈，不完全信息下的博弈更加符合现实场景，能够指导人们对现实问题的科学决策。在非完全信息的纳什均衡求解中，对手采取的行动不一定是可见的，仅能根据部分已知的信息进行决策。非完全信息博弈树通常规模非常大，因为在中间状态下可能采取的行动一般有无穷多种，为了削减搜索空间，人们需要使用一些抽象算法对原有博弈问题进行压缩，即合并博弈树中的相似状态、压缩搜索层数以及剪枝等，最终得到一个相对简单的抽象问题，然后求解这个抽象问题的纳什均衡解，最后将所求解结果映射回原问题当中，于是得到原问题的纳什均衡解，如图 2 所示[33]。此外，强化学习越来越多地应用于非完全信息博弈的策略求解，在连续动态的环境中做出合理的决策正是强化学习的模型所擅长的内容[34]。原游戏博弈树抽象算法反向映射抽象所得游戏博弈树原游戏纳什均衡解抽象所得纳什均衡解图 2 非完全信息博弈的策略求解 Fig. 2 Process of solving an incomplete information game 3.2.2 无限注多人德州扑克策略求解与棋类游戏在完全信息条件下进行不同，扑克游戏是一种非完全信息博弈。在扑克游戏中，每个玩家无法知道对手的手牌，这也使得求解博弈策略变得极为困难。比如在这种博弈过程中无法计算局势的收益，这导致了不能按照完全信息博弈方法来解决非完全信息博弈问题。2018 年，智能体 Libratus 首次在双人德州扑克中击败人类选手[6] ，2019 年，使用类似算法的 Pluribus 在多人德州扑克中也获得胜利[7]。在德州扑克游戏中，先要对庞大的博弈树进行剪枝，形成一个抽象游戏。具体来说，需要将相近的状态节点进行合并，压缩博弈树的大小，此外还需要将每次下注的金额限制在几个固定数额上，从而减小行为空间的大小。 Pluribus 和 Libratus 的训练不断通过自博弈过程来完成。这个自博弈过程中使用了虚拟遗憾值最小化算法[35]。所谓遗憾值指在过去几轮模拟博弈中，某一局势下采取其他策略与当前的策略带来的收益之差的累加。利用遗憾值就可以更新策略，使得智能体对所采取的新策略“遗憾”较少，也就收益更高。虽然扑克游戏的博弈过程比围棋所用时间短，但也无法立刻得知每一步博弈后的收益，所以需要通过“虚拟”方法来计算每一步行为的期望收益。一旦计算得到期望收益，就可以比较当前策略与其他策略的虚拟遗憾值，并根据遗憾值的大小来更新策略。在实际游戏时，由于局势是不断动态变化的，仅仅依靠预训练所得策略难以完成决策，因此在博弈的过程中还需要不断根据局势来缩小博弈搜 ·180· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【人工智能】大数据智能：从数据拟合最优解到博弈对抗均衡解