·148 智能系统学报 第6卷 明鑫等人[8]将典型的“囚徒困境”博奔模型应用在机 完全信息博弈的相关理论与方法来进行分析。 器人比赛的策略对抗中,但是这些模型的应用都是以 2.1不完全信息博弈模型建立 信息是完全已知为前提的.本文针对机器人比赛时信 机器人的视觉系统可以感知到周围的场地环 息的不完全性,探讨了将豪尔绍尼转换和贝叶斯均衡 境,且假设感知得到的这些信息都是准确的,即能够 相融合的不完全信息博弈理论,该理论通过引入虚拟 保证局部信息完全可知.在实际的比赛中,机器人不 的参与者,使得机器人所选择的保守决策点范围缩 仅仅要根据周围的场地信息,还要依据敌方机器人 小,从而可以有效地提高机器人比赛时对未知信息的 的决策动作信息,进行综合的分析推理后,从而得到 推理能力。 自己的决策动作信息, 在某场足球机器人比赛中,假设视觉系统传递 1不完全信息博弈理论 的场地环境信息是可靠的,且参与者为我方和敌方 定义1不完全信息.不完全信息博弈理论中 2队,即局中人N={1,2},并将某个局中人i之外 的不完全信息专指一种博弈局势中,人对其他局中 的其他局中人称为“i的对手”,记为-i.机器人比 人(或者他自己)与该种博弈局势有关的事前信息 赛决策博奔局势:局中人1要根据自己对场上形势 了解不充分.这里的事前信息是指关于在博弈实际 和局中人2的判断,决定自己是否踢球;局中人2要 开始之前局中人所处地位或者状态的信息,这种地 根据自己对场上形势和局中人1的判断,决定自己 位与状态对于博弈局势会产生影响[9o] 是否控球;局中人2的局势为在“进攻”状态下控球 定义2贝叶斯均衡.局中人具有类型0:∈⊙:, 与不控球和在“防守”状态下控球与不控球;局中人 策略:∈S:及支付函数4,类型上先验分布为p的 1决定是否踢球,而同时局中人2决定是否控球这 不完全信息博弈中的纯策略贝叶斯均衡是一种“扩 里只分析局中人1该做出何种决策,对其分析得出 充”博弈的纳什均衡,这种扩充博弈中每个局中人。 如表1所示的不完全信息博弈局势模型。 的纯策略空间是有⊙:到S:的映射的集合S 表1机器人比赛博弈模型 豪尔绍尼转换的思想:在理论上,各类不完全信 Table 1 The robot competition game model 息在博弈分析中都可以转换为一种不完全信息情 进攻支付矩阵 防守支不付炬阵 局中人1 势,即局中人对其他局中人的支付函数的不完全了 踢球不踢球 踢球不踢球 解.豪尔绍尼理论中,博弈的不完全信息表现为对博 扇 控球/% (3020) (4010) (4020)(9010) 弈的基本的数学结构的了解不充分,在策略型博弈 不控球/%(7020)(5050)(7020)(705) 中,也就是对于3种组成部分,即局中人、策略和支 付有着不完全了解.豪尔绍尼转换的主要思路是以 上述不完全信息引起了局中人1决策的困难, 类型概念构造对不完全信息的描述,在此基础上构 即是否进行踢球或者不踢球.利用划线法求得上述 造统一的概率模型来描述局中人在博弈中对不完全 比赛博弈模型的纳什均衡点:如果局中人2在进攻 信息的处理,从而将不完全信息转换为不完全信息 状态下,那么惟一的纯策略纳什均衡是,局中人1不 的完全信息博弈 踢球,局中人2不控球,即(50%50%):如果局中人 贝叶斯理论求解转换后的博弈局势,即首先按 2在防守状态下,那么惟一的纯策略纳什均衡是,局 照概率分布P(01,02,…,0n)随机抽取选择类型向 中人1踢球,局中人2不控球,即(70%20%).所 量(81,02,…,0n),每个局中人知道自己的实际类 以,当机器人进行比赛时,2个局中人当时所处的状 型,但不知道其他局中人的实际类型,每个局中人选 态对比赛的结果起着一定的调控作用,它们分别对 择自己的策略,并且得到自己的支付. 应着不同的均衡结局.因此,局中人需要对自己所不 能确知的任何信息做出主观判断,并在此基础上决 2 基于贝叶斯均衡不完全信息博弈机 定自己的应该采取的行为以避免盲目“猜测”而导 器人对抗决策方法 致比赛的失败.在上述的不完全信息博弈中,并非所 有人都知道同样的信息,除了均知道的公共信息外, 局中人各自具有自己的私有信息.于是在进行策略 在完全信息博弈中,全体参与人都知道博弈的规 选择的时候,局中人需要对其他局中人的私有信息 则,否则这一博弈就是一个不完全信息博弈.一个不 进行判断,并依此进行相应的策略选择。 完全信息博弈,经过豪尔绍尼转换就变成一个完全但 在不完全信息博弈模型中,局中人知道其他局 不完美信息博弈,对这个转换形成的博弈就可以利用