正在加载图片...
第2期 史晓茹,等:不完全信息博弈的机器人对抗决策 ·149 中人的实际类型为若干可能类型中的一种,但不知 时,对局中人2的主观判断为局中人2为“进攻”的 道究竟是哪一种,只能在猜测的基础上选择自己的 概率为20%,为“防守”的概率为80%.类似的也可 策略 以有局中人2对局中人1类型的判断.在这种概率 为了描述这种主观判断,贝叶斯博弈理论利用 模型中,由于联合概率分布为各个局中人均知道的 贝叶斯理性原则来描述这种不确定情形下人们的理 公有信息,这种形成主观判断的机制也为所以局中 性行为.贝叶斯博弈理论假设局中人的类型{0:}1 人了解,所以局中人知道其他局中人的主观判断的 来自于一种类型上的联合概率分布p(01,02,…, 方式以及相应的结果, 日),这种联合概率分布是局中人的共有信息,且比 2.2不完全信息博弈模型的转换 赛双方对这种共有信息都是已知的.这种联合概率 在概率模型的基础上,就可以通过豪尔绍尼转 分布是已知的,然后各个局中人在此基础上形成对 换将不完全信息博弈局势转化为不完美信息博弈局 其他局中人实际类型的概率判断,即局中人在知 势.其中引入“自然”这一虚拟局中人,所以局中人 道自己的实际类型为0,的情况下对对手类型形成 的实际类型均来自于“自然”根据类型上的联合概 的条件概率分布p(0:10),按贝叶斯推断即为 率分布进行的一种初始抽彩,局中人根据这种抽彩 p(0-l0)/p(0:).假设局中人1(我方)和局中人2 决定自己对其他局中人类型的主观判断,然后局中 (对方)均具有2种可能的类型:“防守”和“进攻”. 人进行实际博弈.豪尔绍尼转换将不完全信息博弈 现在引入上述不完全信息博弈的贝叶斯均衡概率模 转化为不完美信息的完全信息博弈后,就可以利用 型,其中概率分布如表2所示. 完全信息博弈的处理方法.上述的足球机器人比赛 表2联合概率分布 不完全信息博弈的豪尔绍尼转换如图1所示.在此 Table 2 Joint probability distribution % 博弈树中,有一个初始节点先于其他节点,记为 类型 进攻 防守 “O”,表示博奔的起点.为了博弈树的清晰起见,通 进攻 30 20 过引入虚拟自然局中人的“行动”建立惟一的初始 防守 10 40 节点;并且,除了初始节点之外,博弈树中的每一个 节点有且仅有一个直接前列节点;没有后序节点的 根据这一联合概率分布,就可以知道每个局中 节点被称为终止节点,表示博弈的可能结局,从而达 人在不同情况下对其他局中人实际类型的概率推 成博弈的一种结局.非终止节点的节点被称为决策 断.如果局中人1为“进攻”类型,那么它对局中人2 节点,非初始节点的决策节点用黑圆点表示。 的类型判断依据贝叶斯推断原则有局中人2为“进 豪尔绍尼转换将不完全信息博弈转换为了不完 攻”类型的概率为 美的信息扩展博弈,针对图1所示的不完美信息博 p(0,0-) 30% p(0) =309%+20% =60%】 弈,利用贝叶斯均衡可以将其转化为策略型博弈,即 求得不完全信息博弈树的解。 同理,局中人2为“防守”类型的概率为20%/ (30%+20%)=40%;而当局中人1为“防守”类型 0.4 0.6 控球 不控球 控球 不控球 踢球 不踢球 踢球 不、易 踢球 不踢球 踢球 不踢球 (40%20%)(90%10%)(70%20%)(70%5%)(30%20%)(40%10%)(70%20%)(50%50%) 图1经豪尔绍尼转换后的机器人博弈树 Fig.1 Robot game tree after Harsanyi conversion 2.3机器人博弈树求解 (s(01),s2(02),…,sm(0n)),其中每个局中人i 贝叶斯均衡是一种与类型有关的策略组合 在给定自己类型0:和其他局中人策略s:(0-:)的
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有