·150 智能系统学报 第6卷 情况下最大化自己的期望效用函数.即 息不确定性问题提供了一种解决方案, s(0:)∈arg,max∑p(0.l0) 本文利用Matlab软件对机器人的决策优化问 题进行仿真.基本的仿真环境设计:在二维平面中, 4(s,s(0),(0,0-)) 系统运行的工作环境中的不同位置点表示不同的决 式中:山,(σ)=∑s[Π=1o,((sy)]4(s)为与类型组 策命令,这些决策命令点是已知的,用“*”表示; 合有关的局中人支付函数;P(0:l0:)为局中人对其 “一”表示博弈选择的结果,直线穿越的决策点就是 他局中人类型的概率判断.利用上面的贝叶斯均衡 机器人要选择的决策点,即这些决策点都是对比赛 可以得到豪尔绍尼转换后的不完美信息博弈树的 的结果有利的决策点.任务要求机器人根据采集到 解,进而得到与不完全信息博弈局势等价的扩充博 的周围环境及敌方的信息推理分析后,从所有的决 弈局势如表3所示. 策命令集中选择出最有利的决策,并传送给机器人 表3对应的扩充博弈局势 执行命令,图2是机器人某次比赛的博弈局势,直接 Table 3 The corresponding expansion game situation 求其博弈局势的纳什均衡点,选择出了4个决策点; 局中人1 局中人2 图3是对同样的博弈局势进行豪尔绍尼转换和贝叶 踢球 不踢球 斯相融合的不完全信息博奔转换推理后,所得到的 (控球控球) (0.340.2) (0.60.1) 2个决策点. (控球不控球) (0.580.2) (0.660.34) (不控球控球】 (0.4602) (0.20.2) 比较图2和图3可知,豪尔绍尼转换和贝叶斯 (不控球不控球) (0.40.4》 (0.580.32)】 相融合的不完全信息博弈算法在机器人比赛中的应 如表3利用划线法可以求得经过豪尔绍尼转 用比传统直接求解方法减小了2个决策点,提高了 换并进行贝叶斯推理后的博弈局势的纯策略纳什均 决策的精度.如果在决策点更多时,这种方法可以大 衡点为((不控球控球)不踢球),即(0.70.2).可 大的缩小有利决策点的的决策范围,从而进一步提 以看出,这一贝叶斯博奔的纯策略贝叶斯均衡有一 高在比赛中获胜的概率, 45 个,即无论局中人2是处于“进攻”状态还是“防守” ◆ 决策点 40 决策结果 状态,局中人1都选择不踢球,这样的决策保证了局 35 中人1不失利,也就是说选择了最保守的决策方式. 30 这种建模和求解方式给出了局中人1在2种类 到 25 型下的策略选择,括号内前者是局中人1在实际类 型为“进攻”时选择的策略,后者为局中人1为“防 15 守”时选择的策略.通过这种概率机制的引人,构造 10 了局中人对其他局中人主观判断的不确定性,形成 了对不完全信息的完整描述. 10 15 决策点X坐标 2.42种决策方式比较 图2未经过转换推理的博弈仿真 对于不完全信息给博弈局势带来的决策困难, Fig.2 Game simulation diagram before convert reasoning 选择了豪尔绍尼转换和贝叶斯相融合的博弈处理方 法,这样的处理简化了博弈决策的结果,直接对博弈 45 状况进行分析的结果有2种博弈均衡,就是对于局 40 +决策点 块策结果 中人2不同的状况,局中人1需进行不同的决策,即 35 踢球和不踢球而经过豪尔绍尼转换和贝叶斯推理 30 后,局中人1可以不用考虑局中人2的状况,选择最 25 20 保守的决策命令,即选择不踢球 3 仿真验证 10 博弈局势的建模和求解是一个复杂的过程,即 10 15 使是确定的双方,在不同的比赛局势中的攻守策略 次策点X坐标 也是不同的,豪尔绍尼转换和贝叶斯推理相融合的 图3转换推理前后仿真图比较 方法为解决机器人比赛中局势的动态变化引起的信 Fig.3 Game simulation diagram before convert reasoning