·148 智能系统学报第6卷明鑫等人[8]将典型的“囚徒困境

正在加载图片...

·148 智能系统学报第6卷明鑫等人[8]将典型的“囚徒困境”博奔模型应用在机完全信息博弈的相关理论与方法来进行分析。器人比赛的策略对抗中，但是这些模型的应用都是以 2.1不完全信息博弈模型建立信息是完全已知为前提的.本文针对机器人比赛时信机器人的视觉系统可以感知到周围的场地环息的不完全性，探讨了将豪尔绍尼转换和贝叶斯均衡境，且假设感知得到的这些信息都是准确的，即能够相融合的不完全信息博弈理论，该理论通过引入虚拟保证局部信息完全可知.在实际的比赛中，机器人不的参与者，使得机器人所选择的保守决策点范围缩仅仅要根据周围的场地信息，还要依据敌方机器人小，从而可以有效地提高机器人比赛时对未知信息的的决策动作信息，进行综合的分析推理后，从而得到推理能力。自己的决策动作信息，在某场足球机器人比赛中，假设视觉系统传递 1不完全信息博弈理论的场地环境信息是可靠的，且参与者为我方和敌方定义1不完全信息.不完全信息博弈理论中 2队，即局中人N={1,2},并将某个局中人i之外的不完全信息专指一种博弈局势中，人对其他局中的其他局中人称为“i的对手”，记为-i.机器人比人（或者他自己）与该种博弈局势有关的事前信息赛决策博奔局势：局中人1要根据自己对场上形势了解不充分.这里的事前信息是指关于在博弈实际和局中人2的判断，决定自己是否踢球；局中人2要开始之前局中人所处地位或者状态的信息，这种地根据自己对场上形势和局中人1的判断，决定自己位与状态对于博弈局势会产生影响[9o] 是否控球；局中人2的局势为在“进攻”状态下控球定义2贝叶斯均衡.局中人具有类型0：∈⊙：，与不控球和在“防守”状态下控球与不控球；局中人策略：∈S:及支付函数4，类型上先验分布为p的 1决定是否踢球，而同时局中人2决定是否控球这不完全信息博弈中的纯策略贝叶斯均衡是一种“扩里只分析局中人1该做出何种决策，对其分析得出充”博弈的纳什均衡，这种扩充博弈中每个局中人。如表1所示的不完全信息博弈局势模型。的纯策略空间是有⊙：到S:的映射的集合S 表1机器人比赛博弈模型豪尔绍尼转换的思想：在理论上，各类不完全信 Table 1 The robot competition game model 息在博弈分析中都可以转换为一种不完全信息情进攻支付矩阵防守支不付炬阵局中人1 势，即局中人对其他局中人的支付函数的不完全了踢球不踢球踢球不踢球解.豪尔绍尼理论中，博弈的不完全信息表现为对博扇控球/% (3020) (4010) (4020)(9010) 弈的基本的数学结构的了解不充分，在策略型博弈不控球/%(7020)(5050)(7020)(705) 中，也就是对于3种组成部分，即局中人、策略和支付有着不完全了解.豪尔绍尼转换的主要思路是以上述不完全信息引起了局中人1决策的困难，类型概念构造对不完全信息的描述，在此基础上构即是否进行踢球或者不踢球.利用划线法求得上述造统一的概率模型来描述局中人在博弈中对不完全比赛博弈模型的纳什均衡点：如果局中人2在进攻信息的处理，从而将不完全信息转换为不完全信息状态下，那么惟一的纯策略纳什均衡是，局中人1不的完全信息博弈踢球，局中人2不控球，即(50%50%)：如果局中人贝叶斯理论求解转换后的博弈局势，即首先按 2在防守状态下，那么惟一的纯策略纳什均衡是，局照概率分布P(01,02,…,0n)随机抽取选择类型向中人1踢球，局中人2不控球，即(70%20%).所量(81,02，…，0n),每个局中人知道自己的实际类以，当机器人进行比赛时，2个局中人当时所处的状型，但不知道其他局中人的实际类型，每个局中人选态对比赛的结果起着一定的调控作用，它们分别对择自己的策略，并且得到自己的支付. 应着不同的均衡结局.因此，局中人需要对自己所不能确知的任何信息做出主观判断，并在此基础上决 2 基于贝叶斯均衡不完全信息博弈机定自己的应该采取的行为以避免盲目“猜测”而导器人对抗决策方法致比赛的失败.在上述的不完全信息博弈中，并非所有人都知道同样的信息，除了均知道的公共信息外，局中人各自具有自己的私有信息.于是在进行策略在完全信息博弈中，全体参与人都知道博弈的规选择的时候，局中人需要对其他局中人的私有信息则，否则这一博弈就是一个不完全信息博弈.一个不进行判断，并依此进行相应的策略选择。完全信息博弈，经过豪尔绍尼转换就变成一个完全但在不完全信息博弈模型中，局中人知道其他局不完美信息博弈，对这个转换形成的博弈就可以利用

<<向上翻页向下翻页>>

点击下载：人工智能基础：不完全信息博弈的机器人对抗决策