·290· 智能系统学报 第3卷 类游戏属于完备信息博弈,游戏双方清楚知道当前 畴,是运筹学的一个分支.相关理论都是通过解析的 对弈的所有情况,包括自己有多少子力,对手有多少 办法对问题进行求解.根据特定问题的类型,如囚徒 子力,可能有哪些着法,通过构造博弈树,利用计算 困境、智猪博弈、海边摊位与性别战等建立相应的数 机非凡的计算能力和巧妙的搜索算法,就容易看到 学模型,一般以双值矩阵给出收益函数.由于博弈双 若干步以后的局面,从而选出近乎高手的着法;但是 方都是“理性的”,都能够解算出对于自己最为有利的 对于牌类博弈来说,存在太多的不完备信息和不确 解策略、行动),双方能够取得“一致预测”,于是便 定性因素.牌类游戏的多数重要信息都是隐藏的,每 存在了双方都不愿意破坏的纳什均衡”理性共 个玩家只能看到其中的一部分,他们必须通过观察 识一均衡便成为博奔论处理问题的基本模式【] 其他玩家的行为,把各种信息拼在一起,才能获得更 对于一大批经济学中的完全信息的静态博弈问 多信息.因为比赛的这种不确定性,必将导致近于无 题,纳什均衡被证明是有效的.对于不完全信息的静 穷种态势的可能,另外牌类比赛在很多情况下并没 态博弈问题和完全不完全)信息的动态博弈问题 有所谓的“最佳着法”,因此牌类博弈树型的建模方 也都存在贝叶斯均衡或子博弈精炼纳什(贝叶斯) 法对于牌类机器博弈并不适用 均衡.应用上述理论,一系列经济学问题得到了很好 以扑克为例,顶级的扑克选手会在比赛中察言观 的解决.于是博弈论已经成为现代经济学的重要组 色,并根据对手的反应调整自己的策略.但是计算机 成部分 不可能做到这一点,它们只会按照一定的程序出牌」 棋类游戏都属于动态博弈问题.由于一场对弈的 虽然计算机无法像人那样去观察对手的一举一动从 回合都要数以十计,每个回合各方的策略选择也都数 而做出判断,但它却能记录下对手的比赛套路和方 以十计,在如此庞大的博弈树中,即使只考虑有限的 法,通过统计其出牌和不出牌的次数为比赛积累经 几个回合,理性的博弈者也难建立起“一致预测并取 验.显然,尽早绘制出对手比赛套路是取胜的关键 得共识,更何况事实存在的理性和信息的不对称性 因此,牌类博弈的关键技术在于统计建模、模式 于是,有理由对纳什均衡的普遍性提出怀疑 识别和机器学习.既要以大量高手的出牌规律作为 显然,博奔论的解析方法无法求解棋牌游戏问 基础知识,又要及时绘制当前对手比赛的套路. 题,而机器博弈的成果又在棋类游戏中取得令人瞩 显然这不是一般简单智能所能处理的事务 目的成就.就使人联想起数学分析和数值分析的相 值得提及的是,在机器博弈方面世界领先的加 互关系.以复杂函数的积分问题为例.用数学分析的 拿大艾伯塔大学(University of A lberta)设计的扑克 方法大多数函数是给不出积分的解析解的,但是应 程序在与知名扑克玩家菲尔·拉克的对弈中虽然未 用数值分析的方法,就很少找到不能求出积分值的 能取胜,但对手也不得不承认,和电脑的比赛比他职 函数来.因此可以说,博弈论像数学分析一样是用解 业生涯中此前任何一场都要绞尽脑汁,“电脑现在 析方法求解问题,而机器博弈却像数值分析一样是 就如此先进,未来将越来越难战胜州] 以计算机为手段的、用数值方法求解问题.两者相辅 相成,必然在博弈问题的分析与求解上开拓出广阔 4机器博弈的理论提升对于博 的天地 弈论的挑战 事件对策论便是根据博弈论的框架,从离散事 件动态系统的角度为机器博弈建立起的形式化描 通过以上的分析,不难看出机器博弈是一类实 述],而事件对策问题的求解则必然依靠机器博弈 践性很强的计算机应用技术的综合.如果在理论上 的方式1,因此建立机器博弈学,开展事件对策论、 加以提升,机器博弈应该具有什么样的理论体系呢? 机器博弈原理与方法学的研究都是很有意义的研究 机器博弈既然属于博弈的范畴,必然应该和博 方向 弈论具有一些内在的联系.博弈论(game theory)又 现实生活中的动态博弈问题都是非常复杂的 称对策论、游戏论,其概念的引出曾提及象棋的博 既有时间驱动的连续对策问题,又包含由事件驱动 弈,然而纵观博弈论的理论成果,却没有方法能够真 的离散对策问题.这种混杂对策问题的求解必然呼 正用到象棋博弈之中 唤能够将微分对策论与事件对策论有机结合起来的 以纳什均衡为代表的博奔论应该属于数学的范 混杂对策理论的创立4 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.hup://www.cnki.net类游戏属于完备信息博弈 ,游戏双方清楚知道当前 对弈的所有情况 ,包括自己有多少子力 ,对手有多少 子力 ,可能有哪些着法 ,通过构造博弈树 ,利用计算 机非凡的计算能力和巧妙的搜索算法 ,就容易看到 若干步以后的局面 ,从而选出近乎高手的着法 ;但是 对于牌类博弈来说 ,存在太多的不完备信息和不确 定性因素. 牌类游戏的多数重要信息都是隐藏的 ,每 个玩家只能看到其中的一部分 ,他们必须通过观察 其他玩家的行为 ,把各种信息拼在一起 ,才能获得更 多信息. 因为比赛的这种不确定性 ,必将导致近于无 穷种态势的可能 ,另外牌类比赛在很多情况下并没 有所谓的“最佳着法 ”,因此牌类博弈树型的建模方 法对于牌类机器博弈并不适用. 以扑克为例 ,顶级的扑克选手会在比赛中察言观 色 ,并根据对手的反应调整自己的策略. 但是计算机 不可能做到这一点 ,它们只会按照一定的程序出牌. 虽然计算机无法像人那样去观察对手的一举一动从 而做出判断 ,但它却能记录下对手的比赛套路和方 法 ,通过统计其出牌和不出牌的次数为比赛积累经 验.显然 ,尽早绘制出对手比赛套路是取胜的关键. 因此 ,牌类博弈的关键技术在于统计建模、模式 识别和机器学习. 既要以大量高手的出牌规律作为 基础知识 ,又要及时“绘制 ”当前对手比赛的套路. 显然这不是一般简单智能所能处理的事务. 值得提及的是 ,在机器博弈方面世界领先的加 拿大艾伯塔大学 (University of A lberta)设计的扑克 程序在与知名扑克玩家菲尔 ·拉克的对弈中虽然未 能取胜 ,但对手也不得不承认 ,和电脑的比赛比他职 业生涯中此前任何一场都要绞尽脑汁 ,“电脑现在 就如此先进 ,未来将越来越难战胜 ” [ 9 ] . 4 机器博弈的理论提升 ———对于博 弈论的挑战 通过以上的分析 ,不难看出机器博弈是一类实 践性很强的计算机应用技术的综合. 如果在理论上 加以提升 ,机器博弈应该具有什么样的理论体系呢 ? 机器博弈既然属于博弈的范畴 ,必然应该和博 弈论具有一些内在的联系. 博弈论 ( game theory)又 称对策论、游戏论 ,其概念的引出曾提及象棋的博 弈. 然而纵观博弈论的理论成果 ,却没有方法能够真 正用到象棋博弈之中. 以纳什均衡为代表的博弈论应该属于数学的范 畴 ,是运筹学的一个分支. 相关理论都是通过解析的 办法对问题进行求解. 根据特定问题的类型 ,如囚徒 困境、智猪博弈、海边摊位与性别战等建立相应的数 学模型 ,一般以双值矩阵给出收益函数. 由于博弈双 方都是“理性的 ”,都能够解算出对于自己最为有利的 解 (策略、行动 ) ,双方能够取得“一致预测 ”,于是便 存在了双方都不愿意破坏的“纳什均衡 ”.“理性 —共 识 —均衡 ”便成为博弈论处理问题的基本模式 [ 10 ] . 对于一大批经济学中的完全信息的静态博弈问 题 ,纳什均衡被证明是有效的. 对于不完全信息的静 态博弈问题和完全 (不完全 )信息的动态博弈问题 也都存在贝叶斯均衡或子博弈精炼纳什 (贝叶斯 ) 均衡. 应用上述理论 ,一系列经济学问题得到了很好 的解决. 于是博弈论已经成为现代经济学的重要组 成部分 [ 11 ] . 棋类游戏都属于动态博弈问题. 由于一场对弈的 回合都要数以十计 ,每个回合各方的策略选择也都数 以十计 ,在如此庞大的博弈树中 ,即使只考虑有限的 几个回合 ,理性的博弈者也难建立起“一致预测 ”并取 得共识 ,更何况事实存在的理性和信息的不对称性. 于是 ,有理由对纳什均衡的普遍性提出怀疑. 显然 ,博弈论的解析方法无法求解棋牌游戏问 题 ,而机器博弈的成果又在棋类游戏中取得令人瞩 目的成就. 就使人联想起数学分析和数值分析的相 互关系. 以复杂函数的积分问题为例. 用数学分析的 方法大多数函数是给不出积分的解析解的 ,但是应 用数值分析的方法 ,就很少找到不能求出积分值的 函数来. 因此可以说 ,博弈论像数学分析一样是用解 析方法求解问题 ,而机器博弈却像数值分析一样是 以计算机为手段的、用数值方法求解问题. 两者相辅 相成 ,必然在博弈问题的分析与求解上开拓出广阔 的天地. 事件对策论便是根据博弈论的框架 ,从离散事 件动态系统的角度为机器博弈建立起的形式化描 述 [ 12 ] ,而事件对策问题的求解则必然依靠机器博弈 的方式 [ 13 ] ,因此建立机器博弈学 ,开展事件对策论、 机器博弈原理与方法学的研究都是很有意义的研究 方向. 现实生活中的动态博弈问题都是非常复杂的. 既有时间驱动的连续对策问题 ,又包含由事件驱动 的离散对策问题. 这种混杂对策问题的求解必然呼 唤能够将微分对策论与事件对策论有机结合起来的 混杂对策理论的创立 [ 14 ] . · 092 · 智 能 系 统 学 报 第 3卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net