第十章博弈论 第一节博弈论基础 博弈论( Game Theory) 博弈论研究决策主体的行为相互发生直接作用时的决策,以及这种决 策的均衡问题。也就是说,一个主体(一个人或一个企业)的选择受到其 他主体选择的影响,并且其选择反过来会影响到其他主体的选择,这类的 的决策问题和均衡问题就是博弈论硏究的对象。在这个意义上说,博弈论 也称为“对策论” 博弈论中的个体决策与传统经济学中的行为个体决策不同。 博弈论的基本概念 1、参与者/局中人( players):在博弈中选择行动以最大化自己效用的决 策主体 2、行动( actions, moves):参与者的决策变量 3、战略( strategies):参与者选择行动的规则
第十章 博弈论 第一节 博弈论基础 一、博弈论(Game Theory) 博弈论研究决策主体的行为相互发生直接作用时的决策,以及这种决 策的均衡问题。也就是说,一个主体(一个人或一个企业)的选择受到其 他主体选择的影响,并且其选择反过来会影响到其他主体的选择,这类的 的决策问题和均衡问题就是博弈论研究的对象。在这个意义上说,博弈论 也称为“对策论”。 博弈论中的个体决策与传统经济学中的行为个体决策不同。 二、博弈论的基本概念 1、参与者/局中人(players):在博弈中选择行动以最大化自己效用的决 策主体。 2、行动(acttions, moves):参与者的决策变量。 3、战略(strategies):参与者选择行动的规则
4、信息( information):是参与人在博弈中的知识,特别是有关其他参 与人(对手)的特征和行动的知识。 5、支付收益( payoff):是参与人从博弈中获得的效用水平,是所有参 与人战略或行动的函数,也是是每个参与人真正关心的东西 6、结果( outcomes):是指博弈分析者感兴趣的要素的集合。 7、均衡( equilibrium):是所行参与人的最优战略或行动的组合 上述概念中,参与人、行动、结果统称为博弈规则,博弈分析的目的 是使用博弈规则决定均衡。 、博弈的分类 1、合作博弈( cooperative game)和非合作博弈(non- cooperative game 人们的行为相互作用时,当事人能不能达成一个具有约束力的协议,如 果有,就是合作博弈;反之,则是非合作博弈。 现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈
4、信息(information):是参与人在博弈中的知识,特别是有关其他参 与人(对手)的特征和行动的知识。 5、支付/收益(payoff):是参与人从博弈中获得的效用水平,是所有参 与人战略或行动的函数,也是是每个参与人真正关心的东西。 6、结果(outcomes):是指博弈分析者感兴趣的要素的集合。 7、均衡(equilibrium):是所行参与人的最优战略或行动的组合。 上述概念中,参与人、行动、结果统称为博弈规则,博弈分析的目的 是使用博弈规则决定均衡。 三、博弈的分类 1、合作博弈(cooperative game)和非合作博弈(non- cooperative game ): 人们的行为相互作用时,当事人能不能达成一个具有约束力的协议,如 果有,就是合作博弈;反之,则是非合作博弈。 现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈
2、静态博弈( static game)与动态博弈( dynamic game): 按参与人行动的先后顺序划分,静态博弈:参与者同时决策,或非同时 决策但后决策者不知道先决策者的行动。动态博弈:参与者的行动有先后, 后决策者能观察到县决策者的行动,并据此选择行动。 3、完全信息博弈( games of complete information)和不完全信息博弈 games of incomplete information 完全信息指的是每一个参与人对所有其他参与人(对手)的特征、战略空 间及支付函数有准确的知识;否则,就是不完全信息
2、静态博弈(static game)与动态博弈(dynamic game): 按参与人行动的先后顺序划分,静态博弈:参与者同时决策,或非同时 决策但后决策者不知道先决策者的行动。动态博弈:参与者的行动有先后, 后决策者能观察到县决策者的行动,并据此选择行动。 3、完全信息博弈(games of complete information)和不完全信息博弈 ( games of incomplete information ): 完全信息指的是每一个参与人对所有其他参与人(对手)的特征、战略空 间及支付函数有准确的知识;否则,就是不完全信息
第二节完全信息静态博弈 、博弈的标准式( nomal form representation) 例:囚徒困境。囚徒面临的问题可用下图所示的双变量矩阵表来描 述 在此博弈中,每一囚徒 囚犯B 有两种战略可供选择:招认、 沉默招认 沉默)。 在一组特定的战略组合 囚犯A|-1,-1-9,0 招认[0,-9-6,-6 被选定后,两人的收益由矩 阵中相应单元的数据来表示。 博弈的标准表述包括:()博弈的参与者,(2)每一参与者可供选择的战 略集,(3)针对所有参与者可能选择的战略组合,每一个参与者获得的 收益。 可以用支付矩阵表述一个博弈
第二节 完全信息静态博弈 一、博弈的标准式(nomal form representation) 例:囚徒困境。囚徒面临的问题可用下图所示的双变量矩阵表来描 述。 -1,-1 -9,0 0,-9 -6,-6 囚犯B 囚犯A 沉默 招认 沉默 招认 在此博弈中,每一囚徒 有两种战略可供选择:招认、 沉默)。 在一组特定的战略组合 被选定后,两人的收益由矩 阵中相应单元的数据来表示。 博弈的标准表述包括:(1)博弈的参与者,(2)每一参与者可供选择的战 略集,(3)针对所有参与者可能选择的战略组合,每一个参与者获得的 收益。 可以用支付矩阵表述一个博弈
假定有n个参与者参加博弈,序号分别为1,2,,n,第i个参与者可以 选择的战略集合(的战略空间)为S,每个具体的战略s为S的元素。令 (s1,s2,…,sn为每个参与人选定一个战略的组成的战略组合,u表示在 该战略组合下参与人i的收益收益函数:u1(s,S2,…,sn),表述的标准 形式为 二、占优战略均衡( Dominant-stragety equilibrium) 一般来说,由于每个参与者的效用(支付)是博弈中所有参与人的战 咯的函数,因此每个参与者的最优战略选择依赖于所有其他参与人的战略 选择。但在—些特殊的博弈中,一个参与人的最优战略可能并不依赖于其 他参与人的战略选择,就是说,不论其他参与人选择什么战略,他的最优 战略是唯一的,这样的最优战略被称为“占优战略”( dominant stragety)。 在博弈G=S…,Sn矶1…Ln中,假定s,s"为参与者的两个战略,如果 对于其他局中人的任一战略选择,战略s,的收益都大于于s",即 l4(S12…,S-1,s1,s+1:sn)>u(S1;…,S-1,s"1,S+1,Sn) 对其他局中人的战略空间S1…S=1,S5S中每一种可能的战略组合(S1…,S1 S,sn)均成立,则称s相对于s",是局中人i的严格占优战略
假定有n个参与者参加博弈,序号分别为1,2,…,n,第i个参与者可以 选择的战略集合(i的战略空间)为Si ,每个具体的战略si为Si 的元素。令 ( s1,s2,…,sn )为每个参与人选定一个战略的组成的战略组合,ui表示在 该战略组合下参与人i的收益收益函数:ui( s1,s2,…,sn ),表述的标准 形式为: G S Sn u un , , ; , , = 1 1 二、占优战略均衡(Dominant-stragety equilibrium) 一般来说,由于每个参与者的效用(支付)是博弈中所有参与人的战 略的函数,因此每个参与者的最优战略选择依赖于所有其他参与人的战略 选择。但在—些特殊的博弈中,一个参与人的最优战略可能并不依赖于其 他参与人的战略选择,就是说,不论其他参与人选择什么战略,他的最优 战略是唯一的,这样的最优战略被称为“占优战略”(dominant stragety)。 )均成立,则称 相对于 是局中人 的严格占优战略。 对其他局中人的战略空间 中每一种可能的战略组合( ( ) ( ) 对于其他局中人的任一战略选择,战略 的收益都大于于 ,即 在博弈 中,假定 , 为参与者 的两个战略,如果 s s s s i S S S S s s u s s s s s u s s s s s s s G S S u u s s i i n i i i i n i i i i i n i i i i n i i n n i i , ' " , , , , , , , , , , ' , , , , , " , , ' " , , ; , , ' " 1 1 1 1 1 1 1 1 1 1 1 1 1 1 + − + − − + − + =
囚犯B 在囚徒困境中,“招认”是每个囚 犯的占优战略。博弈的结果是两人都选 沉默招认 择“招认”,尽管福利不是最大, 囚犯A 沉默|-1,-1-9,0 占优战略均衡: 招认0,-9-6,-6 在博弈G=S1…,S41…un中,对于所有参与人,s*均为参与者 的占优战略,那么战略组合(s*1…,S*1,s*,S*1…S*)称为占优战 略均衡。 三、重复剔除严格劣战略均衡( interated dominance equilibrium) 在每个参与人都有占优战略的情况下,占优战略均衡是一个非常合理 的预测,但在绝大多数博弈中,不存在占优战略均衡 考虑下面的“智猪博弈”。两猪共槽吃 小猪 食,按下在房间另一端的按钮,能出食8单 按 等待 位,按下按钮者将付出2单位的代价。若大 按 猪先到食槽,能吃到7单位的食,小猪只能大猪 3,12,4 吃到1单位的食;若小猪先到食槽,能吃到4 等待|7,-10,0 单位的食,大猪能吃到4单位的食
三、重复剔除严格劣战略均衡(interated dominance equilibrium) 在每个参与人都有占优战略的情况下,占优战略均衡是一个非常合理 的预测,但在绝大多数博弈中,不存在占优战略均衡。 在囚徒困境中,“招认”是每个囚 犯的占优战略。博弈的结果是两人都选 择“招认”,尽管福利不是最大。 -1,-1 -9,0 0,-9 -6,-6 囚犯B 囚犯A 沉默 招认 沉默 占优战略均衡: 招认 略均衡。 的占优战略,那么战略组合( )称为占优战 在博弈 中,对于所有参与人 , 均为参与者 i i i n n n i s s s s s G S S u u i s i * , , * , * , * , , * , , ; , , * 1 1 1 1 1 − + = 小猪 大猪 按 等待 按 等待 3,1 2,4 7,-1 0,0 考虑下面的“智猪博弈”。两猪共槽吃 食,按下在房间另一端的按钮,能出食8单 位,按下按钮者将付出2单位的代价。若大 猪先到食槽,能吃到7单位的食,小猪只能 吃到1单位的食;若小猪先到食槽,能吃到4 单位的食,大猪能吃到4单位的食
在此博以中,小猪的占优战略为“等待”, 小猪 而大猪不存在占优战略。此时,不存在占优战 按 等待 略均衡 按 3 2,4 大猪 严格劣战略: 等待7,-10,0 在博弈G=S…,Sn12…,n中,假定s;,s"为参与者的两个战略, 如果对于其他局中人的仼一战略选择,战略s的收益都小于s",即 S,_,S;,S;1,Sn)<l1(S1 S";,S;:1S, 对其他局中人的战略空间S12…S1S1,S中每一种可能的战略组合(S1 5i-1i+1 sn)均成立,则称s相对于s"是局中人i的严格劣战略。 如果把“理性的参与者不会选择严格劣战略”作为局中人的理性假 设,并且局中人的理性是博弈中的共同知识,则可以通过重复剔除严格 劣战略来选择均衡。 小猪 在智猪博弈中,“按”是小猪的严格劣战略, 理性的小猪不会选择“按”;而大猪知道小猪是理 等待 性的,不会选择“按”。因此,博弈就变成右边的大猪 按2 形式 等待|0,0 显然,“等待”是大猪的严格劣战略,大猪不
)均成立,则称 相对于 是局中人 的严格劣战略。 对其他局中人的战略空间 中每一种可能的战略组合( ( ) ( ) 如果对于其他局中人的任一战略选择,战略 的收益都小于 ,即 在博弈 中,假定 , 为参与者 的两个战略, s s s s s i S S S S s u s s s s s u s s s s s s s G S S u u s s i i i n i i i i n i i i i n i i i i n i i n n i i , , , , ' " , , , , , , , , ' , , , , , " , , ' " , , ; , , ' " 1 1 1 1 1 1 1 1 1 1 1 1 1 1 − + − + − + − + = 如果把“理性的参与者不会选择严格劣战略”作为局中人的理性假 设,并且局中人的理性是博弈中的共同知识,则可以通过重复剔除严格 劣战略来选择均衡。 小猪 大猪 按 等待 按 等待 3,1 2,4 7,-1 0,0 在此博以中,小猪的占优战略为“等待”, 而大猪不存在占优战略。此时,不存在占优战 略均衡。 严格劣战略: 在智猪博弈中,“按”是小猪的严格劣战略, 理性的小猪不会选择“按”;而大猪知道小猪是理 性的,不会选择“按”。因此,博弈就变成右边的 形式。 显然,“等待”是大猪的严格劣战略,大猪不 会选择“不按”。(按,等待)为均衡结果。 小猪 大猪 等待 按 等待 2,4 0,0
考虑下面的博弈:局中人A的战略空间为(上,下)、局中人B的战略 空间为(坐,中,右),收益矩阵如下: 局中人B 右”是B的相对于“中”的严格 左 中右 局中人 劣战略。理性的B不会选择“右” 中上1,01,2|0, 而理性的A也知道B不会选择“右”, A 下[0,30,12,0博弈就变为: 局中人B 此时,“下”是A的相对于“上”的严格劣局 左 中 战略。理性的A不会选择“下”,而理性的B中上[1,01,2 也知道A不会选择“下”,博弈就变为: 人 下0,30,1 局中人B 局 左 中 此时,“左”是B的相对于“中”的 人上[,01,2 亚格劣战略。理性的B不会选择“下”, 而理性的A也知道B不会选择“下”,博 弈的结果就是:(上,中)。 上面的过程可称为“重复剔除严格劣战略”,得到的唯一均衡为重复 剔除严格劣战略均衡
考虑下面的博弈:局中人A的战略空间为(上,下)、局中人B的战略 空间为(坐,中,右),收益矩阵如下: 1,0 1,2 0,1 0,3 0,1 2,0 局中人B 局 中 人 A 左 中 上 下 右 “右”是B的相对于“中”的严格 劣战略。理性的B不会选择“右”, 而理性的A也知道B不会选择“右”, 博弈就变为: 1,0 1,2 0,3 0,1 局中人B 局 中 人 A 左 中 上 下 此时,“下”是A的相对于“上”的严格劣 战略。理性的A不会选择“下”,而理性的B 也知道A不会选择“下”,博弈就变为: 1,0 1,2 局中人B 局 中 人 A 左 中 上 此时,“左”是B的相对于“中”的 严格劣战略。理性的B不会选择“下”, 而理性的A也知道B不会选择“下”,博 弈的结果就是:(上,中)。 上面的过程可称为“重复剔除严格劣战略”,得到的唯一均衡为重复 剔除严格劣战略均衡
尽管“重复剔除严格劣战略”的过程建立在理性参与人不会选择严 格劣战略这一合情近理的原则之上,它仍有两个缺陷: 第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果 我们要把这一过程应用到任意多步,就需要假定“参与者是理性的“共 同知识”( common knowledge,是与信息有关的一个重要概念。共同知 识指的是“所有参与人知道,所有参与人知道所有参与人知道,所有参 与人知道所有参与人知道所有参与人知道.的知识) 局中人B 第二,这一方法对博弈结果的预测 左 中右 经常是不精确的。例如,在下面的博弈局上「0,44,0|5,3 中,就没有可以剔除的严格劣战略。 人 中4,00,45 A下3,53,56,6
尽管“重复剔除严格劣战略”的过程建立在理性参与人不会选择严 格劣战略这一合情近理的原则之上,它仍有两个缺陷: 第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果 我们要把这一过程应用到任意多步,就需要假定“参与者是理性的“共 同知识”(common knowledge,是与信息有关的一个重要概念。共同知 识指的是“所有参与人知道,所有参与人知道所有参与人知道,所有参 与人知道所有参与人知道所有参与人知道……”的知识)。 0,4 4,0 5,3 4,0 0,4 5,3 3,5 3,5 6,6 局中人B 局 中 人 A 左 中 上 中 右 下 第二,这一方法对博弈结果的预测 经常是不精确的。例如,在下面的博弈 中,就没有可以剔除的严格劣战略
四、纳什均衡( Nash equilibrium) 设想在博弈论预测的博弈结果中,为使该预测是正确的,局中人自愿 选择的战略必须是理论给他推导出的战略。这样,每个局中人要选择的战 略必须是针对其他参与者选择战略的最优战略。这种理论推测结果可以叫 做“战略稳定”或“自动实施”的,因为没有参与人愿意独自离弃他所选 定的战略,我们把这一状态称为纳什均衡。 在n人博弈G=S3…Sn1…,un中,如果战略组合(s*,s*2,…,S*) 满足对任一局中人i,战略s*是(至少不劣于)对其他局中人选择战略 ,s*)的最优反应战略,即 c i+1 15256i-15i+15bn 对所有∈S均成立,则称战略组合(s*1,s*2,…,S*)是该博弈的一个纳 什均衡。 即s*是以下最优化问题的解: max i-15i5i+1
四、纳什均衡(Nash equilibrium) 设想在博弈论预测的博弈结果中,为使该预测是正确的,局中人自愿 选择的战略必须是理论给他推导出的战略。这样,每个局中人要选择的战 略必须是针对其他参与者选择战略的最优战略。这种理论推测结果可以叫 做“战略稳定”或“自动实施”的,因为没有参与人愿意独自离弃他所选 定的战略,我们把这一状态称为纳什均衡。 ( ) 即 是以下最优化问题的解: 什均衡。 对所有 均成立,则称战略组合( )是该博弈的一个纳 ( ) ( ) ( )的最优反应战略,即 满足对任一局中人 ,战略 是(至少不劣于)对其他局中人选择战略 在 人博弈 中,如果战略组合( ) i i i i n i i i n i i i i n i i i i n i i n i n n n u s s s s s s s s S s s s u s s s s s s u s s s s s s s s s s s i s n G S S u u s s s max * , * , , * , , * , , * * * , * , , * * , * , , * , * , * , , * * , * , , * , , * , , * * , * , , * , * , , * * , , ; , , * , * , , * 1 2 1 1 1 2 1 2 1 1 1 2 1 1 1 2 1 1 1 1 1 2 − + − + − + − + =