博弈的基本概念(1) 第二章 ·参与人( players):博弈中决策主体的集合:什 么人参与博弈?每个人是什么角色? 纳什均衡与一致预期 ·行动( actions):每个人有些什么样行动可以选 译?在什么时候行动? 张维迎教授 ·信息( (information):在博弈中的知识:每个人 北京大学光华管理学院 道些什么(包括特征、行动等)? 战略( strategies):行动计划:每个人有什么战 略可供选择?战略的完备性; 博弈的基本概念(2) 静态博弈 支付( payoffs):每个人在不同战略组合下得到 最简单的博弈:所有参与人同时选择行 些什么?依赖于所有参与人的选择 动,并且只选择一次 均衡( equilibrium):所有参与人最优战略的组 ·“同时”是一个信息概念,而不一定与日 合: ·结果( outcomes):我们所感兴趣的东西 历上的时间一致 囚徒困境( prisoners' dilemma) 占优均衡 (dominant-strategy equilibrium) ·囚徒困境 于所有人的选 不坦白 择,因此每个人的最优选择(战略)也依赖于所有其 他人的选择(战略)。但在上述例子中 优选择并不依赖于他人的选择。这样的最优战略,被 占优战略 (dominant strategy)由所有参与人的占 优战略构成的战略组合被称为“占优均衡”。 不坦白 ·占优战略均衡的出现只要求所有人都是理性的,但不 要求每个参与人知道其他参与人是否理性 囚徒困境博弈有占优均衡,所以其结果很容易预测 们可以预测,结果将是(坦白,坦白)
第二章 纳什均衡与一致预期 张维迎 教授 北京大学光华管理学院 博弈的基本概念(1) • 参与人(players):博弈中决策主体的集合:什 么人参与博弈?每个人是什么角色? • 行动(actions): 每个人有些什么样行动可以选 择?在什么时候行动? • 信息(information):在博弈中的知识;每个人 知道些什么(包括特征、行动等)? • 战略(strategies):行动计划;每个人有什么战 略可供选择?战略的完备性; 博弈的基本概念(2) • 支付(payoffs):每个人在不同战略组合下得到 些什么?依赖于所有参与人的选择; • 均衡(equilibrium):所有参与人最优战略的组 合; • 结果(outcomes):我们所感兴趣的东西。 静态博弈 • 最简单的博弈:所有参与人同时选择行 动,并且只选择一次; • “同时”是一个信息概念,而不一定与日 历上的时间一致; 囚徒困境(prisoners’ dilemma) • 囚徒困境 坦白 不坦白 坦白 不坦白 -8,-8 0,-10 -10,0 -1,-1 无论对方如何选择,每个人的最优选择:坦白。 所以,我们可以预测,结果将是(坦白,坦白) 占优均衡 (dominant-strategy equilibrium) • 一般来说,由于每个参与人的效用依赖于所有人的选 择,因此每个人的最优选择(战略)也依赖于所有其 他人的选择(战略)。但在上述例子中,一个人的最 优选择并不依赖于他人的选择。这样的最优战略,被 称为“占优战略”(dominant strategy)。由所有参与人的占 优战略构成的战略组合被称为“占优均衡”。 • 占优战略均衡的出现只要求所有人都是理性的,但不 要求每个参与人知道其他参与人是否理性。 • 囚徒困境博弈有占优均衡,所以其结果很容易预测
个人理性与集体理性的冲突 公共产品( public goods) 囚徒困境”表明个人理性与集体理性的冲突 ·这样的例子很多:寡头竞争,军备竞赛,团队 仁提供 不提供 生产中的劳动供给,公共产品的供给,等等: 许多的制度就是为解决“囚徒困境”而存在的 -1,5 不提供 无论对方如何选择,每个人的最优选择:不提供。 所以,我们可以预测,结果将是(不提供,不提供) 公共产品与税收制度 囚徒困境”的一般表示 ·比较私人产品与公共产品的不同:使用 上排他性 合作 不合作 私人产品是志愿购买的,但公共产品可 能需要强制购买 合作 税收制度就是保证公共产品的生产,解 不合作 R P. P 决公共产品生产上的“囚徒困境 满足:R>D>P>S;(S+RKT+T 用法律解决“囚徒困境” “智猪博弈”( boxed pigs) 有些博弈没有占优均衡,但通过剔除“坏”战 作 不合 略,我们可以预测博弈的结果。如“智猪博弈 作 T,TS,R-x N“| 不合作Rx,sP,P 按 衡是“大猪按,小猪等待 等待 2-|0 择B得到的收益,A就是相对于 满足:X>RT B的劣战略
个人理性与集体理性的冲突 • “囚徒困境”表明个人理性与集体理性的冲突。 • 这样的例子很多:寡头竞争,军备竞赛,团队 生产中的劳动供给,公共产品的供给,等等; • 许多的制度就是为解决“囚徒困境”而存在的; 公共产品(public goods) 提供 不提供 提供 不提供 4,4 -1,5 5,-1 0,0 无论对方如何选择,每个人的最优选择:不提供。 所以,我们可以预测,结果将是(不提供,不提供) 公共产品与税收制度 • 比较私人产品与公共产品的不同:使用 上排他性; • 私人产品是志愿购买的,但公共产品可 能需要强制购买; • 税收制度就是保证公共产品的生产,解 决公共产品生产上的“囚徒困境” “囚徒困境”的一般表示 合作 不合作 合作 不合作 T,T S,R R,S P,P 满足:R>T>P>S; (S+R)R-T “智猪博弈”(boxed pigs) • 有些博弈没有占优均衡,但通过剔除“坏”战 略,我们可以预测博弈的结果。如“智猪博弈” 按 等待 按 等待 3,1 2,4 7,-1 0,0 这个博弈中,大猪的最优选择依赖 于小猪的选择,但小猪的最优选择 与大猪的选择无关。如果大猪知道 小猪的理性的,大猪将选择“按”。 均衡是“大猪按,小猪等待”。 “劣”战略:无论对方选择什么,如 果自己选择A得到的总是收益小于 选择B得到的收益,A就是相对于 B的劣战略
重复剔除占优均衡 理性共识 (common knowledge of rationality) ·(1)Zero- order CKr:每个人都是理性的,但不知 strategy)的思路:首先找出博弈参与人的劣 战略( dominated strategy)(假定存在的话),把这个劣 道其他人是否是理性的 略剔除后,剩下的是一个不包含己剔除劣战略的新 (2) first- order CKr:每个人是理性的,并且知道 的博弈:然后在剔除这个新的博弈中的劣战略:继续 其他每个人也都是理性的,但并不知道其他人 这个过程,直到没有劣战略存在。如果剩下的战略组 是否知道自己是理性的 合是唯一的,这个唯一的战略组合就是“重复剔除占优 ·(3) Second- order CKr:(1)+(2)+每个人知道(2) ·如果这样的解存在,我们说该博弈是“重复剔除占优可 Nth-order CKR: R(b)C(b)R()..C(b)R is 解的”( iterated dominance solvable) 重复剔除与理性共识 最优选择 重复剔除不仅要求每个人是理性的,而且要求每个人 这个博弈只要求一阶理性共识就可以预测均衡 知道其他人是理性的,每个人知道每个人知道每个人 理性的,如此等等,即理性是“共同知识”(共识) 如果R相信C是理性的,R就知道C不会选择 这个博弈只要求 C3,所以R的最优选择是R 一阶理性共识就 如果C相信R是理性的,C就知道R不会选择 4s|984可以预测均衡结 R2,所以C的最优选择是C R29.0.3 果把(下一左) 但要C预期R不会选择R3,需要二阶理性共 第一个数字改为 识;要R不预期C会选择C1,需要三阶理性共 R3|19800010981呢 R排除C选择Cl 好事变坏事? 在单人决策中,个人给定选择在所有 R believes c believes r believes c is rational 加,一个人的状况不会变得更坏, 植德中不都 1,32,1 下|0,23,4 4[|a2134
重复剔除占优均衡 • “重复剔除严格劣战略”(iterated elimination of strictly dominated strategy)的思路:首先找出博弈参与人的劣 战略(dominated strategy)(假定存在的话),把这个劣 战略剔除后,剩下的是一个不包含已剔除劣战略的新 的博弈;然后在剔除这个新的博弈中的劣战略;继续 这个过程,直到没有劣战略存在。如果剩下的战略组 合是唯一的,这个唯一的战略组合就是“重复剔除占优 均衡”(iterated dominance equilibrium)。 • 如果这样的解存在,我们说该博弈是“重复剔除占优可 解的”(iterated dominance solvable). 理性共识 (common knowledge of rationality) • (1)Zero-order CKR: 每个人都是理性的,但不知 道其他人是否是理性的; • (2)First-order CKR: 每个人是理性的,并且知道 其他每个人也都是理性的,但并不知道其他人 是否知道自己是理性的; • (3)Second-order CKR: (1)+(2)+每个人知道(2) • Nth-order CKR: R(b)C(b)R(b)……C(b)R is rational, 重复剔除与理性共识 • 重复剔除不仅要求每个人是理性的,而且要求每个人 知道其他人是理性的,每个人知道每个人知道每个人 是理性的,如此等等,即理性是“共同知识”(共识) C1 C2 C3 R1 R2 R3 10,4 1, 5 98,4 9, 9 0, 3 99,8 1,98 0,100 100,98 这个博弈只要求 一阶理性共识就 可以预测均衡结 果。 如果把(下-左) 的第一个数字改为 11呢? 最优选择 • 这个博弈只要求一阶理性共识就可以预测均衡 结果: • 如果R相信C是理性的,R就知道C不会选择 C3,所以R的最优选择是R1; • 如果C相信R是理性的,C就知道R不会选择 R2,所以C的最优选择是C2。 • 但要C预期R不会选择R3,需要二阶理性共 识;要R不预期C会选择C1,需要三阶理性共 识。 R排除C选择C1 R believes C believes R believes C is rational (C1,C2) R1 C2 好事变坏事? • 在单人决策中,个人给定选择在所有情况下的收益都 增加,一个人的状况不会变得更坏,但博弈中则不 同。 上 下 左 右 上 下 左 右 -1, 3 2, 1 0, 2 3, 4 1, 3 4, 1 0, 2 3, 4
选择越多,对理性共识的要求越高 (1 )Zero-order CKR: C not choose C4 for C is rational R1s,1010,111,20|10, (2)1st-order CKR: R not choose R4 for r(b)c (3)2nd-order CKR: C not choose Cl for C(b)r(b )3rd-order CKR: R not choose Rl for r(b C(b)r(b)C so,(R2, C2)is an equilibrium 2,930,92|0.9 不能用重复剔除解的博弈 可理性化的选择 ·许多博弈没有占优均衡,也没有重复剔除的占 · Rationalizable strategy:不能被重复剔除的 优均衡。考虑如下博弈 战略;或者说,可以被合理的信念( belief 所支持的行为; ·例如:R理性化选择Rl ±,05,3 如果R(bC选择 R2±00,±5,3 如果R(b)C(b)R会选择R2 如果R(b)C(b)R(b)C会选择Cl R33,53,5, 如果R(b)C(b)R(b)C(b)R会选择R1 Consistently aligned beliefs (CAB) 纳什均衡与一致预期 考虑(R3,C3):对方不会犯预期错误:R选 纳什均衡:所有参与人的最优战略的组合:给 择R3,如果他认为C会选择C3:C会选择C3 该战略中别人的选择,没有人有积极性改变 如果他认为R会选择R3。 自己的选择 CAB:每个人对别人行为的预期(信念)是正 致预期:基于信念的选择是合理的;支持选 确的 择的信念是正确的 Harsanyi doctrine:如果两个理性的人具有相同 预期的自我实现:如何所有人认为这个结果会 的信息,他们一定会得出相同的推断和相同的 出现,这个结果就会出现。预期是自我实玛 结论; 的,预期不会错误。如果你认为我预期你将选 Robert Aumann: rational agents cannot agree to 择X,你就真的会选择X
选择越多,对理性共识的要求越高 R1 R2 R3 R4 C1 C2 C3 C4 5,10 0,11 1,20 10,10 4,0 1,1 2,0 20,0 3,2 0,4 4,3 50,1 2,93 0,92 0,91 100,90 (1)Zero-order CKR: C not choose C4 for C is rational (2)1st-order CKR: R not choose R4 for R (b) C (3)2nd-order CKR: C not choose C1 for C(b)R(b)C (4)3rd-order CKR: R not choose R1 for R(b)C(b)R(b)C (5)4th-order CKR: C not choose C3 for C(b) R(b)C(b)R(b)C (6)5th-order CKR: R not choose R3 for R(b) C(b) R(b)C(b)R(b)C so, (R2,C2) is an equilibrium 不能用重复剔除解的博弈 • 许多博弈没有占优均衡,也没有重复剔除的占 优均衡。考虑如下博弈: C1 C2 C3 R1 R2 R3 0,4 4,0 5,3 4,0 0,4 5,3 3,5 3,5 6,6 可理性化的选择 • Rationalizable strategy: 不能被重复剔除的 战略;或者说,可以被合理的信念(belief) 所支持的行为; • 例如:R理性化选择R1: – 如果R(b)C 选择C2, – 如果R(b)C(b)R会选择R2; – 如果R(b)C(b)R(b)C会选择C1; – 如果R(b)C(b)R(b)C(b)R会选择R1 Consistently aligned beliefs (CAB) • 考虑(R3,C3):对方不会犯预期错误:R选 择R3,如果他认为C会选择C3;C会选择C3, 如果他认为R会选择R3。 • CAB:每个人对别人行为的预期(信念)是正 确的; • Harsanyi doctrine: 如果两个理性的人具有相同 的信息,他们一定会得出相同的推断和相同的 结论; • Robert Aumann: rational agents cannot agree to disagree. 纳什均衡与一致预期 • 纳什均衡:所有参与人的最优战略的组合:给 定该战略中别人的选择,没有人有积极性改变 自己的选择。 • 一致预期:基于信念的选择是合理的;支持选 择的信念是正确的; • 预期的自我实现:如何所有人认为这个结果会 出现,这个结果就会出现。预期是自我实现 的,预期不会错误。如果你认为我预期你将选 择X,你就真的会选择X
哲学思考 寻找纳什均衡 ·如果参与人事前达成一个协议,在不存在外部 强制的情况下,每个人都有积极性遵守这个协 议,这个协议就是纳什均衡。 a.1000.050,101 50,01 0,300 200,200 纳什均衡:举例 利用纳什均衡寻租 ·广告博弈 企业2 ·考虑股票市场融资的例子:设想企业价值是 100,现在发行的流通股为100股,每股价值1 元。现在假定经理想筹集100元,投资价值只 做广告 有50元。有人买新股吗? 假定每一股配4股,价格为 如果股东不 不做厂告卩,1510,10 接受配股:原来一股1元的价值就变成0.3元 (=150500) 接受配股,他持有的股票 价值是1.5元;因为配股的成本是1元,所以 ·纳什均衡:(做广告,做广告) 也的最优选择是接受配股 所有权配置与等级结构 纳什均衡与学习过程 ·考虑团队生产:让其中的一个人变成所 有者 工作偷懒 2,2
哲学思考 • 如果参与人事前达成一个协议,在不存在外部 强制的情况下,每个人都有积极性遵守这个协 议,这个协议就是纳什均衡。 寻找纳什均衡 C1 C2 C3 R1 R2 R3 100,100 0,0 50,101 50,0 1,1 60,0 0,300 0,0 200,200 纳什均衡:举例 • 广告博弈 • 纳什均衡:(做广告,做广告) 战略 做广告 不做广告 做广告 4, 4 15, 1 不做广告 1, 15 10, 10 企业1 企业2 利用纳什均衡寻租 • 考虑股票市场融资的例子:设想企业价值是 100,现在发行的流通股为100股,每股价值1 元。现在假定经理想筹集100元,投资价值只 有50元。有人买新股吗? • 假定每一股配4股,价格为0.25元。如果股东不 接受配股:原来一股1元的价值就变成0.3元 (=150/500);如果接受配股,他持有的股票 的价值是1.5元;因为配股的成本是1元,所以 他的最优选择是接受配股。 所有权配置与等级结构 • 考虑团队生产:让其中的一个人变成所 有者 工作 偷懒 工作 偷懒 6,6 2,2 0,8 8,0 纳什均衡与学习过程 R2 R1 NE q1 q2
双寡头竞争: Cournot博弈 双寡头竞争(续) ·两个企业同时选择产量,价格由市场决 企业最大化利润的一阶条件为 假定需求函数为P(Q)=a-(q1+q2) q1=R1(q2)= 其中q为企业1的产量,q2为企业2的产量 假定成本函数为:C(q)=cq 那么,利润函数为 ·纳什均衡产 I1,=92 P(0)-cq2=q(a-q, -c) 纳什均衡利润为nx-=m2=(g=C 垄断产量和垄断利润 划拳博弈 ·垄断企业的目标函数 ∏L=QF(Q-c=a-9-c) 老虎0,01,-1|0.0|-1,1 ·垄断产量 a-c 1,10,0|1,-10,0 垄断利润:m.(a-c) 杠子|1 混合战略纳什均衡 纳什均衡的存在性问题 ·有些博弈没有“纯战略”纳什均衡,但有 每一个有限博弈至少存在一个纳什均衡 混合战略纳什均衡,如监督博弈。 纯战略或混合战略) 偷懒不偷懒给定工人偷懒,老板的最优 如果一个博弈存在两个纯战略纳什均 衡,那么,一定存在第三个混合战略纳 监督 什均衡 不监督-2,32,2 人的最优选择是
双寡头竞争:Cournot博弈 • 两个企业同时选择产量,价格由市场决 定; • 假定需求函数为 其中 为企业1的产量, 为企业2的产量 • 假定成本函数为: • 那么,利润函数为: ( ) ( ) P Q = a − q1 + q2 2 q i i qi C(q ) = c ( ) ( ) ( ) ( ) 2 2 2 2 1 2 1 1 1 1 1 2 q P Q cq q a q q c q P Q cq q a q q c Π = − = − − − Π = − = − − − 1 q 双寡头竞争(续) • 企业最大化利润的一阶条件为: • 纳什均衡产量: • 纳什均衡利润为 2 2 ( ) 2 2 ( ) 1 2 2 2 2 1 1 2 a c q q R q a c q q R q − − = = − − = = 3 1 2 a c q q NE NE − = = 9 ( ) 2 1 2 NE NE a − c Π = Π = 垄断产量和垄断利润 • 垄断企业的目标函数: • 垄断产量: • 垄断利润: QP(Q) Qc Q(a Q c) ΠM = − = − − 2 a c QM − = 4 ( ) 2 a c M − Π = 划拳博弈 老虎 鸡 虫 杠子 老虎 鸡 虫 杠子 0,0 1,-1 0,0 -1,1 -1,1 0,0 1,-1 0,0 0,0 -1,1 0,0 1,-1 1,-1 0,0 -1,1 0,0 混合战略纳什均衡 • 有些博弈没有“纯战略”纳什均衡,但有 混合战略纳什均衡,如监督博弈。 监督 不监督 偷懒 不偷懒 1,-1 -1,2 -2,3 2,2 给定工人偷懒,老板的最优 选择是监督;给定老板监督, 工人的最优选择是不偷懒; 给定工人不偷懒,老板的最 优选择是不监督;给定老板 不监督,工人的最优选择是 偷懒;如此循环。 纳什均衡的存在性问题 • 每一个有限博弈至少存在一个纳什均衡 (纯战略或混合战略); • 如果一个博弈存在两个纯战略纳什均 衡,那么,一定存在第三个混合战略纳 什均衡
风险与均衡 有问题的纳什均衡? ·由于纳什均衡要求理性共识和一致预期,当人 们可能犯小小的错误时,纳什均衡不一定被选 择。如下面这个博弈中,多数人将选择“下”而 不是“上” 3,10.2 只要B有千分之一的 概念错误地选择右 23.2 上|8,10 000.9 怀疑A怀疑自己可能 犯错误,B将选择 下|7,66,5 右。所以,出现的不 是纳什均衡
风险与均衡 • 由于纳什均衡要求理性共识和一致预期,当人 们可能犯小小的错误时,纳什均衡不一定被选 择。如下面这个博弈中,多数人将选择 “ 下 ” 而 不是 “ 上 ” 。 上下 左 右 8, 10 -1000,9 7, 6 6, 5 只要 B有千分之一的 概念错误地选择右, A将选择下;如果B 怀疑 A怀疑自己可能 犯错误, B将选择 右。所以,出现的不 是纳什均衡 有问题的纳什均衡? C1 C2 C3 R1 R2 R3 2 , 2 3 , 1 0 , 2 1 , 3 2 ,2 3 , 2 2 , 0 2 , 3 2 , 2