动态博弈 第四章 行动有先后顺序,不同的参与人在不同时点行 动,先行动者的选择影响后行动者的选择 动态博弈与承诺 可,后行动者可以观察到先行动者做了什么选 择,因此,为了做出最优的行动选择,每个参 张维迎 与人都必须这样思考问题:如果我如此选择, 付方将如何应对?如果我是他,我将会如何行 北京大学光华管理学院 动?给定他的应对,什么是我的最优选择? 下棋 博弈树( game tree 动态博弈中的战略 (-1,1) ·战略是一个完备的行动计划:在博弈开 始之前就规定出每一个决策点上的选 择,即使这个决策点实际上不会出现 ·考虑老师与学生之间考试之后的一个博 弈:老师先行动(判分),学生后行动 (在不同分数下如何应对)。假定学生 的实际成绩是不及格 战略表式下的纳什均衡 三个纳什均衡 学生 (及格;A,F);(不及格:F,A) A, F F, A A, A (不及格:A,A) ·问题:哪一个会出现呢? 0,-101,-11,1
第四章 动态博弈与承诺 张维迎 北京大学光华管理学院 动态博弈 • 行动有先后顺序,不同的参与人在不同时点行 动,先行动者的选择影响后行动者的选择空 间,后行动者可以观察到先行动者做了什么选 择,因此,为了做出最优的行动选择,每个参 与人都必须这样思考问题:如果我如此选择, 对方将如何应对?如果我是他,我将会如何行 动?给定他的应对,什么是我的最优选择? • 如下棋 博弈树(game tree) A B B 进入 不进入 进入 不进入 进入 不进入 (-1,-1) (1, 0) (0, 1) (0, 0) 动态博弈中的战略 • 战略是一个完备的行动计划:在博弈开 始之前就规定出每一个决策点上的选 择,即使这个决策点实际上不会出现。 • 考虑老师与学生之间考试之后的一个博 弈:老师先行动(判分),学生后行动 (在不同分数下如何应对)。假定学生 的实际成绩是不及格。 战略表式下的纳什均衡 及格不及格 老师 学生 A,F F,A A,A F,F -1,1 -10,-10 -1,1 -10,-10 -10,-10 1,-1 1,-1 -10,-10 三个纳什均衡 • (及格;A,F);(不及格;F,A); (不及格;A,A) • 问题:哪一个会出现呢?
不可置信的威胁( noncredible threat) 精炼纳什均衡( Perfect NE) 在(及格;A,F)和(不及格:F,A)中, 不可置信的行动的战略所组成的纳 学生“报复(F)”的威胁是不可信的:无论老 衡被称为“精炼纳什均衡”;也就是说,不 师判“及格”还是“不及格”,“报复”不是学生的 去发生了什么,构成精炼纳什均衡的战略,其 最优选择 所规定的行动在每一个决策点上都是最优的 事前( ex ante)和事后(expo 种战略所规 所以,又称为“序惯均衡” ( sequential 定的行动在事前看来是最优的,但事后看并不 equilibrium) 是当事人的最优选择,这种行动就不可置信, 首先必须是“纳什均衡”,但并非所有纳什均衡 该战略就不是一个合理的战略。 都是合理的;只有其战略不包含不可置信行动 的纳什均衡才是合理的。 子博弈( subgame) 子博弈精炼纳什均衡 ·由原博弈中某个决策点(信息集)开始 ·精炼纳什均衡:(1)在原博弈是一个纳 的部分构成一个子博弈 什均衡;(2)在每一个子博弈上都是纳 什均衡 ·考试博弈: (及格:A,F)在第二个子博弈上不构成纳什均 原博弈 子博弈1 (不及格:F,A)在第一个子博弈不构成纳什均 (不及格:A,A)在所有子博弈上都构成纳什均 考试博弈 逆向归纳法( backward induction) (-10,-10) ·在有限博弈中,我们可以用逆向归纳法 求解精炼纳什均衡:从最后一个决策点 开始,找出该子博弈的纳什均衡;然后 再倒回到倒数第二个决策点,找出决策 不及格学生报复一(10.-10) 者的最优决策(假定最后一个决策者的 决策是最优的);如此一直到初始决策 点,所有子博弈上的最优选择就是精炼 纳什均衡。又称“ rollback
不可置信的威胁(noncredible threat) • 在(及格;A,F)和(不及格;F,A)中, 学生“报复(F)”的威胁是不可信的:无论老 师判“及格”还是“不及格”,“报复”不是学生的 最优选择; • 事前(ex ante)和事后(ex post):一种战略所规 定的行动在事前看来是最优的,但事后看并不 是当事人的最优选择,这种行动就不可置信, 该战略就不是一个合理的战略。 精炼纳什均衡(Perfect NE) • 不包含不可置信的行动的战略所组成的纳什均 衡被称为“精炼纳什均衡”;也就是说,不论过 去发生了什么,构成精炼纳什均衡的战略,其 所规定的行动在每一个决策点上都是最优的。 所以,又称为“序惯均衡”(sequential equilibrium); • 首先必须是“纳什均衡”,但并非所有纳什均衡 都是合理的;只有其战略不包含不可置信行动 的纳什均衡才是合理的。 子博弈(subgame) • 由原博弈中某个决策点(信息集)开始 的部分构成一个子博弈。 1 2 3 2 3 原博弈 子博弈I 子博弈II 子博弈精炼纳什均衡 • 精炼纳什均衡:(1)在原博弈是一个纳 什均衡;(2)在每一个子博弈上都是纳 什均衡。 • 考试博弈: – (及格;A,F)在第二个子博弈上不构成纳什均 衡; – (不及格;F,A)在第一个子博弈不构成纳什均 衡; – (不及格;A,A)在所有子博弈上都构成纳什均 衡。 老师 学生 学生 及格 不及格 报复 接受 报复 接受 (-10,-10) (-1, 1) (-10, -10) (1, -1) 考试博弈 逆向归纳法(backward induction) • 在有限博弈中,我们可以用逆向归纳法 求解精炼纳什均衡:从最后一个决策点 开始,找出该子博弈的纳什均衡;然后 再倒回到倒数第二个决策点,找出决策 者的最优决策(假定最后一个决策者的 决策是最优的);如此一直到初始决策 点,所有子博弈上的最优选择就是精炼 纳什均衡。又称“rollback
举例 均衡路径与非均衡路径 (2,Q) 练 纳什均衡下所经过的决策点和最优选择构 勺路径,称为均衡路径( equilibrium path) ·其他的路径是非均衡路径(or- equilibrium ·均衡结果依赖于非均衡路径上的选择:1之所 以一开始就选择U,是因为他预期如果选择D 的话,2将选择L:而2只所以选择L,是因为她 预期如果选择R的话,1将选择U 精炼均衡与理性共识 先动优势与后动优势 ·逆向归纳的过程实际上就是重复剔除劣 ·在动态博弈中,行动总有先后顺序。有些博弈 战略的过程,其前提是博弈规则和理性 具有先动优势( first-mover advantage),但有些博 共识:每个人是理性的,每个人知道每 弈具有后动优势 (second- mover advantage) 个人是理性的,如此等等 ·产量竞争具有先动优势,而价格竞争可能是后 ·因此,精炼纳什均衡的合理性取决于理 性共识的合理性。后面再讨论。 开会发言? ·在不完全信息下,顺序更重要 但有些博弈既没有先动优势,也没有后动优 势,如抓阄 练习:数30博弈 不可置信威胁 数30游戏 冻纳什均衡剔除了不可置信的威胁,使得我们可以 更合理地对博弈中参与人行为的预测 两个人,交替选择数字,每次只能选择一个 或两个数字。 不可置信威胁的根源是事前最优与事后最优不同,导 致许多帕累托效率无法实现 每次可以选择1-3个数字呢? 劫机事件为什么会发生? ·管教孩子为什么困难 家族企业为什么难以实行制度化管理? 大企业为什么效率低?(TBTF) 研究生录取中的问题
举例 1 2 1 (2,0) (5,0) (4,2) (1,1) U D R L U’ D’ 均衡路径与非均衡路径 • 精炼纳什均衡下所经过的决策点和最优选择构 成的路径,称为均衡路径(equilibrium path); • 其他的路径是非均衡路径(off-equilibrium path); • 均衡结果依赖于非均衡路径上的选择:1之所 以一开始就选择U,是因为他预期如果选择D 的话,2将选择L;而2只所以选择L,是因为她 预期如果选择R的话,1将选择U’。 精炼均衡与理性共识 • 逆向归纳的过程实际上就是重复剔除劣 战略的过程,其前提是博弈规则和理性 共识:每个人是理性的,每个人知道每 个人是理性的,如此等等。 • 因此,精炼纳什均衡的合理性取决于理 性共识的合理性。后面再讨论。 先动优势与后动优势 • 在动态博弈中,行动总有先后顺序。有些博弈 具有先动优势(first-mover advantage),但有些博 弈具有后动优势(second-mover advantage). • 产量竞争具有先动优势,而价格竞争可能是后 动优势; • 开会发言? • 在不完全信息下,顺序更重要。 • 但有些博弈既没有先动优势,也没有后动优 势,如抓阄。 练习:数30博弈 • 数30游戏: – 两个人,交替选择数字,每次只能选择一个 或两个数字。 – 每次可以选择1-3个数字呢? 不可置信威胁 • 精炼纳什均衡剔除了不可置信的威胁,使得我们可以 更合理地对博弈中参与人行为的预测; • 不可置信威胁的根源是事前最优与事后最优不同,导 致许多帕累托效率无法实现; • 劫机事件为什么会发生? • 管教孩子为什么困难? • 家族企业为什么难以实行制度化管理? • 大企业为什么效率低?(TBTF) • 研究生录取中的问题;
承诺 举例:如果1承诺不选择U ·承诺是将不可置信的威胁变成可置信的威胁的 行动:威胁不仅是事前最优的,也是事后最优 的 承诺意味着限制自己的自由:选择少反而对自 ·如“破釜沉舟”的故事。 围城战略 承诺举例 最惠条款 ·婚姻中的承诺:彩礼、昂贵的婚礼可以 ·生产耐用品的企业经常被“降价预期”所 理解为一种对婚姻的承诺 困扰:如果消费者预期企业将降价,他 订金、抵押物做为对交易的承诺 们将会等待,结果,企业只能降价。如 ·“安营扎寨”; 汽车行业面临的问题 ·固定资产投资可以作为承诺 最惠条款可以起到承诺的作用:企业不 ·所有权的承诺作用 会降价了。 例子 大学改革:不升即走( up-or-ou) 产量价格收入假定企业一开始定价80 如果前两个消费者购买了 ·没有这样的制度,人才就可能得不到公 100100企业将有积极性在50的 正的评价 格下向第三个顾客出售 “不升即走”是大学对教员的承诺:不会 预期到这一点,前两个顾 压制优秀人才。 向顾客保证,任何降价的 差额将返还顾客,前两个 顾客将会购买。因为企业 4|30120事实上不会降价了
承诺 • 承诺是将不可置信的威胁变成可置信的威胁的 行动:威胁不仅是事前最优的,也是事后最优 的。 • 承诺意味着限制自己的自由:选择少反而对自 己好。 • 如“破釜沉舟”的故事。 • 围城战略。 举例:如果1承诺不选择U’ 1 2 1 (2,0) (5,0) (4,2) (1,1) U D R L U’ D’ 承诺举例 • 婚姻中的承诺:彩礼、昂贵的婚礼可以 理解为一种对婚姻的承诺; • 订金、抵押物做为对交易的承诺; • “安营扎寨”; • 固定资产投资可以作为承诺; • 所有权的承诺作用; 最惠条款 • 生产耐用品的企业经常被“降价预期”所 困扰:如果消费者预期企业将降价,他 们将会等待,结果,企业只能降价。如 汽车行业面临的问题; • 最惠条款可以起到承诺的作用:企业不 会降价了。 例子 产量 价格 收入 1 2 3 4 100 80 40 30 100 160 120 120 假定企业一开始定价80, 如果前两个消费者购买了, 企业将有积极性在50的价 格下向第三个顾客出售。 预期到这一点,前两个顾 客将不会购买。如果企业 向顾客保证,任何降价的 差额将返还顾客,前两个 顾客将会购买。因为企业 事实上不会降价了。 大学改革:不升即走(up-or-out) • 没有这样的制度,人才就可能得不到公 正的评价; • “不升即走”是大学对教员的承诺:不会 压制优秀人才
Up-or-out博弈 画家和政府的苦恼 老制度 新制度 (4,4) ·名画的价值取决于数量,画家常为无法承诺而 苫恼:谁相信他不会再画呢?这可能是为什么 已故画家的画最值钱 不提升 政府也有类似的问题。政府经常缺乏承诺:给 (1,7) (x,0) 主投资者进入的情况下,多征税是最优的;但 不努力 投资者预期到这一点,将不愿意进入 中国许多地方支付有严重的机会主义行为。 不提升 “坦白从宽,抗拒从严”面临的问题也如此 (y,0) 作为承诺的法律 有限政府( limited government) ·法律改变事后的选择空间或选择成本,所以可 ·市场要求有限政府:政府不仅要保护个 以起到承诺的作用 人的基本权利不受其他人的侵犯,而且 ·合同的承诺作用(违约的成本增加,使得遵守 要把尊重这些权利作为对政府行为的限 合同更可能是事后最优的选择) 制。如果政府的自由裁量权过大,政府 刑法:为什么不能商量?为什么对严重犯罪要 官员为所欲为,政府本身会受到损害 执行死刑? 台湾问题:立法还是政府随机应变? 这里的关键是:老百姓与政府之间的博 法治” (rule of law)是政府的承诺 光荣革命与英国政府的财政 ·年份总收入总支出总国债 ·1668-16881.92.1 2.0 4.1 ·1697 3.37916.7 5.654.0 ·1770 l1410.5130.6 &od9.. 12.522.61672 ·1790 17.016.8244.0
Up-or-out 博弈 教员 学校 学校 努力 不努力 提升 不提升 提升 不提升 (4, 4) (1, 7) (3, 3) (2, 4) (4, 4) (x, 0) (3, 3) (y, 0) 老制度 新制度 画家和政府的苦恼 • 名画的价值取决于数量,画家常为无法承诺而 苦恼:谁相信他不会再画呢?这可能是为什么 已故画家的画最值钱。 • 政府也有类似的问题。政府经常缺乏承诺:给 定投资者进入的情况下,多征税是最优的;但 投资者预期到这一点,将不愿意进入。 • 中国许多地方支付有严重的机会主义行为。 • “坦白从宽,抗拒从严”面临的问题也如此。 作为承诺的法律 • 法律改变事后的选择空间或选择成本,所以可 以起到承诺的作用; • 合同的承诺作用(违约的成本增加,使得遵守 合同更可能是事后最优的选择); • 刑法:为什么不能商量?为什么对严重犯罪要 执行死刑? • 台湾问题:立法还是政府随机应变? • “法治”(rule of law)是政府的承诺; 有限政府(limited government) • 市场要求有限政府:政府不仅要保护个 人的基本权利不受其他人的侵犯,而且 要把尊重这些权利作为对政府行为的限 制。如果政府的自由裁量权过大,政府 官员为所欲为,政府本身会受到损害; • 这里的关键是:老百姓与政府之间的博 弈。 光荣革命与英国政府的财政 • 年份 总收入 总支出 总国债 • 1668-1688 1.9 2.1 2.0 • 1695 4.1 6.2 8.4 • 1697 3.3 7.9 16.7 • 1720 6.3 5.6 54.0 • 1770 11.4 10.5 130.6 • 1780 12.5 22.6 167.2 • 1790 17.0 16.8 244.0 0 2 4 6 8 10 12 14 16 18 1620 1630 1645 1660 1670 1680 1691 1697
主权债模型 政府的举债能力 ·假定政府借D的债务,利息率是r,贷款 人对政府所能实施的最大可信惩罚是P, H 那么,如果D(1+r)P(a),政府将还钱 否则政府将不还钱。所以政府的举债能 力为D<P(ay(1+r) 英国光荣革命通过制度变迁(改变a提高 了国王违约时面临的最大可能惩罚P(a) 英国光荣革命 逆向归纳的问题 光荣革命前,国王可以随意单方面修改借款条 款,拖延甚至拒绝支付;利用外国商人瓦解债 权人之间的联盟。所以债权人不愿意向政府贷 款 D 光荣革命后:决定国债的权力在议会,议会主 要由潜在债权人组成,可以推翻国王;BANK OF ENGLAND统一协调债权的行动,因为对通 (4,1) (3,4) 过优先权的规定限制了政府“离间”债权人的可 能。违约的惩罚变大了,政府举债的能力提高 Counterfactual Problem 人们为什么会受骗? ·犯错误的可能( trembling hand) ·如房地产 ·参与人是非理性的( automation ·政治运动: 假装非理性 理性非共识
主权债模型 L D G L L H R P(a) P(a) 政府的举债能力 • 假定政府借D的债务,利息率是r,贷款 人对政府所能实施的最大可信惩罚是P, 那么,如果D(1+r)<P(a),政府将还钱, 否则政府将不还钱。所以政府的举债能 力为D<P(a)/(1+r)。 • 英国光荣革命通过制度变迁(改变a)提高 了国王违约时面临的最大可能惩罚P(a)。 英国光荣革命 • 光荣革命前,国王可以随意单方面修改借款条 款,拖延甚至拒绝支付;利用外国商人瓦解债 权人之间的联盟。所以债权人不愿意向政府贷 款; • 光荣革命后:决定国债的权力在议会,议会主 要由潜在债权人组成,可以推翻国王;BANK OF ENGLAND统一协调债权的行动,因为对通 过优先权的规定限制了政府“离间”债权人的可 能。违约的惩罚变大了,政府举债的能力提高 了。 逆向归纳的问题: A B B D U D U D U (2,-1) (1,2) (4, 1) (3,4) A (6,3) D U Counterfactual Problem • 犯错误的可能(trembling hand); • 参与人是非理性的(automation assumption); • 假装非理性; • 理性非共识 人们为什么会受骗? • 如房地产; • 政治运动;
The ultimatum game 同班同学 总数给对方最低接受 ·两人之间分配一笔钱,其中一个人提出 方案,另一个人可以接受,也可以拒 绝:如果接受,每人得到方案规定的份 额:如果拒绝,没有人得到任何东西。 10048.17 ·什么是这个博弈的精练纳什均衡? 100046308 ·实验结果 100045374 3595.13 2.北京大学同学 3.陌生人 给对方 最低接受 总数 给对方 最低接受 4.05 35.04 409.26 370.17 1000 343.ll 10000 3880.78 353968 3134.37312778
The ultimatum game • 两人之间分配一笔钱,其中一个人提出 方案,另一个人可以接受,也可以拒 绝;如果接受,每人得到方案规定的份 额;如果拒绝,没有人得到任何东西。 • 什么是这个博弈的精练纳什均衡? • 实验结果: 1.同班同学 总数 给对方 最低接受 10 4.9 3.39 100 48.17 35.64 1000 463.08 363.45 10000 4537.43 3595.13 2.北京大学同学 总数 给对方 最低接受 10 4.57 3.74 100 43.26 37.72 1000 409.26 370.17 10000 3880.78 3539.68 3.陌生人 总数 给对方 最低接受 10 4.09 4.05 100 35.41 35.04 1000 343.11 342.67 10000 3134.37 3127.78