有限次博弈 第7章 ·第6章证明,只要未来足够重要,合作行 不完全信息与声誉 为可以是无限次重复博弈的精炼纳什均 ·但是,现实中许多博弈是有限次的,不 张维迎教授 是无限次的 北京大学光华管理学院 ·如果博弈重复的次数是有限的,无论重 复多少次,合作都不会出现。 “连锁店悖论( chain- store paradox) 逆向归纳 Selten(1978) ·假定在位者有20个市场。直观告诉我 们,如果进入者在第一个市场进入,在 位者应该选择斗争,因为尽管从一个市 场看,斗争是不值得的,但这样做可以 进入者 (-10,0) 遏止进入者在其他市场上的进入。 ·唯一的精炼纳什均衡是:进入者总是进 (0,100) 入;在位者总是默许。 Axelrod实验 问题在哪里 Axelrod(1981)实验表明:即使在有限 ·一个可能的原因在于:我们前面假定不仅参与 次博弈中,合作行为也频繁出现。 的理性是共同知识,而且每个参与人可以选 择的战略和效用函数都是共同知识。但现实不 这样 可能性:逆向归纳方法的问题(理性共识) 信息不完全: 正如我们前面讨论的谈判情况:如果信息是完 全的,谈判一开始就达成协议,但现实中的谈 判不是这样,原因在于信息不对称
第7章 不完全信息与声誉 张维迎 教授 北京大学光华管理学院 有限次博弈 • 第6章证明,只要未来足够重要,合作行 为可以是无限次重复博弈的精炼纳什均 衡。 • 但是,现实中许多博弈是有限次的,不 是无限次的。 • 如果博弈重复的次数是有限的,无论重 复多少次,合作都不会出现。 “连锁店悖论”(chain-store paradox) • Selten (1978); 进入者 在位者 进入 不进入 默许 斗争 (40,50) (-10,0) (0,100) 逆向归纳 • 假定在位者有20个市场。直观告诉我 们,如果进入者在第一个市场进入,在 位者应该选择斗争,因为尽管从一个市 场看,斗争是不值得的,但这样做可以 遏止进入者在其他市场上的进入。 • 唯一的精炼纳什均衡是:进入者总是进 入;在位者总是默许。 Axelrod 实验 • Axelrod(1981)实验表明:即使在有限 次博弈中,合作行为也频繁出现。 问题在哪里? • 一个可能的原因在于:我们前面假定不仅参与 人的理性是共同知识,而且每个参与人可以选 择的战略和效用函数都是共同知识。但现实不 是这样。 • 可能性:逆向归纳方法的问题(理性共识); 信息不完全; • 正如我们前面讨论的谈判情况:如果信息是完 全的,谈判一开始就达成协议,但现实中的谈 判不是这样,原因在于信息不对称
不完全信息 单方不完全信息 ·KMRW模型(1982) ·假定有两个参与人,A和B,进行囚徒困 如果参与人对其他参与人的效用函数和 境博弈。如下图 战略空间的信息不完全,即使博弈重复 ·参与人A有两种可能的类型:“非理性” 的次数是有限的,人们也有积极性建立 型:只有一种战略,tit- for -tat(TFT),或 一个合作的声誉( (reputation),合作会出 者 grim strategy,概率为p;“理性”型:可 以选择任何战略,概率为(1-p) 参与人B有一种类型:理性型。 对“非理性”的解释 囚徒困境博弈 ·特殊的成本函数或效用函数 ·讲义气、重情谊的人;内在化了 背叛 reciprocity社会规范的人 认知问题 1,4 博弈重复两次 第2阶段 ·参与人A:如果是理性的,选择“背叛”; 如果是非理性的,选择B在第1阶段的行 动 性型1)背叛 参与人B:选择“背叛 B(理性型)X
不完全信息 • KMRW模型(1982); • 如果参与人对其他参与人的效用函数和 战略空间的信息不完全,即使博弈重复 的次数是有限的,人们也有积极性建立 一个合作的声誉(reputation),合作会出 现。 单方不完全信息 • 假定有两个参与人,A和B,进行囚徒困 境博弈。如下图。 • 参与人A有两种可能的类型:“非理性” 型:只有一种战略,tit-for-tat (TFT),或 者grim strategy, 概率为p;“理性”型:可 以选择任何战略,概率为(1-p); • 参与人B有一种类型:理性型。 对“非理性”的解释 • 特殊的成本函数或效用函数; • 讲义气、重情谊的人;内在化了 reciprocity 社会规范的人; • 认知问题; 囚徒困境博弈 合作 背叛 合作背叛 3,3 -1,4 4,-1 0,0 A B 博弈重复两次 t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X 背叛 背叛 X 背叛 第2阶段 • 参与人A:如果是理性的,选择“背叛”; 如果是非理性的,选择B在第1阶段的行 动(X); • 参与人B:选择“背叛
第1阶段 B在第2阶段的选择 ·参与人A:如果是非理性的,选择“合 ·选择合作,期望效用是 作”;如果是理性的,选择“背叛” 3p+(-1)(1-p)+4p+0(1-p=8p-1 ·参与人B:如果选择合作,面临被背叛的 ·如果选择背叛,期望效用函数是 风险,但如果A是非理性的,可以换来第 2阶段的合作。 p+0(1-p)+0=4 ·最优选择是合作,如果:p>=0.25 结论:如果B认为A非理性的概率不小于 0.25,B在第1阶段会选择合作,即使博弈 只重复两次 博弈重复3次 参与人A(理性)的选择 ·如果A是理性的,在第2阶段和第3阶段一定会 选择背叛,但第1阶段也可能选择合作,因为 非理性(p)合作 建立一个合作的形象可以换取B在第2阶段的合 理性型(-p) 如果p>=025,并且A认为B在第1阶段会合作, 给定A在第2阶段合作的话B在在第2阶段也会 (理性型) 背叛 合作,那么A选择合作得到:3+4+0=7: 如果A选择背叛,得到:4+0+0=4: 所以合作是最优的 参与人B的选择 (合作,合作,背叛) B有四种战略: 合作,合作,背叛 (合作,背叛,背叛) 非理性(p) 合作X=合作X=合作 背叛,背叛,背叛) (背叛,合作,背叛) 理性型1-p)合作背叛背叛 预期效用= +(-1)(1-p)+4p+0=8p+2
第1阶段 • 参与人A:如果是非理性的,选择“合 作”;如果是理性的,选择“背叛”; • 参与人B:如果选择合作,面临被背叛的 风险,但如果A是非理性的,可以换来第 2阶段的合作。 B在第2阶段的选择 • 选择合作,期望效用是: • 3p+(-1)(1-p)+4p+0(1-p)=8p-1 • 如果选择背叛,期望效用函数是: • 4p+0(1-p)+0=4p • 最优选择是合作,如果:p>=0.25; • 结论:如果B认为A非理性的概率不小于 0.25, B在第1阶段会选择合作,即使博弈 只重复两次。 博弈重复3次 t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X ? 背叛 X X t=3 X 背叛 背叛 参与人A(理性)的选择 • 如果A是理性的,在第2阶段和第3阶段一定会 选择背叛,但第1阶段也可能选择合作,因为 建立一个合作的形象可以换取B在第2阶段的合 作; • 如果p>=0.25, 并且A认为B在第1阶段会合作, 给定A在第2阶段合作的话B在在第2阶段也会 合作,那么A选择合作得到:3+4+0=7; • 如果A选择背叛,得到:4+0+0=4; • 所以合作是最优的。 参与人B的选择 • B有四种战略: – (合作,合作,背叛); – (合作,背叛,背叛); – (背叛,背叛,背叛); – (背叛,合作,背叛) (合作,合作,背叛) t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X=合作 合作 背叛 X=合作 X=合作 t=3 X=合作 背叛 背叛 预期效用 = 3+ 3p+(-1)(1-p) + 4p+0=8p+2
(合作,背叛,背叛) (背叛,背叛,背叛) 非理性(p)合作 X=合作X=背叛 非理性(p)合作x=背叛x=背叛 合作 背叛背叛 背叛背叛 B(理性型) X=合作X=背叛背叛 B(理性型)x=背叛X=背叛背叛 预期效用 3+4p+0(1-p)+0=4p+3 预期效用 0=4 (背叛,合作,背叛) 8p+2(合作,合作,背叛 4p+3(合作,合作,背叛 (背叛,合作,背叛) (背叛,背叛,背 非理性(p)合作 X=背叛X=合作 B(理性型)x背叛X=合作背叛 预期效用=4+(-1)+4p+0(1-p=4p+3 结论 精炼纳什均衡 只要p>=0.25,下表所列战略组合是一个 精炼纳什均衡 理性型A在第1阶段选择合作,然后在第2和 非理性(p)合作X=合作x=合作 第3阶段选择背叛 B在第1和第2阶段选择合作,然后在第3阶段 理性型1-p)合作 背叛背叛 背叛 X=合作
(合作,背叛,背叛) t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X=合作 合作 背叛 X=合作 X=背叛 t=3 X=背叛 背叛 背叛 预期效用 = 3+ 4p+0(1-p) + 0 = 4p+3 (背叛,背叛,背叛) t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X=背叛 合作 背叛 X=背叛 X=背叛 t=3 X=背叛 背叛 背叛 预期效用 = 4+ 0 + 0 = 4 (背叛,合作,背叛) t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X=背叛 合作 背叛 X=背叛 X=合作 t=3 X=合作 背叛 背叛 预期效用 = 4+ (-1) +4p+0(1-p)= 4p+3 P=1 8p+2 (合作,合作,背叛) 0.2 4p+3 (合作,合作,背叛) (背叛,合作,背叛) 4(背叛,背叛,背叛) 结论 • 只要p>=0.25, 下表所列战略组合是一个 精炼纳什均衡: – 理性型A在第1阶段选择合作,然后在第2和 第3阶段选择背叛; – B在第1和第2阶段选择合作,然后在第3阶段 背叛。 精炼纳什均衡 t=1 t=2 A 非理性(p) 理性型(1-p) B (理性型) 合作 X=合作 合作 背叛 X=合作 X=合作 t=3 X=合作 背叛 背叛
一般结论 双方不完全信息 可以证明:如果博弈重复T次,只要p>=0.25, ·在单方不完全信息下,只要p0.25,不论 于所有的D>=3,下列战略组合构成一个精炼 纳什均衡:理性型A在t=1.T-2阶段选择合 博弈重复多少次,合作都不会出现 作,在T-1和阶段选择背叛:B在t=1.T-1阶 但如果双方信息不完全,即使小小的不 段选择合作,在最后阶段T选择背叛。 确定性也会导致合作行为,只要博弈重 背叛只在最后两阶段出现 复的次数足够多(但不需要是无限 次) ·原因在于,如果博弈重复的次数足够 长,没有任何一方愿意一开始就把自己 的名声搞坏 Grim Strategies 合作条件 ·假定非理性型选择 grim strategy, (p)(3T(l-p)>=4 如果A在一开始就选择背叛,暴露了自己是非 合作型的,从第2期开始的唯一的均衡是每个 人都背叛:所以A的最大预期收益为 所以,无论p多小,只要博弈重复的次数 4+0+0+.=4 足够大,一开始就选择背叛不是最优 ·假定选择如下战略:开始选择合作,直到对方 选择不合作,之后永远背叛。最小预期收益 p(3T+(1p)-1+0+0+=p(3TH(1-p) KMRW定理 大智若愚” 在不完全信息的情况下,只要博弈重复 ·应该树立什么样的形象? 的次数足够长,参与人就有积极性在博 ·合作与非合作 奔的早期建立一个“合作”的声誉:只是 在博弈的后期,才会选择背叛;并且, ·强硬与懦弱 非合作阶段的数量只与p有关,而与博弈 对“不理智”(情绪化)行为的新解释 的次数T无关。 看似不理性的行为其实是理性的
一般结论 • 可以证明:如果博弈重复T次,只要p>=0.25, 对于所有的T>=3, 下列战略组合构成一个精炼 纳什均衡:理性型A在t=1….T-2阶段选择合 作,在T-1和T阶段选择背叛;B在t=1….T-1阶 段选择合作,在最后阶段T选择背叛。 • 背叛只在最后两阶段出现。 双方不完全信息 • 在单方不完全信息下,只要p=4; • T*>=(5-p)/3p; • 所以,无论p多小,只要博弈重复的次数 足够大,一开始就选择背叛不是最优 的。 KMRW定理 • 在不完全信息的情况下,只要博弈重复 的次数足够长,参与人就有积极性在博 弈的早期建立一个“合作”的声誉;只是 在博弈的后期,才会选择背叛;并且, 非合作阶段的数量只与p有关,而与博弈 的次数T无关。 • 看似不理性的行为其实是理性的; “大智若愚” • 应该树立什么样的形象? • 合作与非合作; • 强硬与懦弱; • 对“不理智”(情绪化)行为的新解释;
解开“连锁店悖论” 声誉的积累 Selten(1978) (强硬斗争 P(强硬X P(强硬X+P(软弱》Fb(强硬) 进入着oi (-10.0) 举例 ·为什么越有名气的人越在乎自己的声 誉? ·(终身教授的激励问题); ·画家烦恼 ·政府的声誉 (中国与英国有关香港问题的争论)
解开“连锁店悖论” • Selten (1978); 进入者 在位者 进入 不进入 默许 斗争 (40,50) (-10,0) (0,100) 声誉的积累 (强硬) (强硬) (软弱) (强硬) 强硬斗争) P P X P Y P X P ≥ × + × × = ( 举例 • 为什么越有名气的人越在乎自己的声 誉? • (终身教授的激励问题); • 画家烦恼; • 政府的声誉; • (中国与英国有关香港问题的争论);