正在加载图片...
远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推 理可以得到的事实是,一个局中人目前的做法将在未来将得到回应一一其他局中人的未来选择 可能依赖于这个局中人当前的选择。 现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种 情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈 先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如 重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行 次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其 结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中 人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。 但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就 没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然 而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有 采取背叛。同理不断向后归纳( backwards induction),结果最后一次移动之前的所有移动中, 合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动 中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次 数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合 再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。 此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益 在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人 在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局 中人的收益是各阶段收益的贴现值之总和一一贴现和(向时刻0贴现)。具体地说,设局中人在 时刻t的收益(即第t局重复中的收益)为u1(t=12,3,…),他在重复博弈中的收益就是贴现和 ∑=1u4/(1+r)3,其中r为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都 是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用 第一节例2提供的数据。 假设两个局中人一直合作,移动到了时刻T。如果本次移动中一个人决定背叛,那么另 个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩 罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本 次移动中立即得到了4000元的收益,但也以以后无限次的1000元收益这个低收益流来毁灭自 己,他从背叛中得到的收益贴现和为R1=4000+2m1000(4+)”=4001000元。另 方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴 现和为R2=30+∑m12300(1+n)”=3000+3000元。比较R和R2可知,只要贴现率 r<2,就有R1<R2。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其 以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方 就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现 率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略 以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该 定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那 么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确 叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是 如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现 并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的第八章 博弈论 237 远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推 理可以得到的事实是,一个局中人目前的做法将在未来将得到回应——其他局中人的未来选择 可能依赖于这个局中人当前的选择。 现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种 情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈。 先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如 重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一 次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其 结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中 人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。 但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就 没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然 而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有 采取背叛。同理不断向后归纳(backwards induction),结果最后一次移动之前的所有移动中, 合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动 中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次 数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合 作)”。 再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。 此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益 在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人 在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局 中人的收益是各阶段收益的贴现值之总和——贴现和(向时刻 0 贴现)。具体地说,设局中人在 时刻 t 的收益(即第 t 局重复中的收益)为 ut (t =1,2,3, ) ,他在重复博弈中的收益就是贴现和   =1 (1+ ) t t ut r ,其中 r 为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都 是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用 第一节例 2 提供的数据。 假设两个局中人一直合作,移动到了时刻 T 。如果本次移动中一个人决定背叛,那么另 一个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩 罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本 次移动中立即得到了 4000 元的收益,但也以以后无限次的 1000 元收益这个低收益流来毁灭自 己,他从背叛中得到的收益贴现和为 R r r n n 4000 1000 (1 ) 4000 1000 1 = +  1 + = +  = 元。另一 方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴 现和为 R r r n n 3000 3000 (1 ) 3000 3000 2 = +  1 + = +  = 元。比较 R1 和 R2 可知,只要贴现率 r  2 ,就有 R1  R2 。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其 以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方 就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现 率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。 以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该 定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那 么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确 叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是, 如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现 率,并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有