第八章博弈论 前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策 相互影响的问题。本章讨论这个问题,建立复杂环境下的决策理论。开展这种研究的的理论叫 做博弈论,也称为对策论( Game Theory)。最近十几年来,博弈论在经济学中得到了广泛应用 在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情 况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的 思想精髓与方法,已成为经济分析基础的必要组成部分。 第一节博弈事例 博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双 方的目的都是要战胜对方,互不相容,互相影响,互相制约。一般来讲,博弈现象的特征表现 为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的 行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时 博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局 中人( player)。 博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的 情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局 中人都必须考虑其他局中人面临的问题。下面来举例说明 例1.便士匹配( Matching Pennies)(二人零和博弈) 设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否 正面朝上。局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢 得1元,乙输掉1元:如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输 掉1元,乙赢得1元。 对于这个博弈,每个局中人可选择的策略都有两种 衰1:便士匹配博弈局势表 正面朝上和反面朝上,即甲和乙的策略集合都是{正面, 正面 反面 反面}。当甲和乙都作出选择时,博弈的局势就确定了。 显然,该博弈的局势集合是{(正面,正面),(正面,反面),饭反L正面(正,正)(正,反) 面,正面),(反面,反面)},即各种可能的局势的全体,也称 为局势表,即表1 每个局中人的收益都取决于所有局中人的决策,也就是说,局中人的收益是博弈局势的 函数。本例中,甲的收益函数∫为:f(正,正)=1, 表2:甲和乙的收益表 f(正,反)=-1,f(反,正)=-1,f(反,反)=1;乙的收益函 数g为:g(正,正) g(正,反)=1,g(反 g(反,反)=-1。局中人的收益函数也可用表格或矩阵加以 表示,并称其为收益表或收益矩阵。表2中,甲的收益列 在左边,乙的收益列在右边
第八章 博弈论 228 第八章 博弈论 前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策 相互影响的问题。本章讨论这个问题,建立复杂环境下的决策理论。开展这种研究的的理论叫 做博弈论,也称为对策论(Game Theory)。最近十几年来,博弈论在经济学中得到了广泛应用, 在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情 况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的 思想精髓与方法,已成为经济分析基础的必要组成部分。 第一节 博弈事例 博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双 方的目的都是要战胜对方,互不相容,互相影响,互相制约。一般来讲,博弈现象的特征表现 为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的 行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时, 博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局 中人(player)。 博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的 情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局 中人都必须考虑其他局中人面临的问题。下面来举例说明。 例 1.便士匹配(Matching Pennies)(二人零和博弈) 设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否 正面朝上。局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢 得1元,乙输掉1元;如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输 掉1元,乙赢得1元。 对于这个博弈,每个局中人可选择的策略都有两种: 正面朝上和反面朝上,即甲和乙的策略集合都是{正面, 反面}。当甲和乙都作出选择时,博弈的局势就确定了。 显然,该博弈的局势集合是{(正面,正面),(正面,反面),(反 面,正面),(反面,反面)},即各种可能的局势的全体,也称 为局势表,即表 1。 每个局中人的收益都取决于所有局中人的决策,也就是说,局中人的收益是博弈局势的 函数。本例中,甲的收益函数 f 为: f (正,正) =1 , f (正,反) = −1, f (反,正) = −1, f (反,反) =1 ;乙的收益函 数 g 为: g(正,正) = −1 , g(正,反) =1 , g(反,正) =1 , g(反,反) = −1 。局中人的收益函数也可用表格或矩阵加以 表示,并称其为收益表或收益矩阵。表 2 中,甲的收益列 在左边,乙的收益列在右边。 表 1: 便士匹配博弈局势表 乙 甲 正面 反面 正面 (正,正) (正,反) 反面 (反,正) (反,反) 表 2: 甲和乙的收益表 乙 甲 正面 反面 正面 1 , −1 −1 , 1 反面 −1 , 1 1 , −1
该博弈的特点在于每个局中人的收益都是另一个局中人的付出,即甲和乙的收益之和为 零,收支发生在局内,不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上,人们 喜欢把二人博弈的第一个局中人甲叫做“列”,第二个局中人乙叫做“行”,而且总是把列的收 益写在前面(即左边),行的收益写在后面(即右边)。 例2.囚徒难题( Prisoner' s Delimma)(二人变和博弈) 有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作,拒绝 供出任何犯罪事实;也可以选择背叛,供出对方的犯罪行径。这就是所谓的囚徒博弈,也叫做 囚徒难题。博弈的局中人甲和乙都有两种可选择的策略:合作与背叛。 囚徒博弈的意义在于它可以解释寡头垄断厂商的 表3:囚徒博弈局势表 行为,关键是赋予合作与背叛具体的经济含义。比如 在双头垄断的情况下,合作可以解释为“保持索要 合作 背叛 个高价”,背叛可解释为“降价以争夺对手的市场’。匚合作【合作合作)(合作背叛 右表给出了囚徒博弈的局势表。 背叛(背叛合作)(背叛背叛 局中人可以事先讨论这局博弈,但实际决策必须 独立地做出。如果甲采取合作策略,不供出乙的犯罪事实,那么乙就能得到3000元的收益 同样,如果乙采取合作策略,那么甲就能得到3000元的收益。可见,如果甲乙双方都采取合 作策略,双方各得3000元收益。 但是,审讯者用1000元奖赏来鼓励局中人采取背叛策略。这样,只要局中人选择背叛, 他就会得到1000元鼓励,而不管另一个局中人会采取什么策略 需要注意的是,囚徒博弈中的货币支付来自第三方一一局外人,这正是囚徒博弈同便士 匹配博弈的不同之处。奥曼( Aumann)1987年对囚徒博弈给出了一个特别简单的描述:每个局 中人都可以对仲裁人简单地宣告“给我1000元”或“给对方3000元”。 简单分析一下就会发现,如果一个局中人 采取合作策略,而另一个局中人采取背叛策略, 表4:甲和乙的收益表 那么采取合作策略的局中人的收益为零,而采 合作 背叛 取背叛策略的局中人的收益为4000元(3000元 收益再加上1000元的背叛鼓励)。如果双方都 背叛 4000, 010001000 采取背叛策略,则双方的收益各为1000元。表 4列出了甲乙双方的收益情况。从收益表可以看出,甲乙双方的收益之和不为零,而且收益和 是变化的。因此,囚徒博弈是一种变和博弈 直觉上看,甲和乙都应采取合作策略(互不供出对方的犯罪事实),各得3000元收益。但 从收益表可以得出这样的结论:如果一个局中人认为另一个局中人将合作,从而他将得到3000 元收益,那么他若采取背叛策略,就将总共能获得4000元的收益:如果他认为另一个局中人 为了得到1000元鼓励而将背叛,那么他也就只好为了自己也取得1000元鼓励而采取背叛策略 (否则,他将一无所获)。总之,在收益最大化动机的驱使下,局中人的最优选择是背叛。这样 一来,甲乙双方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3000元 这是一个典型的博弈悖论,问题的关键在于每个局中人都有背叛的鼓励,而不管其他局中人将 做什么 例3.古诺博弈(双头垄断:产量较量) 法国经济学家古诺( Cournot)于1838年以天然矿泉井为例,首次建立了简单的双头垄断 博弈模型,其特点是,垄断厂商双方都天真地以为对方不会改变原有产量水平,双方都追求各 自利润最大化。古诺假定:①有两个天然矿泉在一起,分别为厂商甲和乙占有:②两个矿泉都 为自流井,生产成本为零,边际成本也为零;③甲和乙面对相同的需求曲线,采用相同的价格 ④双方都以为对方的产量水平不会改变。在这些假设前提下,甲和乙各自独立决定自己的产量
第八章 博弈论 229 该博弈的特点在于每个局中人的收益都是另一个局中人的付出,即甲和乙的收益之和为 零,收支发生在局内,不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上,人们 喜欢把二人博弈的第一个局中人甲叫做“列”,第二个局中人乙叫做“行”,而且总是把列的收 益写在前面(即左边),行的收益写在后面(即右边)。 例 2.囚徒难题(Prisoner's Delimma)(二人变和博弈) 有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作,拒绝 供出任何犯罪事实;也可以选择背叛,供出对方的犯罪行径。这就是所谓的囚徒博弈,也叫做 囚徒难题。博弈的局中人甲和乙都有两种可选择的策略:合作与背叛。 囚徒博弈的意义在于它可以解释寡头垄断厂商的 行为,关键是赋予合作与背叛具体的经济含义。比如 在双头垄断的情况下,合作可以解释为“保持索要一 个高价”,背叛可解释为“降价以争夺对手的市场”。 右表给出了囚徒博弈的局势表。 局中人可以事先讨论这局博弈,但实际决策必须 独立地做出。如果甲采取合作策略,不供出乙的犯罪事实,那么乙就能得到 3000 元的收益。 同样,如果乙采取合作策略,那么甲就能得到 3000 元的收益。可见,如果甲乙双方都采取合 作策略,双方各得 3000 元收益。 但是,审讯者用 1000 元奖赏来鼓励局中人采取背叛策略。这样,只要局中人选择背叛, 他就会得到 1000 元鼓励,而不管另一个局中人会采取什么策略。 需要注意的是,囚徒博弈中的货币支付来自第三方——局外人,这正是囚徒博弈同便士 匹配博弈的不同之处。奥曼(Aumann)1987 年对囚徒博弈给出了一个特别简单的描述:每个局 中人都可以对仲裁人简单地宣告“给我 1000 元”或“给对方 3000 元”。 简单分析一下就会发现,如果一个局中人 采取合作策略,而另一个局中人采取背叛策略, 那么采取合作策略的局中人的收益为零,而采 取背叛策略的局中人的收益为 4000 元(3000 元 收益再加上 1000 元的背叛鼓励)。如果双方都 采取背叛策略,则双方的收益各为 1000 元。表 4 列出了甲乙双方的收益情况。从收益表可以看出,甲乙双方的收益之和不为零,而且收益和 是变化的。因此,囚徒博弈是一种变和博弈。 直觉上看,甲和乙都应采取合作策略(互不供出对方的犯罪事实),各得 3000 元收益。但 从收益表可以得出这样的结论:如果一个局中人认为另一个局中人将合作,从而他将得到 3000 元收益,那么他若采取背叛策略,就将总共能获得 4000 元的收益;如果他认为另一个局中人 为了得到 1000 元鼓励而将背叛,那么他也就只好为了自己也取得 1000 元鼓励而采取背叛策略 (否则,他将一无所获)。总之,在收益最大化动机的驱使下,局中人的最优选择是背叛。这样 一来,甲乙双方都采取背叛策略,各得 1000 元收益;而不是都采取合作策略,各得 3000 元。 这是一个典型的博弈悖论,问题的关键在于每个局中人都有背叛的鼓励,而不管其他局中人将 做什么。 例 3.古诺博弈(双头垄断:产量较量) 法国经济学家古诺(Cournot)于 1838 年以天然矿泉井为例,首次建立了简单的双头垄断 博弈模型,其特点是,垄断厂商双方都天真地以为对方不会改变原有产量水平,双方都追求各 自利润最大化。古诺假定:①有两个天然矿泉在一起,分别为厂商甲和乙占有;②两个矿泉都 为自流井,生产成本为零,边际成本也为零;③甲和乙面对相同的需求曲线,采用相同的价格; ④双方都以为对方的产量水平不会改变。在这些假设前提下,甲和乙各自独立决定自己的产量 表 3: 囚徒博弈局势表 乙 甲 合作 背叛 合作 (合作,合作) (合作,背叛) 背叛 (背叛,合作) (背叛,背叛) 表 4: 甲和乙的收益表 乙 甲 合作 背叛 合作 3000, 3000 0, 4000 背叛 4000, 0 1000, 1000
水平,以求利润最大化。 设P=(Q是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为Q1,乙的产量为Q2 时,矿泉水的市场价格为P=(Q1+Q2),甲的利润x1=PQ1,乙的利润为2=PQ2。在这 个博弈中,甲乙双方的策略都表现为选择产量水平,局中人的收益即为厂商的利润。当甲的产 量为Q1时,乙以为甲不会改变这一产量,而选择一个合适的产量水平Q2以使自己的利润丌2达 到最大。同样,当乙的产量水平为Q2时,甲以为乙不会改变这一产量,而选择一个合适的产 量水平Q1以使自己的利润x1达到最大 为了说明这个博弈的结果,假设甲乙双方面临的反需求函数P=(Q)=P-kQ。用Q1表 示这局博弈中甲选择的最优产量,Q2表示乙选择的最优产量水平,则甲乙各自的收益分别为 丌1=(B+k(Q1+Q2)Q1和丌2=(P+k(Q1+Q2)Q2。由于实现了利润最大化,因此 解之得:当乙的产量水平为Q2时,甲决定的产量水平为Q1=(Q0-Q2)/2(这是甲对乙的反应 函数):当甲的产量水平为Q1时,乙决定的产量水平为Q2=(Q0-Q1)2(这是乙对甲的反应 函数)。其中,Q0=P/k表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解 可得:Q1=Q2=Q0/3,即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说 明,古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他局中人的决策,而且与市 场的容量有关 例4.贝特兰博弈(双头垄断:价格较量) 古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并 不如价格较量那么普遍,寡头之间应该有激烈的价格竞争。不论市场价格如何,只要某一厂商 降低价格,而其他竞争对手保持原价格不变,那么降价厂商就能占有全部市场。这就是说,我 们假定消费者只从最低价格厂商那里购买产品。为此,法国经济学家贝特兰( Bertrand)于1883 年提出了以价格为选择策略的贝特兰博弈模型,反对古诺关于产量的博弈模型。 还以矿泉水为例,在贝特兰博弈模型中各厂商都预期对手不会改变价格,从而将自己的 价格确定在利润最大化的水平之上。这就是说,贝特兰博弈的构建同古诺博弈相似,所不同的 是贝特兰博弈中局中人的策略是选择价格,而古诺博弈局中人的策略是选择产量水平 贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数,不过现在价格是自变量, 产量为因变量(古诺模型正好相反)。设市场需求函数为Q=D(P),为了分析上简单起见,进 一步设Q=Q0-bP(这里,Q0=P/k,b=1/k,即与古诺模型中的市场需求相同)。局中人的 收益仍是他所获得的利润。 如果甲和乙不相互勾结串通,当乙采取了价格水平P2时,甲认为乙不会改变这一价格水 平,从而为了占领市场而要采取低于乙的价格水平P2的价格P1,于是甲的利润为 丌1=BD(P),乙的利润为零;同样,当甲采取了价格水平P时,乙认为甲不会改变这一价 格水平,从而为了占领市场而要采取低于甲的价格水平P1的价格P2,于是乙的利润为 PD(P2),甲的利润为零 如果甲和乙相互勾结串通起来,采取相同的价格策略,即P=P2,那么甲和乙就能索要 个垄断价格,并且每人可收取一半的垄断利润。 由此可见,甲和乙的利润函数分别为: BD(P),当1P2时 1=x1(P,P2)={BD(P)2,当=B2时,x2=丌2(1,P1)={PD(B2)/2,当=P时 当f>P2时 时
第八章 博弈论 230 水平,以求利润最大化。 设 P =(Q) 是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为 Q1 ,乙的产量为 Q2 时,矿泉水的市场价格为 ( ) P = Q1 + Q2 ,甲的利润 1 = PQ1 , 乙的利润为 2 = PQ2 。在这 个博弈中,甲乙双方的策略都表现为选择产量水平,局中人的收益即为厂商的利润。当甲的产 量为 Q1 时,乙以为甲不会改变这一产量,而选择一个合适的产量水平 Q2 以使自己的利润 2 达 到最大。同样,当乙的产量水平为 Q2 时,甲以为乙不会改变这一产量,而选择一个合适的产 量水平 Q1 以使自己的利润 1 达到最大。 为了说明这个博弈的结果,假设甲乙双方面临的反需求函数 P =(Q) = P0 − kQ 。用 Q1 表 示这局博弈中甲选择的最优产量, Q2 表示乙选择的最优产量水平,则甲乙各自的收益分别为 1 0 1 2 1 = (P + k(Q + Q ))Q 和 2 0 1 2 2 = (P + k(Q + Q ))Q 。由于实现了利润最大化,因此 0, 0 2 2 1 1 = = Q Q 解之得:当乙的产量水平为 Q2 时,甲决定的产量水平为 Q1 = (Q0 − Q2 ) 2 (这是甲对乙的反应 函数);当甲的产量水平为 Q1 时,乙决定的产量水平为 Q2 = (Q0 − Q1 ) 2 (这是乙对甲的反应 函数)。其中, Q P k 0 = 0 表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解 可得: Q1 = Q2 = Q0 3, 即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说 明,古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他局中人的决策,而且与市 场的容量有关。 例 4.贝特兰博弈(双头垄断:价格较量) 古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并 不如价格较量那么普遍,寡头之间应该有激烈的价格竞争。不论市场价格如何,只要某一厂商 降低价格,而其他竞争对手保持原价格不变,那么降价厂商就能占有全部市场。这就是说,我 们假定消费者只从最低价格厂商那里购买产品。为此,法国经济学家贝特兰(Bertrand)于 1883 年提出了以价格为选择策略的贝特兰博弈模型,反对古诺关于产量的博弈模型。 还以矿泉水为例,在贝特兰博弈模型中各厂商都预期对手不会改变价格,从而将自己的 价格确定在利润最大化的水平之上。这就是说,贝特兰博弈的构建同古诺博弈相似,所不同的 是贝特兰博弈中局中人的策略是选择价格,而古诺博弈局中人的策略是选择产量水平。 贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数,不过现在价格是自变量, 产量为因变量(古诺模型正好相反)。设市场需求函数为 Q = D(P) , 为了分析上简单起见,进 一步设 Q = Q0 − bP (这里, Q P k 0 = 0 , b =1 k ,即与古诺模型中的市场需求相同)。局中人的 收益仍是他所获得的利润。 如果甲和乙不相互勾结串通,当乙采取了价格水平 P2 时,甲认为乙不会改变这一价格水 平,从而为了占领市场而要采取低于乙的价格水平 P2 的价格 P1 ,于是甲的利润为 ( ) 1 = P1D P1 ,乙的利润为零;同样,当甲采取了价格水平 P1 时,乙认为甲不会改变这一价 格水平,从而为了占领市场而要采取低于甲的价格水平 P1 的价格 P2 ,于是乙的利润为 ( ) 2 = P2D P2 , 甲的利润为零。 如果甲和乙相互勾结串通起来,采取相同的价格策略,即 P1 = P2 ,那么甲和乙就能索要 一个垄断价格,并且每人可收取一半的垄断利润。 由此可见,甲和乙的利润函数分别为: = = = 当 时 当 时 当 时 1 2 1 2 1 2 0, ( ) 2, ( ), ( , ) 1 1 1 1 1 1 1 2 P P P P P P P D P P D P P P , = = = 当 时 当 时 当 时 1 2 1 2 1 2 0, ( ) 2, ( ), ( , ) 2 2 2 2 2 2 1 2 P P P P P P P D P P D P P P
如果甲和乙勾结串通,合作起来,那么双方就能按照最大利润价格P=Q/(2b)获得垄断 价格,并且各得最大利润的一半。这里,利润最大化价格是按照 aP(P(Oo -bP)=@o-26P=0 确定的。但是,占领市场的诱惑对每个局中人都存在,只要他稍微降价,他就能获得全部市场。 假如甲先进入该矿泉市场,那么甲就按照利润最大化价格$P_1=Q_。/(2b)$获取最大利润。继 而乙进入这个市场,且乙认为甲不会改变他的价格$P1$,于是乙为了夺取市场而采取低于甲 的价格水平P的一个价格P2(P2<P)。由于乙夺走了市场,甲同样又会采取低于乙的价格水 平P2的价格P,以夺回市场。这样不断往复下去,直至最后甲乙双方都把价格水平定为零时 才可达到均衡,此时双方的收益为零,市场各占一半(即甲的销售量Q1和乙的销售量Q2相等, 且Q1=Q2=Q/2)。这就是甲乙双方不合作的结果,双方都变得更差 以上分析表明:把贝特兰博弈与古诺博弈作比较,对同一市场来说,由于选择了不同的 策略集合(一个以产量作为策略,另一个以定价作为策略),得出了不同的博弈结果,贝特兰博 弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零),而古诺博弈的结果不 是这样:再把贝特兰博弈同囚徒难题博弈作比较,二者具有相似的结构,即局中人合作会取得 最好的结果,但利益的诱惑促使他们采取不合作的行动,致使双方博弈的结局都变得更差 贝特兰博弈也可用囚徒博以来解释:合作是指两个厂商的勾结,背叛是指两个厂商独立 行动,没有勾结。合作,可以索要一个高的垄断价格:背叛,则导致市场价格为零,双方利润 为零。可见,双方合作起来,对两个厂商都有利,似乎应该合作。但博弈的最终结果是双方都 采取背叛策略,导致谁也得不到利润。 本节所举的这些事例说明,寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描 述和研究。实际上,经济学中大部分经济现象都可以作为博弈的特殊情形进行研究,比如历史 上解决竞争均衡的存在性这一经济学基本问题时,就把经济系统看成为一局博弈。 为了研究博弈,必须抓住博弈现象的基本要素,这些要素是:局中人、策略、收益。也 就是说,博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择 种策略后所获得的效用或利益,就是局中人的收益( payoffs),也叫做得失。我们假定每一个 局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益 函数为所有局中人所共知。当然,每个局中人都知道其他局中人掌握着这些信息和知识。局中 人的收益不但依赖于他自己的策略选择,而且依赖于其他局中人的策略选择。我们再假定每个 局中人在给定的主观信念下会选择收益最大化的行动,并且当新的信息根据贝叶斯规则到来 时,这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。 第二节策略博弈 为了能够正确地应用博弈论硏究经济问题,需要对博弈加以准确地描述和定义。要定义 个博弈,需要确定三件事情:一是局中人集合( set of players),一是局中人的策略集合(s of strategies),一是局中人的收益函数( payoff function)。这三件事情中,确定策略集合 是至关重要的。局中人以策略决定胜负,目标是使他的收益最大化。这种以策略定胜负的博弈, 称为策略博弈( game of strategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样,用博 弈论硏究经济问题时,对于同一经济现象,由于选择了不同的策略集合,得到的博弈结果截然
第八章 博弈论 231 如果甲和乙勾结串通,合作起来,那么双方就能按照最大利润价格 (2 ) P = Q0 b 获得垄断 价格,并且各得最大利润的一半。这里,利润最大化价格是按照 ( ( 0 − )) = 0 − 2 = 0 = P Q bP Q bP P P 确定的。但是,占领市场的诱惑对每个局中人都存在,只要他稍微降价,他就能获得全部市场。 假如甲先进入该矿泉市场,那么甲就按照利润最大化价格$P_1=Q_o/(2b)$获取最大利润。 继 而乙进入这个市场,且乙认为甲不会改变他的价格$P_1$,于是乙为了夺取市场而采取低于甲 的价格水平 P1 的一个价格 P2 ( ) P2 P1 。由于乙夺走了市场,甲同样又会采取低于乙的价格水 平 P2 的价格 P3 ,以夺回市场。这样不断往复下去,直至最后甲乙双方都把价格水平定为零时 才可达到均衡,此时双方的收益为零,市场各占一半(即甲的销售量 Q1 和乙的销售量 Q2 相等, 且 Q1 = Q2 = Q0 2 )。这就是甲乙双方不合作的结果,双方都变得更差。 以上分析表明:把贝特兰博弈与古诺博弈作比较,对同一市场来说,由于选择了不同的 策略集合(一个以产量作为策略,另一个以定价作为策略),得出了不同的博弈结果,贝特兰博 弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零),而古诺博弈的结果不 是这样;再把贝特兰博弈同囚徒难题博弈作比较,二者具有相似的结构,即局中人合作会取得 最好的结果,但利益的诱惑促使他们采取不合作的行动,致使双方博弈的结局都变得更差。 贝特兰博弈也可用囚徒博以来解释:合作是指两个厂商的勾结,背叛是指两个厂商独立 行动,没有勾结。合作,可以索要一个高的垄断价格;背叛,则导致市场价格为零,双方利润 为零。可见,双方合作起来,对两个厂商都有利,似乎应该合作。但博弈的最终结果是双方都 采取背叛策略,导致谁也得不到利润。 本节所举的这些事例说明,寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描 述和研究。实际上,经济学中大部分经济现象都可以作为博弈的特殊情形进行研究,比如历史 上解决竞争均衡的存在性这一经济学基本问题时,就把经济系统看成为一局博弈。 为了研究博弈,必须抓住博弈现象的基本要素,这些要素是:局中人、策略、收益。也 就是说,博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择一 种策略后所获得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我们假定每一个 局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益 函数为所有局中人所共知。当然,每个局中人都知道其他局中人掌握着这些信息和知识。局中 人的收益不但依赖于他自己的策略选择,而且依赖于其他局中人的策略选择。我们再假定每个 局中人在给定的主观信念下会选择收益最大化的行动,并且当新的信息根据贝叶斯规则到来 时,这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。 第二节 策略博弈 为了能够正确地应用博弈论研究经济问题,需要对博弈加以准确地描述和定义。要定义 一个博弈,需要确定三件事情:一是局中人集合(set of players),一是局中人的策略集合(set of strategies),一是局中人的收益函数(payoff function)。这三件事情中,确定策略集合 是至关重要的。局中人以策略决定胜负,目标是使他的收益最大化。这种以策略定胜负的博弈, 称为策略博弈(game of strategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样,用博 弈论研究经济问题时,对于同一经济现象,由于选择了不同的策略集合,得到的博弈结果截然
不同 用A表示博弈的局中人集合,S。表示局中人a∈A的策略集合,f。表示a的收益函数 则G=(Sa,∫a)nA就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈 根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒 难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和 是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈) 和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。 本节以二人博弈为重点,介绍有关策略博弈的概念与理论 策略表与收益矩阵 设二人博弈的局中人是甲和乙。甲有m种可选策略,策略表为X={x1,x2,…,xm};乙有n 种可选策略,策略表为Y={υ1,y2,…,yn}。当甲采取策略x,,乙采取策略y时,(x,y)称 为博弈的局势,集合S=X×Y就是局势集合(局势表、局势矩阵),即 (x1,y)(x1,y2) S={x,y)1=12…,m/=12…,n=(2y)(x2,y)…(x2,)=(x,y, 每个局中人选择自己的策略时,都要考虑对手的行动。这样每个局中人的收益不但与自 己的选择有关,而且与对手的选择有关,收益函数是定义在局势集合S上的函数,这里假定了 局中人的收益是可以用实数来都来计量的。用∫表示局中人甲的收益函数,用g表示局中人 乙的收益函数。由于局势集合S是有限集合,收益函数∫和g都可用矩阵加以表示,这些矩 就称为收益矩阵。记f=f(x,y),gm=g(x,y),则甲和乙的收益矩阵分别为 f=umm,g=gu) 当∫+g≡C(常数)(=1,2,…,mj=1,2,…,m)时,该博弈就是常和博弈。否则,就是变和 博弈。局中人的策略与收益也可用收益表加以表达: 表1:博弈的收益表 乙的策略 甲的策略 y y IJ2n, g2n 般情况下,二人博弈可表示成G=G2=(X,f},g)。但对于二人常和博弈,则可简单 地表示成G=G2(C)=(X,Y,f,C),其中C为收益的常数和。而矩阵博弈则可更简单地表示 成G=G2=(XY,∫),或者直接用甲的收益矩阵∫来表示矩阵博弈。 最小最大原理 局中人的目标是选择使自己收益最大化的策略,我们来分析局中人如何决策。假定甲乙 双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略y,时,甲必然会采取相应 的某种策略x,以求自己的收益最大,即选择x;使下式成立
第八章 博弈论 232 不同。 用 A 表示博弈的局中人集合, a S 表示局中人 a A 的策略集合, a f 表示 a 的收益函数, 则 a a a A G S f = ( , ) 就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈。 根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒 难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和 是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈) 和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。 本节以二人博弈为重点,介绍有关策略博弈的概念与理论。 一.策略表与收益矩阵 设二人博弈的局中人是甲和乙。甲有 m 种可选策略,策略表为 X = x1 , x2 , , xm ;乙有 n 种可选策略,策略表为 Y = y1 , y2 , , yn 。当甲采取策略 i x ,乙采取策略 y j 时, (xi , y j) 称 为博弈的局势,集合 S = X Y 就是局势集合(局势表、局势矩阵),即 ( ) m n i j m m m n n n i j x y x y x y x y x y x y x y x y x y x y S x y i m j n = = = = = ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ): 1,2, , ; 1,2, , 1 2 2 1 2 2 2 1 1 1 2 1 每个局中人选择自己的策略时,都要考虑对手的行动。这样每个局中人的收益不但与自 己的选择有关,而且与对手的选择有关,收益函数是定义在局势集合 S 上的函数,这里假定了 局中人的收益是可以用实数来都来计量的。用 f 表示局中人甲的收益函数,用 g 表示局中人 乙的收益函数。由于局势集合 S 是有限集合,收益函数 f 和 g 都可用矩阵加以表示,这些矩 阵就称为收益矩阵。记 fi j = f (xi , y j) , gi j = g(xi , y j) ,则甲和乙的收益矩阵分别为: ( ) m n i j f f = , ( ) m n g gi j = 当 fi j + gi j C (常数) (i =1,2, ,m; j =1,2, , n) 时,该博弈就是常和博弈。否则,就是变和 博弈。局中人的策略与收益也可用收益表加以表达: 表 1: 博弈的收益表 乙的策略 甲的策略 y1 y 2 …… y n x1 f11 , g11 f12 , g12 …… f1n , g1n x2 f 21 , g21 f 22 , g22 …… f 2 n , g2 n …… xm fm1 , g m1 f m 2 , g m2 …… f mn , g mn 一般情况下,二人博弈可表示成 G = G2 = (X , f ;Y, g) 。但对于二人常和博弈,则可简单 地表示成 G = G2 (C ) = (X,Y, f ,C ) ,其中 C 为收益的常数和。而矩阵博弈则可更简单地表示 成 G = G2 = (X,Y, f ) ,或者直接用甲的收益矩阵 f 来表示矩阵博弈。 二.最小最大原理 局中人的目标是选择使自己收益最大化的策略,我们来分析局中人如何决策。假定甲乙 双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略 y j 时,甲必然会采取相应 的某种策略 xi ,以求自己的收益最大,即选择 xi 使下式成立:
233 f=maxf1,,…fm} 但是,当甲不知道乙会采取什么策略时,如果甲是一个避险者,那么他必将作最坏的打 算,以求取得较好的效果。首先,甲要从收益表中找出自己的每一种策略x1下至少可获得的 收益(即所能获得的最小收益),即先求解min{n,f12,…,fm}(=12,…,m),然后从这些最小 收益策略中选择出收益最大的策略,即“从最小收益中选择最大收益”。从收益矩阵来看这个 决策过程,即甲首先选出自己的收益矩阵∫的各行的最小值,然后从这些最小值中再选出最 大值: max min =max mIr 1sism1sj≤n 就是求解策略博弈的最小最大原理,其合理性表现为:如果甲采取按照最小最大原理确定的 策略,那么不论乙采取什么策略,甲都可至少得到这个最小最大收益。由此可见,最小最大原 理是能够确保局中人收益的一种原理。今后,我们把局中人甲按照最小最大原理所确定的策略, 叫做甲的稳妥策略。 对于局中人乙来说,他的决策行为和决策过程同甲是一样的,只不过乙要依赖于收益矩 阵g。乙决策的最小最大原理是:乙先选出收益矩阵g的各列的最小值,然后从这些最小值 中选出最大值 max min gij =max min g 1≤ jsn lsis 局中人乙按照最小最大原理确定的策略,称为乙的稳妥策略。 读者可能会问:甲先找出他的收益矩阵各列的最大值,然后再从这些最大值中选出最小 值,不也是一种很好的决策办法吗?其实,这种决策办法叫做最大最小法,照此办法做出的决 策,在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最 大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略 (x,y),那么当乙采用策略y时,甲可得到最大最小收益f但是,若乙采用的不是策略y 而是策略νk(k≠j),那么甲如不重新选择他的收益矩阵第k列的最大值的话,他的最大最小 收益f就不一定能够达到,这正是最大最小法同最小最大原理的区别 实际中,在甲不知道乙会采取什么策略的情况下选定了自己的策略以后,乙的策略才出 台,为甲也获悉了乙的这一行动时,甲很有可能来不及调整自己原定的策略,从而给甲带来 定的损失。因此,最大最小法在保证局中人收益方面不如最小最大原理那么保险。 当甲和乙的稳妥策略都已选定时,二者结合起来能否成为博弈的结果呢?答案是未必。 请看下面二人零和博弈的事例 例1.高度不确定的博弈 考虑二人博弈G2=(X,fY,g),甲的策略集合X={x,x2},乙的策略集合Y={v,y2}, 甲和乙的收益矩阵∫和g通过博弈的收益表给出(见表2) 对于甲来说, maxi min,f=2;对于乙来说,max,min;g=-3。这说明甲的稳妥策 略是x2,乙的稳妥策略是y2 表2:甲和乙的收益表 但是,当甲采取x2时,乙采取y2的收益g2=-3小于采 取y1的收益g21=-1,因而乙要改用策略y。在乙改用y后 甲采取策略x的收益f12=2小于采取x的收益f1=4,因而x4-41-1 甲也要改用策略x。而当甲改用x后,乙采用y的收益□x2,=213,=3 g1:=-4小于采用y2的收益g12,于是乙又要改回到y2:在乙改回到y2后,甲也要改回到收 益最大的策略x2。这就让我们看到:当甲采取x2时,乙要采用y;然后甲改用x1,乙随之改 用y2;甲再改用x2,乙又改用y,如此不断往复下去,博弈的结局是高度不确定的
第八章 博弈论 233 fi j = maxf1j , f 2 j , , fm j 但是,当甲不知道乙会采取什么策略时,如果甲是一个避险者,那么他必将作最坏的打 算,以求取得较好的效果。首先,甲要从收益表中找出自己的每一种策略 xi 下至少可获得的 收益(即所能获得的最小收益),即先求解 minfi1 , fi2 , , fin (i =1,2, ,m) ,然后从这些最小 收益策略中选择出收益最大的策略,即“从最小收益中选择最大收益”。从收益矩阵来看这个 决策过程,即甲首先选出自己的收益矩阵 f 的各行的最小值,然后从这些最小值中再选出最 大值: i j i m j n i j i j f f = 1 1 max min max min 这就是求解策略博弈的最小最大原理,其合理性表现为:如果甲采取按照最小最大原理确定的 策略,那么不论乙采取什么策略,甲都可至少得到这个最小最大收益。由此可见,最小最大原 理是能够确保局中人收益的一种原理。今后,我们把局中人甲按照最小最大原理所确定的策略, 叫做甲的稳妥策略。 对于局中人乙来说,他的决策行为和决策过程同甲是一样的,只不过乙要依赖于收益矩 阵 g 。乙决策的最小最大原理是:乙先选出收益矩阵 g 的各列的最小值,然后从这些最小值 中选出最大值: i j j n i m i j j i g g = 1 1 max min max min 局中人乙按照最小最大原理确定的策略,称为乙的稳妥策略。 读者可能会问:甲先找出他的收益矩阵各列的最大值,然后再从这些最大值中选出最小 值,不也是一种很好的决策办法吗?其实,这种决策办法叫做最大最小法,照此办法做出的决 策,在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最 大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略 (xi , y j) , 那么当乙采用策略 y j 时,甲可得到最大最小收益 i j f 。但是,若乙采用的不是策略 y j , 而是策略 yk (k j) ,那么甲如不重新选择他的收益矩阵第 k 列的最大值的话,他的最大最小 收益 i j f 就不一定能够达到,这正是最大最小法同最小最大原理的区别。 实际中,在甲不知道乙会采取什么策略的情况下选定了自己的策略以后,乙的策略才出 台,为甲也获悉了乙的这一行动时,甲很有可能来不及调整自己原定的策略,从而给甲带来一 定的损失。因此,最大最小法在保证局中人收益方面不如最小最大原理那么保险。 当甲和乙的稳妥策略都已选定时,二者结合起来能否成为博弈的结果呢?答案是未必。 请看下面二人零和博弈的事例。 例 1. 高度不确定的博弈 考虑二人博弈 G2 = (X , f ;Y, g) ,甲的策略集合 X = x1 , x2 ,乙的策略集合 Y = y1 , y2 , 甲和乙的收益矩阵 f 和 g 通过博弈的收益表给出(见表 2)。 对于甲来说, maxi min j fi j = 2 ;对于乙来说, max j min i gi j = −3 。这说明甲的稳妥策 略是 x2 ,乙的稳妥策略是 y 2 。 但是,当甲采取 x2 时,乙采取 y 2 的收益 g22 = −3 小于采 取 y1 的收益 g21 = −1 ,因而乙要改用策略 y1 。在乙改用 y1 后, 甲采取策略 x2 的收益 f 21 = 2 小于采取 x1 的收益 f11 = 4 ,因而 甲也要改用策略 x1 。而当甲改用 x1 后,乙采用 y1 的收益 g11 = −4 小于采用 y 2 的收益 g12 ,于是乙又要改回到 y 2 ;在乙改回到 y 2 后,甲也要改回到收 益最大的策略 x2 。这就让我们看到:当甲采取 x2 时,乙要采用 y1 ;然后甲改用 x1 ,乙随之改 用 y 2 ;甲再改用 x2 ,乙又改用 y1 ,如此不断往复下去,博弈的结局是高度不确定的。 表 2: 甲和乙的收益表 乙 甲 y1 y 2 x1 4, − 4 1, −1 x2 2, − 2 3, − 3
234 一般来讲,要想一个二人博弈G2=(X,f;},g)具有确定的结局,必须存在这样的局势 (x*,y=)∈S=X×Y f(x' y*)=max f(x, y*) r∈X g(x, y*)=max g(x', y) 满足这个条件的的局势(x*,υ*),叫做博弈G2的均衡或最优解或最优局势,其中的x*和y*分 别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。 对于二人常和博弈G2=(X,F,来说,(x*,y*)是博弈的最优解当且仅当 f(x y*)=max f(x,y*)=mn f(x', y) 数学中,满足这个条件的点(x*,y*)叫做函数∫的鞍点。因此,(x*,y*)是博弈的最优解当且 仅当(x*,y*)是收益函数∫的鞍点。下面的定理给出了鞍点的判别条件。 鞍点定理.(x*,y)是收益函数∫:XxY→R的鞍点的充要条件是: f(r,y 率)= max min J(x y)=min max f(x, y) 证明:必要性(→).设(x*,y*)是∫的鞍点,即f(x*+,y)=maxf(x,y*)=minf(x*,y)。 从mnf(x,y)≤f(x,y)可知,minf(x,y)≤maxf(x,y)对一切(x,y)∈XxY成立,这 就蕴含着 max min f(x,y)≤ min max f(xy),即 max mn f(x,y)≤ min max f(x,y) 注意, max min f(x,y)≥minf(x*,y)=f(x*,y*)=maxf(x,y*)≥ mn max f(x,y)。这就 证明了f(x*,y*)= maxmin f(x,y)= min max f(x,y) 充分性(<=).设(x*,y*)∈XxY满足f(x*,y*)= max min f(x,y)= min max f(x,y)。从 f(x*,y*)= max min f(x,y)可知f(x*,y*)=mnf(x*,y);从f(x*,y*)= min max f(x,y)可 知f(x*+,y*)=maxf(x,y*)。所以,f(x*,y*)=maxf(x,y*)=minf(x*,y),即(x*,y*)是函 数∫的鞍点。◆ 既然二人常和博弈的最优解恰好就是收益函数的鞍点,鞍点定理告诉我们,当收益函数 的鞍点存在时,利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。 但是,当收益矩阵不存在鞍点时,常和博弈就没有最优解,博弈的结局就是高度不确定 的。鉴于此,我们将有鞍点的常和博弈称为严格确定的博弈。 三.反应函数 博弈G=(X,fY,g)的局中人总是要考虑对手的行动,然后确定自己的对策。当乙采取 了某种策略ν∈γ,而且被甲所觉察时,甲必然有所反应,要确定出相应的对策x∈X以使自 己的收益∫在乙选择y的情况下达到最大,即要使f(x,y)=max(x,y):x'∈x}。甲对乙的 行动的这种反应,确定了一个从乙的策略集合Y到甲的策略集合x的映射q,即对任何y∈Y
第八章 博弈论 234 一般来讲,要想一个二人博弈 G2 = (X, f ;Y, g) 具有确定的结局,必须存在这样的局势 (x*, y*)S = X Y : = = ( *, *) max ( *, ) ( *, *) max ( , *) g x y g x y f x y f x y y Y x X 满足这个条件的的局势 (x*, y*) ,叫做博弈 G2 的均衡或最优解或最优局势,其中的 x* 和 y* 分 别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。 对于二人常和博弈 G2 = (X ,Y, f ) 来说, (x*, y*) 是博弈的最优解当且仅当 f (x*, y*) max f (x, y*) min f (x*, y) xX yY = = 数学中,满足这个条件的点 (x*, y*) 叫做函数 f 的鞍点。因此, (x*, y*) 是博弈的最优解当且 仅当 (x*, y*) 是收益函数 f 的鞍点。下面的定理给出了鞍点的判别条件。 鞍点定理. (x*, y*) 是收益函数 f : X Y → R 的鞍点的充要条件是: f (x*, y*) max min f (x, y) min max f (x, y) xX yY yY xX = = 证明:必要性 () . 设 (x*, y*) 是 f 的鞍点,即 f (x*, y*) max f (x, y*) min f (x*, y) xX yY = = 。 从 min f (x, y ) f (x, y) y Y 可知, min f (x, y ) max f (x , y) y Y x X 对一切 (x, y) X Y 成立,这 就蕴含着 max min f (x, y ) min max f (x , y) x X y Y y Y x X ,即 max min f (x, y) min max f (x, y) xX yY yY xX 。 注意, max min f (x, y) min f (x*, y) f (x*, y*) max f (x, y*) min max f (x, y) xX yY yY xX yY xX = = 。这就 证明了 f (x*, y*) max min f (x, y) min max f (x, y) xX yY yY xX = = 。 充分性 () .设 (x*, y*) X Y 满足 f (x*, y*) max min f (x, y) min max f (x, y) xX yY yY xX = = 。从 f (x*, y*) max min f (x, y) xX yY = 可知 f (x*, y*) min f (x * , y) yY = ;从 f (x*, y*) min max f (x, y) yY xX = 可 知 f (x*, y*) max f (x, y*) xX = 。所以, f (x*, y*) max f (x, y*) min f (x*, y) xX yY = = ,即 (x*, y*) 是函 数 f 的鞍点。◆ 既然二人常和博弈的最优解恰好就是收益函数的鞍点,鞍点定理告诉我们,当收益函数 的鞍点存在时,利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。 但是,当收益矩阵不存在鞍点时,常和博弈就没有最优解,博弈的结局就是高度不确定 的。鉴于此,我们将有鞍点的常和博弈称为严格确定的博弈。 三.反应函数 博弈 G = (X, f ;Y, g) 的局中人总是要考虑对手的行动,然后确定自己的对策。当乙采取 了某种策略 yY ,而且被甲所觉察时,甲必然有所反应,要确定出相应的对策 x X 以使自 己的收益 f 在乙选择 y 的情况下达到最大,即要使 f (x, y) = maxf (x , y): x X 。甲对乙的 行动的这种反应,确定了一个从乙的策略集合 Y 到甲的策略集合 X 的映射 ,即对任何 yY
235 甲的反应策略x=0(y)是按照f(x,y)=f((y,y)=max{(x2y):x∈x来确定的。这个映射 q:Y→X就叫做甲对乙的反应函数。 同样的道理,可以确定出乙对甲的反应函数v:X→Y,即对任何x∈X,y=v(x)是按 照g(x,y)=g(x,v(x)=maxg(x,y):y∈}来确定的 利用反应函数,我们也可以解释博弈的结局。就象古诺博弈一样,假如甲先采取某种策 略x∈Ⅺ,乙通过某种途径获悉了甲的这一行动,并认为甲不会改变他的策略,于是作出反 应,决定采取策略υ=ψ(x1),以使自己的收益最大化。当乙采取策略υ时,甲掌握了这一信 息,并认为乙不会改变他的策略,于是作出反应,改变原来的策略,决定采用x2=(y),以 求收益最大化。这时,乙再次对甲的行为作出反应,采取新策略y2=v(x2)。甲也再次对乙 的行动作出反应,采取新策略x=(y2)。这样的反应不断下去,直到最后达到y=v(x)且 x=φ(υ)时博弈实现了均衡,此时的局势(x,y)就是博弈的最优解(均衡、最优局势)。 综上所述,博弈的结局是实现均衡,并且均衡由甲乙双方的反应函数确定,即由方程组 ∫x=(y)决定。事实上,(x,y+)是该方程组的解当且仅当 f(x', y*)=max f(x, ys) g(x*,y*)=maxg(x*,y’而这 正是博弈G实现均衡的含义。注意,以上关于反应函数的讨论,没有要求策略集合的有限性 即集合X和Y可以是任何集合。 下面考虑二人无限博弈的一种特殊情况:策略集合X和Y都是实数区间。比如,本章第 节例3中古诺博弈的局中人策略集合就是区间[O.+∞)(半直线),例4中贝特兰博弈的局中 人策略集合也是半直线。假设局中人甲和乙的收益函数f:X→R和g:Y→R可微,则甲对 乙的反应函数x=0(y)由方程(一阶条件)af(x,y)/x=0决定,乙对甲的反应函数y=v(x)由 方程(一阶条件)∂g(x,y)/∂y=0决定,从而博弈的最优解就是如下方程组的解 (xy)=0(甲对乙的反应函数x=9(y) (x,y) dy0(乙对甲的反应函数y=v(x)) 例2.二人博弈的反应函数及最优解 设二人博弈中,甲和乙的策略集合X和Y为X=Y=[0,+∞),收益函数∫和g分别如下: f(x, y)=a1x+a2y+a3xy+a4x+asy+ g(x,y)=61x+b2y+b3xy+b4x+b5y+b6 求偏导数得方程组 Jof(x, y)/ax=2a1x+a3,y+a4 ag(x,y)/oy=2b+bx+b°由此可知局中人甲和乙的反应函数分别为 ∫x=g(y)=(a3y+a+)(2a1) ,博弈的最优解为 ∫x*=(ab5-2ab2)/4a1b2-a3b) y=y(x)=(bb3x+b5)/(2b2 y*=(a4b3-2a1bs)/(4a1b2-a3b3) 四.策略选择的经济模拟 第一节中曾经指出,描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰 博弈,虽然二者的目的都是要模拟同一经济现象一一双头垄断,但二者的结构却很不同。古诺 博弈中厂商的策略是选择产量,厂商的收益是策略变量的连续函数:而贝特兰博弈中厂商的策
第八章 博弈论 235 甲的反应策略 x =(y) 是按照 f (x, y) = f (( y), y) = maxf (x , y): x X 来确定的。这个映射 :Y → X 就叫做甲对乙的反应函数。 同样的道理,可以确定出乙对甲的反应函数 : X →Y ,即对任何 x X , y =(x) 是按 照 g(x, y) = g(x,(x)) = maxg(x, y ): y Y 来确定的。 利用反应函数,我们也可以解释博弈的结局。就象古诺博弈一样,假如甲先采取某种策 略 x1 X ,乙通过某种途径获悉了甲的这一行动,并认为甲不会改变他的策略,于是作出反 应,决定采取策略 y1 =(x1 ) ,以使自己的收益最大化。当乙采取策略 y1 时,甲掌握了这一信 息,并认为乙不会改变他的策略,于是作出反应,改变原来的策略,决定采用 x2 =( y1 ) ,以 求收益最大化。这时,乙再次对甲的行为作出反应,采取新策略 y2 =(x2 ) 。甲也再次对乙 的行动作出反应,采取新策略 x3 =( y2 ) 。这样的反应不断下去,直到最后达到 y =(x) 且 x =(y) 时博弈实现了均衡,此时的局势 (x, y) 就是博弈的最优解(均衡、最优局势)。 综上所述,博弈的结局是实现均衡,并且均衡由甲乙双方的反应函数确定,即由方程组 = = ( ) ( ) y x x y 决定。事实上, (x*, y*) 是该方程组的解当且仅当 = = ( *, *) max ( *, ) ( *, *) max ( , *) g x y g x y f x y f x y y Y x X ,而这 正是博弈 G 实现均衡的含义。注意,以上关于反应函数的讨论,没有要求策略集合的有限性, 即集合 X 和 Y 可以是任何集合。 下面考虑二人无限博弈的一种特殊情况:策略集合 X 和 Y 都是实数区间。比如,本章第 一节例 3 中古诺博弈的局中人策略集合就是区间 [0,+) (半直线),例 4 中贝特兰博弈的局中 人策略集合也是半直线。假设局中人甲和乙的收益函数 f : X → R 和 g :Y → R 可微,则甲对 乙的反应函数 x =(y) 由方程(一阶条件) f (x, y) x = 0 决定,乙对甲的反应函数 y =(x) 由 方程(一阶条件) g(x, y) y = 0 决定,从而博弈的最优解就是如下方程组的解: = = = = 0 ( ( )) ( , ) 0 ( ( )) ( , ) y x y g x y x y x f x y 乙对甲的反应函数 甲对乙的反应函数 例 2.二人博弈的反应函数及最优解 设二人博弈中,甲和乙的策略集合 X 和 Y 为 X = Y =[0,+) ,收益函数 f 和 g 分别如下: 3 4 5 6 2 2 2 1 3 4 5 6 2 2 2 1 ( , ) ( , ) g x y b x b y b x y b x b y b f x y a x a y a x y a x a y a = + + + + + = + + + + + 求偏导数得方程组 = + + = + + 2 3 5 1 3 4 ( , ) 2 ( , ) 2 g x y y b y b x b f x y x a x a y a 。由此可知局中人甲和乙的反应函数分别为 = = + = = + ( ) ( ) (2 ) ( ) ( ) (2 ) 3 5 2 3 4 1 y x bb x b b x y a y a a ,博弈的最优解为 = − − = − − * ( 2 ) (4 ) * ( 2 ) (4 ) 4 3 1 5 1 2 3 3 3 5 4 2 1 2 3 3 y a b a b a b a b x a b a b a b a b 。 四.策略选择的经济模拟 第一节中曾经指出,描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰 博弈,虽然二者的目的都是要模拟同一经济现象——双头垄断,但二者的结构却很不同。古诺 博弈中厂商的策略是选择产量,厂商的收益是策略变量的连续函数;而贝特兰博弈中厂商的策
略是选择价格,厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡,究竟哪一种 是正确的呢? 如果抽象地看待这个问题,那么“哪一种模型正确”这样的提问并无什么意义。要回答 这个问题,就必须看模型试图模拟什么。不要问哪一种模型是正确的,而去问策略选择中什么 样的考虑是切入主题的,这样的提问可能会更加有益一些。比如,如果我们观察OPEC公司的 公告,就会发现OPEC企图为每一个员工决定产量配额,并且允许按照世界石油市场价格定价 这样按照产量水平而不是按价格水平来模拟博弈策略,就可能更加合理。 在策略选择的经济模拟中还有另一方面的考虑,乃就是一旦对手的行为被观察到,那么 对手的策略应该是被承诺的或者是难以改变的。然而到目前为止,所描述的博弈是“一次性” (one-shot)博弈,其特点是一旦知道对手的行动,策略变量可以很快地进行调整。例如,假设 我为我的产品选择一个价格,然后发现我的对手制定了一个略低一些的价格,在这种情况下我 可以很快地调整我的价格。因此,尽管“一次性”博弈所描述的现象应该是发生在实际生活中 的现实,但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎 应该使用多阶段博弈,这样才能捕获到策略选择行为的所有可能的内容。 另一方面,如果我们把古诺博弈中的产量水平解释成为厂商的生产能力,那么一定产量 的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下,厂商一旦发现对手的产量 水平,而要改变厂商自己的产量水平,则可能是难以办到或非常昂贵的。生产能力或产量水平 似乎是厂商策略的天然选择,即使一次性博弈中也是这样。 同大部分经济模拟一样,在策略选择的经济模拟中,如果既要让博弈简单明了以便分析, 又要能够说明实际策略的迭接要素,那么如何表示博弈的策略选择,就是一项艺术。 第三节重复博弈 到目前为止,所谈论的博弈是一次性的。其实,任何博弈都可以一次一次地重复进行, 且每一次重复都不是简单地重复前一次的着法,而会考虑得比前一次更全面些,技法也会更高 些。就好像棋手下棋一样,一局结束了再开一局,前一局在某些着法上吃了亏,这一局中就会 吸取教训而加以注意,正所谓“吃一暂,长一智”。反反复复地开局,给棋手不断积累经验, 让棋手的技艺越来越高 通过博弈的重复进行,局中人的经验越来越丰富,这种经验源于博弈历史。实际上,重 复博弈中的每一点处,局中人决定自己的选择时会考虑到达该点之前的全部博弈历史,比如象 棋棋手在上一局中因出车慢而吃了亏,那么这一局中就会吸取前一局的教训而赶快把车开出 来。这样一来,重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大, 也就是说,博弈历史越长,局中人的策略空间越大,可以选择的着法越多。由于“我的对手会 基于我的选择历史而修正他的行为,我必须在做出自己的选择时考虑到这种影响”,所以,重 复博弈的结果不绝不是一次性博弈的简单重复 例1.囚徒博弈的重复 我们以囚徒博弈为例,来分析重复博弈问题。囚徒博弈中,企图获得“(合作,合作)” 解是两个局中人的长期利益所在。对于每个局中人来说,可行的做法是试着给另一个局中人发 出“信号”以表明他的“善意”,并且在博弈一开始移动就进行合作。当然,背叛是另一个局 中人的短期利益所在。如果他不合作而采取背叛策略,那么对方就可能失去耐心而从此以后永
第八章 博弈论 236 略是选择价格,厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡,究竟哪一种 是正确的呢? 如果抽象地看待这个问题,那么“哪一种模型正确”这样的提问并无什么意义。要回答 这个问题,就必须看模型试图模拟什么。不要问哪一种模型是正确的,而去问策略选择中什么 样的考虑是切入主题的,这样的提问可能会更加有益一些。比如,如果我们观察 OPEC 公司的 公告,就会发现 OPEC 企图为每一个员工决定产量配额,并且允许按照世界石油市场价格定价, 这样按照产量水平而不是按价格水平来模拟博弈策略,就可能更加合理。 在策略选择的经济模拟中还有另一方面的考虑,乃就是一旦对手的行为被观察到,那么 对手的策略应该是被承诺的或者是难以改变的。然而到目前为止,所描述的博弈是“一次性” (one-shot)博弈,其特点是一旦知道对手的行动,策略变量可以很快地进行调整。例如,假设 我为我的产品选择一个价格,然后发现我的对手制定了一个略低一些的价格,在这种情况下我 可以很快地调整我的价格。因此,尽管“一次性”博弈所描述的现象应该是发生在实际生活中 的现实,但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎 应该使用多阶段博弈,这样才能捕获到策略选择行为的所有可能的内容。 另一方面,如果我们把古诺博弈中的产量水平解释成为厂商的生产能力,那么一定产量 的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下,厂商一旦发现对手的产量 水平,而要改变厂商自己的产量水平,则可能是难以办到或非常昂贵的。生产能力或产量水平 似乎是厂商策略的天然选择,即使一次性博弈中也是这样。 同大部分经济模拟一样,在策略选择的经济模拟中,如果既要让博弈简单明了以便分析, 又要能够说明实际策略的迭接要素,那么如何表示博弈的策略选择,就是一项艺术。 第三节 重复博弈 到目前为止,所谈论的博弈是一次性的。其实,任何博弈都可以一次一次地重复进行, 且每一次重复都不是简单地重复前一次的着法,而会考虑得比前一次更全面些,技法也会更高 些。就好像棋手下棋一样,一局结束了再开一局,前一局在某些着法上吃了亏,这一局中就会 吸取教训而加以注意,正所谓“吃一暂,长一智”。反反复复地开局,给棋手不断积累经验, 让棋手的技艺越来越高。 通过博弈的重复进行,局中人的经验越来越丰富,这种经验源于博弈历史。实际上,重 复博弈中的每一点处,局中人决定自己的选择时会考虑到达该点之前的全部博弈历史,比如象 棋棋手在上一局中因出车慢而吃了亏,那么这一局中就会吸取前一局的教训而赶快把车开出 来。这样一来,重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大, 也就是说,博弈历史越长,局中人的策略空间越大,可以选择的着法越多。由于“我的对手会 基于我的选择历史而修正他的行为,我必须在做出自己的选择时考虑到这种影响”,所以,重 复博弈的结果不绝不是一次性博弈的简单重复。 例 1. 囚徒博弈的重复 我们以囚徒博弈为例,来分析重复博弈问题。囚徒博弈中,企图获得“(合作,合作)” 解是两个局中人的长期利益所在。对于每个局中人来说,可行的做法是试着给另一个局中人发 出“信号”以表明他的“善意”,并且在博弈一开始移动就进行合作。当然,背叛是另一个局 中人的短期利益所在。如果他不合作而采取背叛策略,那么对方就可能失去耐心而从此以后永
远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推 理可以得到的事实是,一个局中人目前的做法将在未来将得到回应一一其他局中人的未来选择 可能依赖于这个局中人当前的选择。 现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种 情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈 先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如 重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行 次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其 结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中 人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。 但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就 没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然 而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有 采取背叛。同理不断向后归纳( backwards induction),结果最后一次移动之前的所有移动中, 合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动 中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次 数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合 再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。 此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益 在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人 在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局 中人的收益是各阶段收益的贴现值之总和一一贴现和(向时刻0贴现)。具体地说,设局中人在 时刻t的收益(即第t局重复中的收益)为u1(t=12,3,…),他在重复博弈中的收益就是贴现和 ∑=1u4/(1+r)3,其中r为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都 是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用 第一节例2提供的数据。 假设两个局中人一直合作,移动到了时刻T。如果本次移动中一个人决定背叛,那么另 个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩 罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本 次移动中立即得到了4000元的收益,但也以以后无限次的1000元收益这个低收益流来毁灭自 己,他从背叛中得到的收益贴现和为R1=4000+2m1000(4+)”=4001000元。另 方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴 现和为R2=30+∑m12300(1+n)”=3000+3000元。比较R和R2可知,只要贴现率 r<2,就有R1<R2。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其 以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方 就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现 率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略 以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该 定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那 么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确 叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是 如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现 并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的
第八章 博弈论 237 远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推 理可以得到的事实是,一个局中人目前的做法将在未来将得到回应——其他局中人的未来选择 可能依赖于这个局中人当前的选择。 现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种 情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈。 先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如 重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一 次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其 结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中 人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。 但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就 没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然 而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有 采取背叛。同理不断向后归纳(backwards induction),结果最后一次移动之前的所有移动中, 合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动 中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次 数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合 作)”。 再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。 此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益 在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人 在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局 中人的收益是各阶段收益的贴现值之总和——贴现和(向时刻 0 贴现)。具体地说,设局中人在 时刻 t 的收益(即第 t 局重复中的收益)为 ut (t =1,2,3, ) ,他在重复博弈中的收益就是贴现和 =1 (1+ ) t t ut r ,其中 r 为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都 是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用 第一节例 2 提供的数据。 假设两个局中人一直合作,移动到了时刻 T 。如果本次移动中一个人决定背叛,那么另 一个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩 罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本 次移动中立即得到了 4000 元的收益,但也以以后无限次的 1000 元收益这个低收益流来毁灭自 己,他从背叛中得到的收益贴现和为 R r r n n 4000 1000 (1 ) 4000 1000 1 = + 1 + = + = 元。另一 方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴 现和为 R r r n n 3000 3000 (1 ) 3000 3000 2 = + 1 + = + = 元。比较 R1 和 R2 可知,只要贴现率 r 2 ,就有 R1 R2 。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其 以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方 就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现 率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。 以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该 定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那 么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确 叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是, 如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现 率,并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的