北京大学光华管理学院：《博弈与社会 Game Theory and Society》课程作业与答案（二）.pdf_大学文库

2006博弈与社会第二次作业(提交时间:3月29日) 请在作业上写清姓名、院系、学号和作业编(助教在第一次作ν上写的数字) (1)用博弈的标准型表达式描述“剪刀、石头、布”的游戏(即写出双方的支付矩阵) 假设获胜的一方得1,失利的一方得-1,战平各得0,并找出该博弈的所有纳什均衡(纯战略纳什均衡和混合战略纳什均衡)。 (2)如果修改游戏规则,获胜的方式不同则得分不同剪刀赢布,赢的一方(出剪刀的一方)得3,输的一方(出布的一方)得-3 石头赢剪刀,赢的一方得2,输的一方得-2 布赢石头,赢的一方得1,输的一方得-1 打平仍然各得0。重新回答第(1)题中的问题。 2、“索尼爱立信”和“明基西门子”两家公司在手机市场上的定位是相似的,二者面对的是几乎相同的潜在消费群,存在着直接的竞争,不同的是索爱更先进入市场。假设两者都面临着同样的两个可行的行动:主攻照相功能(简称为照相)和主攻音乐功能(简称为音乐), 但是“索爱”先于“明西”行动,刻画两者行为的博弈树如下所示明西照相 (5,4) 照 (10,8) 索爱 (11,9) 音乐 (6,5) (1)写出索爱和明西的全部战略(注意战略的定义); (2)根据双方的战略,用标准型(支付矩阵)的表述方式重新刻画这个博弈树 (3)只考虑纯战略的情况,找出全部的纳什均衡,找出全部的精炼(完美)纳什均衡 3、重新考虑双寡头竞争的市场,市场上有两家企业,生产完全相同的产品,消费者对这种产品的需求函数为,P(Q=aQ,Q=q1+q2,其中q1和q2分别是企业1和企业2的产量,生产的成本函数为C(q)=cq,其中=1,2,每个企业都追求利润的最大化,即企业选择最佳的q使得=P(Qq1-cq最大,i=1,2。上面的假设与讲义第16页中提到的 Cournot博弈模型是完全一致的,下面我们做一个改动,现在两家企业不再同时决策,而是有一个先后顺序。企业先制定自己的产量,企业2随后根据企业1的产量决策自己的生产,并且决策一旦做出就无法更改。求解双方的最优决策(纳什均衡),思考在这种情况下是“先下手为强”还是“先下手遭殃”?简单解释背后的原因。【提示】米用逆向归纳的办法,从企业2的决策开始向前推

2006 博弈与社会第二次作业（提交时间：3 月 29 日）请在作业上写清姓名、院系、学号和作业编码（助教在第一次作业上写的数字） 1、（1）用博弈的标准型表达式描述“剪刀、石头、布”的游戏（即写出双方的支付矩阵），假设获胜的一方得 1，失利的一方得-1，战平各得 0，并找出该博弈的所有纳什均衡（纯战略纳什均衡和混合战略纳什均衡）。（2）如果修改游戏规则，获胜的方式不同则得分不同： z 剪刀赢布，赢的一方（出剪刀的一方）得 3，输的一方（出布的一方）得-3； z 石头赢剪刀，赢的一方得 2，输的一方得-2； z 布赢石头，赢的一方得 1，输的一方得-1； z 打平仍然各得 0。重新回答第（1）题中的问题。 2、“索尼爱立信”和“明基西门子”两家公司在手机市场上的定位是相似的，二者面对的是几乎相同的潜在消费群，存在着直接的竞争，不同的是索爱更先进入市场。假设两者都面临着同样的两个可行的行动：主攻照相功能（简称为照相）和主攻音乐功能（简称为音乐），但是“索爱”先于“明西”行动，刻画两者行为的博弈树如下所示：索爱照相音乐明西照相照相音乐音乐（5，4）（10，8）（11，9）（6，5）（1）写出索爱和明西的全部战略（注意战略的定义）；（2）根据双方的战略，用标准型（支付矩阵）的表述方式重新刻画这个博弈树；（3）只考虑纯战略的情况，找出全部的纳什均衡，找出全部的精炼（完美）纳什均衡。 3、重新考虑双寡头竞争的市场，市场上有两家企业，生产完全相同的产品，消费者对这种产品的需求函数为，P(Q)=a-Q，Q=q1＋q2，其中q1和q2分别是企业 1 和企业 2 的产量，生产的成本函数为C(qi)=cqi，其中i=1,2，每个企业都追求利润的最大化，即企业i选择最佳的qi使得Πi＝P(Q)qi－cqi最大，i=1,2。上面的假设与讲义第 16 页中提到的Cournot博弈模型是完全一致的，下面我们做一个改动，现在两家企业不再同时决策，而是有一个先后顺序。企业 1 先制定自己的产量，企业 2 随后根据企业 1 的产量决策自己的生产，并且决策一旦做出就无法更改。求解双方的最优决策（纳什均衡），思考在这种情况下是“先下手为强”还是“先下手遭殃”？简单解释背后的原因。【提示】采用逆向归纳的办法，从企业 2 的决策开始向前推

2006博弈与社会第四次作业提交时间:2006年5月24日星期三 (对题目叙述如有不清楚之处,可以在网上提出) 甲、乙、丙是三位有代表性的北大学生,他们各有一辆价值为100的自行车甲、乙两人住在校内,在这里丢车的概率P(甲)=P(乙)=0.19,丙住在南门外,治安比起校内较差,丢车的概率P(丙)=0.36。在对风险的态度上,乙、丙和广大的普通同学一样,都比较谨慎,是风险厌恶者;而甲这类人更为开朗,做事情不会顾虑太多,是一个风险中性者。用效用函数来描述会更加精确:给定一定数量的财富w(可以是货币,也可以是有价值的财物,比如本题中的自行车),乙丙两人(以及他们这一类人)的效用函数均为u(v)=√w,甲(以及同类的人) 的效用函数为(w)=05。面临着丢车的不确定性,三位同学追求的是自身期望效用的最大化。 (1)给定丢车的概率,分别写出自行车这笔财富对三人的期望效用(提示根据不同状态下的效用值和状态本身的概率,算出效用函数的期望值); 中关村保险公司推出了“自行车失窃”保险业务,投保者的自行车被盗后可以获得相当于自行车价值的全额赔付。具体保费完全取决于丢车的概率,公司制定了两个价格,针对住在北大、清华校园内的用户是一个价格(基于0.19的丢车率),住在校园以外的用户是另外一个价格(基于0.36的丢车率),在保费上保险公司只需要保本即可(即保费等于期望赔付) (PS:不必担心保险公司的盈利问题,他们可以利用收到的保费去投资其他的项目而获利)。 (2)计算出投保一辆价值100元的自行车的两种保费(校园价和社区价)。 (3)中关村保险公司的一个业务员分别要向甲、乙、丙三人推销这种保险, 预测一下他的业绩(即甲、乙、丙三人谁会买保险) 保险业务推出半年以来,出现了严重的亏损。经过缜密的调查,发现是由于类似于丙的一类保户,由于他们自身是北大学生,可以出具校内宿舍的住宿卡, 于是可以享受校园价,但由于他们实际上住在校外,自行车丢失概率很高。在现有的条件下,保险公司无法识别出客户是否真的实际居住在校内,所以必须改变现有的定价策略。公司战略发展部首先提出了下面一个方案: 【方案一取消现有的根据校内校外的分区定价方式,采用统一定价。定价仍然是期望收益保本原则,只不过保费的确定要受客户构成的影响,就现有的客户结构来看, 来自校内和来自校外的客户各占一半

2006 博弈与社会第四次作业提交时间：2006 年 5 月 24 日星期三（对题目叙述如有不清楚之处，可以在网上提出）甲、乙、丙是三位有代表性的北大学生，他们各有一辆价值为 100 的自行车，甲、乙两人住在校内，在这里丢车的概率 P(甲)＝P(乙)=0.19，丙住在南门外，治安比起校内较差，丢车的概率 P(丙)＝0.36。在对风险的态度上，乙、丙和广大的普通同学一样，都比较谨慎，是风险厌恶者；而甲这类人更为开朗，做事情不会顾虑太多，是一个风险中性者。用效用函数来描述会更加精确：给定一定数量的财富 w（可以是货币，也可以是有价值的财物，比如本题中的自行车），乙、丙两人（以及他们这一类人）的效用函数均为 )( = wwu ，甲（以及同类的人）的效用函数为。面临着丢车的不确定性，三位同学追求的是自身期望效用的最大化。 = 5.0)( wwu （1）给定丢车的概率，分别写出自行车这笔财富对三人的期望效用（提示：根据不同状态下的效用值和状态本身的概率，算出效用函数的期望值）；中关村保险公司推出了“自行车失窃”保险业务，投保者的自行车被盗后可以获得相当于自行车价值的全额赔付。具体保费完全取决于丢车的概率，公司制定了两个价格，针对住在北大、清华校园内的用户是一个价格（基于 0.19 的丢车率），住在校园以外的用户是另外一个价格（基于 0.36 的丢车率），在保费上保险公司只需要保本即可（即保费等于期望赔付）（PS：不必担心保险公司的盈利问题，他们可以利用收到的保费去投资其他的项目而获利）。（2）计算出投保一辆价值 100 元的自行车的两种保费（校园价和社区价）。（3）中关村保险公司的一个业务员分别要向甲、乙、丙三人推销这种保险，预测一下他的业绩（即甲、乙、丙三人谁会买保险）保险业务推出半年以来，出现了严重的亏损。经过缜密的调查，发现是由于类似于丙的一类保户，由于他们自身是北大学生，可以出具校内宿舍的住宿卡，于是可以享受校园价，但由于他们实际上住在校外，自行车丢失概率很高。在现有的条件下，保险公司无法识别出客户是否真的实际居住在校内，所以必须改变现有的定价策略。公司战略发展部首先提出了下面一个方案：【方案一】取消现有的根据校内校外的分区定价方式，采用统一定价。定价仍然是期望收益保本原则，只不过保费的确定要受客户构成的影响，就现有的客户结构来看，来自校内和来自校外的客户各占一半

2006博弈与社会第二次作业(提交时间:3月29日) 在作ψ上写清姓名、院系、学号和作业编玛(勛教在第一次作些上写的数字) 1、(1)用博弈的标准型表达式描述“剪刀、石头、布”的游戏(即写出双方的支付矩阵), 假设获胜的一方得1,失利的一方得-1,战平各得0,并找出该博弈的所有纳什均衡(纯战略纳什均衡和混合战略纳什均衡)。剪刀石头布剪刀 0,0 1,1 石头 1,-1 0,0 -1,1 0,0 该博弈不存在纯策略纳什均衡。混合策略纳什均衡:(1/3,1/3,1/3,1/3,1/3,1/3),即双方各以同样的概率出剪刀、石头、和布具体做法(略)见第(2)问 (2)如果修改游戏规则,获胜的方式不同则得分不同: 剪刀赢布,赢的一方(出剪刀的一方)得3,输的一方(出布的一方)得-3 石头赢剪刀,赢的一方得2,输的一方得-2 布赢石头,赢的一方得1,输的一方得-1 打平仍然各得0。重新回答第(1)题中的问题。剪刀石头布剪刀石头 2,-2 0,0 -1,1 1,-1 0,0 该博弈同样不存在纯策略纳什均衡 (很多同学提出“石头、石头”是不是一个纯策略纳什均衡,实际上不是。石头尽管是一个看上去成本收益最好的战略,但并不意味着可以以1的概率选择石头,因为给定任何一方选择必出石头,对方肯定会用出布来战胜他,尽管出布不是一个很“好”的策略,看还不至于坏到可以将其排除的程度。“布”这个战略存在的意义就在于牵制对方出石头的行为) 考虑混合策略纳什均衡:设甲分别以a、b和1-a-b的概率出剪刀石头布,乙分别以ⅹ、y和 1-x-y的概率出剪刀石头布。给定双方的战略,甲和乙的期望支付分别为: Payoff甲)=ax[0×x-2×y+3×(1-x-y)+b×[2×x+0×y-1×(1-x-y)+(1-a-b) ×[-3×x+1×y+0×(1-x-y) Payoff)=x×[0×a-2×b+3×(1-a-b)]+y×[2×a+0×b-1×(1-a-b)+(1-x-y) -3×a+1×b+0×(1-a-b 其中a、b与x、y是对称的。甲决策的目标是最大化 Payoff甲),他能够控制的变量为a和b,分别对其求偏导得到两个

2006 博弈与社会第二次作业（提交时间：3 月 29 日）请在作业上写清姓名、院系、学号和作业编码（助教在第一次作业上写的数字） 1、（1）用博弈的标准型表达式描述“剪刀、石头、布”的游戏（即写出双方的支付矩阵），假设获胜的一方得 1，失利的一方得-1，战平各得 0，并找出该博弈的所有纳什均衡（纯战略纳什均衡和混合战略纳什均衡）。乙甲剪刀石头布剪刀 0，0 -1，1 1，-1 石头 1，-1 0，0 -1，1 布 -1，1 1，-1 0，0 该博弈不存在纯策略纳什均衡。混合策略纳什均衡： (1/3,1/3,1/3; 1/3,1/3,1/3)，即双方各以同样的概率出剪刀、石头、和布。具体做法（略）见第（2）问（2）如果修改游戏规则，获胜的方式不同则得分不同： z 剪刀赢布，赢的一方（出剪刀的一方）得 3，输的一方（出布的一方）得-3； z 石头赢剪刀，赢的一方得 2，输的一方得-2； z 布赢石头，赢的一方得 1，输的一方得-1； z 打平仍然各得 0。重新回答第（1）题中的问题。乙甲剪刀石头布剪刀 0，0 -2，2 3，-3 石头 2，-2 0，0 -1，1 布 -3，3 1，-1 0，0 该博弈同样不存在纯策略纳什均衡。（很多同学提出“石头、石头”是不是一个纯策略纳什均衡，实际上不是。石头尽管是一个看上去成本收益最好的战略，但并不意味着可以以 1 的概率选择石头，因为给定任何一方选择必出石头，对方肯定会用出布来战胜他，尽管出布不是一个很“好”的策略，看还不至于坏到可以将其排除的程度。“布”这个战略存在的意义就在于牵制对方出石头的行为）考虑混合策略纳什均衡：设甲分别以 a、b 和 1-a-b 的概率出剪刀石头布，乙分别以 x、y 和 1-x-y 的概率出剪刀石头布。给定双方的战略，甲和乙的期望支付分别为： Payoff(甲)＝a×[0×x－2×y＋3×(1－x－y)]+b×[2×x＋0×y－1×(1－x－y)]＋(1－a－b) ×[－3×x＋1×y＋0×(1－x－y)] Payoff(乙)＝x×[0×a－2×b＋3×(1－a－b)]+y×[2×a＋0×b－1×(1－a－b)]＋(1－x－y)× [－3×a＋1×b＋0×(1－a－b)] 其中 a、b 与 x、y 是对称的。甲决策的目标是最大化 Payoff(甲)，他能够控制的变量为 a 和 b，分别对其求偏导得到两个

一阶条件 0×x-2×y+3×(1-x-y)=-3×x+1×y+0×(1-x-y) 2×x+0×y-1×(1-x-y)=-3×x+1×y+0×(1-x-y) 这实际上就是让对方出剪刀(上式左边)、出石头(下式左边)和出布(两式右边)无差异的条件,而这也是我们讲的求解混合战略纳什均衡的简单方法,这就是其理论根据。求解得到x=1/6,y=1/2,1-xy=1/3 也就是说给定乙以(1/6,12,1/3)的概率出剪刀、石头、布,甲的任何战略都是最优的; 同样可以由乙的优化问题解得a=1/6,b=1/2,1-a-b=1/3 也就是说给定甲以(1/6,12,1/3)的概率出剪刀、石头、布,乙的任何战略都是最优的因此,甲乙都以(1/6,1/2,1/3)的概率出剪刀、石头、布,可以实现一个均衡的结果,用标准的博弈论语言表述就是:甲的混合战略(16,12,1/3)和乙的混合战略(1/6,1n2, 1/3)构成一个纳什均衡。 2、“索尼爱立信”和“明基西门子”两家公司在手机市场上的定位是相似的,二者面对的是几乎相同的潜在消费群,存在着直接的竞争,不同的是索爱更先进入市场。假设两者都面临着同样的两个可行的行动:主攻照相功能(简称为照相)和主攻音乐功能(简称为音乐), 但是“索爱”先于“明西”行动,刻画两者行为的博弈树如下所示明西照相 (5,4) 照 (10,8) 索爱 (11,9) 音乐 (6,5) (1)写出索爱和明西的全部战略(注意战略的定义); (索爱只有一个信息集,所以其战略为一维的:而明西有两个(分别对应索爱选照相和索爱递音乐的情况),其战略为二维的。) 索爱的全部战略(两个)为 1、主攻照相:2、主攻音乐。明西的全部战略(四个)为: 1、(照相,照相)——意为:不管对方选择什么策略,我选择照相 2、(音乐,音乐)——意为:不管对方选择什么策略,我选择音乐 3、(音乐,照相)——意为:如果索爱照相,我主攻音乐:如果索爱音乐,我主攻照相 4、(照相,音乐)一意为:如果索爱照相,我也主攻照相;如果索爱音乐,我也主攻音乐 (2)根据双方的战略,用标准型(支付矩阵)的表述方式重新刻画这个博弈树; (博弈的标准型表达式是定义在双方的全部线略上的)

一阶条件： 0×x－2×y＋3×(1－x－y)＝－3×x＋1×y＋0×(1－x－y) 2×x＋0×y－1×(1－x－y)＝－3×x＋1×y＋0×(1－x－y) 这实际上就是让对方出剪刀（上式左边）、出石头（下式左边）和出布（两式右边）无差异的条件，而这也是我们讲的求解混合战略纳什均衡的简单方法，这就是其理论根据。求解得到 x＝1/6，y＝1/2，1-x-y=1/3 也就是说给定乙以（1/6，1/2，1/3）的概率出剪刀、石头、布，甲的任何战略都是最优的；同样可以由乙的优化问题解得 a＝1/6，b＝1/2，1-a-b=1/3 也就是说给定甲以（1/6，1/2，1/3）的概率出剪刀、石头、布，乙的任何战略都是最优的；因此，甲乙都以（1/6，1/2，1/3）的概率出剪刀、石头、布，可以实现一个均衡的结果，用标准的博弈论语言表述就是：甲的混合战略（1/6，1/2，1/3）和乙的混合战略（1/6，1/2， 1/3）构成一个纳什均衡。 2、“索尼爱立信”和“明基西门子”两家公司在手机市场上的定位是相似的，二者面对的是几乎相同的潜在消费群，存在着直接的竞争，不同的是索爱更先进入市场。假设两者都面临着同样的两个可行的行动：主攻照相功能（简称为照相）和主攻音乐功能（简称为音乐），但是“索爱”先于“明西”行动，刻画两者行为的博弈树如下所示：索爱照相音乐明西照相照相音乐音乐（5，4）（10，8）（11，9）（6，5）（1）写出索爱和明西的全部战略（注意战略的定义）；（索爱只有一个信息集，所以其战略为一维的；而明西有两个（分别对应索爱选照相和索爱选音乐的情况），其战略为二维的。）索爱的全部战略（两个）为： 1、主攻照相；2、主攻音乐。明西的全部战略（四个）为： 1、（照相，照相）——意为：不管对方选择什么策略，我选择照相 2、（音乐，音乐）——意为：不管对方选择什么策略，我选择音乐 3、（音乐，照相）——意为：如果索爱照相，我主攻音乐；如果索爱音乐，我主攻照相 4、（照相，音乐）——意为：如果索爱照相，我也主攻照相；如果索爱音乐，我也主攻音乐（2）根据双方的战略，用标准型（支付矩阵）的表述方式重新刻画这个博弈树；（博弈的标准型表达式是定义在双方的全部战略上的）

明西索爱 (音乐,音乐)(照相,照相)(音乐,照相)(照相,音乐) 相 10,8 5,4 5,4 音乐 11,9 l1,9 6,5 (3)只考虑纯战略的情况,找出全部的纳什均衡,找出全部的精炼(完美)纳什均衡。 (纳什均衡也是定义在双方的战略上的) 纳什均衡包括[照相,(音乐,照相)]、[音乐,(照相,照相)]和音乐,(音乐,照相)] 个。这是在支付矩阵中找到的其中唯一的精炼纳什均衡是最后一个[音乐,(音乐,照相)],它意味着在博弈的每个子博弈中也构成纳什均衡,这可以使用逆向归纳法寻找。 3、重新考虑双寡头竞争的市场,市场上有两家企业,生产完全相同的产品,消费者对这种产品的需求函数为,P(Q=aQ,Q=q1+q2,其中q1和q2分别是企业1和企业2的产量,生产的成本函数为C(q=cq,其中=1,2,每个企业都追求利润的最大化,即企业i选择最佳的q使得∏=PQ1-cq最大,=12。上面的假设与讲义第16页中提到的 Cournot博弈模型是完全致的,下面我们做一个改动,现在两家企业不再同时决策,而是有一个先后顺序。企业1 先制定自己的产量,企业2随后根据企业1的产量决策自己的生产,并且决策一旦做出就无法更改。求解双方的最优决策(纳什均衡),思考在这种情况下是“先下手为强”还是“先下手遭殃”?简单解释背后的原因【逆向归纳】 (1)假设到了第二家企业决策的时候,这时第一家企业的产量q已经变成已知,企业2 的问题是选择自己的产量q2以使得利润n2=P(Qq2-cq2=(a-q1-q2)q2-cq2最大化,该问题的一阶条件为a-q1-2q2-c=0,解得q2=(a-c-q1)2,这可以看作企业2的最优反应函数,意为不管企业1选择什么样的产量q1,企业2都会选择与之对应的q2 (2)既然如此,回到第一家企业决策的时候,问题就是如何选择一个q使得利润n1= PQq1-cq1=(a-q1-q2)q2-cq2最大化,带入企业2的反应函数q2=(a-c-qy 并求出关于q的一阶条件得:q1=(a-c)2,同时可知q2=(a-c)4 (3)比较双方同时进入的情况(q1=q2=(a-c)/3)可知,在产量竞争中,的确存在着“先下手为强”的先动优势,这个模型就是张老师课上提到过的斯塔克尔伯格 ( Stackelberg)模型的标准形式【两点启示】 (1)在博弈中信息多并不一定是好事:企业2拥有信息优势,但还是不能够扭转其战略劣势; (2)可信的承诺是重要的:第一家企业的产量一旦确定就不能再更改,否则先动优势就会拱手相让。关于这一点的理解不妨再考虑一下这样的情况:按照这样的过程,企业1生产(a-cy2,然后企业2生产(a-c)/4,这时看到企业2生产(a-c)4后,如果企业的产量决策可以任意更改,那么这时企业1的最优决策就不再是(a-c)2,简单计算可知,给定企业2生产(a-c)4,企业1最优的决策应该为3(a-c)/8(利用最优反应函数),而一旦预期到企业1实际上会生产3(a-c)8,那么企业2就不会选择生产(a-c)4,而是5a-c)16,相应的企业2又会11(a-c)32,企业1又会21(a-c)/64, 直到达到[a-c)3,(a-c)4]的纳什均衡,这样就完全等同于同时决策的情况了

明西索爱（音乐，音乐）（照相，照相）（音乐，照相）（照相，音乐）照相 10，8 5，4 10，8 5，4 音乐 6，5 11，9 11，9 6，5 （3）只考虑纯战略的情况，找出全部的纳什均衡，找出全部的精炼（完美）纳什均衡。（纳什均衡也是定义在双方的战略上的）纳什均衡包括 [照相，（音乐，照相）]、[音乐，（照相，照相）]和[音乐，（音乐，照相）] 三个。这是在支付矩阵中找到的。其中唯一的精炼纳什均衡是最后一个[音乐，（音乐，照相）]，它意味着在博弈的每一个子博弈中也构成纳什均衡，这可以使用逆向归纳法寻找。 3、重新考虑双寡头竞争的市场，市场上有两家企业，生产完全相同的产品，消费者对这种产品的需求函数为，P(Q)=a-Q，Q=q1＋q2，其中q1和q2分别是企业 1 和企业 2 的产量，生产的成本函数为C(qi)=cqi，其中i=1,2，每个企业都追求利润的最大化，即企业i选择最佳的qi使得Πi＝P(Q)qi－cqi最大，i=1,2。上面的假设与讲义第 16 页中提到的Cournot博弈模型是完全一致的，下面我们做一个改动，现在两家企业不再同时决策，而是有一个先后顺序。企业 1 先制定自己的产量，企业 2 随后根据企业 1 的产量决策自己的生产，并且决策一旦做出就无法更改。求解双方的最优决策（纳什均衡），思考在这种情况下是“先下手为强”还是“先下手遭殃”？简单解释背后的原因。【逆向归纳】（1）假设到了第二家企业决策的时候，这时第一家企业的产量q1已经变成已知，企业 2 的问题是选择自己的产量q2以使得利润Π2＝P(Q)q2－cq2＝(a－q1－q2) q2－cq2最大化，该问题的一阶条件为a－q1－2q2－c＝0，解得q2＝（a－c－q1)/2，这可以看作企业 2 的最优反应函数，意为不管企业 1 选择什么样的产量q1，企业 2 都会选择与之对应的q2。（2）既然如此，回到第一家企业决策的时候，问题就是如何选择一个q1使得利润Π1＝ P(Q)q1－cq1＝(a－q1－q2) q2－cq2最大化，带入企业 2 的反应函数q2＝（a－c－q1)/2，并求出关于q1的一阶条件得：q1＝(a－c)/2，同时可知q2＝(a－c)/4。（3）比较双方同时进入的情况（q1＝q2＝(a－c)/3）可知，在产量竞争中，的确存在着“先下手为强”的先动优势，这个模型就是张老师课上提到过的斯塔克尔伯格（Stackelberg）模型的标准形式。【两点启示】（1）在博弈中信息多并不一定是好事：企业 2 拥有信息优势，但还是不能够扭转其战略劣势；（2）可信的承诺是重要的：第一家企业的产量一旦确定就不能再更改，否则先动优势就会拱手相让。关于这一点的理解不妨再考虑一下这样的情况：按照这样的过程，企业 1 生产(a－c)/2，然后企业 2 生产(a－c)/4，这时看到企业 2 生产(a－c)/4 后，如果企业的产量决策可以任意更改，那么这时企业 1 的最优决策就不再是(a－c)/2，简单计算可知，给定企业 2 生产(a－c)/4，企业 1 最优的决策应该为 3(a－c)/8（利用最优反应函数），而一旦预期到企业 1 实际上会生产 3(a－c)/8，那么企业 2 就不会选择生产(a－c)/4，而是 5(a－c)/16，相应的企业 2 又会 11(a－c)/32，企业 1 又会 21(a－c)/64，直到达到[(a－c)/3，(a－c)/4]的纳什均衡，这样就完全等同于同时决策的情况了