第3讲:静态完全信息博弈 混合策略纳什均衡 李婷,ling@fudan.edu.cn 复旦大学
第3讲:静态完全信息博弈 混合策略纳什均衡 李婷, liting@fudan edu cn liting@fudan.edu.cn 复旦大学 1
硬币匹配 参与者2 正面 反面 正面 1 1|1 1 参与者1 反面 1 1 ■正面是参与者1面对参与者2选择反面的最佳反应 反面是参与者2面对参与者1选择反面的最佳反应 反面是参与者1面对参与者2选择正面的最佳反应 正面是参与者2面对参与者1选择正面的最佳反应 因此,这个博弈不存在纳什均衡
硬币匹配 参与者 2 正面 反面 -1 , 1 1 , -1 1 , -1 -1 , 1 参与者 1 正面 反面 正面是参与者1面对参与者2选择反面的最佳反应 反面是参与者2面对参与者1选择反面的最佳反应 反面 1 , 1 1 , 1 反面是参与者2面对参与者1选择反面的最佳反应 反面是参与者1面对参与者2选择正面的最佳反应 正面是参与者2面对参与者1选择正面的最佳反应 因此,这个博弈不存在纳什均衡 2
解决硬币匹配问题 参与者2 正面 反面 参与者正面 1 反面 1 11 11 11 1-x 1-q ■随机策略 参与者1分别以r和1-的概率选择正面或反面 参与者2分别以q和1-q的概率选择正面或反面 ■混合策略 特指从具有一些特定概率的纯策略组合中随机选择实际行动
解决硬币匹配问题 参与者 2 正面 反面 参与者 1 正面 -1 , 1 1 , -1 反面 1 , - 1 - 1 , 1 r 1 - r 随机策略 q 1-q 参与者 1分别以 r 和1-r的概率选择正面或反面 参与者 2分别以 q 和1- q的概率选择正面或反面 混合策略: 特指从具有 些特定概率的纯策略组合中随机选择实际行动 特指从具有 一些特定概率的纯策略组合中随机选择实际行动 。 3
混合策略 ■参与者的混合策略是参与者纯策略的概率分布。 Chis的混合策略是(p,1-p)的概率分布,其中p是选择 歌剧的概率,(1p)是选择格斗的概率 如果p=1那么 Chris实际上选择的就是歌剧,如果p=0 那么 Chris实际选择的是格斗。 夫妻之战 Pat 歌剧 格斗 歌剧(p) 1 0 Chris 格斗(1-p) 0 0 1
混合策略 参与者的混合策略是参与者纯策略的概率分布。 C s hri 的混合策略是(p,1-p)的概率分布,其中p是选择 歌剧的概率,(1-p)是选择格斗的概率。 如果 p=1 那么Chris实际上选择的就是歌剧,如果 p=0 那么Chris实际选择的是格斗。 夫妻之战 Pat 歌剧 格斗 Chris 歌剧 (p) 2 , 1 0 , 0 格斗(1-p) 0 , 0 1 , 2 4
解决硬币匹配问题 参与者2 预期收益 正面 反面 参与者正面 1 1-2q 反面 -1-,1x-x2q-1 g g ■参与者1的预期收益 如果参与者1选择正面,-g+(1-g)=1-2g 如果参与者1选择反面,q-(1-q)=2g-1
解决硬币匹配问题 参与者 2 正面 反面 预期收益 参与者 1 正面 -1 , 1 1 , -1 反面 1 , -1 -1 , 1 1-2q 2 q - 1 r 1 - r q 1-q 1 r 2 q 1 参与者 1的预期收益 如果参与者 1选择正面, - q+(1 -q) 1= 1 - 2 q 如果参与者 1选择反面, q-(1-q)=2q-1 5
解决硬币匹配问题 参与者2 预期收益 正面 反面 正面 1 1-2q 参与者1 反面 1 1,11-x2g-1 g g ■参与者1的最优反应 B1(q): q0.5,反面(r=0) q=0.5,无差异(0≤r≤1) 1/2 g
解决硬币匹配问题 参与者 2 正面 反面 预期收益 参与者 1 正面 -1 , 1 1 , -1 反面 1 , -1 -1 , 1 1-2q 2 q - 1 r 1 - r q 1-q 1 r 2 q 1 r 参与者 1的最优反应 1 B ( q): 1/2 1 ( q): q0 5 反面 (r=0) 1/2 1 q q>0.5, 反面 (r=0) q=0.5, 无差异 (0 r 1) 6
解决硬币匹配问题 参与者2 期望收益 正面 反面 参与者正面 1 x1-2q 反面 -1-,1x-x2q-1 g g 期望收益 2-1 1-2y ■参与者2的期望收益 如果参与者2选择正面,x-(1-x)=2x-1 如果参与者2选择反面,-x+(1-x)=1-2x
解决硬币匹配问题 参与者 2 正面 反面 期望收益 参与者 1 正面 -1 , 1 1 , -1 反面 1 , -1 -1 , 1 1-2q 2 q - 1 r 1 - r 2 q 1 q 1-q 期望收益 2 r - 1 1 2 r 参与者 的期望收益 2 r - 1 1 - 2 r 参与者 2的期望收益 如果参与者 2选择正面, r- (1-r )=2r-1 如果参与者 2选择反面, -r+ (1-r )=1-2r 7
解决硬币匹配问题 参与者2 期望收益 正面 反面 正面 1 x1-2q 参与者1 反面 -1-,1x-x2q-1 g 期望收益 2-1 1-2y ■参与者2的最优反应 B2(x): 2 1/2 r0.5,正面(q=1) r=0.5,无差异(0≤q≤1) 1/2
解决硬币匹配问题 参与者 2 正面 反面 期望收益 参与者 1 正面 -1 , 1 1 , -1 反面 1 , -1 -1 , 1 1-2q 2 q - 1 r 1 - r q 1-q 1 r 2 q 1 期望收益 2 r - 1 1 - 2 r 参与者 2的最优反应 2 r 1 1 - 2 r r 1 参与者 2的最优反应 B 2 ( r): r0.5, 正面(q=1) r =0 5 无差异 (0 q 1) 1/2 1 q 8 r 0.5, 无差异 (0 q 1) 1/2 1 q
解决硬币匹配问题 参与者2 参与者1的最优反应 正面 反面 1(q): 参与者正面[-1,11,-1x q0.5,反面(r=0) q=0.5,无差异(0≤r≤1) 口参与者2的最优反应 混合策略 纳什均衡 B,(2): 2 r0.5,正面(q=1) r=0.5,无差异(0≤q≤1) 1/2 验证 0.5∈B1(0.5) q=0.5∈B2(0.5) 1 9
解决硬币匹配问题 参与者 参与者 1的最优反应 B 1 ( q): 参与者 2 正面 反面 面 B 1 ( q): q0 5 反面 (r =0) 参与者 1 正 面 - 1 , 1 1 , - 1 反面 1 , -1 -1 , 1 r 1-r q>0.5, 反面 (r 0) q=0.5, 无差异 (0 r 1) 参与者 2的最优反应 q 1 - q 混合 策 略 r 1 参与者 2的最优反应 B 2 ( r): r0.5, 正面(q=1) r =0.5, 无差异 (0 q 1) 1/2 1 q r 0.5, 无差异 (0 q 1) 验证 r = 0.5 B 1 (0.5 ) 9 1/2 1 q q = 0.5 B 2 (0.5 )
混合策略:例子 ■硬币匹配 参与者1有两个春策略:H和T (o1(H)=0.5,σ1(T)=05)是一个混合策略 就是说,参与者1分别以0.5和0.5的概率选择正面和反面。 (σ1(H)=0.3,σ1(T)=0.7)是另一个混合策略 就是说,参与者1分别以0.3和0.7的概率选择正面和反面
混合策略:例子 硬币匹配 参与者1有两个春策略:H 和 T ( 1(H)=0.5, 1 ( 1() , 1() ) T =0.5 ) 是 个 合策略 一 混 就是说,参与者1分别以0.5和0.5的概率选择正面和反面。 ( 1(H)=0.3, 1(T)=0.7 ) 是另 个 合策略 另一个混合策略 就是说,参与者1分别以0.3和0.7的概率选择正面和反面。 10