第三讲 · 完全信息静态博弈:混合策略 Nash 均衡
第二讲的纯策略 Nash 均衡有个尴尬:有些博弈根本不存在纯策略 Nash 均衡(比如猜硬币)。这一讲把策略从”确定地选一个”放宽成”按概率随机选”,于是得到混合策略 Nash 均衡——它能保证均衡的存在性,也是本讲计算题的主战场。
一、为什么需要混合策略:猜硬币博弈
猜硬币(Matching Pennies):两人各持一枚硬币,同时亮出正面 或反面 。两枚一致(都正或都反)→ 参与人 2 赢;不一致 → 参与人 1 赢。
取赢得 、输掉 ,收益矩阵:
| 1 \ 2 | ||
|---|---|---|
| −1, +1 | +1, −1 | |
| +1, −1 | −1, +1 |
用划线法/箭头法会发现:每个格子里总有人想偏离,找不到纯策略 Nash 均衡。本质特征是:
每个人都想猜透对方,又都不能让对方猜透自己。
破解之道就是”不让自己被猜透”——以一定概率随机地出。这就是混合策略。
二、混合策略与期望收益
混合策略的定义
混合策略(mixed strategy):参与人 的混合策略 是其纯策略集 上的一个概率分布。若 ,则 其中 是参与人 选择纯策略 的概率。
- 纯策略是混合策略的特例:某个纯策略 等价于”以概率 1 选它、其余为 0”的混合策略。
- 混合策略刻画了对手对你行动的不确定性:你按概率随机选,对手就无法精确预判。
记号: 是 的混合策略空间, 是混合策略组合。
期望收益
混合策略下收益是随机的,参与人关心的是期望收益。各人独立随机化,策略组合 出现的概率是 ,于是:
以两人两策略为例:参与人 1 出 、参与人 2 出 ,则四个格子出现的概率分别是 ,把它们乘上对应收益再相加,就是各自的期望收益。
三、混合策略 Nash 均衡
回到猜硬币:双方都按 出,期望收益都是 。此时任何一方单独改变自己的概率分布,都无法提高期望收益(因为对手是 50/50,你怎么混期望都是 0)。谁都不愿偏离——这就是均衡。
混合策略 Nash 均衡:混合策略组合 是 Nash 均衡,当且仅当对每个参与人 , 都是对 的最优反应:
形式上和纯策略 Nash 均衡一模一样,只是把”选策略”换成”选概率分布”。
存在性:纯策略 Nash 均衡可能不存在,但任何有限博弈都至少存在一个混合策略 Nash 均衡(Nash 定理)。这正是引入混合策略的最大价值。
四、最优反应引理与等值法(本讲核心)
支集与”无差异”原理
支集(support):混合策略 中所有概率大于 0 的纯策略组成的集合,记 。
为什么混合策略 Nash 均衡能算出来?靠下面这条引理:
最优反应引理:混合策略组合 是 Nash 均衡,当且仅当对每个 , 支集中的每一个纯策略都是对 的最优反应。
它有一个极其好用的推论——无差异原理(indifference principle):
在均衡中,参与人 真正会用到(支集里)的那些纯策略,带给他的期望收益全部相等,并都等于他在均衡下的期望收益;不在支集里的纯策略,期望收益 这个值。
直觉:如果支集里某个纯策略期望收益更低, 就该把它的概率挪给收益更高的策略——既然均衡里他愿意混着用,说明它们一样好。
等值法的关键逻辑(最容易绕晕的点)
既然”我”在均衡里愿意混合,说明对手把概率调到了让我无差异的位置。反过来:
“我”的混合概率,是为了让”对手”在他的支集策略之间无差异而确定的。
也就是说,用对手的无差异方程,解出自己的概率。两人各列一个无差异方程,两个未知概率就都定下来了。
算例 1:猜硬币
设参与人 1 出 的概率为 、参与人 2 出 的概率为 。
让参与人 1 无差异 → 解出 。参与人 1 两个纯策略的期望收益:
令二者相等:。
让参与人 2 无差异 → 解出 。同理:
令相等:。
混合策略 Nash 均衡为 ,双方期望收益均为 。
算例 2:性别战(有纯策略也有混合策略)
情侣商量去看球(F) 还是芭蕾(B):都想在一起,但偏好不同。
| 1 \ 2 | ||
|---|---|---|
| 2, 1 | 0, 0 | |
| 0, 0 | 1, 2 |
先用划线法可得两个纯策略 Nash 均衡: 和 。再找混合的:设 1 出 概率 ,2 出 概率 。
让 2 无差异 → 解 :
让 1 无差异 → 解 :
混合 Nash 均衡:参与人 1 出 、参与人 2 出 。
于是该博弈共有 3 个 Nash 均衡(2 纯 + 1 混)——正好印证下面的奇数定理。
五、Wilson 奇数定理
Wilson 奇数定理(oddness theorem):几乎所有的有限标准式博弈,都有有限奇数个 Nash 均衡。
用途:求解后数一下均衡个数。如果你只找到偶数个(比如只找到 2 个纯策略均衡),那很可能漏了——往往就是漏掉了中间的那个混合策略均衡。注意定理说的是”几乎所有”,并非绝对,某些退化情形仍可能出现偶数个。
六、两种一般求解法
两人两策略用等值法最快;更一般的博弈靠下面两种系统方法(了解思路、知道局限即可)。
1. 支撑求解法(support enumeration)
思路:先猜支集,再解方程。
- 枚举出所有可能的支集组合;
- 对每个给定支集,列两组方程:
- (1) 无差异方程:支集内每个纯策略的期望收益都等于均衡期望收益 ;
- (2) 规范性方程:各概率非负且加总为 1;
- 解出概率分布。
对一个猜出的支集,可能遇到三类问题,命中任一就说明这个支集不对,要换:
- 方程组无解 → 支集构造有误;
- 解不满足非负性(出现负概率)→ 支集不对;
- 解存在且为正,但与 Nash 矛盾 → 存在某个支集外的纯策略期望收益反而更高,违反”支集策略最优”。
局限:支集数量随参与人数、策略数指数增长,且多人时要解非线性方程组,计算量很大。
2. 规划求解法(programming)
思路:把”求混合策略 Nash 均衡”转化为一个优化(规划)问题,对两人有限博弈尤其有效。
设参与人 1、2 的收益矩阵分别为 、,混合策略为 (1 的)、(2 的),均衡期望收益记为 。约束的核心含义是:
- 在均衡下,参与人 1 用任一纯策略的期望收益都 ;参与人 2 同理 ;
- 目标函数迫使”只有当双方都选均衡策略时才能取到最优”,从而把均衡点挑出来。
局限:参与人多于 2 时,目标函数与约束都变成非线性,求解同样困难。
七、小结:均衡的计算难题
两种方法理论上对一切有限标准式博弈都适用,但都面临计算复杂、计算量大的问题,多人博弈尤甚。
一句话记住:博弈均衡的高效计算,至今仍是博弈论尚未很好解决的问题。
本讲考点清单
- 混合策略的定义(策略集上的概率分布、非负且和为 1);纯策略是其特例。
- 期望收益公式 ;会算两人两策略的期望收益。
- 混合策略 Nash 均衡定义;记住”有限博弈必存在混合 Nash 均衡”。
- 最优反应引理 / 无差异原理:支集内各纯策略期望收益相等——这是等值法的理论依据。
- 等值法:会用”让对手无差异”解出自己的均衡概率(猜硬币、性别战是模板题,务必练熟)。
- Wilson 奇数定理:用均衡个数自检,别漏掉混合均衡。
- 支撑求解法的步骤与三种”支集不对”的判别;规划求解法的基本思想;两者的计算局限。