第三讲 · 完全信息静态博弈：混合策略 Nash 均衡

第二讲的纯策略 Nash 均衡有个尴尬：有些博弈根本不存在纯策略 Nash 均衡（比如猜硬币）。这一讲把策略从”确定地选一个”放宽成”按概率随机选”，于是得到混合策略 Nash 均衡——它能保证均衡的存在性，也是本讲计算题的主战场。

一、为什么需要混合策略：猜硬币博弈

猜硬币（Matching Pennies）：两人各持一枚硬币，同时亮出正面 $O$ 或反面 $R$ 。两枚一致（都正或都反）→ 参与人 2 赢；不一致 → 参与人 1 赢。

取赢得 $+1$ 、输掉 $-1$ ，收益矩阵：

1 \ 2	$O$	$R$
$O$	−1, +1	+1, −1
$R$	+1, −1	−1, +1

用划线法/箭头法会发现：每个格子里总有人想偏离，找不到纯策略 Nash 均衡。本质特征是：

每个人都想猜透对方，又都不能让对方猜透自己。

破解之道就是”不让自己被猜透”——以一定概率随机地出。这就是混合策略。

二、混合策略与期望收益

混合策略的定义

混合策略（mixed strategy）：参与人 $i$ 的混合策略 $\sigma_i$ 是其纯策略集 $S_i$ 上的一个概率分布。若 $S_i=\{s_{i1},\dots,s_{ik}\}$ ，则 $\sigma_i=\big(\sigma_i(s_{i1}),\dots,\sigma_i(s_{ik})\big),\qquad \sigma_i(s_{ij})\ge 0,\quad \sum_{j=1}^{k}\sigma_i(s_{ij})=1,$ 其中 $\sigma_i(s_{ij})$ 是参与人 $i$ 选择纯策略 $s_{ij}$ 的概率。

纯策略是混合策略的特例：某个纯策略 $s_{ij}$ 等价于”以概率 1 选它、其余为 0”的混合策略。
混合策略刻画了对手对你行动的不确定性：你按概率随机选，对手就无法精确预判。

记号： $\Sigma_i$ 是 $i$ 的混合策略空间， $\sigma=(\sigma_1,\dots,\sigma_n)$ 是混合策略组合。

期望收益

混合策略下收益是随机的，参与人关心的是期望收益。各人独立随机化，策略组合 $s=(s_1,\dots,s_n)$ 出现的概率是 $\prod_j \sigma_j(s_j)$ ，于是：

$u_i(\sigma)=\sum_{s\in S}\Big(\prod_{j=1}^{n}\sigma_j(s_j)\Big)\,u_i(s).$

以两人两策略为例：参与人 1 出 $(p,\,1-p)$ 、参与人 2 出 $(q,\,1-q)$ ，则四个格子出现的概率分别是 $pq,\ p(1-q),\ (1-p)q,\ (1-p)(1-q)$ ，把它们乘上对应收益再相加，就是各自的期望收益。

三、混合策略 Nash 均衡

回到猜硬币：双方都按 $\sigma_i=(0.5,0.5)$ 出，期望收益都是 $0$ 。此时任何一方单独改变自己的概率分布，都无法提高期望收益（因为对手是 50/50，你怎么混期望都是 0）。谁都不愿偏离——这就是均衡。

混合策略 Nash 均衡：混合策略组合 $\sigma^{*}=(\sigma_1^{*},\dots,\sigma_n^{*})$ 是 Nash 均衡，当且仅当对每个参与人 $i$ ， $\sigma_i^{*}$ 都是对 $\sigma_{-i}^{*}$ 的最优反应： $u_i(\sigma_i^{*},\,\sigma_{-i}^{*})\ \ge\ u_i(\sigma_i,\,\sigma_{-i}^{*}),\qquad \forall\, i,\ \forall\, \sigma_i\in\Sigma_i.$

形式上和纯策略 Nash 均衡一模一样，只是把”选策略”换成”选概率分布”。

存在性：纯策略 Nash 均衡可能不存在，但任何有限博弈都至少存在一个混合策略 Nash 均衡（Nash 定理）。这正是引入混合策略的最大价值。

四、最优反应引理与等值法（本讲核心）

支集与”无差异”原理

支集（support）：混合策略 $\sigma_i$ 中所有概率大于 0 的纯策略组成的集合，记 $\mathrm{supp}(\sigma_i)$ 。

为什么混合策略 Nash 均衡能算出来？靠下面这条引理：

最优反应引理：混合策略组合 $\sigma^{*}$ 是 Nash 均衡，当且仅当对每个 $i$ ， $\sigma_i^{*}$ 支集中的每一个纯策略都是对 $\sigma_{-i}^{*}$ 的最优反应。

它有一个极其好用的推论——无差异原理（indifference principle）：

在均衡中，参与人 $i$ 真正会用到（支集里）的那些纯策略，带给他的期望收益全部相等，并都等于他在均衡下的期望收益；不在支集里的纯策略，期望收益 $\le$ 这个值。

直觉：如果支集里某个纯策略期望收益更低， $i$ 就该把它的概率挪给收益更高的策略——既然均衡里他愿意混着用，说明它们一样好。

等值法的关键逻辑（最容易绕晕的点）

既然”我”在均衡里愿意混合，说明对手把概率调到了让我无差异的位置。反过来：

“我”的混合概率，是为了让”对手”在他的支集策略之间无差异而确定的。

也就是说，用对手的无差异方程，解出自己的概率。两人各列一个无差异方程，两个未知概率就都定下来了。

算例 1：猜硬币

设参与人 1 出 $O$ 的概率为 $p$ 、参与人 2 出 $O$ 的概率为 $q$ 。

让参与人 1 无差异 → 解出 $q$ 。参与人 1 两个纯策略的期望收益：

$u_1(O)=q(-1)+(1-q)(+1)=1-2q,\qquad u_1(R)=q(+1)+(1-q)(-1)=2q-1.$

令二者相等： $1-2q=2q-1 \Rightarrow \boxed{q=\tfrac12}$ 。

让参与人 2 无差异 → 解出 $p$ 。同理：

$u_2(O)=p(+1)+(1-p)(-1)=2p-1,\qquad u_2(R)=p(-1)+(1-p)(+1)=1-2p,$

令相等： $2p-1=1-2p \Rightarrow \boxed{p=\tfrac12}$ 。

混合策略 Nash 均衡为 $\big((\tfrac12,\tfrac12),(\tfrac12,\tfrac12)\big)$ ，双方期望收益均为 $0$ 。

算例 2：性别战（有纯策略也有混合策略）

情侣商量去看球(F) 还是芭蕾(B)：都想在一起，但偏好不同。

1 \ 2	$F$	$B$
$F$	2, 1	0, 0
$B$	0, 0	1, 2

先用划线法可得两个纯策略 Nash 均衡： $(F,F)$ 和 $(B,B)$ 。再找混合的：设 1 出 $F$ 概率 $p$ ，2 出 $F$ 概率 $q$ 。

让 2 无差异 → 解 $p$ ：

$u_2(F)=p\cdot 1+(1-p)\cdot 0=p,\qquad u_2(B)=p\cdot 0+(1-p)\cdot 2=2(1-p),$ $p=2(1-p)\ \Rightarrow\ \boxed{p=\tfrac23}.$

让 1 无差异 → 解 $q$ ：

$u_1(F)=q\cdot 2+(1-q)\cdot 0=2q,\qquad u_1(B)=q\cdot 0+(1-q)\cdot 1=1-q,$ $2q=1-q\ \Rightarrow\ \boxed{q=\tfrac13}.$

混合 Nash 均衡：参与人 1 出 $(\tfrac23,\tfrac13)$ 、参与人 2 出 $(\tfrac13,\tfrac23)$ 。

于是该博弈共有 3 个 Nash 均衡（2 纯 + 1 混）——正好印证下面的奇数定理。

五、Wilson 奇数定理

Wilson 奇数定理（oddness theorem）：几乎所有的有限标准式博弈，都有有限奇数个 Nash 均衡。

用途：求解后数一下均衡个数。如果你只找到偶数个（比如只找到 2 个纯策略均衡），那很可能漏了——往往就是漏掉了中间的那个混合策略均衡。注意定理说的是”几乎所有”，并非绝对，某些退化情形仍可能出现偶数个。

六、两种一般求解法

两人两策略用等值法最快；更一般的博弈靠下面两种系统方法（了解思路、知道局限即可）。

1. 支撑求解法（support enumeration）

思路：先猜支集，再解方程。

枚举出所有可能的支集组合；
对每个给定支集，列两组方程：
- (1) 无差异方程：支集内每个纯策略的期望收益都等于均衡期望收益 $v_i$ ；
- (2) 规范性方程：各概率非负且加总为 1；
解出概率分布。

对一个猜出的支集，可能遇到三类问题，命中任一就说明这个支集不对，要换：

方程组无解 → 支集构造有误；
解不满足非负性（出现负概率）→ 支集不对；
解存在且为正，但与 Nash 矛盾 → 存在某个支集外的纯策略期望收益反而更高，违反”支集策略最优”。

局限：支集数量随参与人数、策略数指数增长，且多人时要解非线性方程组，计算量很大。

2. 规划求解法（programming）

思路：把”求混合策略 Nash 均衡”转化为一个优化（规划）问题，对两人有限博弈尤其有效。

设参与人 1、2 的收益矩阵分别为 $A=(a_{ij})$ 、 $B=(b_{ij})$ ，混合策略为 $x$ （1 的）、 $y$ （2 的），均衡期望收益记为 $v_1,v_2$ 。约束的核心含义是：

在均衡下，参与人 1 用任一纯策略的期望收益都 $\le v_1$ ；参与人 2 同理 $\le v_2$ ；
目标函数迫使”只有当双方都选均衡策略时才能取到最优”，从而把均衡点挑出来。

局限：参与人多于 2 时，目标函数与约束都变成非线性，求解同样困难。

七、小结：均衡的计算难题

两种方法理论上对一切有限标准式博弈都适用，但都面临计算复杂、计算量大的问题，多人博弈尤甚。

一句话记住：博弈均衡的高效计算，至今仍是博弈论尚未很好解决的问题。

本讲考点清单

混合策略的定义（策略集上的概率分布、非负且和为 1）；纯策略是其特例。
期望收益公式 $u_i(\sigma)=\sum_s\big(\prod_j\sigma_j(s_j)\big)u_i(s)$ ；会算两人两策略的期望收益。
混合策略 Nash 均衡定义；记住”有限博弈必存在混合 Nash 均衡”。
最优反应引理 / 无差异原理：支集内各纯策略期望收益相等——这是等值法的理论依据。
等值法：会用”让对手无差异”解出自己的均衡概率（猜硬币、性别战是模板题，务必练熟）。
Wilson 奇数定理：用均衡个数自检，别漏掉混合均衡。
支撑求解法的步骤与三种”支集不对”的判别；规划求解法的基本思想；两者的计算局限。