第三讲 · 完全信息静态博弈:混合策略 Nash 均衡

Views: --

第二讲的纯策略 Nash 均衡有个尴尬:有些博弈根本不存在纯策略 Nash 均衡(比如猜硬币)。这一讲把策略从”确定地选一个”放宽成”按概率随机选”,于是得到混合策略 Nash 均衡——它能保证均衡的存在性,也是本讲计算题的主战场。

一、为什么需要混合策略:猜硬币博弈

猜硬币(Matching Pennies):两人各持一枚硬币,同时亮出正面 OO 或反面 RR。两枚一致(都正或都反)→ 参与人 2 赢;不一致 → 参与人 1 赢。

取赢得 +1+1、输掉 1-1,收益矩阵:

1 \ 2OORR
OO−1, +1+1, −1
RR+1, −1−1, +1

用划线法/箭头法会发现:每个格子里总有人想偏离,找不到纯策略 Nash 均衡。本质特征是:

每个人都想猜透对方,又都不能让对方猜透自己。

破解之道就是”不让自己被猜透”——以一定概率随机地出。这就是混合策略。

二、混合策略与期望收益

混合策略的定义

混合策略(mixed strategy):参与人 ii 的混合策略 σi\sigma_i 是其纯策略集 SiS_i 上的一个概率分布。若 Si={si1,,sik}S_i=\{s_{i1},\dots,s_{ik}\},则 σi=(σi(si1),,σi(sik)),σi(sij)0,j=1kσi(sij)=1,\sigma_i=\big(\sigma_i(s_{i1}),\dots,\sigma_i(s_{ik})\big),\qquad \sigma_i(s_{ij})\ge 0,\quad \sum_{j=1}^{k}\sigma_i(s_{ij})=1, 其中 σi(sij)\sigma_i(s_{ij}) 是参与人 ii 选择纯策略 sijs_{ij} 的概率。

  • 纯策略是混合策略的特例:某个纯策略 sijs_{ij} 等价于”以概率 1 选它、其余为 0”的混合策略。
  • 混合策略刻画了对手对你行动的不确定性:你按概率随机选,对手就无法精确预判。

记号:Σi\Sigma_iii 的混合策略空间,σ=(σ1,,σn)\sigma=(\sigma_1,\dots,\sigma_n) 是混合策略组合。

期望收益

混合策略下收益是随机的,参与人关心的是期望收益。各人独立随机化,策略组合 s=(s1,,sn)s=(s_1,\dots,s_n) 出现的概率是 jσj(sj)\prod_j \sigma_j(s_j),于是:

ui(σ)=sS(j=1nσj(sj))ui(s).u_i(\sigma)=\sum_{s\in S}\Big(\prod_{j=1}^{n}\sigma_j(s_j)\Big)\,u_i(s).

以两人两策略为例:参与人 1 出 (p,1p)(p,\,1-p)、参与人 2 出 (q,1q)(q,\,1-q),则四个格子出现的概率分别是 pq, p(1q), (1p)q, (1p)(1q)pq,\ p(1-q),\ (1-p)q,\ (1-p)(1-q),把它们乘上对应收益再相加,就是各自的期望收益。

三、混合策略 Nash 均衡

回到猜硬币:双方都按 σi=(0.5,0.5)\sigma_i=(0.5,0.5) 出,期望收益都是 00。此时任何一方单独改变自己的概率分布,都无法提高期望收益(因为对手是 50/50,你怎么混期望都是 0)。谁都不愿偏离——这就是均衡。

混合策略 Nash 均衡:混合策略组合 σ=(σ1,,σn)\sigma^{*}=(\sigma_1^{*},\dots,\sigma_n^{*}) 是 Nash 均衡,当且仅当对每个参与人 iiσi\sigma_i^{*} 都是对 σi\sigma_{-i}^{*} 的最优反应: ui(σi,σi)  ui(σi,σi),i, σiΣi.u_i(\sigma_i^{*},\,\sigma_{-i}^{*})\ \ge\ u_i(\sigma_i,\,\sigma_{-i}^{*}),\qquad \forall\, i,\ \forall\, \sigma_i\in\Sigma_i.

形式上和纯策略 Nash 均衡一模一样,只是把”选策略”换成”选概率分布”。

存在性:纯策略 Nash 均衡可能不存在,但任何有限博弈都至少存在一个混合策略 Nash 均衡(Nash 定理)。这正是引入混合策略的最大价值。

四、最优反应引理与等值法(本讲核心)

支集与”无差异”原理

支集(support):混合策略 σi\sigma_i 中所有概率大于 0 的纯策略组成的集合,记 supp(σi)\mathrm{supp}(\sigma_i)

为什么混合策略 Nash 均衡能算出来?靠下面这条引理:

最优反应引理:混合策略组合 σ\sigma^{*} 是 Nash 均衡,当且仅当对每个 iiσi\sigma_i^{*} 支集中的每一个纯策略都是对 σi\sigma_{-i}^{*} 的最优反应。

它有一个极其好用的推论——无差异原理(indifference principle)

在均衡中,参与人 ii 真正会用到(支集里)的那些纯策略,带给他的期望收益全部相等,并都等于他在均衡下的期望收益;不在支集里的纯策略,期望收益 \le 这个值。

直觉:如果支集里某个纯策略期望收益更低,ii 就该把它的概率挪给收益更高的策略——既然均衡里他愿意混着用,说明它们一样好

等值法的关键逻辑(最容易绕晕的点)

既然”我”在均衡里愿意混合,说明对手把概率调到了让我无差异的位置。反过来:

“我”的混合概率,是为了让”对手”在他的支集策略之间无差异而确定的。

也就是说,用对手的无差异方程,解出自己的概率。两人各列一个无差异方程,两个未知概率就都定下来了。

算例 1:猜硬币

设参与人 1 出 OO 的概率为 pp、参与人 2 出 OO 的概率为 qq

让参与人 1 无差异 → 解出 qq。参与人 1 两个纯策略的期望收益:

u1(O)=q(1)+(1q)(+1)=12q,u1(R)=q(+1)+(1q)(1)=2q1.u_1(O)=q(-1)+(1-q)(+1)=1-2q,\qquad u_1(R)=q(+1)+(1-q)(-1)=2q-1.

令二者相等:12q=2q1q=121-2q=2q-1 \Rightarrow \boxed{q=\tfrac12}

让参与人 2 无差异 → 解出 pp。同理:

u2(O)=p(+1)+(1p)(1)=2p1,u2(R)=p(1)+(1p)(+1)=12p,u_2(O)=p(+1)+(1-p)(-1)=2p-1,\qquad u_2(R)=p(-1)+(1-p)(+1)=1-2p,

令相等:2p1=12pp=122p-1=1-2p \Rightarrow \boxed{p=\tfrac12}

混合策略 Nash 均衡为 ((12,12),(12,12))\big((\tfrac12,\tfrac12),(\tfrac12,\tfrac12)\big),双方期望收益均为 00

算例 2:性别战(有纯策略也有混合策略)

情侣商量去看球(F) 还是芭蕾(B):都想在一起,但偏好不同。

1 \ 2FFBB
FF2, 10, 0
BB0, 01, 2

先用划线法可得两个纯策略 Nash 均衡(F,F)(F,F)(B,B)(B,B)。再找混合的:设 1 出 FF 概率 pp,2 出 FF 概率 qq

让 2 无差异 → 解 pp

u2(F)=p1+(1p)0=p,u2(B)=p0+(1p)2=2(1p),u_2(F)=p\cdot 1+(1-p)\cdot 0=p,\qquad u_2(B)=p\cdot 0+(1-p)\cdot 2=2(1-p), p=2(1p)  p=23.p=2(1-p)\ \Rightarrow\ \boxed{p=\tfrac23}.

让 1 无差异 → 解 qq

u1(F)=q2+(1q)0=2q,u1(B)=q0+(1q)1=1q,u_1(F)=q\cdot 2+(1-q)\cdot 0=2q,\qquad u_1(B)=q\cdot 0+(1-q)\cdot 1=1-q, 2q=1q  q=13.2q=1-q\ \Rightarrow\ \boxed{q=\tfrac13}.

混合 Nash 均衡:参与人 1 出 (23,13)(\tfrac23,\tfrac13)、参与人 2 出 (13,23)(\tfrac13,\tfrac23)

于是该博弈共有 3 个 Nash 均衡(2 纯 + 1 混)——正好印证下面的奇数定理。

五、Wilson 奇数定理

Wilson 奇数定理(oddness theorem):几乎所有的有限标准式博弈,都有有限奇数个 Nash 均衡。

用途:求解后数一下均衡个数。如果你只找到偶数个(比如只找到 2 个纯策略均衡),那很可能漏了——往往就是漏掉了中间的那个混合策略均衡。注意定理说的是”几乎所有”,并非绝对,某些退化情形仍可能出现偶数个。

六、两种一般求解法

两人两策略用等值法最快;更一般的博弈靠下面两种系统方法(了解思路、知道局限即可)。

1. 支撑求解法(support enumeration)

思路:先猜支集,再解方程

  1. 枚举出所有可能的支集组合;
  2. 对每个给定支集,列两组方程:
    • (1) 无差异方程:支集内每个纯策略的期望收益都等于均衡期望收益 viv_i
    • (2) 规范性方程:各概率非负且加总为 1;
  3. 解出概率分布。

对一个猜出的支集,可能遇到三类问题,命中任一就说明这个支集不对,要换:

  • 方程组无解 → 支集构造有误;
  • 解不满足非负性(出现负概率)→ 支集不对;
  • 解存在且为正,但与 Nash 矛盾 → 存在某个支集外的纯策略期望收益反而更高,违反”支集策略最优”。

局限:支集数量随参与人数、策略数指数增长,且多人时要解非线性方程组,计算量很大

2. 规划求解法(programming)

思路:把”求混合策略 Nash 均衡”转化为一个优化(规划)问题,对两人有限博弈尤其有效。

设参与人 1、2 的收益矩阵分别为 A=(aij)A=(a_{ij})B=(bij)B=(b_{ij}),混合策略为 xx(1 的)、yy(2 的),均衡期望收益记为 v1,v2v_1,v_2。约束的核心含义是:

  • 在均衡下,参与人 1 用任一纯策略的期望收益都 v1\le v_1;参与人 2 同理 v2\le v_2
  • 目标函数迫使”只有当双方都选均衡策略时才能取到最优”,从而把均衡点挑出来。

局限:参与人多于 2 时,目标函数与约束都变成非线性,求解同样困难。

七、小结:均衡的计算难题

两种方法理论上对一切有限标准式博弈都适用,但都面临计算复杂、计算量大的问题,多人博弈尤甚。

一句话记住:博弈均衡的高效计算,至今仍是博弈论尚未很好解决的问题。

本讲考点清单

  • 混合策略的定义(策略集上的概率分布、非负且和为 1);纯策略是其特例。
  • 期望收益公式 ui(σ)=s(jσj(sj))ui(s)u_i(\sigma)=\sum_s\big(\prod_j\sigma_j(s_j)\big)u_i(s);会算两人两策略的期望收益。
  • 混合策略 Nash 均衡定义;记住”有限博弈必存在混合 Nash 均衡”。
  • 最优反应引理 / 无差异原理:支集内各纯策略期望收益相等——这是等值法的理论依据。
  • 等值法:会用”让对手无差异”解出自己的均衡概率(猜硬币、性别战是模板题,务必练熟)。
  • Wilson 奇数定理:用均衡个数自检,别漏掉混合均衡。
  • 支撑求解法的步骤与三种”支集不对”的判别;规划求解法的基本思想;两者的计算局限。