第二讲 · 完全信息静态博弈：标准式与 Nash 均衡

进入完全信息静态博弈——所有人同时决策、且每个人都知道全部规则与收益。这一讲解决一个问题：给定这样一个博弈，结果会是什么？ 答案是层层递进的三种”解”：占优策略均衡 → 累次剔除严格劣策略 → Nash 均衡。

一、标准式（策略式）博弈

当参与人只选一次策略、且这些选择在逻辑上同时进行时，最适合用标准式博弈来描述（不需要考虑博弈进程）。

三要素

一个标准式博弈由三样东西完全确定：

参与人集合： $n$ 个参与人，记第 $i$ 个为 $i \in \{1,2,\dots,n\}$ ；
策略空间：每个参与人 $i$ 的策略集合 $S_i$ ，其中某个具体策略记为 $s_i \in S_i$ ；
收益函数： $u_i$ ，表示在某个策略组合下参与人 $i$ 得到的收益。

记策略组合 $s=(s_1,s_2,\dots,s_n)$ ，整个博弈写成：

$G=\{S_1,S_2,\dots,S_n;\ u_1,u_2,\dots,u_n\}$

一个常用记号：把”除 $i$ 以外其他所有人的策略”记为 $s_{-i}$ ，于是 $s=(s_i,s_{-i})$ ，收益写成 $u_i(s_i,s_{-i})$ ——一眼看出”我的收益既取决于我，也取决于别人”。

两人有限博弈通常用收益矩阵（双变量矩阵）表示：行是参与人 1 的策略、列是参与人 2 的策略，每个格子写 (u₁, u₂)。

二、解概念一：占优策略与占优策略均衡

从囚徒困境说起

两个小偷被分开审讯。都坦白：各判 4 年；都抵赖：证据不足各判 1 年；一人坦白一人抵赖：坦白者无罪释放、抵赖者重判 6 年。

把”判刑年数”取负当收益，收益矩阵为：

偷 1 \ 偷 2	坦白	抵赖
坦白	−4, −4	0, −6
抵赖	−6, 0	−1, −1

分析偷 1（偷 2 同理，博弈对称）：

若对方坦白：自己坦白得 −4，抵赖得 −6 → 选坦白；
若对方抵赖：自己坦白得 0，抵赖得 −1 → 还是选坦白。

无论对方怎么选，“坦白”都是最优。于是结果必然是（坦白，坦白）。

困境所在：（抵赖，抵赖）能让两人都判得更轻，是（坦白，坦白）的 Pareto 改进。但只要两人都理性，谁都不敢抵赖——这就是个人理性与集体理性的矛盾。

占优策略的定义

“坦白”这种”无论别人怎么选，它都是我的最优”的策略，叫占优策略。

占优策略（dominant strategy）：在 $n$ 人博弈中，若对所有其他人的选择 $s_{-i}$ ，策略 $s_i^{*}$ 都是参与人 $i$ 的最优选择，即 $u_i(s_i^{*},\,s_{-i}) \ \ge\ u_i(s_i,\,s_{-i}),\qquad \forall\, s_i \in S_i,\ \forall\, s_{-i},$ 则称 $s_i^{*}$ 为参与人 $i$ 的占优策略。（不等号取严格 $>$ 时为严格占优策略。）

只要参与人理性，有占优策略就一定选它——这种行为叫占优行为，是理性选择最基本的特征。

占优策略均衡

占优策略均衡（dominant-strategy equilibrium）：若每个参与人都有占优策略，则由所有人的占优策略组成的组合 $(s_1^{*},\dots,s_n^{*})$ 称为占优策略均衡。

它是唯一的、所有理性人都能预测到的结果。囚徒困境的（坦白，坦白）就是占优策略均衡。

局限：现实里绝大多数博弈没有占优策略（比如需求小时的”新产品开发博弈”），所以需要更弱的解概念。

三、解概念二：累次剔除严格劣策略

严格劣策略

占优策略的”反面”：

严格劣策略（strictly dominated strategy）：若存在另一策略 $s_i''$ ，使得 $u_i(s_i'',\,s_{-i}) \ >\ u_i(s_i',\,s_{-i}),\qquad \forall\, s_{-i},$ 即无论别人怎么选，选 $s_i''$ 的所得都严格大于选 $s_i'$ ，则称 $s_i'$ 是严格劣策略（被 $s_i''$ 严格占优）。

理性人绝不会选严格劣策略，相当于把它从策略集里剔除掉。

累次（重复）剔除

剔除是可以连锁进行的：

删掉某个参与人的严格劣策略，得到一个更小的新博弈；
在新博弈里，原本不是劣的策略可能变成劣策略，继续删；
反复进行……

若不断剔除最终只剩唯一的策略组合，则该组合称为重复剔除的占优均衡，并称这个博弈是累次剔除可解的（dominance solvable）。

每多剔一层，对”理性是共同知识”的要求就更高一层：第一层只需”我理性”；第二层需要”我知道你理性”；第三层需要”我知道你知道我理性”……策略空间越大、要剔的步数越多，对共同知识的要求就越苛刻。

弱劣策略与”剔除顺序”陷阱（重要考点）

弱劣策略（weakly dominated）：若存在 $s_i''$ 使得 $u_i(s_i'',s_{-i}) \ \ge\ u_i(s_i',s_{-i})\ \ \forall s_{-i},\quad \text{且}\ \exists\, s_{-i}\ \text{使}\ u_i(s_i'',s_{-i}) \ >\ u_i(s_i',s_{-i}),$ 即”任何情况下都不差，且至少在某种情况下严格更好”，则 $s_i'$ 是弱劣策略。

关键结论：

剔除严格劣策略：最终结果与剔除顺序无关（安全）；
剔除弱劣策略：结果可能与顺序有关，还可能误删掉本属于 Nash 均衡的策略（危险）。

所以考试和实战里，能用严格劣就用严格劣；剔弱劣策略要非常小心。

四、解概念三：Nash 均衡（核心中的核心）

很多博弈既没有占优策略、也无法靠剔除劣策略解出来（如需求小的新产品开发博弈）。为求解更一般的博弈，引入 Nash 均衡。

先理解”最优反应”

最优反应（best response）：给定其他人的策略组合 $s_{-i}$ ，若参与人 $i$ 选择 $s_i$ 的收益不差于他的任何其他策略，则 $s_i$ 是对 $s_{-i}$ 的最优反应： $BR_i(s_{-i})=\{\,s_i\in S_i \ \mid\ u_i(s_i,s_{-i})\ \ge\ u_i(s_i',s_{-i}),\ \forall s_i'\in S_i\,\}$

注意区分：占优策略是”对所有 $s_{-i}$ 都最优”；最优反应是”对给定的 $s_{-i}$ 最优”。占优策略 ⟺ 对一切 $s_{-i}$ 都属于最优反应。

Nash 均衡的定义

Nash 均衡（Nash equilibrium）：策略组合 $s^{*}=(s_1^{*},\dots,s_n^{*})$ 是 Nash 均衡，当且仅当每个人的策略都是对其他人策略的最优反应： $u_i(s_i^{*},\,s_{-i}^{*}) \ \ge\ u_i(s_i,\,s_{-i}^{*}),\qquad \forall\, i,\ \forall\, s_i \in S_i.$

直白理解 Nash 均衡的两个等价说法：

相互最优反应：在两人博弈里，双方策略互为最优反应的组合就是 Nash 均衡；
无人愿单方偏离：给定别人不变，没有任何一个人能靠单独改变策略而获益。这就是 Nash 均衡”稳”的含义——它是一个自我维持的一致性预测。

为什么非 Nash 的组合不能当解？ 因为若某组合不是 Nash 均衡，就一定有人能通过偏离获利，那么这个”预测”会被理性人自己推翻，不自洽。

求解纯策略 Nash 均衡的两种方法

① 划线法（下划线法）

逐列（固定对方策略）找出本方的最优反应收益并划线/标注；两个参与人的标注同时落在同一格，该格就是 Nash 均衡。本质就是”互为最优反应”。

② 箭头法

从每个格子出发，让每个参与人朝”能让自己变好的单方偏离”画箭头；没有任何箭头指出去（所有人都不愿离开）的格子就是 Nash 均衡。本质就是”无人愿单方偏离”。

两种方法是同一件事的两个视角，结果一致，挑顺手的用即可。这是本讲最常考的计算题。

三个解概念的关系（必考）

$\text{占优策略均衡}\ \subseteq\ \text{累次剔除的占优均衡}\ \subseteq\ \text{Nash 均衡}$

占优策略均衡一定是 Nash 均衡；Nash 均衡不一定是占优策略均衡（后者更稀有、更强）。
Nash 均衡一定不会在”累次剔除严格劣策略”中被剔掉；反之，没被剔掉的组合不一定是 Nash 均衡——除非剔到只剩唯一一个，那它就是。
Nash 均衡有强弱之分，且一个博弈可能有多个Nash 均衡（如需求小时的新产品开发博弈有两个）。

本讲考点清单

标准式博弈三要素 + 记号 $G=\{S_1,\dots,S_n;u_1,\dots,u_n\}$ 、 $s_{-i}$ 的含义。
囚徒困境：写收益矩阵、说明占优策略、解释”个人理性 vs 集体理性 / Pareto 改进”。
占优策略 / 严格劣策略 / 弱劣策略的定义与不等式，三者辨析。
累次剔除：会做剔除过程；记住”严格劣与顺序无关、弱劣可能有关”。
Nash 均衡定义（最优反应语言），会用划线法 / 箭头法求纯策略 Nash 均衡。
三个解概念的包含关系与相互联系。