第二讲 · 完全信息静态博弈:标准式与 Nash 均衡
进入完全信息静态博弈——所有人同时决策、且每个人都知道全部规则与收益。这一讲解决一个问题:给定这样一个博弈,结果会是什么? 答案是层层递进的三种”解”:占优策略均衡 → 累次剔除严格劣策略 → Nash 均衡。
一、标准式(策略式)博弈
当参与人只选一次策略、且这些选择在逻辑上同时进行时,最适合用标准式博弈来描述(不需要考虑博弈进程)。
三要素
一个标准式博弈由三样东西完全确定:
- 参与人集合: 个参与人,记第 个为 ;
- 策略空间:每个参与人 的策略集合 ,其中某个具体策略记为 ;
- 收益函数:,表示在某个策略组合下参与人 得到的收益。
记策略组合 ,整个博弈写成:
一个常用记号:把”除 以外其他所有人的策略”记为 ,于是 ,收益写成 ——一眼看出”我的收益既取决于我,也取决于别人”。
两人有限博弈通常用收益矩阵(双变量矩阵)表示:行是参与人 1 的策略、列是参与人 2 的策略,每个格子写 (u₁, u₂)。
二、解概念一:占优策略与占优策略均衡
从囚徒困境说起
两个小偷被分开审讯。都坦白:各判 4 年;都抵赖:证据不足各判 1 年;一人坦白一人抵赖:坦白者无罪释放、抵赖者重判 6 年。
把”判刑年数”取负当收益,收益矩阵为:
| 偷 1 \ 偷 2 | 坦白 | 抵赖 |
|---|---|---|
| 坦白 | −4, −4 | 0, −6 |
| 抵赖 | −6, 0 | −1, −1 |
分析偷 1(偷 2 同理,博弈对称):
- 若对方坦白:自己坦白得 −4,抵赖得 −6 → 选坦白;
- 若对方抵赖:自己坦白得 0,抵赖得 −1 → 还是选坦白。
无论对方怎么选,“坦白”都是最优。于是结果必然是(坦白,坦白)。
困境所在:(抵赖,抵赖)能让两人都判得更轻,是(坦白,坦白)的 Pareto 改进。但只要两人都理性,谁都不敢抵赖——这就是个人理性与集体理性的矛盾。
占优策略的定义
“坦白”这种”无论别人怎么选,它都是我的最优”的策略,叫占优策略。
占优策略(dominant strategy):在 人博弈中,若对所有其他人的选择 ,策略 都是参与人 的最优选择,即 则称 为参与人 的占优策略。(不等号取严格 时为严格占优策略。)
只要参与人理性,有占优策略就一定选它——这种行为叫占优行为,是理性选择最基本的特征。
占优策略均衡
占优策略均衡(dominant-strategy equilibrium):若每个参与人都有占优策略,则由所有人的占优策略组成的组合 称为占优策略均衡。
它是唯一的、所有理性人都能预测到的结果。囚徒困境的(坦白,坦白)就是占优策略均衡。
局限:现实里绝大多数博弈没有占优策略(比如需求小时的”新产品开发博弈”),所以需要更弱的解概念。
三、解概念二:累次剔除严格劣策略
严格劣策略
占优策略的”反面”:
严格劣策略(strictly dominated strategy):若存在另一策略 ,使得 即无论别人怎么选,选 的所得都严格大于选 ,则称 是严格劣策略(被 严格占优)。
理性人绝不会选严格劣策略,相当于把它从策略集里剔除掉。
累次(重复)剔除
剔除是可以连锁进行的:
- 删掉某个参与人的严格劣策略,得到一个更小的新博弈;
- 在新博弈里,原本不是劣的策略可能变成劣策略,继续删;
- 反复进行……
若不断剔除最终只剩唯一的策略组合,则该组合称为重复剔除的占优均衡,并称这个博弈是累次剔除可解的(dominance solvable)。
每多剔一层,对”理性是共同知识”的要求就更高一层:第一层只需”我理性”;第二层需要”我知道你理性”;第三层需要”我知道你知道我理性”……策略空间越大、要剔的步数越多,对共同知识的要求就越苛刻。
弱劣策略与”剔除顺序”陷阱(重要考点)
弱劣策略(weakly dominated):若存在 使得 即”任何情况下都不差,且至少在某种情况下严格更好”,则 是弱劣策略。
关键结论:
- 剔除严格劣策略:最终结果与剔除顺序无关(安全);
- 剔除弱劣策略:结果可能与顺序有关,还可能误删掉本属于 Nash 均衡的策略(危险)。
所以考试和实战里,能用严格劣就用严格劣;剔弱劣策略要非常小心。
四、解概念三:Nash 均衡(核心中的核心)
很多博弈既没有占优策略、也无法靠剔除劣策略解出来(如需求小的新产品开发博弈)。为求解更一般的博弈,引入 Nash 均衡。
先理解”最优反应”
最优反应(best response):给定其他人的策略组合 ,若参与人 选择 的收益不差于他的任何其他策略,则 是对 的最优反应:
注意区分:占优策略是”对所有 都最优”;最优反应是”对给定的 最优”。占优策略 ⟺ 对一切 都属于最优反应。
Nash 均衡的定义
Nash 均衡(Nash equilibrium):策略组合 是 Nash 均衡,当且仅当每个人的策略都是对其他人策略的最优反应:
直白理解 Nash 均衡的两个等价说法:
- 相互最优反应:在两人博弈里,双方策略互为最优反应的组合就是 Nash 均衡;
- 无人愿单方偏离:给定别人不变,没有任何一个人能靠单独改变策略而获益。这就是 Nash 均衡”稳”的含义——它是一个自我维持的一致性预测。
为什么非 Nash 的组合不能当解? 因为若某组合不是 Nash 均衡,就一定有人能通过偏离获利,那么这个”预测”会被理性人自己推翻,不自洽。
求解纯策略 Nash 均衡的两种方法
① 划线法(下划线法)
逐列(固定对方策略)找出本方的最优反应收益并划线/标注;两个参与人的标注同时落在同一格,该格就是 Nash 均衡。本质就是”互为最优反应”。
② 箭头法
从每个格子出发,让每个参与人朝”能让自己变好的单方偏离”画箭头;没有任何箭头指出去(所有人都不愿离开)的格子就是 Nash 均衡。本质就是”无人愿单方偏离”。
两种方法是同一件事的两个视角,结果一致,挑顺手的用即可。这是本讲最常考的计算题。
三个解概念的关系(必考)
- 占优策略均衡一定是 Nash 均衡;Nash 均衡不一定是占优策略均衡(后者更稀有、更强)。
- Nash 均衡一定不会在”累次剔除严格劣策略”中被剔掉;反之,没被剔掉的组合不一定是 Nash 均衡——除非剔到只剩唯一一个,那它就是。
- Nash 均衡有强弱之分,且一个博弈可能有多个Nash 均衡(如需求小时的新产品开发博弈有两个)。
本讲考点清单
- 标准式博弈三要素 + 记号 、 的含义。
- 囚徒困境:写收益矩阵、说明占优策略、解释”个人理性 vs 集体理性 / Pareto 改进”。
- 占优策略 / 严格劣策略 / 弱劣策略的定义与不等式,三者辨析。
- 累次剔除:会做剔除过程;记住”严格劣与顺序无关、弱劣可能有关”。
- Nash 均衡定义(最优反应语言),会用划线法 / 箭头法求纯策略 Nash 均衡。
- 三个解概念的包含关系与相互联系。