第一讲 · 博弈论概述
这一讲是”打地基”。不涉及计算,但术语和分类框架是后面所有内容的语言,考试里也常以名词解释、简答的形式直接出现。
一、什么是博弈
博弈(Game):在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。
把这句定义拆成四个关键词,就抓住了博弈的全部要素:
- 规则约束——谁能做什么、按什么顺序、信息如何披露,都是事先定好的;
- 直接相互作用——这是博弈区别于普通决策的核心。我的收益不只取决于我的选择,还取决于别人的选择;
- 信息——我做决定时知道什么、不知道什么;
- 利益最大化(策略)——每个人都在自己掌握的信息下,挑对自己最有利的方案。
和”决策论”的区别:决策论里你面对的是”自然”(确定/随机环境),环境不会因为你的选择而反制你;博弈论里你面对的是和你一样会算计的人。所以博弈的精髓是”你在想我,我也在想你”。
二、博弈的三种核心直觉
这三点是贯穿全课的”思维方式”,先建立感觉。
1. 换位思考——用别人的得益去反推别人的策略
因为存在直接相互作用,每个参与者的得益不仅取决于自己的策略,还取决于别人的策略。博弈的核心在于整体思维基础上的理性换位思考:用他人的得益去推测他人会怎么选,再据此选出对自己最有利的策略。
经典的”换鞋跑”段子说明了博弈里”最优”是相对的:两人遇虎,A 换上跑鞋,B 说”再换也跑不过老虎”,A 说”我只要跑得比你快就行”。在博弈里,你的目标往往不是”跑赢老虎”(绝对标准),而是”跑赢对手”(相对于他人策略的最优反应)。
2. 收益定义一切——博弈首先要明确目标
同样一张行动表,收益数字一改,结论就全变。课上用”二人组选 a/b”的例子演示:
- 纯利己(只看自己分数)时,双方的算计是一种结果;
- 一旦把”愧疚感""对方愤怒”等情绪折算进收益,最优选择立刻改变。
启示:建模时,“写对收益”比”会算”更重要。收益(偏好)一旦设定,理性人的行为就被锁定了。
3. 不要选严格劣势策略
如果某个策略在任何情况下都比另一个策略差,理性人绝不会选它。这是后面”剔除严格劣策略”的直觉来源。
三、囚徒困境:个人理性 vs 集体理性
这是全课最著名的母题,第一讲先建立直觉(第二讲会用它讲占优策略)。
它揭示的矛盾是:每个人都做对自己最有利的选择,最后却落到对集体更差的结果。也就是”个人理性与集体理性的冲突”——明明存在一个”双方都更好”的结果(Pareto 改进),但只要每个人都理性,谁也走不过去。
四、理性假设的局限(反例三连)
完全理性假设很强,课上专门用几个例子提醒它不总是成立:
- 蜈蚣博弈(Rosenthal):逐步加码的博弈,用”逆向归纳”的理性推理会得出”第一步就该停”的结论,但真人往往会合作很多轮——理论预测与现实行为出现偏差。
- 猜平均数的一半 / 2 倍均值游戏:每人写一个 1~100 的数,谁最接近”全体平均数的一半”谁赢。如果所有人都完全理性且这是共同知识,反复推演会一路收敛到很小的数(趋向 0/1);但实际人群第一轮往往落在中间,重复几轮后才向理性预测收敛。
- 写最小数游戏:也用来说明人并非一上来就完全理性。
结论:完全理性是个理想假设。它让模型可分析,但要清醒它的边界。
五、博弈的两大前提
绝大多数博弈建立在两条假设上,这是高频考点:
前提一:完全理性(Rationality)
包含三层含义:
- 参与人明确知道自己的目标;
- 目标与行为相一致(会一以贯之地追求目标);
- 严格劣策略必然被排除。
前提二:完全理性是”共同知识”(Common Knowledge)
光自己理性还不够,还要”我知道你理性、你知道我知道你理性……”无限层层嵌套:
- 每个人都知道自己是理性的;
- 每个人都知道别人是理性的;
- 每个人都知道”别人知道别人是理性的”;
- ……(无穷递归)
白帽子游戏是共同知识的经典演示:三人各戴黑/白帽,只能看到别人的、至少有一顶白帽,能判断出自己帽色就举手。能不能推出答案、要几轮才推出来,靠的正是”大家都理性,且这件事是共同知识”这一层层叠加的推理。
六、发展简史(人物—贡献—年份,简答常考)
- 20 世纪 40 年代社会变化为博弈论提供土壤;
- 冯·诺依曼(von Neumann)与摩根斯坦:1944 年合著 《博弈论与经济行为》,标志学科诞生;
- 纳什(John Nash):1950/1951 提出 Nash 均衡,发扬光大;
- 后续四个方向:① 对 Nash 均衡的弱化(一般化);② 对 Nash 均衡的精炼(筛选);③ 对基本假设本身的研究;④ 应用研究;
- 诺奖:1994 年授予 Nash、Harsanyi、Selten;2005 年授予 Schelling 与 Aumann(合作博弈贡献)。
七、八个基本术语(必背)
整门课的”通用语言”,逐个记清,尤其是行动 vs 策略的区别:
| # | 术语 | 含义 |
|---|---|---|
| 1 | 参与人 Players | 博弈中做理性选择的主体(决策者) |
| 2 | 信息 Information | 参与者有关博弈的知识(谁知道什么) |
| 3 | 行动 Action | 参与者能选择的具体变量(一步动作) |
| 4 | 策略 Strategies | 行动之前准备好的一套完整行动方案——把”在什么信息下采取什么行动”全部规定好的相机规则 |
| 5 | 损益 / 支付 Payoff | 参与者的得与失(收益) |
| 6 | 结果 Outcome | 所有参与者各自选定策略后形成的局面 |
| 7 | 均衡 Equilibrium | 所有参与者的最优策略组合 |
| 8 | 博弈规则 Rules | 参与人、行动、结果三者合起来 |
行动 ≠ 策略:行动是”这一步怎么走”;策略是”在所有可能局面下分别怎么走”的完整预案。在静态博弈里两者差别不大,但到了动态博弈,“策略”必须为每个决策节点都规定行动,这个区别就至关重要。
一句话概括学科:博弈论研究人们怎样做策略选择,以及最终的均衡结果会是什么样。
八、博弈的分类(核心框架,必考)
三组基本划分
- 合作博弈 vs 非合作博弈:是否存在对各方有约束力的协议。有 → 合作;无法达成 → 非合作。本课程聚焦非合作博弈。
- 静态博弈 vs 动态博弈:
- 静态——参与者同时选择,或虽不同时但”逻辑时间上同时”(后者看不到前者已经做了什么);
- 动态——行动有先后顺序,且后行动者能观察到先行动者的行动。
- 完全信息 vs 不完全信息:是否每个参与者都准确知道其他人的类型、策略空间、收益函数。全知道 → 完全信息;总有信息不为所有人共知 → 不完全信息。
用”信息 × 时序”切出四类博弈与四个解概念
这是第一讲(乃至整门课)的核心地图:
| 完全信息 | 不完全信息 | |
|---|---|---|
| 静态 | 完全信息静态博弈 → Nash 均衡 Nash(1950/1951) | 不完全信息静态博弈 → 贝叶斯 Nash 均衡(BNE) Harsanyi(1967–68) |
| 动态 | 完全信息动态博弈 → 子博弈精炼 Nash 均衡(SPNE) Selten(1965) | 不完全信息动态博弈 → 精炼贝叶斯 Nash 均衡(PBE) Selten(1975) |
记忆法:信息决定要不要”贝叶斯”(不完全 → 带贝叶斯);时序决定要不要”精炼”(动态 → 带精炼/子博弈)。两个维度各管一个词,四格的名字就拼出来了。
另一组划分:零和 vs 非零和
- 零和博弈:博弈前后各方损益总和不变(一方所得即另一方所失),如猜硬币;
- 非零和博弈:总和会变大或变小(正和 / 负和),如囚徒困境。
本讲考点清单
- 博弈的定义 + 四个关键词;博弈与决策论的区别(直接相互作用)。
- 两大前提:完全理性 + 理性是共同知识;能用白帽子游戏解释共同知识。
- 八个术语,重点辨析行动 vs 策略。
- 四类博弈 × 四个解概念 × 对应学者的分类表(最高频)。
- 合作/非合作、静态/动态、完全/不完全信息、零和/非零和各自的判定标准。