第一讲 · 博弈论概述 | L.D.J 的私家工坊

这一讲是”打地基”。不涉及计算，但术语和分类框架是后面所有内容的语言，考试里也常以名词解释、简答的形式直接出现。

一、什么是博弈

博弈（Game）：在一定的游戏规则约束下，基于直接相互作用的环境条件，各参与人依据所掌握的信息，选择各自的策略（行动），以实现利益最大化的过程。

把这句定义拆成四个关键词，就抓住了博弈的全部要素：

规则约束——谁能做什么、按什么顺序、信息如何披露，都是事先定好的；
直接相互作用——这是博弈区别于普通决策的核心。我的收益不只取决于我的选择，还取决于别人的选择；
信息——我做决定时知道什么、不知道什么；
利益最大化（策略）——每个人都在自己掌握的信息下，挑对自己最有利的方案。

和”决策论”的区别：决策论里你面对的是”自然”（确定/随机环境），环境不会因为你的选择而反制你；博弈论里你面对的是和你一样会算计的人。所以博弈的精髓是”你在想我，我也在想你”。

二、博弈的三种核心直觉

这三点是贯穿全课的”思维方式”，先建立感觉。

1. 换位思考——用别人的得益去反推别人的策略

因为存在直接相互作用，每个参与者的得益不仅取决于自己的策略，还取决于别人的策略。博弈的核心在于整体思维基础上的理性换位思考：用他人的得益去推测他人会怎么选，再据此选出对自己最有利的策略。

经典的”换鞋跑”段子说明了博弈里”最优”是相对的：两人遇虎，A 换上跑鞋，B 说”再换也跑不过老虎”，A 说”我只要跑得比你快就行”。在博弈里，你的目标往往不是”跑赢老虎”（绝对标准），而是”跑赢对手”（相对于他人策略的最优反应）。

2. 收益定义一切——博弈首先要明确目标

同样一张行动表，收益数字一改，结论就全变。课上用”二人组选 a/b”的例子演示：

纯利己（只看自己分数）时，双方的算计是一种结果；
一旦把”愧疚感""对方愤怒”等情绪折算进收益，最优选择立刻改变。

启示：建模时，“写对收益”比”会算”更重要。收益（偏好）一旦设定，理性人的行为就被锁定了。

3. 不要选严格劣势策略

如果某个策略在任何情况下都比另一个策略差，理性人绝不会选它。这是后面”剔除严格劣策略”的直觉来源。

三、囚徒困境：个人理性 vs 集体理性

这是全课最著名的母题，第一讲先建立直觉（第二讲会用它讲占优策略）。

它揭示的矛盾是：每个人都做对自己最有利的选择，最后却落到对集体更差的结果。也就是”个人理性与集体理性的冲突”——明明存在一个”双方都更好”的结果（Pareto 改进），但只要每个人都理性，谁也走不过去。

四、理性假设的局限（反例三连）

完全理性假设很强，课上专门用几个例子提醒它不总是成立：

蜈蚣博弈（Rosenthal）：逐步加码的博弈，用”逆向归纳”的理性推理会得出”第一步就该停”的结论，但真人往往会合作很多轮——理论预测与现实行为出现偏差。
猜平均数的一半 / 2 倍均值游戏：每人写一个 1~100 的数，谁最接近”全体平均数的一半”谁赢。如果所有人都完全理性且这是共同知识，反复推演会一路收敛到很小的数（趋向 0/1）；但实际人群第一轮往往落在中间，重复几轮后才向理性预测收敛。
写最小数游戏：也用来说明人并非一上来就完全理性。

结论：完全理性是个理想假设。它让模型可分析，但要清醒它的边界。

五、博弈的两大前提

绝大多数博弈建立在两条假设上，这是高频考点：

前提一：完全理性（Rationality）

包含三层含义：

参与人明确知道自己的目标；
目标与行为相一致（会一以贯之地追求目标）；
严格劣策略必然被排除。

前提二：完全理性是”共同知识”（Common Knowledge）

光自己理性还不够，还要”我知道你理性、你知道我知道你理性……”无限层层嵌套：

每个人都知道自己是理性的；
每个人都知道别人是理性的；
每个人都知道”别人知道别人是理性的”；
……（无穷递归）

白帽子游戏是共同知识的经典演示：三人各戴黑/白帽，只能看到别人的、至少有一顶白帽，能判断出自己帽色就举手。能不能推出答案、要几轮才推出来，靠的正是”大家都理性，且这件事是共同知识”这一层层叠加的推理。

六、发展简史（人物—贡献—年份，简答常考）

20 世纪 40 年代社会变化为博弈论提供土壤；
冯·诺依曼（von Neumann）与摩根斯坦：1944 年合著 《博弈论与经济行为》，标志学科诞生；
纳什（John Nash）：1950/1951 提出 Nash 均衡，发扬光大；
后续四个方向：① 对 Nash 均衡的弱化（一般化）；② 对 Nash 均衡的精炼（筛选）；③ 对基本假设本身的研究；④ 应用研究；
诺奖：1994 年授予 Nash、Harsanyi、Selten；2005 年授予 Schelling 与 Aumann（合作博弈贡献）。

七、八个基本术语（必背）

整门课的”通用语言”，逐个记清，尤其是行动 vs 策略的区别：

#	术语	含义
1	参与人 Players	博弈中做理性选择的主体（决策者）
2	信息 Information	参与者有关博弈的知识（谁知道什么）
3	行动 Action	参与者能选择的具体变量（一步动作）
4	策略 Strategies	行动之前准备好的一套完整行动方案——把”在什么信息下采取什么行动”全部规定好的相机规则
5	损益 / 支付 Payoff	参与者的得与失（收益）
6	结果 Outcome	所有参与者各自选定策略后形成的局面
7	均衡 Equilibrium	所有参与者的最优策略组合
8	博弈规则 Rules	参与人、行动、结果三者合起来

行动 ≠ 策略：行动是”这一步怎么走”；策略是”在所有可能局面下分别怎么走”的完整预案。在静态博弈里两者差别不大，但到了动态博弈，“策略”必须为每个决策节点都规定行动，这个区别就至关重要。

一句话概括学科：博弈论研究人们怎样做策略选择，以及最终的均衡结果会是什么样。

八、博弈的分类（核心框架，必考）

三组基本划分

合作博弈 vs 非合作博弈：是否存在对各方有约束力的协议。有 → 合作；无法达成 → 非合作。本课程聚焦非合作博弈。
静态博弈 vs 动态博弈：
- 静态——参与者同时选择，或虽不同时但”逻辑时间上同时”（后者看不到前者已经做了什么）；
- 动态——行动有先后顺序，且后行动者能观察到先行动者的行动。
完全信息 vs 不完全信息：是否每个参与者都准确知道其他人的类型、策略空间、收益函数。全知道 → 完全信息；总有信息不为所有人共知 → 不完全信息。

用”信息 × 时序”切出四类博弈与四个解概念

这是第一讲（乃至整门课）的核心地图：

	完全信息	不完全信息
静态	完全信息静态博弈 → Nash 均衡 Nash（1950/1951）	不完全信息静态博弈 → 贝叶斯 Nash 均衡（BNE） Harsanyi（1967–68）
动态	完全信息动态博弈 → 子博弈精炼 Nash 均衡（SPNE） Selten（1965）	不完全信息动态博弈 → 精炼贝叶斯 Nash 均衡（PBE） Selten（1975）

记忆法：信息决定要不要”贝叶斯”（不完全 → 带贝叶斯）；时序决定要不要”精炼”（动态 → 带精炼/子博弈）。两个维度各管一个词，四格的名字就拼出来了。

另一组划分：零和 vs 非零和

零和博弈：博弈前后各方损益总和不变（一方所得即另一方所失），如猜硬币；
非零和博弈：总和会变大或变小（正和 / 负和），如囚徒困境。

本讲考点清单

博弈的定义 + 四个关键词；博弈与决策论的区别（直接相互作用）。
两大前提：完全理性 + 理性是共同知识；能用白帽子游戏解释共同知识。
八个术语，重点辨析行动 vs 策略。
四类博弈 × 四个解概念 × 对应学者的分类表（最高频）。
合作/非合作、静态/动态、完全/不完全信息、零和/非零和各自的判定标准。