第一讲 · 博弈论概述

Views: --

这一讲是”打地基”。不涉及计算,但术语分类框架是后面所有内容的语言,考试里也常以名词解释、简答的形式直接出现。

一、什么是博弈

博弈(Game):在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。

把这句定义拆成四个关键词,就抓住了博弈的全部要素:

  1. 规则约束——谁能做什么、按什么顺序、信息如何披露,都是事先定好的;
  2. 直接相互作用——这是博弈区别于普通决策的核心。我的收益不只取决于我的选择,还取决于别人的选择
  3. 信息——我做决定时知道什么、不知道什么;
  4. 利益最大化(策略)——每个人都在自己掌握的信息下,挑对自己最有利的方案。

和”决策论”的区别:决策论里你面对的是”自然”(确定/随机环境),环境不会因为你的选择而反制你;博弈论里你面对的是和你一样会算计的人。所以博弈的精髓是”你在想我,我也在想你”。

二、博弈的三种核心直觉

这三点是贯穿全课的”思维方式”,先建立感觉。

1. 换位思考——用别人的得益去反推别人的策略

因为存在直接相互作用,每个参与者的得益不仅取决于自己的策略,还取决于别人的策略。博弈的核心在于整体思维基础上的理性换位思考:用他人的得益去推测他人会怎么选,再据此选出对自己最有利的策略。

经典的”换鞋跑”段子说明了博弈里”最优”是相对的:两人遇虎,A 换上跑鞋,B 说”再换也跑不过老虎”,A 说”我只要跑得比你快就行”。在博弈里,你的目标往往不是”跑赢老虎”(绝对标准),而是”跑赢对手”(相对于他人策略的最优反应)。

2. 收益定义一切——博弈首先要明确目标

同样一张行动表,收益数字一改,结论就全变。课上用”二人组选 a/b”的例子演示:

  • 纯利己(只看自己分数)时,双方的算计是一种结果;
  • 一旦把”愧疚感""对方愤怒”等情绪折算进收益,最优选择立刻改变。

启示:建模时,“写对收益”比”会算”更重要。收益(偏好)一旦设定,理性人的行为就被锁定了。

3. 不要选严格劣势策略

如果某个策略在任何情况下都比另一个策略差,理性人绝不会选它。这是后面”剔除严格劣策略”的直觉来源。

三、囚徒困境:个人理性 vs 集体理性

这是全课最著名的母题,第一讲先建立直觉(第二讲会用它讲占优策略)。

它揭示的矛盾是:每个人都做对自己最有利的选择,最后却落到对集体更差的结果。也就是”个人理性与集体理性的冲突”——明明存在一个”双方都更好”的结果(Pareto 改进),但只要每个人都理性,谁也走不过去。

四、理性假设的局限(反例三连)

完全理性假设很强,课上专门用几个例子提醒它不总是成立

  • 蜈蚣博弈(Rosenthal):逐步加码的博弈,用”逆向归纳”的理性推理会得出”第一步就该停”的结论,但真人往往会合作很多轮——理论预测与现实行为出现偏差
  • 猜平均数的一半 / 2 倍均值游戏:每人写一个 1~100 的数,谁最接近”全体平均数的一半”谁赢。如果所有人都完全理性且这是共同知识,反复推演会一路收敛到很小的数(趋向 0/1);但实际人群第一轮往往落在中间,重复几轮后才向理性预测收敛
  • 写最小数游戏:也用来说明人并非一上来就完全理性。

结论:完全理性是个理想假设。它让模型可分析,但要清醒它的边界。

五、博弈的两大前提

绝大多数博弈建立在两条假设上,这是高频考点:

前提一:完全理性(Rationality)

包含三层含义:

  • 参与人明确知道自己的目标
  • 目标与行为相一致(会一以贯之地追求目标);
  • 严格劣策略必然被排除

前提二:完全理性是”共同知识”(Common Knowledge)

光自己理性还不够,还要”我知道你理性、你知道我知道你理性……”无限层层嵌套:

  • 每个人都知道自己是理性的;
  • 每个人都知道别人是理性的;
  • 每个人都知道”别人知道别人是理性的”;
  • ……(无穷递归)

白帽子游戏是共同知识的经典演示:三人各戴黑/白帽,只能看到别人的、至少有一顶白帽,能判断出自己帽色就举手。能不能推出答案、要几轮才推出来,靠的正是”大家都理性,且这件事是共同知识”这一层层叠加的推理。

六、发展简史(人物—贡献—年份,简答常考)

  • 20 世纪 40 年代社会变化为博弈论提供土壤;
  • 冯·诺依曼(von Neumann)与摩根斯坦:1944 年合著 《博弈论与经济行为》,标志学科诞生;
  • 纳什(John Nash):1950/1951 提出 Nash 均衡,发扬光大;
  • 后续四个方向:① 对 Nash 均衡的弱化(一般化);② 对 Nash 均衡的精炼(筛选);③ 对基本假设本身的研究;④ 应用研究;
  • 诺奖:1994 年授予 Nash、Harsanyi、Selten;2005 年授予 Schelling 与 Aumann(合作博弈贡献)。

七、八个基本术语(必背)

整门课的”通用语言”,逐个记清,尤其是行动 vs 策略的区别:

#术语含义
1参与人 Players博弈中做理性选择的主体(决策者)
2信息 Information参与者有关博弈的知识(谁知道什么)
3行动 Action参与者能选择的具体变量(一步动作)
4策略 Strategies行动之前准备好的一套完整行动方案——把”在什么信息下采取什么行动”全部规定好的相机规则
5损益 / 支付 Payoff参与者的得与失(收益)
6结果 Outcome所有参与者各自选定策略后形成的局面
7均衡 Equilibrium所有参与者的最优策略组合
8博弈规则 Rules参与人、行动、结果三者合起来

行动 ≠ 策略:行动是”这一步怎么走”;策略是”在所有可能局面下分别怎么走”的完整预案。在静态博弈里两者差别不大,但到了动态博弈,“策略”必须为每个决策节点都规定行动,这个区别就至关重要。

一句话概括学科:博弈论研究人们怎样做策略选择,以及最终的均衡结果会是什么样

八、博弈的分类(核心框架,必考)

三组基本划分

  • 合作博弈 vs 非合作博弈:是否存在对各方有约束力的协议。有 → 合作;无法达成 → 非合作。本课程聚焦非合作博弈
  • 静态博弈 vs 动态博弈
    • 静态——参与者同时选择,或虽不同时但”逻辑时间上同时”(后者看不到前者已经做了什么);
    • 动态——行动有先后顺序,且后行动者能观察到先行动者的行动
  • 完全信息 vs 不完全信息:是否每个参与者都准确知道其他人的类型、策略空间、收益函数。全知道 → 完全信息;总有信息不为所有人共知 → 不完全信息。

用”信息 × 时序”切出四类博弈与四个解概念

这是第一讲(乃至整门课)的核心地图

完全信息不完全信息
静态完全信息静态博弈 → Nash 均衡
Nash(1950/1951)
不完全信息静态博弈 → 贝叶斯 Nash 均衡(BNE)
Harsanyi(1967–68)
动态完全信息动态博弈 → 子博弈精炼 Nash 均衡(SPNE)
Selten(1965)
不完全信息动态博弈 → 精炼贝叶斯 Nash 均衡(PBE)
Selten(1975)

记忆法:信息决定要不要”贝叶斯”(不完全 → 带贝叶斯);时序决定要不要”精炼”(动态 → 带精炼/子博弈)。两个维度各管一个词,四格的名字就拼出来了。

另一组划分:零和 vs 非零和

  • 零和博弈:博弈前后各方损益总和不变(一方所得即另一方所失),如猜硬币;
  • 非零和博弈:总和会变大或变小(正和 / 负和),如囚徒困境。

本讲考点清单

  • 博弈的定义 + 四个关键词;博弈与决策论的区别(直接相互作用)。
  • 两大前提:完全理性 + 理性是共同知识;能用白帽子游戏解释共同知识。
  • 八个术语,重点辨析行动 vs 策略
  • 四类博弈 × 四个解概念 × 对应学者的分类表(最高频)。
  • 合作/非合作、静态/动态、完全/不完全信息、零和/非零和各自的判定标准。