贝叶斯决策理论回答一个根本问题:如果一个类别问题的概率分布完全已知,怎样的分类决策才是「最优」的? 它给出的是分类错误率的理论下界——任何分类器都不可能比贝叶斯决策做得更好。理解它,等于拿到了一把衡量所有分类方法的尺子。
它属于**生成式(generative)方法的根:先对每一类的数据分布 p(x∣ωi) 建模,再用贝叶斯公式翻转成”给定数据属于某类”的概率。与之相对的是判别式(discriminative)**方法(如 SVM、逻辑回归),后者跳过对数据分布的建模,直接学一条决策边界。
一、四个概率,一个矛盾
先把语言统一。两类问题里有四个概率:
- 先验 P(ωi):没看到任何数据时,一个样本属于第 i 类的概率(各类的天然占比)。
- 类条件密度 p(x∣ωi):已知是第 i 类时,特征 x 的分布。方向是”类 → 特征”。
- 后验 P(ωi∣x):看到特征 x 后,它属于第 i 类的概率。方向是”特征 → 类”——这才是分类真正想要的。
- 证据 / 总体密度 p(x):不分类别,整体上 x 的分布。
矛盾在于:我们想要的后验难以直接观测,而容易从数据估计的类条件密度方向恰好相反。贝叶斯公式的作用,就是用好算的逆概率反推出想要的正概率。
二、贝叶斯公式
P(ωi∣x)=p(x)p(x∣ωi)P(ωi)
分母由全概率公式展开:
p(x)=∑ip(x∣ωi)P(ωi)
分母对所有类别是同一个常数,只起归一化作用。所以做分类比较时,真正决定胜负的是分子 p(x∣ωi)P(ωi)——类条件与先验的乘积。
三、最小错误率准则
如果目标是让”判错的概率”最小,最优规则极其简洁:选后验最大的类。
ω^=argmaxiP(ωi∣x)
为什么这是最优的?对单个样本 x,无论判成哪类,判错的概率是 1−P(ω^∣x)。要让它最小,就得让选中类的后验最大。每个点都这样做,整体错误率自然最小——这就是贝叶斯决策”逐点最优 ⇒ 全局最优”的逻辑。
由于分母相同,这条规则有几个等价形式,其中似然比形式最有用:
l(x)=p(x∣ω2)p(x∣ω1)≷P(ω1)P(ω2)
左边的似然比只依赖样本,右边的阈值只依赖先验、可以预先算好。数据来了只需算一个比值跟阈值比大小。概率连乘容易下溢,工程上常取对数把乘法变加法。
一个会”反直觉”的例子
设某次观测下 p(x∣ω1)=0.2(健康)、p(x∣ω2)=0.4(患病),先验 P(ω1)=0.9、P(ω2)=0.1。
证据 p(x)=0.2×0.9+0.4×0.1=0.22,后验:
P(ω1∣x)=0.220.18≈0.818,P(ω2∣x)=0.220.04≈0.182
判为健康。值得玩味的是:这个观测本身”更像”患病(类条件 0.4>0.2),但健康人占了 90% 的先验,硬是把结论扳了回来。这说明:后验是似然和先验的合谋,光看数据像不像某类是不够的。
四、最小风险准则:当错误的代价不对称
最小错误率有个隐含假设——所有错误一样糟。但现实往往不是。医疗诊断里,把病人误判成健康(漏诊)的代价,远高于把健康人误判成病人(虚惊一场)。这时该最小化的不是错误的”个数”,而是错误的”代价期望”。
引入损失函数 λ(αi∣ωj):真实类别是 ωj、却采取决策 αi 时付出的损失。注意决策的数量不必等于类别数——可以有”拒识”这样的额外动作。
给定样本后,采取决策 αi 的条件风险是损失对后验的加权平均:
R(αi∣x)=∑jλ(αi∣ωj)P(ωj∣x)
决策规则换成取最小风险:
α=argminiR(αi∣x)
同一个例子,结论反转
沿用上面的后验(0.818 / 0.182)。设损失:判对不赔(λ11=λ22=0),漏诊很贵(λ12=6),虚惊较轻(λ21=1)。
R(α1∣x)=0×0.818+6×0.182=1.092
R(α2∣x)=1×0.818+0×0.182=0.818
判为患病——和最小错误率的结论正好相反。漏诊的代价是虚惊的 6 倍,于是理性的选择是”宁可虚惊,不可漏诊”。代价结构一旦不对称,最优决策就会偏离”哪类更可能”。
五、两套准则的统一
这两套准则不是并列的,而是一般与特殊的关系。取 0-1 损失(判对损失 0、判错损失 1),条件风险变成:
R(αi∣x)=∑j=iP(ωj∣x)=1−P(ωi∣x)
最小化它,等价于最大化后验。也就是说,最小错误率是最小风险在「所有错误等价」假设下的特例;最小风险才是更普适的框架。当你能写出代价矩阵时,用最小风险;写不出、或确实人人平等时,退回最小错误率。
小结
- 贝叶斯决策的内核是”最大化后验”,而后验 ∝ 似然 × 先验。
- 它定义了分类错误率的理论下界,是评判一切分类器的基准。
- 代价对称用最小错误率,代价不对称用最小风险;前者是后者在 0-1 损失下的退化。
- 它是生成式建模的源头——但前提是你知道(或能可靠估计)类条件分布,这把接力棒交给了下一棒:参数估计。