贝叶斯决策理论

Views: --

贝叶斯决策理论回答一个根本问题:如果一个类别问题的概率分布完全已知,怎样的分类决策才是「最优」的? 它给出的是分类错误率的理论下界——任何分类器都不可能比贝叶斯决策做得更好。理解它,等于拿到了一把衡量所有分类方法的尺子。

它属于**生成式(generative)方法的根:先对每一类的数据分布 p(xωi)p(\mathbf{x} \mid \omega_i) 建模,再用贝叶斯公式翻转成”给定数据属于某类”的概率。与之相对的是判别式(discriminative)**方法(如 SVM、逻辑回归),后者跳过对数据分布的建模,直接学一条决策边界。

一、四个概率,一个矛盾

先把语言统一。两类问题里有四个概率:

  • 先验 P(ωi)P(\omega_i):没看到任何数据时,一个样本属于第 ii 类的概率(各类的天然占比)。
  • 类条件密度 p(xωi)p(\mathbf{x} \mid \omega_i):已知是第 ii 类时,特征 x\mathbf{x} 的分布。方向是”类 → 特征”。
  • 后验 P(ωix)P(\omega_i \mid \mathbf{x}):看到特征 x\mathbf{x} 后,它属于第 ii 类的概率。方向是”特征 → 类”——这才是分类真正想要的。
  • 证据 / 总体密度 p(x)p(\mathbf{x}):不分类别,整体上 x\mathbf{x} 的分布。

矛盾在于:我们想要的后验难以直接观测,而容易从数据估计的类条件密度方向恰好相反。贝叶斯公式的作用,就是用好算的逆概率反推出想要的正概率。

二、贝叶斯公式

P(ωix)=p(xωi)P(ωi)p(x)P(\omega_i \mid \mathbf{x}) = \frac{p(\mathbf{x} \mid \omega_i) P(\omega_i)}{p(\mathbf{x})}

分母由全概率公式展开:

p(x)=ip(xωi)P(ωi)p(\mathbf{x}) = \sum_{i} p(\mathbf{x} \mid \omega_i) P(\omega_i)

分母对所有类别是同一个常数,只起归一化作用。所以做分类比较时,真正决定胜负的是分子 p(xωi)P(ωi)p(\mathbf{x} \mid \omega_i) P(\omega_i)——类条件与先验的乘积。

三、最小错误率准则

如果目标是让”判错的概率”最小,最优规则极其简洁:选后验最大的类

ω^=argmaxiP(ωix)\hat\omega = \arg\max_i P(\omega_i \mid \mathbf{x})

为什么这是最优的?对单个样本 x\mathbf{x},无论判成哪类,判错的概率是 1P(ω^x)1 - P(\hat\omega \mid \mathbf{x})。要让它最小,就得让选中类的后验最大。每个点都这样做,整体错误率自然最小——这就是贝叶斯决策”逐点最优 ⇒ 全局最优”的逻辑。

由于分母相同,这条规则有几个等价形式,其中似然比形式最有用:

l(x)=p(xω1)p(xω2)P(ω2)P(ω1)l(\mathbf{x}) = \frac{p(\mathbf{x} \mid \omega_1)}{p(\mathbf{x} \mid \omega_2)} \gtrless \frac{P(\omega_2)}{P(\omega_1)}

左边的似然比只依赖样本,右边的阈值只依赖先验、可以预先算好。数据来了只需算一个比值跟阈值比大小。概率连乘容易下溢,工程上常取对数把乘法变加法。

一个会”反直觉”的例子

设某次观测下 p(xω1)=0.2p(x \mid \omega_1) = 0.2(健康)、p(xω2)=0.4p(x \mid \omega_2) = 0.4(患病),先验 P(ω1)=0.9P(\omega_1) = 0.9P(ω2)=0.1P(\omega_2) = 0.1

证据 p(x)=0.2×0.9+0.4×0.1=0.22p(x) = 0.2 \times 0.9 + 0.4 \times 0.1 = 0.22,后验:

P(ω1x)=0.180.220.818,P(ω2x)=0.040.220.182P(\omega_1 \mid x) = \frac{0.18}{0.22} \approx 0.818, \qquad P(\omega_2 \mid x) = \frac{0.04}{0.22} \approx 0.182

判为健康。值得玩味的是:这个观测本身”更像”患病(类条件 0.4>0.20.4 > 0.2),但健康人占了 90% 的先验,硬是把结论扳了回来。这说明:后验是似然和先验的合谋,光看数据像不像某类是不够的

四、最小风险准则:当错误的代价不对称

最小错误率有个隐含假设——所有错误一样糟。但现实往往不是。医疗诊断里,把病人误判成健康(漏诊)的代价,远高于把健康人误判成病人(虚惊一场)。这时该最小化的不是错误的”个数”,而是错误的”代价期望”。

引入损失函数 λ(αiωj)\lambda(\alpha_i \mid \omega_j):真实类别是 ωj\omega_j、却采取决策 αi\alpha_i 时付出的损失。注意决策的数量不必等于类别数——可以有”拒识”这样的额外动作。

给定样本后,采取决策 αi\alpha_i条件风险是损失对后验的加权平均:

R(αix)=jλ(αiωj)P(ωjx)R(\alpha_i \mid \mathbf{x}) = \sum_{j} \lambda(\alpha_i \mid \omega_j) P(\omega_j \mid \mathbf{x})

决策规则换成取最小风险:

α=argminiR(αix)\alpha = \arg\min_i R(\alpha_i \mid \mathbf{x})

同一个例子,结论反转

沿用上面的后验(0.818 / 0.182)。设损失:判对不赔(λ11=λ22=0\lambda_{11} = \lambda_{22} = 0),漏诊很贵(λ12=6\lambda_{12} = 6),虚惊较轻(λ21=1\lambda_{21} = 1)。

R(α1x)=0×0.818+6×0.182=1.092R(\alpha_1 \mid x) = 0 \times 0.818 + 6 \times 0.182 = 1.092

R(α2x)=1×0.818+0×0.182=0.818R(\alpha_2 \mid x) = 1 \times 0.818 + 0 \times 0.182 = 0.818

判为患病——和最小错误率的结论正好相反。漏诊的代价是虚惊的 6 倍,于是理性的选择是”宁可虚惊,不可漏诊”。代价结构一旦不对称,最优决策就会偏离”哪类更可能”。

五、两套准则的统一

这两套准则不是并列的,而是一般与特殊的关系。取 0-1 损失(判对损失 0、判错损失 1),条件风险变成:

R(αix)=jiP(ωjx)=1P(ωix)R(\alpha_i \mid \mathbf{x}) = \sum_{j \ne i} P(\omega_j \mid \mathbf{x}) = 1 - P(\omega_i \mid \mathbf{x})

最小化它,等价于最大化后验。也就是说,最小错误率是最小风险在「所有错误等价」假设下的特例;最小风险才是更普适的框架。当你能写出代价矩阵时,用最小风险;写不出、或确实人人平等时,退回最小错误率。

小结

  • 贝叶斯决策的内核是”最大化后验”,而后验 \propto 似然 ×\times 先验。
  • 它定义了分类错误率的理论下界,是评判一切分类器的基准。
  • 代价对称用最小错误率,代价不对称用最小风险;前者是后者在 0-1 损失下的退化。
  • 它是生成式建模的源头——但前提是你知道(或能可靠估计)类条件分布,这把接力棒交给了下一棒:参数估计。