贝叶斯决策理论 | L.D.J 的私家工坊

贝叶斯决策理论回答一个根本问题：如果一个类别问题的概率分布完全已知，怎样的分类决策才是「最优」的？ 它给出的是分类错误率的理论下界——任何分类器都不可能比贝叶斯决策做得更好。理解它，等于拿到了一把衡量所有分类方法的尺子。

它属于**生成式（generative）方法的根：先对每一类的数据分布 $p(\mathbf{x} \mid \omega_i)$ 建模，再用贝叶斯公式翻转成”给定数据属于某类”的概率。与之相对的是判别式（discriminative）**方法（如 SVM、逻辑回归），后者跳过对数据分布的建模，直接学一条决策边界。

一、四个概率，一个矛盾

先把语言统一。两类问题里有四个概率：

先验 $P(\omega_i)$ ：没看到任何数据时，一个样本属于第 $i$ 类的概率（各类的天然占比）。
类条件密度 $p(\mathbf{x} \mid \omega_i)$ ：已知是第 $i$ 类时，特征 $\mathbf{x}$ 的分布。方向是”类 → 特征”。
后验 $P(\omega_i \mid \mathbf{x})$ ：看到特征 $\mathbf{x}$ 后，它属于第 $i$ 类的概率。方向是”特征 → 类”——这才是分类真正想要的。
证据 / 总体密度 $p(\mathbf{x})$ ：不分类别，整体上 $\mathbf{x}$ 的分布。

矛盾在于：我们想要的后验难以直接观测，而容易从数据估计的类条件密度方向恰好相反。贝叶斯公式的作用，就是用好算的逆概率反推出想要的正概率。

二、贝叶斯公式

$P(\omega_i \mid \mathbf{x}) = \frac{p(\mathbf{x} \mid \omega_i) P(\omega_i)}{p(\mathbf{x})}$

分母由全概率公式展开：

$p(\mathbf{x}) = \sum_{i} p(\mathbf{x} \mid \omega_i) P(\omega_i)$

分母对所有类别是同一个常数，只起归一化作用。所以做分类比较时，真正决定胜负的是分子 $p(\mathbf{x} \mid \omega_i) P(\omega_i)$ ——类条件与先验的乘积。

三、最小错误率准则

如果目标是让”判错的概率”最小，最优规则极其简洁：选后验最大的类。

$\hat\omega = \arg\max_i P(\omega_i \mid \mathbf{x})$

为什么这是最优的？对单个样本 $\mathbf{x}$ ，无论判成哪类，判错的概率是 $1 - P(\hat\omega \mid \mathbf{x})$ 。要让它最小，就得让选中类的后验最大。每个点都这样做，整体错误率自然最小——这就是贝叶斯决策”逐点最优 ⇒ 全局最优”的逻辑。

由于分母相同，这条规则有几个等价形式，其中似然比形式最有用：

$l(\mathbf{x}) = \frac{p(\mathbf{x} \mid \omega_1)}{p(\mathbf{x} \mid \omega_2)} \gtrless \frac{P(\omega_2)}{P(\omega_1)}$

左边的似然比只依赖样本，右边的阈值只依赖先验、可以预先算好。数据来了只需算一个比值跟阈值比大小。概率连乘容易下溢，工程上常取对数把乘法变加法。

一个会”反直觉”的例子

设某次观测下 $p(x \mid \omega_1) = 0.2$ （健康）、 $p(x \mid \omega_2) = 0.4$ （患病），先验 $P(\omega_1) = 0.9$ 、 $P(\omega_2) = 0.1$ 。

证据 $p(x) = 0.2 \times 0.9 + 0.4 \times 0.1 = 0.22$ ，后验：

$P(\omega_1 \mid x) = \frac{0.18}{0.22} \approx 0.818, \qquad P(\omega_2 \mid x) = \frac{0.04}{0.22} \approx 0.182$

判为健康。值得玩味的是：这个观测本身”更像”患病（类条件 $0.4 > 0.2$ ），但健康人占了 90% 的先验，硬是把结论扳了回来。这说明：后验是似然和先验的合谋，光看数据像不像某类是不够的。

四、最小风险准则：当错误的代价不对称

最小错误率有个隐含假设——所有错误一样糟。但现实往往不是。医疗诊断里，把病人误判成健康（漏诊）的代价，远高于把健康人误判成病人（虚惊一场）。这时该最小化的不是错误的”个数”，而是错误的”代价期望”。

引入损失函数 $\lambda(\alpha_i \mid \omega_j)$ ：真实类别是 $\omega_j$ 、却采取决策 $\alpha_i$ 时付出的损失。注意决策的数量不必等于类别数——可以有”拒识”这样的额外动作。

给定样本后，采取决策 $\alpha_i$ 的条件风险是损失对后验的加权平均：

$R(\alpha_i \mid \mathbf{x}) = \sum_{j} \lambda(\alpha_i \mid \omega_j) P(\omega_j \mid \mathbf{x})$

决策规则换成取最小风险：

$\alpha = \arg\min_i R(\alpha_i \mid \mathbf{x})$

同一个例子，结论反转

沿用上面的后验（0.818 / 0.182）。设损失：判对不赔（ $\lambda_{11} = \lambda_{22} = 0$ ），漏诊很贵（ $\lambda_{12} = 6$ ），虚惊较轻（ $\lambda_{21} = 1$ ）。

$R(\alpha_1 \mid x) = 0 \times 0.818 + 6 \times 0.182 = 1.092$

$R(\alpha_2 \mid x) = 1 \times 0.818 + 0 \times 0.182 = 0.818$

判为患病——和最小错误率的结论正好相反。漏诊的代价是虚惊的 6 倍，于是理性的选择是”宁可虚惊，不可漏诊”。代价结构一旦不对称，最优决策就会偏离”哪类更可能”。

五、两套准则的统一

这两套准则不是并列的，而是一般与特殊的关系。取 0-1 损失（判对损失 0、判错损失 1），条件风险变成：

$R(\alpha_i \mid \mathbf{x}) = \sum_{j \ne i} P(\omega_j \mid \mathbf{x}) = 1 - P(\omega_i \mid \mathbf{x})$

最小化它，等价于最大化后验。也就是说，最小错误率是最小风险在「所有错误等价」假设下的特例；最小风险才是更普适的框架。当你能写出代价矩阵时，用最小风险；写不出、或确实人人平等时，退回最小错误率。

小结

贝叶斯决策的内核是”最大化后验”，而后验 $\propto$ 似然 $\times$ 先验。
它定义了分类错误率的理论下界，是评判一切分类器的基准。
代价对称用最小错误率，代价不对称用最小风险；前者是后者在 0-1 损失下的退化。
它是生成式建模的源头——但前提是你知道（或能可靠估计）类条件分布，这把接力棒交给了下一棒：参数估计。