概率密度估计与最大似然估计

贝叶斯决策要用到先验和类条件密度，但现实里它们往往未知，只能从样本估计。本节讲怎么从样本把密度参数估出来——最大似然估计（MLE）。

一、基于样本的两步贝叶斯决策

第一步：用样本集估计先验 $\hat{P}(\omega_i)$ 和类条件密度 $\hat{p}(\mathbf{x} \mid \omega_i)$ ；
第二步：把估计量代入贝叶斯决策规则，得到决策结果。

当样本量 $N \to \infty$ 时，估计趋近真值，两步贝叶斯决策就趋近理论上的贝叶斯决策。

二、估计方法分类

监督参数估计：样本类别已知、密度形式已知，只有参数未知（本节重点）；
非监督参数估计：密度形式已知但样本类别未知（如 GMM 高斯混合模型）；
非参数估计：密度形式未知，直接估密度数值（直方图法、 $k$ 近邻法、Parzen 窗法）。

参数估计两大方法：最大似然估计、贝叶斯估计。

三、最大似然估计的思想与假设

直觉：已知一批样本，反过来问”参数取什么值，能让我恰好抽到这批样本的可能性（似然）最大”。那个让可能性最大的参数就是估计值。

四条基本假设：

参数 $\theta$ 是确定（非随机）但未知的量；
各样本独立同分布（i.i.d.）；
类条件密度的形式已知、参数未知，记作 $p(\mathbf{x} \mid \omega_j, \theta_j)$ ；
不同类别的参数在函数上相互独立，可逐类单独估计。

四、似然函数与求解（五步法）

设某类样本集 $X = \{x_1, x_2, \dots, x_N\}$ ，因独立，联合概率为各样本概率之积，这就是似然函数：

$l(\theta) = p(x_1, x_2, \dots, x_N \mid \theta) = \prod_{i=1}^{N} p(x_i \mid \theta)$

最大似然估计量定义为使似然最大的 $\theta$ ：

$\hat{\theta} = \arg\max_{\theta} l(\theta)$

通用五步：

写似然函数 $l(\theta) = \prod_{i=1}^{N} p(x_i \mid \theta)$ ；
取对数（连乘变连加，最优解不变）：

$H(\theta) = \ln l(\theta) = \sum_{i=1}^{N} \ln p(x_i \mid \theta)$

对参数求导（多参数则对每维求偏导，即求梯度 $\nabla_\theta H$ ）；
令导数（梯度）为零，解方程得 $\hat{\theta}$ ；
必要时验证二阶导小于零（确是极大值）。注意似然方程可能多解，取使似然最大者。

唯一例外：均匀分布等”参数在边界”的情况，求导失效，需单独分析（见第六节）。

五、各分布的 MLE 计算

单变量正态分布

密度 $p(x \mid \mu, \sigma^2) = \dfrac{1}{\sqrt{2\pi}\, \sigma} \exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$ 。对数似然：

$H = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln \sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i - \mu)^2$

对 $\mu$ 求偏导置零得样本均值：

$\hat{\mu} = \frac{1}{N}\sum_{i=1}^{N} x_i$

对 $\sigma^2$ 求偏导置零得样本方差（分母 $N$ ）：

$\hat{\sigma}^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \hat{\mu})^2$

数值例：样本 $\{1, 2, 3, 4, 5\}$ ， $\hat{\mu} = 15/5 = 3$ ，偏差平方和 $4+1+0+1+4 = 10$ ， $\hat{\sigma}^2 = 10/5 = 2$ 。

多维正态分布

情况①（ $\Sigma$ 已知、 $\mu$ 未知）：对 $\mu$ 求偏导， $\Sigma^{-1}\sum_k (\mathbf{x}_k - \mu) = 0$ ，消去 $\Sigma^{-1}$ 得 $\hat{\mu} = \dfrac{1}{N}\sum_k \mathbf{x}_k$ 。均值估计与 $\Sigma$ 是否已知无关。
情况②（ $\Sigma$ 、 $\mu$ 均未知）：

$\hat{\mu} = \frac{1}{N}\sum_{k=1}^{N} \mathbf{x}_k, \qquad \hat{\Sigma} = \frac{1}{N}\sum_{k=1}^{N}(\mathbf{x}_k - \hat{\mu})(\mathbf{x}_k - \hat{\mu})^{\mathsf{T}}$

结论：均值的 MLE 是样本算术平均；协方差的 MLE 是 $N$ 个外积矩阵的算术平均。

伯努利 / 二项分布

单样本概率 $P(x_i \mid p) = p^{x_i}(1-p)^{1-x_i}$ 。设 $N$ 次中有 $k$ 个 1，对数似然 $H = k\ln p + (N-k)\ln(1-p)$ ，求导置零：

$\hat{p} = \frac{k}{N}$

即正面频率。数值例：抛 10 次得 7 次正面， $\hat{p} = 0.7$ 。

指数分布

密度 $p(x \mid \lambda) = \lambda e^{-\lambda x}$ ，对数似然 $H = N\ln\lambda - \lambda\sum_i x_i$ ，求导置零：

$\hat{\lambda} = \frac{N}{\sum_i x_i} = \frac{1}{\bar{x}}$

数值例：样本 $\{2, 4, 6\}$ ， $\bar{x} = 4$ ， $\hat{\lambda} = 0.25$ 。

泊松分布

概率 $P(x \mid \lambda) = \dfrac{\lambda^x e^{-\lambda}}{x!}$ ，对数似然求导置零：

$\hat{\lambda} = \frac{1}{N}\sum_{i=1}^{N} x_i = \bar{x}$

数值例：样本 $\{0, 1, 2, 1, 1\}$ ， $\hat{\lambda} = 5/5 = 1$ 。

均匀分布（陷阱题，不能求导）

$x_i \sim U(0, \theta)$ ，密度在 $0 \le x \le \theta$ 上为 $1/\theta$ ，否则 0。似然 $l(\theta) = \theta^{-N}$ 对 $\theta$ 求导无零点，求导法失效。

正确分析： $\theta^{-N}$ 是减函数， $\theta$ 越小似然越大；但每个样本要求 $x_i \le \theta$ ，故 $\theta \ge \max_i x_i$ 。两者夹逼得：

$\hat{\theta} = \max_i x_i$

数值例：样本 $\{0.3, 0.7, 0.5, 0.9, 0.2\}$ ， $\hat{\theta} = 0.9$ 。

六、有偏 vs 无偏（高频考点）

估计量是随机变量（每抽一批样本算出的值都不同），它有自己的期望。

无偏： $E[\hat{\theta}] = \theta$ （多次估计的平均正好等于真值）；
有偏： $E[\hat{\theta}] \ne \theta$ （系统性偏离）；偏差 $\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta$ 。

样本均值无偏： $E[\hat{\mu}] = \mu$ 。但 MLE 的方差有偏（偏小），可证：

$E[\hat{\sigma}^2] = \frac{N-1}{N}\sigma^2 < \sigma^2$

直观原因：MLE 用样本均值 $\hat{\mu}$ 代替真实 $\mu$ ，而 $\sum_i (x_i - c)^2$ 在 $c = \bar{x}$ 时取最小，所以用 $\hat{\mu}$ 算出的平方和天生偏小。

无偏修正（贝塞尔校正）：把分母由 $N$ 改为 $N-1$ ：

$s^2 = \frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})^2, \qquad E[s^2] = \sigma^2$

自由度解释：用 $\bar{x}$ 替代真均值，引入约束 $\sum_i (x_i - \bar{x}) = 0$ ，消耗 1 个自由度，故除以 $N-1$ 。

考试答法：“MLE 的方差估计有偏（偏小），期望为 $\dfrac{N-1}{N}\sigma^2$ ； $N-1$ 为分母时无偏。“

本节考点清单

两步贝叶斯决策、估计方法三分类。
MLE 五步法，会对高斯 / 伯努利 / 指数 / 泊松完整推导 + 数值计算。
均匀分布陷阱题：求导失效，用单调性 + 约束夹逼得 $\hat{\theta} = \max_i x_i$ 。
有偏无偏：高斯方差 MLE 偏小、期望 $\frac{N-1}{N}\sigma^2$ 、 $N-1$ 修正与自由度解释（必考）。