概率密度估计与最大似然估计

Views: --

贝叶斯决策要用到先验和类条件密度,但现实里它们往往未知,只能从样本估计。本节讲怎么从样本把密度参数估出来——最大似然估计(MLE)。

一、基于样本的两步贝叶斯决策

  1. 第一步:用样本集估计先验 P^(ωi)\hat{P}(\omega_i) 和类条件密度 p^(xωi)\hat{p}(\mathbf{x} \mid \omega_i)
  2. 第二步:把估计量代入贝叶斯决策规则,得到决策结果。

当样本量 NN \to \infty 时,估计趋近真值,两步贝叶斯决策就趋近理论上的贝叶斯决策。

二、估计方法分类

  • 监督参数估计:样本类别已知、密度形式已知,只有参数未知(本节重点);
  • 非监督参数估计:密度形式已知但样本类别未知(如 GMM 高斯混合模型);
  • 非参数估计:密度形式未知,直接估密度数值(直方图法、kk 近邻法、Parzen 窗法)。

参数估计两大方法:最大似然估计、贝叶斯估计。

三、最大似然估计的思想与假设

直觉:已知一批样本,反过来问”参数取什么值,能让我恰好抽到这批样本的可能性(似然)最大”。那个让可能性最大的参数就是估计值。

四条基本假设:

  1. 参数 θ\theta 是确定(非随机)但未知的量;
  2. 各样本独立同分布(i.i.d.);
  3. 类条件密度的形式已知、参数未知,记作 p(xωj,θj)p(\mathbf{x} \mid \omega_j, \theta_j)
  4. 不同类别的参数在函数上相互独立,可逐类单独估计。

四、似然函数与求解(五步法)

设某类样本集 X={x1,x2,,xN}X = \{x_1, x_2, \dots, x_N\},因独立,联合概率为各样本概率之积,这就是似然函数

l(θ)=p(x1,x2,,xNθ)=i=1Np(xiθ)l(\theta) = p(x_1, x_2, \dots, x_N \mid \theta) = \prod_{i=1}^{N} p(x_i \mid \theta)

最大似然估计量定义为使似然最大的 θ\theta

θ^=argmaxθl(θ)\hat{\theta} = \arg\max_{\theta} l(\theta)

通用五步

  1. 写似然函数 l(θ)=i=1Np(xiθ)l(\theta) = \prod_{i=1}^{N} p(x_i \mid \theta)
  2. 取对数(连乘变连加,最优解不变):

H(θ)=lnl(θ)=i=1Nlnp(xiθ)H(\theta) = \ln l(\theta) = \sum_{i=1}^{N} \ln p(x_i \mid \theta)

  1. 对参数求导(多参数则对每维求偏导,即求梯度 θH\nabla_\theta H);
  2. 令导数(梯度)为零,解方程得 θ^\hat{\theta}
  3. 必要时验证二阶导小于零(确是极大值)。注意似然方程可能多解,取使似然最大者。

唯一例外:均匀分布等”参数在边界”的情况,求导失效,需单独分析(见第六节)。

五、各分布的 MLE 计算

单变量正态分布

密度 p(xμ,σ2)=12πσexp((xμ)22σ2)p(x \mid \mu, \sigma^2) = \dfrac{1}{\sqrt{2\pi}\, \sigma} \exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)。对数似然:

H=N2ln(2π)N2lnσ212σ2i=1N(xiμ)2H = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln \sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i - \mu)^2

μ\mu 求偏导置零得样本均值

μ^=1Ni=1Nxi\hat{\mu} = \frac{1}{N}\sum_{i=1}^{N} x_i

σ2\sigma^2 求偏导置零得样本方差(分母 NN):

σ^2=1Ni=1N(xiμ^)2\hat{\sigma}^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \hat{\mu})^2

数值例:样本 {1,2,3,4,5}\{1, 2, 3, 4, 5\}μ^=15/5=3\hat{\mu} = 15/5 = 3,偏差平方和 4+1+0+1+4=104+1+0+1+4 = 10σ^2=10/5=2\hat{\sigma}^2 = 10/5 = 2

多维正态分布

  • 情况①(Σ\Sigma 已知、μ\mu 未知):对 μ\mu 求偏导,Σ1k(xkμ)=0\Sigma^{-1}\sum_k (\mathbf{x}_k - \mu) = 0,消去 Σ1\Sigma^{-1}μ^=1Nkxk\hat{\mu} = \dfrac{1}{N}\sum_k \mathbf{x}_k。均值估计与 Σ\Sigma 是否已知无关。
  • 情况②(Σ\Sigmaμ\mu 均未知)

μ^=1Nk=1Nxk,Σ^=1Nk=1N(xkμ^)(xkμ^)T\hat{\mu} = \frac{1}{N}\sum_{k=1}^{N} \mathbf{x}_k, \qquad \hat{\Sigma} = \frac{1}{N}\sum_{k=1}^{N}(\mathbf{x}_k - \hat{\mu})(\mathbf{x}_k - \hat{\mu})^{\mathsf{T}}

结论:均值的 MLE 是样本算术平均;协方差的 MLE 是 NN 个外积矩阵的算术平均。

伯努利 / 二项分布

单样本概率 P(xip)=pxi(1p)1xiP(x_i \mid p) = p^{x_i}(1-p)^{1-x_i}。设 NN 次中有 kk 个 1,对数似然 H=klnp+(Nk)ln(1p)H = k\ln p + (N-k)\ln(1-p),求导置零:

p^=kN\hat{p} = \frac{k}{N}

即正面频率。数值例:抛 10 次得 7 次正面,p^=0.7\hat{p} = 0.7

指数分布

密度 p(xλ)=λeλxp(x \mid \lambda) = \lambda e^{-\lambda x},对数似然 H=NlnλλixiH = N\ln\lambda - \lambda\sum_i x_i,求导置零:

λ^=Nixi=1xˉ\hat{\lambda} = \frac{N}{\sum_i x_i} = \frac{1}{\bar{x}}

数值例:样本 {2,4,6}\{2, 4, 6\}xˉ=4\bar{x} = 4λ^=0.25\hat{\lambda} = 0.25

泊松分布

概率 P(xλ)=λxeλx!P(x \mid \lambda) = \dfrac{\lambda^x e^{-\lambda}}{x!},对数似然求导置零:

λ^=1Ni=1Nxi=xˉ\hat{\lambda} = \frac{1}{N}\sum_{i=1}^{N} x_i = \bar{x}

数值例:样本 {0,1,2,1,1}\{0, 1, 2, 1, 1\}λ^=5/5=1\hat{\lambda} = 5/5 = 1

均匀分布(陷阱题,不能求导)

xiU(0,θ)x_i \sim U(0, \theta),密度在 0xθ0 \le x \le \theta 上为 1/θ1/\theta,否则 0。似然 l(θ)=θNl(\theta) = \theta^{-N}θ\theta 求导无零点,求导法失效

正确分析:θN\theta^{-N} 是减函数,θ\theta 越小似然越大;但每个样本要求 xiθx_i \le \theta,故 θmaxixi\theta \ge \max_i x_i。两者夹逼得:

θ^=maxixi\hat{\theta} = \max_i x_i

数值例:样本 {0.3,0.7,0.5,0.9,0.2}\{0.3, 0.7, 0.5, 0.9, 0.2\}θ^=0.9\hat{\theta} = 0.9

六、有偏 vs 无偏(高频考点)

估计量是随机变量(每抽一批样本算出的值都不同),它有自己的期望。

  • 无偏E[θ^]=θE[\hat{\theta}] = \theta(多次估计的平均正好等于真值);
  • 有偏E[θ^]θE[\hat{\theta}] \ne \theta(系统性偏离);偏差 Bias(θ^)=E[θ^]θ\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta

样本均值无偏:E[μ^]=μE[\hat{\mu}] = \mu。但 MLE 的方差有偏(偏小),可证:

E[σ^2]=N1Nσ2<σ2E[\hat{\sigma}^2] = \frac{N-1}{N}\sigma^2 < \sigma^2

直观原因:MLE 用样本均值 μ^\hat{\mu} 代替真实 μ\mu,而 i(xic)2\sum_i (x_i - c)^2c=xˉc = \bar{x} 时取最小,所以用 μ^\hat{\mu} 算出的平方和天生偏小。

无偏修正(贝塞尔校正):把分母由 NN 改为 N1N-1

s2=1N1i=1N(xixˉ)2,E[s2]=σ2s^2 = \frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})^2, \qquad E[s^2] = \sigma^2

自由度解释:用 xˉ\bar{x} 替代真均值,引入约束 i(xixˉ)=0\sum_i (x_i - \bar{x}) = 0,消耗 1 个自由度,故除以 N1N-1

考试答法:“MLE 的方差估计有偏(偏小),期望为 N1Nσ2\dfrac{N-1}{N}\sigma^2N1N-1 为分母时无偏。“

本节考点清单

  • 两步贝叶斯决策、估计方法三分类。
  • MLE 五步法,会对高斯 / 伯努利 / 指数 / 泊松完整推导 + 数值计算。
  • 均匀分布陷阱题:求导失效,用单调性 + 约束夹逼得 θ^=maxixi\hat{\theta} = \max_i x_i
  • 有偏无偏:高斯方差 MLE 偏小、期望 N1Nσ2\frac{N-1}{N}\sigma^2N1N-1 修正与自由度解释(必考)。