贝叶斯决策要用到先验和类条件密度,但现实里它们往往未知,只能从样本估计。本节讲怎么从样本把密度参数估出来——最大似然估计(MLE)。
一、基于样本的两步贝叶斯决策
- 第一步:用样本集估计先验 P^(ωi) 和类条件密度 p^(x∣ωi);
- 第二步:把估计量代入贝叶斯决策规则,得到决策结果。
当样本量 N→∞ 时,估计趋近真值,两步贝叶斯决策就趋近理论上的贝叶斯决策。
二、估计方法分类
- 监督参数估计:样本类别已知、密度形式已知,只有参数未知(本节重点);
- 非监督参数估计:密度形式已知但样本类别未知(如 GMM 高斯混合模型);
- 非参数估计:密度形式未知,直接估密度数值(直方图法、k 近邻法、Parzen 窗法)。
参数估计两大方法:最大似然估计、贝叶斯估计。
三、最大似然估计的思想与假设
直觉:已知一批样本,反过来问”参数取什么值,能让我恰好抽到这批样本的可能性(似然)最大”。那个让可能性最大的参数就是估计值。
四条基本假设:
- 参数 θ 是确定(非随机)但未知的量;
- 各样本独立同分布(i.i.d.);
- 类条件密度的形式已知、参数未知,记作 p(x∣ωj,θj);
- 不同类别的参数在函数上相互独立,可逐类单独估计。
四、似然函数与求解(五步法)
设某类样本集 X={x1,x2,…,xN},因独立,联合概率为各样本概率之积,这就是似然函数:
l(θ)=p(x1,x2,…,xN∣θ)=∏i=1Np(xi∣θ)
最大似然估计量定义为使似然最大的 θ:
θ^=argmaxθl(θ)
通用五步:
- 写似然函数 l(θ)=∏i=1Np(xi∣θ);
- 取对数(连乘变连加,最优解不变):
H(θ)=lnl(θ)=∑i=1Nlnp(xi∣θ)
- 对参数求导(多参数则对每维求偏导,即求梯度 ∇θH);
- 令导数(梯度)为零,解方程得 θ^;
- 必要时验证二阶导小于零(确是极大值)。注意似然方程可能多解,取使似然最大者。
唯一例外:均匀分布等”参数在边界”的情况,求导失效,需单独分析(见第六节)。
五、各分布的 MLE 计算
单变量正态分布
密度 p(x∣μ,σ2)=2πσ1exp(−2σ2(x−μ)2)。对数似然:
H=−2Nln(2π)−2Nlnσ2−2σ21∑i=1N(xi−μ)2
对 μ 求偏导置零得样本均值:
μ^=N1∑i=1Nxi
对 σ2 求偏导置零得样本方差(分母 N):
σ^2=N1∑i=1N(xi−μ^)2
数值例:样本 {1,2,3,4,5},μ^=15/5=3,偏差平方和 4+1+0+1+4=10,σ^2=10/5=2。
多维正态分布
- 情况①(Σ 已知、μ 未知):对 μ 求偏导,Σ−1∑k(xk−μ)=0,消去 Σ−1 得 μ^=N1∑kxk。均值估计与 Σ 是否已知无关。
- 情况②(Σ、μ 均未知):
μ^=N1∑k=1Nxk,Σ^=N1∑k=1N(xk−μ^)(xk−μ^)T
结论:均值的 MLE 是样本算术平均;协方差的 MLE 是 N 个外积矩阵的算术平均。
伯努利 / 二项分布
单样本概率 P(xi∣p)=pxi(1−p)1−xi。设 N 次中有 k 个 1,对数似然 H=klnp+(N−k)ln(1−p),求导置零:
p^=Nk
即正面频率。数值例:抛 10 次得 7 次正面,p^=0.7。
指数分布
密度 p(x∣λ)=λe−λx,对数似然 H=Nlnλ−λ∑ixi,求导置零:
λ^=∑ixiN=xˉ1
数值例:样本 {2,4,6},xˉ=4,λ^=0.25。
泊松分布
概率 P(x∣λ)=x!λxe−λ,对数似然求导置零:
λ^=N1∑i=1Nxi=xˉ
数值例:样本 {0,1,2,1,1},λ^=5/5=1。
均匀分布(陷阱题,不能求导)
xi∼U(0,θ),密度在 0≤x≤θ 上为 1/θ,否则 0。似然 l(θ)=θ−N 对 θ 求导无零点,求导法失效。
正确分析:θ−N 是减函数,θ 越小似然越大;但每个样本要求 xi≤θ,故 θ≥maxixi。两者夹逼得:
θ^=maxixi
数值例:样本 {0.3,0.7,0.5,0.9,0.2},θ^=0.9。
六、有偏 vs 无偏(高频考点)
估计量是随机变量(每抽一批样本算出的值都不同),它有自己的期望。
- 无偏:E[θ^]=θ(多次估计的平均正好等于真值);
- 有偏:E[θ^]=θ(系统性偏离);偏差 Bias(θ^)=E[θ^]−θ。
样本均值无偏:E[μ^]=μ。但 MLE 的方差有偏(偏小),可证:
E[σ^2]=NN−1σ2<σ2
直观原因:MLE 用样本均值 μ^ 代替真实 μ,而 ∑i(xi−c)2 在 c=xˉ 时取最小,所以用 μ^ 算出的平方和天生偏小。
无偏修正(贝塞尔校正):把分母由 N 改为 N−1:
s2=N−11∑i=1N(xi−xˉ)2,E[s2]=σ2
自由度解释:用 xˉ 替代真均值,引入约束 ∑i(xi−xˉ)=0,消耗 1 个自由度,故除以 N−1。
考试答法:“MLE 的方差估计有偏(偏小),期望为 NN−1σ2;N−1 为分母时无偏。“
本节考点清单
- 两步贝叶斯决策、估计方法三分类。
- MLE 五步法,会对高斯 / 伯努利 / 指数 / 泊松完整推导 + 数值计算。
- 均匀分布陷阱题:求导失效,用单调性 + 约束夹逼得 θ^=maxixi。
- 有偏无偏:高斯方差 MLE 偏小、期望 NN−1σ2、N−1 修正与自由度解释(必考)。