贝叶斯决策需要类条件分布 p(x∣ωi),但现实中这些分布几乎从不会白送给你。退一步的常见假设是:分布的形式已知(比如「它是高斯」),只是参数未知。最大似然估计(MLE)就是从数据里把这些参数估出来的最常用方法,也是几乎所有概率模型训练的底层逻辑。
一、核心思想:让数据「最不意外」
MLE 的出发点是一个反问:参数取什么值,能让我们恰好观测到手上这批数据的可能性最大?
换句话说,把已观测的数据当成”既定事实”,去找一个最能”解释”它们的参数。那个让观测概率最大的参数,就是估计值。
形式化:设参数为 θ,样本独立同分布(i.i.d.),则观测到整批数据的概率(似然函数)是各样本概率之积:
l(θ)=∏i=1Np(xi∣θ)
估计量定义为让似然最大的那个 θ:
θ^=argmaxθl(θ)
二、求解套路:取对数再求导
连乘不好求导,而对数是单调函数、不改变最优点的位置,所以标准做法是先取对数似然,把连乘变连加:
H(θ)=lnl(θ)=∑i=1Nlnp(xi∣θ)
然后对参数求导、令导数为零、解方程。多参数就对每一维求偏导(求梯度)。一句话概括:写似然 → 取对数 → 求导置零 → 解方程。
这个套路对绝大多数”光滑”的分布都管用,唯一会翻车的是参数落在分布边界上的情形(见第四节)。
三、常见分布的结果
把套路跑一遍,会得到一组非常符合直觉的结论——MLE 往往就是”样本里对应的那个统计量”。
高斯分布。对 μ、σ2 分别求偏导置零:
μ^=N1∑i=1Nxi,σ^2=N1∑i=1N(xi−μ^)2
均值的估计就是样本均值,方差的估计就是样本方差。多维情形完全平行:μ^ 是样本均值向量,Σ^ 是中心化外积的平均:
Σ^=N1∑k=1N(xk−μ^)(xk−μ^)T
伯努利分布。N 次里有 k 次成功,p^=k/N——就是频率。
指数分布。p(x∣λ)=λe−λx,解得 λ^=1/xˉ,速率是均值的倒数。
泊松分布。λ^=xˉ,参数就是样本均值。
这些结果之所以”显然”,恰恰说明 MLE 抓住了一种朴素而正确的直觉:用样本里的对应量去估计总体里的对应量。
四、一个不能盲目求导的反例
均匀分布 U(0,θ) 是最经典的例外。它的似然 l(θ)=θ−N(在所有样本都落在 [0,θ] 内时),对 θ 求导得不到零点——求导法直接失效。
正确做法是分析结构:θ−N 关于 θ 单调递减,所以 θ 越小似然越大;但又必须 θ≥maxixi(否则某个样本的概率密度为 0,似然归零)。两个力一夹,最优解卡在边界:
θ^=maxixi
这个例子的价值在于提醒:MLE 的本质是”最大化似然”,而不是”求导置零”。求导只是光滑情形下的手段,参数在边界时要回到定义本身分析。
五、MLE 会有偏:N-1 修正的来历
一个估计量是好是坏,常看它是否无偏:多次重复采样、估计值的平均能否回到真值,即 E[θ^]=θ。
样本均值是无偏的,E[μ^]=μ。但高斯方差的 MLE 有偏——它系统性地偏小:
E[σ^2]=NN−1σ2<σ2
直觉上的原因很漂亮:真方差该用真均值 μ 去算,但我们手上没有 μ,只能用样本均值 xˉ 顶替。而 ∑i(xi−c)2 这个量在 c=xˉ 时取到最小值——也就是说,用样本均值算出来的离差平方和,天生比用真均值算的要小。于是方差被低估了。
修正办法是把分母从 N 换成 N−1(贝塞尔校正):
s2=N−11∑i=1N(xi−xˉ)2,E[s2]=σ2
另一个理解角度是自由度:用 xˉ 顶替真均值,引入了约束 ∑i(xi−xˉ)=0,N 个残差里只有 N−1 个是自由的,所以除以 N−1 才”公平”。这也是为什么统计软件默认的样本方差用 N−1。
小结
- MLE 的灵魂是”找最能解释数据的参数”,落地为”写似然、取对数、求导置零”。
- 常见分布的 MLE 通常就是对应的样本统计量(均值、频率、均值倒数……)。
- 参数在边界时(如均匀分布)求导失效,要回到似然的单调性 + 约束去分析。
- MLE 不保证无偏:高斯方差的 MLE 偏小,N−1 修正背后是”少了一个自由度”。
- MLE 把”未知参数”变成”可从数据算出的量”,让贝叶斯决策真正落地。它假设分布形式已知;当连”属于哪类”都不知道时,问题就升级成了聚类。