这篇只收临场推不出来、做题却要用的东西:要背的结论、固定公式、容易记反的方向、解题套路。能现场推的过程(完整对偶推导、各分布 MLE 求导)不在这里——那些靠理解,这些靠记。考前过一遍,进考场。
一、贝叶斯决策
贝叶斯公式(闭眼能写):
P(ωi∣x)=p(x)p(x∣ωi)P(ωi),p(x)=∑jp(x∣ωj)P(ωj)
最小错误率:选后验最大的类。等价于选 p(x∣ωi)P(ωi) 最大(分母相同可省)。
最小错误率似然比阈值(要背,方向别反):
l(x)=p(x∣ω2)p(x∣ω1)>P(ω1)P(ω2)⟹判 ω1
记法:似然比是「1 比 2」,阈值先验是「2 比 1」,上下颠倒。
最小风险——三步法(做题主流程):
- 算后验 P(ωj∣x);
- 算每个决策的条件风险 R(αi∣x)=∑jλijP(ωj∣x);
- 取风险最小的决策(是 min,不是 max!)。
易错点:损失下标 λij = 真实为 ωj、却判成 αi 的损失。算 R(α1∣x) 时用第一行 λ11,λ12 配后验。
最小风险两类似然比阈值(带损失因子,容易写错):
p(x∣ω2)p(x∣ω1)>P(ω1)P(ω2)⋅λ21−λ11λ12−λ22⟹判 ω1
两者关系(必考简答):0-1 损失(λii=0,λij=1)下,最小风险退化为最小错误率。即最小错误率是最小风险的特例。
结论会反转:同一题,最小错误率判 A、最小风险可能判 B——因为代价不对称(漏诊比误诊贵)。记住”宁可误诊不可漏诊”这个方向。
二、最大似然估计(MLE)
直接背结果(做题不必每次推):
| 分布 | MLE | 备注 |
|---|
| 高斯 μ | μ^=N1∑xi | 样本均值 |
| 高斯 σ2 | σ^2=N1∑(xi−μ^)2 | 分母 N,有偏偏小 |
| 伯努利 | p^=k/N | 频率 |
| 指数 λe−λx | λ^=1/xˉ | 均值倒数 |
| 泊松 | λ^=xˉ | 就是均值 |
| 均匀 U(0,θ) | θ^=maxixi | 不能求导! |
均匀分布陷阱(高频):似然 θ−N 求导无零点。理由背熟:θ−N 递减想要 θ 小,约束 θ≥maxxi,夹逼得 θ^=maxixi。
有偏无偏(必考结论):
- 高斯方差 MLE 有偏、偏小,E[σ^2]=NN−1σ2;
- 无偏修正用 N−1:s2=N−11∑(xi−xˉ)2;
- 原因一句话:用 xˉ 顶替真 μ,消耗 1 个自由度。
多维高斯:μ^ = 样本均值;Σ^=N1∑(xk−μ^)(xk−μ^)T。μ^ 与 Σ 是否已知无关。
三、SVM
±1 标签:tn∈{+1,−1},正确分类 ⟺tny(xn)>0。
基本型(背):
min21∥w∥2s.t.tn(wTxn+b)≥1
间隔 = ∥w∥1;最大化间隔 = 最小化 21∥w∥2。
两个必背关系(对偶求导结果,做题直接用):
w=∑nantnxn,∑nantn=0
KKT 互补松弛(支持向量的判据):
an(tny(xn)−1)=0
- an=0 → 非支持向量(间隔外,没用);
- an>0 → 支持向量,恰在间隔边界 tny(xn)=1。
手算套路(两三个点的题,照走):
- 用 ∑nantn=0 减少未知数;
- 写 w=∑nantnxn;
- 对每个支持向量列 tn(wTxn+b)=1;
- 解方程组得 a,w,b;b 可由支持向量反解(多个取平均)。
软间隔:约束放成 tny(xn)≥1−ξn,目标加 C∑ξn。
- 对偶唯一变化:0≤an≤C(外加 ∑nantn=0);
- C 方向别记反:C 大 → 重罚违规、间隔窄、易过拟合;C 小 → 容忍违规、间隔宽、泛化好;
- 口诀:只有 an=C 的点才越界(0<an<C 恰在边界)。
四、PCA / LDA
协方差矩阵:S=N1∑(xn−xˉ)(xn−xˉ)T。
核心结论:主成分 = S 的最大特征值对应的特征向量;投影后方差 = 该特征值 λ。降到 M 维取前 M 大。
失真度(最小误差视角):J=∑i=M+1Dλi = 丢掉的特征值之和。
2×2 求特征值套路(计算题必用):解 det(S−λI)=0 → 得 λ → 回代 (S−λI)u=0 求特征向量。
PCA 三条局限(简答):假设线性、假设大方差=主成分(高信噪比)、假设近高斯分布。
PCA vs LDA(高频对比):
| PCA | LDA |
|---|
| 目标 | 方差最大、保信息 | 类别分得最开 |
| 标签 | 无监督 | 有监督 |
- LDA = Fisher 判别;准则 JF(w)=wTSwwwTSbw(类间/类内);
- 最优方向背:w∗=Sw−1(m1−m2);
- Sb=(m1−m2)(m1−m2)T,Sw=S1+S2。
五、K 均值
准则函数:J=∑n∑krnk∥xn−μk∥2(硬分配 rnk∈{0,1})。
两步(E/M 对应,必考):
- E 步(分配):每点归最近中心,rnk=1 当 k=argminj∥xn−μj∥2;
- M 步(更新):μk=∑nrnk∑nrnkxn = 该类均值。
与 GMM/EM 关系(高频简答):K 均值 = 硬分配;GMM+EM = 软分配(按概率部分归属)。K 均值是 GMM 的硬分配特例。
肘部法则:J-K 曲线由陡变缓的拐点定 K。
六、零散硬记点(容易问、推不出)
- 三大流派:① 类条件密度(参数法 / 非参数法)② 判别函数(感知机/Fisher/SVM)③ 相似度。
- 非参数估计三件套:直方图、k 近邻、Parzen(核)窗。
- 监督 vs 非监督:有没有标签 y。聚类是非监督。
- 生成式 vs 判别式:生成式建模 p(x∣ω)(贝叶斯);判别式直接学边界(SVM、Logistic)。
- 一致最优 / 贝叶斯错误率:贝叶斯决策逐点条件错误率 P(e∣x)=1−maxiP(ωi∣x) 最小,是错误率理论下界。
进考场前默背三件最易错:① 似然比阈值上下别反(似然 1/2,先验 2/1);② 最小风险取 min、高斯方差 MLE 分母 N 且偏小(无偏才 N−1);③ SVM 软间隔 C 大=窄间隔易过拟合、an=C 才越界。加油,稳住!