K 均值是无监督聚类的代表算法。本节讲清”准则 → 两步交替 → 收敛”,并辨析它与 GMM/EM 的关系。文末附上半部分全公式速查表,考前急救用。
一、监督 vs 非监督
监督学习数据带标签(学”特征 → 标签”映射,如贝叶斯、SVM);非监督学习数据无标签,需自行发现结构。聚类是非监督的典型任务——把无标签的点按相似度自动分组。K 均值是最经典的聚类算法。
二、问题与准则函数
给定 D 维空间上的数据 {x1,…,xN},不知类别,目标分成 K 类。做法:给每类设代表点(中心)μk,每个样本归到离它最近的中心。
定义聚类标注 rnk:若样本 xn 属于第 k 类则 rnk=1,否则 0(硬分配,每个样本只归一类)。
准则函数(每个点到所属中心的距离平方和):
J=∑n=1N∑k=1Krnk∥xn−μk∥2
J 越小聚类越紧凑。目标是调整分组 rnk 和中心 μk 使 J 最小。
三、两步走(交替优化,EM 思想)
难点:rnk 与 μk 互相依赖,无法同时解。办法是固定一个、优化另一个,交替进行。
第一步(固定中心,优化分组,对应 E 步):每点归到最近中心。
rnk={10k=argminj∥xn−μj∥2其他
第二步(固定分组,优化中心,对应 M 步):对 J 关于 μk 求导置零,2∑nrnk(xn−μk)=0,解得:
μk=∑nrnk∑nrnkxn
即中心 = 该类所有点的均值(重心)。“K 均值”之名由此而来。
四、算法步骤
- 初始化 K 个中心 μk;
- 分配:每个样本归到最近中心(算 rnk);
- 更新:每个中心移到所属类的均值处(更新 μk);
- 循环第 2、3 步直到中心不再变化(收敛)。
五、与 EM 的关系
两步分别对应 EM 的 E 步(分配责任)与 M 步(更新参数)。区别:K 均值是硬分配(rnk 只取 0/1),GMM + EM 是软分配(一个点按概率部分属于各类)。故 K 均值是 GMM(用 EM 求解)的硬分配特例。这是高频考点。
六、如何确定 K:肘部法则
K 越大 J 越小(极端时每点自成一类、J=0),但收益递减。把不同 K 对应的最小 J 画成曲线,曲线由陡降转平缓的拐点(形如手肘)对应较合理的 K。
本节考点清单
- 准则函数 J、硬分配 rnk 的定义。
- 两步交替优化、E/M 对应,中心更新为类均值的推导。
- K 均值 = GMM 的硬分配特例(与 EM 的软硬分配区别,必考)。
- 肘部法则定 K。
附录:上半部分核心公式速查表
考前急救用,覆盖整个模式识别部分。
贝叶斯决策
| 名称 | 公式 |
|---|
| 贝叶斯公式 | P(ωi∣x)=p(x)p(x∣ωi)P(ωi) |
| 最小错误率 | 选 P(ωi∣x) 最大的类 |
| 似然比规则 | l(x)=p(x∣ω2)p(x∣ω1)≷P(ω1)P(ω2) |
| 条件风险 | R(αi∣x)=∑jλ(αi∣ωj)P(ωj∣x) |
| 最小风险 | 选 R(αi∣x) 最小的决策 |
| 0-1 损失 | R(αi∣x)=1−P(ωi∣x),退化为最小错误率 |
最大似然估计
| 分布 | MLE 结果 |
|---|
| 高斯 μ | μ^=N1∑ixi(样本均值) |
| 高斯 σ2 | σ^2=N1∑i(xi−μ^)2(分母 N,有偏) |
| 无偏方差 | s2=N−11∑i(xi−xˉ)2 |
| 伯努利 | p^=k/N |
| 指数 | λ^=1/xˉ |
| 泊松 | λ^=xˉ |
| 均匀 U(0,θ) | θ^=maxixi(不能求导) |
SVM
| 名称 | 公式 |
|---|
| 基本型 | min21∥w∥2 s.t. tn(wTxn+b)≥1 |
| 权向量 | w=∑nantnxn |
| 对偶约束 | 硬 an≥0;软 0≤an≤C;都要 ∑nantn=0 |
| KKT 互补 | an(tny(xn)−1)=0 |
| 支持向量 | an>0 的点 |
| 软间隔目标 | min21∥w∥2+C∑nξn |
PCA / LDA
| 名称 | 公式 |
|---|
| 协方差矩阵 | S=N1∑n(xn−xˉ)(xn−xˉ)T |
| 主成分 | Su1=λ1u1,取最大特征值对应特征向量 |
| 失真度 | J=∑i=M+1Dλi |
| LDA 准则 | JF(w)=wTSwwwTSbw |
| LDA 投影方向 | w∗=Sw−1(m1−m2) |
K 均值
| 名称 | 公式 |
|---|
| 准则函数 | J=∑n∑krnk∥xn−μk∥2 |
| 分配(E 步) | rnk=1 当 k=argminj∥xn−μj∥2 |
| 更新(M 步) | μk=∑nrnk∑nrnkxn |