K 均值聚类(附全章公式速查表)

Views: --

K 均值是无监督聚类的代表算法。本节讲清”准则 → 两步交替 → 收敛”,并辨析它与 GMM/EM 的关系。文末附上半部分全公式速查表,考前急救用。

一、监督 vs 非监督

监督学习数据带标签(学”特征 → 标签”映射,如贝叶斯、SVM);非监督学习数据无标签,需自行发现结构。聚类是非监督的典型任务——把无标签的点按相似度自动分组。K 均值是最经典的聚类算法。

二、问题与准则函数

给定 DD 维空间上的数据 {x1,,xN}\{\mathbf{x}_1, \dots, \mathbf{x}_N\},不知类别,目标分成 KK 类。做法:给每类设代表点(中心)μk\boldsymbol{\mu}_k,每个样本归到离它最近的中心。

定义聚类标注 rnkr_{nk}:若样本 xn\mathbf{x}_n 属于第 kk 类则 rnk=1r_{nk} = 1,否则 0(硬分配,每个样本只归一类)。

准则函数(每个点到所属中心的距离平方和):

J=n=1Nk=1Krnkxnμk2J = \sum_{n=1}^{N}\sum_{k=1}^{K} r_{nk}\|\mathbf{x}_n - \boldsymbol{\mu}_k\|^2

JJ 越小聚类越紧凑。目标是调整分组 rnkr_{nk} 和中心 μk\boldsymbol{\mu}_k 使 JJ 最小。

三、两步走(交替优化,EM 思想)

难点:rnkr_{nk}μk\boldsymbol{\mu}_k 互相依赖,无法同时解。办法是固定一个、优化另一个,交替进行

第一步(固定中心,优化分组,对应 E 步):每点归到最近中心。

rnk={1k=argminjxnμj20其他r_{nk} = \begin{cases} 1 & k = \arg\min_j \|\mathbf{x}_n - \boldsymbol{\mu}_j\|^2 \\ 0 & \text{其他} \end{cases}

第二步(固定分组,优化中心,对应 M 步):对 JJ 关于 μk\boldsymbol{\mu}_k 求导置零,2nrnk(xnμk)=02\sum_n r_{nk}(\mathbf{x}_n - \boldsymbol{\mu}_k) = 0,解得:

μk=nrnkxnnrnk\boldsymbol{\mu}_k = \frac{\sum_n r_{nk}\mathbf{x}_n}{\sum_n r_{nk}}

即中心 = 该类所有点的均值(重心)。“K 均值”之名由此而来。

四、算法步骤

  1. 初始化 KK 个中心 μk\boldsymbol{\mu}_k
  2. 分配:每个样本归到最近中心(算 rnkr_{nk});
  3. 更新:每个中心移到所属类的均值处(更新 μk\boldsymbol{\mu}_k);
  4. 循环第 2、3 步直到中心不再变化(收敛)。

五、与 EM 的关系

两步分别对应 EM 的 E 步(分配责任)与 M 步(更新参数)。区别:K 均值是硬分配rnkr_{nk} 只取 0/1),GMM + EM 是软分配(一个点按概率部分属于各类)。故 K 均值是 GMM(用 EM 求解)的硬分配特例。这是高频考点。

六、如何确定 K:肘部法则

K 越大 JJ 越小(极端时每点自成一类、J=0J=0),但收益递减。把不同 KK 对应的最小 JJ 画成曲线,曲线由陡降转平缓的拐点(形如手肘)对应较合理的 KK

本节考点清单

  • 准则函数 JJ、硬分配 rnkr_{nk} 的定义。
  • 两步交替优化、E/M 对应,中心更新为类均值的推导。
  • K 均值 = GMM 的硬分配特例(与 EM 的软硬分配区别,必考)。
  • 肘部法则定 KK

附录:上半部分核心公式速查表

考前急救用,覆盖整个模式识别部分。

贝叶斯决策

名称公式
贝叶斯公式P(ωix)=p(xωi)P(ωi)p(x)P(\omega_i \mid \mathbf{x}) = \dfrac{p(\mathbf{x} \mid \omega_i)P(\omega_i)}{p(\mathbf{x})}
最小错误率P(ωix)P(\omega_i \mid \mathbf{x}) 最大的类
似然比规则l(x)=p(xω1)p(xω2)P(ω2)P(ω1)l(\mathbf{x}) = \dfrac{p(\mathbf{x} \mid \omega_1)}{p(\mathbf{x} \mid \omega_2)} \gtrless \dfrac{P(\omega_2)}{P(\omega_1)}
条件风险R(αix)=jλ(αiωj)P(ωjx)R(\alpha_i \mid \mathbf{x}) = \sum_j \lambda(\alpha_i \mid \omega_j)P(\omega_j \mid \mathbf{x})
最小风险R(αix)R(\alpha_i \mid \mathbf{x}) 最小的决策
0-1 损失R(αix)=1P(ωix)R(\alpha_i \mid \mathbf{x}) = 1 - P(\omega_i \mid \mathbf{x}),退化为最小错误率

最大似然估计

分布MLE 结果
高斯 μ\muμ^=1Nixi\hat{\mu} = \dfrac{1}{N}\sum_i x_i(样本均值)
高斯 σ2\sigma^2σ^2=1Ni(xiμ^)2\hat{\sigma}^2 = \dfrac{1}{N}\sum_i (x_i - \hat{\mu})^2(分母 NN,有偏)
无偏方差s2=1N1i(xixˉ)2s^2 = \dfrac{1}{N-1}\sum_i (x_i - \bar{x})^2
伯努利p^=k/N\hat{p} = k/N
指数λ^=1/xˉ\hat{\lambda} = 1/\bar{x}
泊松λ^=xˉ\hat{\lambda} = \bar{x}
均匀 U(0,θ)U(0,\theta)θ^=maxixi\hat{\theta} = \max_i x_i(不能求导)

SVM

名称公式
基本型min12w2\min \dfrac{1}{2}\|\mathbf{w}\|^2 s.t. tn(wTxn+b)1t_n(\mathbf{w}^{\mathsf{T}}\mathbf{x}_n + b) \ge 1
权向量w=nantnxn\mathbf{w} = \sum_n a_n t_n \mathbf{x}_n
对偶约束an0a_n \ge 0;软 0anC0 \le a_n \le C;都要 nantn=0\sum_n a_n t_n = 0
KKT 互补an(tny(xn)1)=0a_n(t_n y(\mathbf{x}_n) - 1) = 0
支持向量an>0a_n > 0 的点
软间隔目标min12w2+Cnξn\min \dfrac{1}{2}\|\mathbf{w}\|^2 + C\sum_n \xi_n

PCA / LDA

名称公式
协方差矩阵S=1Nn(xnxˉ)(xnxˉ)T\mathbf{S} = \dfrac{1}{N}\sum_n (\mathbf{x}_n - \bar{\mathbf{x}})(\mathbf{x}_n - \bar{\mathbf{x}})^{\mathsf{T}}
主成分Su1=λ1u1\mathbf{S}\mathbf{u}_1 = \lambda_1 \mathbf{u}_1,取最大特征值对应特征向量
失真度J=i=M+1DλiJ = \sum_{i=M+1}^{D} \lambda_i
LDA 准则JF(w)=wTSbwwTSwwJ_F(\mathbf{w}) = \dfrac{\mathbf{w}^{\mathsf{T}} S_b \mathbf{w}}{\mathbf{w}^{\mathsf{T}} S_w \mathbf{w}}
LDA 投影方向w=Sw1(m1m2)\mathbf{w}^* = S_w^{-1}(\mathbf{m}_1 - \mathbf{m}_2)

K 均值

名称公式
准则函数J=nkrnkxnμk2J = \sum_n \sum_k r_{nk}\|\mathbf{x}_n - \boldsymbol{\mu}_k\|^2
分配(E 步)rnk=1r_{nk} = 1k=argminjxnμj2k = \arg\min_j \|\mathbf{x}_n - \boldsymbol{\mu}_j\|^2
更新(M 步)μk=nrnkxnnrnk\boldsymbol{\mu}_k = \dfrac{\sum_n r_{nk}\mathbf{x}_n}{\sum_n r_{nk}}