2026 春季期末考试(回忆版)

Views: --

这是 2026 春季《模式识别与机器视觉》期末考试的回忆版:凭考后记忆复原,题干尽量还原原意;选择题的选项已记不清,只保留题干与考点。每题后附参考答案 / 考点指向,方便对照前面的章节笔记与考前速成清单复习。记忆难免有出入,欢迎指正。

题型结构:选择题(10 × 四选一)+ 填空题(10 空)+ 解答题(5 题)。考查范围横跨全课——上半部分模式识别(贝叶斯决策、参数估计、SVM、PCA/LDA、聚类)与下半部分机器视觉(目标检测、CNN、Transformer/ViT、生成模型)。

一、选择题(四选一,选项已记不清,仅复原题干)

1. 决策面的移动方向。 一维正态,两类类条件密度在判别点处相等 p(xω1)=p(xω2)p(x\mid\omega_1)=p(x\mid\omega_2)。当先验从 P(ω1)=P(ω2)P(\omega_1)=P(\omega_2) 变为 P(ω1)>P(ω2)P(\omega_1)>P(\omega_2),最小错误率决策面朝哪个方向移动?

参考答案:朝先验较小的类别 ω2\omega_2 一侧移动,使 ω1\omega_1 的判决区域扩大。由似然比规则 l(x)=p(xω1)p(xω2)P(ω2)P(ω1)l(x)=\frac{p(x\mid\omega_1)}{p(x\mid\omega_2)}\gtrless\frac{P(\omega_2)}{P(\omega_1)}:先验相等时阈值为 1,边界落在两密度交点;P(ω1)>P(ω2)P(\omega_1)>P(\omega_2) 时阈值 <1<1,更容易判 ω1\omega_1,边界向 ω2\omega_2 的均值方向推。一句话:先验大的类”吃掉”更多地盘

2. 最大似然估计的概念。 关于 MLE 的描述哪项正确?

参考答案:MLE 把待估参数 θ\theta 看作未知的确定常数(不是随机变量),通过最大化似然函数 L(θ)=ip(xiθ)L(\theta)=\prod_i p(x_i\mid\theta)θ^\hat\theta不引入参数先验。这是与贝叶斯估计(把 θ\theta 当随机变量、需要先验)的根本区别。

3. LDA 的投影方向 w\mathbf{w} Fisher 线性判别的最优 w\mathbf{w} 满足什么?

参考答案:wSw1(m1m2)\mathbf{w}^*\propto S_w^{-1}(\mathbf{m}_1-\mathbf{m}_2),即最大化 Rayleigh 商 JF(w)=wTSbwwTSwwJ_F(\mathbf{w})=\frac{\mathbf{w}^{\mathsf T}S_b\mathbf{w}}{\mathbf{w}^{\mathsf T}S_w\mathbf{w}}(类间散度 / 类内散度)的方向。

4. SVM 核函数的目的。

参考答案:把原空间线性不可分的样本隐式映射到高维特征空间使其线性可分,并用核技巧 K(x,z)=ϕ(x)Tϕ(z)K(\mathbf{x},\mathbf{z})=\phi(\mathbf{x})^{\mathsf T}\phi(\mathbf{z}) 直接在低维算高维内积,避免显式高维映射带来的维度灾难。

5. PCA 的目标。

参考答案:寻找一组正交主成分方向,使数据投影后方差最大(等价于重构误差最小),实现降维与去相关。主成分 = 协方差矩阵最大特征值对应的特征向量。

6. 目标检测的定义。

参考答案:在图像中找出所有感兴趣目标的位置(边界框)并判定其类别,即”定位 + 分类”。区别于图像分类(只输出类别)与语义分割(像素级标注)。

7. Faster R-CNN 中 RPN 的作用。

参考答案:RPN(Region Proposal Network,区域候选网络)在共享特征图上滑窗,基于 anchor 同时输出”前景 / 背景”二分类得分与边界框回归量,生成高质量候选区域,取代 Selective Search,使候选框生成与检测网络共享特征、端到端且高效。

8. 转置卷积的使用场景。

参考答案:需要上采样、放大特征图分辨率时使用,如语义分割解码器(FCN / U-Net 恢复到原图尺寸)、生成模型解码器(GAN / 自编码器从低维特征生成高分辨率图像)、超分辨率等。

9. self-attention 匹配两个词向量用的两个量。

参考答案:Query(查询)与 Key(键)。注意力权重由 Query 与 Key 的点积相似度经 softmax 得到,再对 Value 加权求和。

10. CLIP zero-shot 的依据。

参考答案:CLIP 通过图文对比学习把图像与文本嵌入同一向量空间。zero-shot 分类时把类别名写成文本提示(如 “a photo of a {class}“)编码为文本向量,与图像向量算余弦相似度,取最相似者——依据就是图像-文本在共享嵌入空间的相似度对齐

二、填空题

1. 监督 vs 无监督(考定义)。

  • 监督学习:训练样本带标签 (x,y)(\mathbf{x}, y),学习从输入到输出 / 类别的映射;
  • 无监督学习:训练样本无标签,仅由 x\mathbf{x} 自身的结构发现规律(如聚类、降维)。

2. 感知机准则函数的用处。(考场没复习到,这里补全)

  • 感知机准则函数 Jp(w)=xM(wTx)J_p(\mathbf{w})=\sum_{\mathbf{x}\in\mathcal{M}}(-\mathbf{w}^{\mathsf T}\mathbf{x})M\mathcal{M} 为当前被错分的样本集;
  • 用处:作为优化目标度量误分类程度,对错分样本用 ww+ρx\mathbf{w}\leftarrow\mathbf{w}+\rho\,\mathbf{x} 迭代修正权向量,线性可分时算法收敛,最终得到线性判别函数。

3. 指数分布的 MLE。 已知 p(x;λ)=λeλx (x0)p(x;\lambda)=\lambda e^{-\lambda x}\ (x\ge 0),由样本 x1,,xNx_1,\dots,x_Nλ^\hat\lambda

  • 对数似然 (λ)=Nlnλλixi\ell(\lambda)=N\ln\lambda-\lambda\sum_i x_i,求导置零 Nλixi=0\frac{N}{\lambda}-\sum_i x_i=0
  • 解得 λ^=Nixi=1xˉ\hat\lambda=\dfrac{N}{\sum_i x_i}=\dfrac{1}{\bar x}(样本均值的倒数)。

4. k-means 的”汇聚点”。

  • 聚类中心(簇质心,centroid) μk\boldsymbol\mu_k,每轮更新为该簇所有样本的均值。

5. PCA vs LDA(填各自方法的目的;题面”LCA”应为 LDA)。

  • PCA:最大化投影方差 / 保留主要信息,无监督;
  • LDA:最大化类间距离、最小化类内距离(使类别可分),有监督。

6. CNN 下采样的两种常见方法。

  • 最大池化(max pooling)平均池化(average pooling)(广义上步长卷积 strided convolution 也可下采样)。

7. R-CNN vs YOLO 的阶段数。

  • R-CNN 系列是两阶段(先出候选区域,再分类 + 回归);YOLO 是单阶段(直接回归框与类别)。

8. GAN 的两个组成部分。

  • 生成器(Generator)判别器(Discriminator),二者对抗训练。

9. Diffusion 的”先……后……”。

  • 前向扩散(逐步加噪) 把数据加噪成近似高斯噪声,后反向去噪(逐步采样) 由网络从噪声还原 / 生成数据。

10. 参数微调(fine-tuning)。(考场没复习到,这里补全)

  • 大规模预训练模型基础上,用下游任务数据继续训练、调整参数以适配该任务;可全参微调,也可只调部分层或用参数高效微调(LoRA / Adapter / prompt tuning 等)降低成本。

三、解答题

1. 贝叶斯决策(计算 + 概念辨析)

(a)给定先验与类条件概率,用贝叶斯公式算后验——最基础的一类计算:

P(ωix)=p(xωi)P(ωi)jp(xωj)P(ωj)P(\omega_i\mid\mathbf{x})=\frac{p(\mathbf{x}\mid\omega_i)P(\omega_i)}{\sum_j p(\mathbf{x}\mid\omega_j)P(\omega_j)}

取后验最大的类即最小错误率判决。

(b)辨析最小错误率原则 vs 最小风险(最小代价)原则的结果差异、分界线左移还是右移:

  • 0-1 损失下两者完全等价(最小错误率是最小风险的特例);
  • 代价不对称时,最小风险会朝”减少高代价错误”的方向移动分界线;
  • 例:漏诊(真患病却判健康)代价远高于误诊,则要扩大判”患病”的判决区域,分界线朝”健康类”一侧推——把更多边界样本判成患病。方向口诀:哪类漏判更贵,就把分界线往另一侧推、扩大该类的判决域
  • 详见贝叶斯决策章笔记的白血病例子(最小错误率判健康、最小风险判患病的”结论反转”)。

2. SVM

  • 定义:在样本线性可分的前提下,寻找使分类间隔最大的超平面的判别式方法;
  • 优化目标(基本型):

minw,b 12w2s.t.tn(wTxn+b)1\min_{\mathbf{w},b}\ \tfrac12\|\mathbf{w}\|^2\quad\text{s.t.}\quad t_n(\mathbf{w}^{\mathsf T}\mathbf{x}_n+b)\ge 1

  • 软间隔的那个字母:松弛变量 ξn0\xi_n\ge 0,约束放松为 tn(wTxn+b)1ξnt_n(\mathbf{w}^{\mathsf T}\mathbf{x}_n+b)\ge 1-\xi_n,目标加惩罚项 CnξnC\sum_n\xi_n
  • CC:正则参数,权衡准确性与泛化——CC 大则重罚违规、间隔窄、易过拟合;CC 小则容忍违规、间隔宽、泛化好;
  • 支持向量的定义:满足 an>0a_n>0 的样本(恰落在间隔边界 tny(xn)=1t_n y(\mathbf{x}_n)=1 上,软间隔下也包括越界点);
  • 删掉所有非支持向量,分割面不变:因为 w=nantnxn\mathbf{w}=\sum_n a_n t_n\mathbf{x}_n 中非支持向量的 an=0a_n=0,对 w,b\mathbf{w}, b 零贡献——这正是 SVM 得名的原因。

3. 目标检测

  • 单阶段 vs 两阶段:
    • 两阶段(R-CNN / Fast / Faster R-CNN):先生成候选区域(RPN 或 Selective Search),再对候选框分类 + 边界框回归;准确率高、速度慢;
    • 单阶段(YOLO / SSD):在特征图上密集地直接回归框与类别,无显式候选阶段;速度快、适合实时,精度(尤其小目标)略逊。
  • IoU(交并比):

IoU=两框交集面积两框并集面积\text{IoU}=\frac{\text{两框交集面积}}{\text{两框并集面积}}

取值 [0,1][0,1],衡量预测框与真值框的重叠程度,常以 0.5 为正样本阈值。

  • 非极大值抑制(NMS)原则:同一目标常被预测出多个重叠框,按置信度从高到低排序,选最高分框保留,删除与它 IoU 超过阈值的其余框,对剩下的框重复该过程,直到无框可删——即”每个目标只保留得分最高的框,抑制与之高度重叠的冗余框”。

4. Transformer

  • 给定输入 X\mathbf{X},三组可学习投影得到 Query / Key / Value:

Q=XWQ,K=XWK,V=XWV\mathbf{Q}=\mathbf{X}\mathbf{W}_Q,\quad \mathbf{K}=\mathbf{X}\mathbf{W}_K,\quad \mathbf{V}=\mathbf{X}\mathbf{W}_V

  • 缩放点积注意力:

Attention(Q,K,V)=softmax ⁣(QKTdk)V\text{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^{\mathsf T}}{\sqrt{d_k}}\right)\mathbf{V}

其中除以 dk\sqrt{d_k} 是缩放因子,防止点积过大把 softmax 推到梯度极小的区域。

  • ViT 原理:把图像切成固定大小的 patch,每个 patch 展平后线性投影成 token 嵌入,加上位置编码和一个 [CLS] 分类 token,整体送入标准 Transformer 编码器;最后取 [CLS] 的输出经 MLP 头做分类。核心思想:把图像当作 patch 序列,用纯注意力机制替代卷积来建模全局依赖。

5. GAN 与 Diffusion 的异同

维度GANDiffusion
机制生成器 vs 判别器对抗,一步生成前向加噪 + 反向去噪,多步迭代
训练不稳定,易模式崩溃稳定,目标简单(预测噪声)
采样(单次前向)(需多步去噪)
质量 / 多样性图像锐利但多样性偏弱质量高、覆盖分布全、多样性好
  • 相同点:都是生成模型,本质都是从随机噪声生成逼真样本;
  • GAN:优势是采样快、细节锐利;短板是训练不稳定、易模式崩溃、多样性不足;
  • Diffusion:优势是训练稳定、质量与多样性俱佳;短板是采样慢、算力开销大(后续有 DDIM、模型蒸馏等加速手段)。

以上凭记忆整理,题干与选项可能有偏差,参考答案对照各章笔记与考前速成清单复习即可。本卷考查重心很清楚:模式识别上半部分仍是计算主力(贝叶斯、MLE、SVM、PCA/LDA、k-means),机器视觉下半部分以概念与定义为主(目标检测、Transformer/ViT、GAN/Diffusion、CLIP)