2026 春季期末考试（回忆版）

这是 2026 春季《模式识别与机器视觉》期末考试的回忆版：凭考后记忆复原，题干尽量还原原意；选择题的选项已记不清，只保留题干与考点。每题后附参考答案 / 考点指向，方便对照前面的章节笔记与考前速成清单复习。记忆难免有出入，欢迎指正。

题型结构：选择题（10 × 四选一）+ 填空题（10 空）+ 解答题（5 题）。考查范围横跨全课——上半部分模式识别（贝叶斯决策、参数估计、SVM、PCA/LDA、聚类）与下半部分机器视觉（目标检测、CNN、Transformer/ViT、生成模型）。

一、选择题（四选一，选项已记不清，仅复原题干）

1. 决策面的移动方向。 一维正态，两类类条件密度在判别点处相等 $p(x\mid\omega_1)=p(x\mid\omega_2)$ 。当先验从 $P(\omega_1)=P(\omega_2)$ 变为 $P(\omega_1)>P(\omega_2)$ ，最小错误率决策面朝哪个方向移动？

参考答案：朝先验较小的类别 $\omega_2$ 一侧移动，使 $\omega_1$ 的判决区域扩大。由似然比规则 $l(x)=\frac{p(x\mid\omega_1)}{p(x\mid\omega_2)}\gtrless\frac{P(\omega_2)}{P(\omega_1)}$ ：先验相等时阈值为 1，边界落在两密度交点； $P(\omega_1)>P(\omega_2)$ 时阈值 $<1$ ，更容易判 $\omega_1$ ，边界向 $\omega_2$ 的均值方向推。一句话：先验大的类”吃掉”更多地盘。

2. 最大似然估计的概念。 关于 MLE 的描述哪项正确？

参考答案：MLE 把待估参数 $\theta$ 看作未知的确定常数（不是随机变量），通过最大化似然函数 $L(\theta)=\prod_i p(x_i\mid\theta)$ 求 $\hat\theta$ ，不引入参数先验。这是与贝叶斯估计（把 $\theta$ 当随机变量、需要先验）的根本区别。

3. LDA 的投影方向 $\mathbf{w}$ 。 Fisher 线性判别的最优 $\mathbf{w}$ 满足什么？

参考答案： $\mathbf{w}^*\propto S_w^{-1}(\mathbf{m}_1-\mathbf{m}_2)$ ，即最大化 Rayleigh 商 $J_F(\mathbf{w})=\frac{\mathbf{w}^{\mathsf T}S_b\mathbf{w}}{\mathbf{w}^{\mathsf T}S_w\mathbf{w}}$ （类间散度 / 类内散度）的方向。

4. SVM 核函数的目的。

参考答案：把原空间线性不可分的样本隐式映射到高维特征空间使其线性可分，并用核技巧 $K(\mathbf{x},\mathbf{z})=\phi(\mathbf{x})^{\mathsf T}\phi(\mathbf{z})$ 直接在低维算高维内积，避免显式高维映射带来的维度灾难。

5. PCA 的目标。

参考答案：寻找一组正交主成分方向，使数据投影后方差最大（等价于重构误差最小），实现降维与去相关。主成分 = 协方差矩阵最大特征值对应的特征向量。

6. 目标检测的定义。

参考答案：在图像中找出所有感兴趣目标的位置（边界框）并判定其类别，即”定位 + 分类”。区别于图像分类（只输出类别）与语义分割（像素级标注）。

7. Faster R-CNN 中 RPN 的作用。

参考答案：RPN（Region Proposal Network，区域候选网络）在共享特征图上滑窗，基于 anchor 同时输出”前景 / 背景”二分类得分与边界框回归量，生成高质量候选区域，取代 Selective Search，使候选框生成与检测网络共享特征、端到端且高效。

8. 转置卷积的使用场景。

参考答案：需要上采样、放大特征图分辨率时使用，如语义分割解码器（FCN / U-Net 恢复到原图尺寸）、生成模型解码器（GAN / 自编码器从低维特征生成高分辨率图像）、超分辨率等。

9. self-attention 匹配两个词向量用的两个量。

参考答案：Query（查询）与 Key（键）。注意力权重由 Query 与 Key 的点积相似度经 softmax 得到，再对 Value 加权求和。

10. CLIP zero-shot 的依据。

参考答案：CLIP 通过图文对比学习把图像与文本嵌入同一向量空间。zero-shot 分类时把类别名写成文本提示（如 “a photo of a {class}“）编码为文本向量，与图像向量算余弦相似度，取最相似者——依据就是图像-文本在共享嵌入空间的相似度对齐。

二、填空题

1. 监督 vs 无监督（考定义）。

监督学习：训练样本带标签 $(\mathbf{x}, y)$ ，学习从输入到输出 / 类别的映射；
无监督学习：训练样本无标签，仅由 $\mathbf{x}$ 自身的结构发现规律（如聚类、降维）。

2. 感知机准则函数的用处。（考场没复习到，这里补全）

感知机准则函数 $J_p(\mathbf{w})=\sum_{\mathbf{x}\in\mathcal{M}}(-\mathbf{w}^{\mathsf T}\mathbf{x})$ ， $\mathcal{M}$ 为当前被错分的样本集；
用处：作为优化目标度量误分类程度，对错分样本用 $\mathbf{w}\leftarrow\mathbf{w}+\rho\,\mathbf{x}$ 迭代修正权向量，线性可分时算法收敛，最终得到线性判别函数。

3. 指数分布的 MLE。 已知 $p(x;\lambda)=\lambda e^{-\lambda x}\ (x\ge 0)$ ，由样本 $x_1,\dots,x_N$ 求 $\hat\lambda$ 。

对数似然 $\ell(\lambda)=N\ln\lambda-\lambda\sum_i x_i$ ，求导置零 $\frac{N}{\lambda}-\sum_i x_i=0$ ；
解得 $\hat\lambda=\dfrac{N}{\sum_i x_i}=\dfrac{1}{\bar x}$ （样本均值的倒数）。

4. k-means 的”汇聚点”。

即聚类中心（簇质心，centroid） $\boldsymbol\mu_k$ ，每轮更新为该簇所有样本的均值。

5. PCA vs LDA（填各自方法的目的；题面”LCA”应为 LDA）。

PCA：最大化投影方差 / 保留主要信息，无监督；
LDA：最大化类间距离、最小化类内距离（使类别可分），有监督。

6. CNN 下采样的两种常见方法。

最大池化（max pooling） 与 平均池化（average pooling）（广义上步长卷积 strided convolution 也可下采样）。

7. R-CNN vs YOLO 的阶段数。

R-CNN 系列是两阶段（先出候选区域，再分类 + 回归）；YOLO 是单阶段（直接回归框与类别）。

8. GAN 的两个组成部分。

生成器（Generator） 与 判别器（Discriminator），二者对抗训练。

9. Diffusion 的”先……后……”。

先前向扩散（逐步加噪） 把数据加噪成近似高斯噪声，后反向去噪（逐步采样） 由网络从噪声还原 / 生成数据。

10. 参数微调（fine-tuning）。（考场没复习到，这里补全）

在大规模预训练模型基础上，用下游任务数据继续训练、调整参数以适配该任务；可全参微调，也可只调部分层或用参数高效微调（LoRA / Adapter / prompt tuning 等）降低成本。

三、解答题

1. 贝叶斯决策（计算 + 概念辨析）

（a）给定先验与类条件概率，用贝叶斯公式算后验——最基础的一类计算：

$P(\omega_i\mid\mathbf{x})=\frac{p(\mathbf{x}\mid\omega_i)P(\omega_i)}{\sum_j p(\mathbf{x}\mid\omega_j)P(\omega_j)}$

取后验最大的类即最小错误率判决。

（b）辨析最小错误率原则 vs 最小风险（最小代价）原则的结果差异、分界线左移还是右移：

0-1 损失下两者完全等价（最小错误率是最小风险的特例）；
代价不对称时，最小风险会朝”减少高代价错误”的方向移动分界线；
例：漏诊（真患病却判健康）代价远高于误诊，则要扩大判”患病”的判决区域，分界线朝”健康类”一侧推——把更多边界样本判成患病。方向口诀：哪类漏判更贵，就把分界线往另一侧推、扩大该类的判决域；
详见贝叶斯决策章笔记的白血病例子（最小错误率判健康、最小风险判患病的”结论反转”）。

2. SVM

定义：在样本线性可分的前提下，寻找使分类间隔最大的超平面的判别式方法；
优化目标（基本型）：

$\min_{\mathbf{w},b}\ \tfrac12\|\mathbf{w}\|^2\quad\text{s.t.}\quad t_n(\mathbf{w}^{\mathsf T}\mathbf{x}_n+b)\ge 1$

软间隔的那个字母：松弛变量 $\xi_n\ge 0$ ，约束放松为 $t_n(\mathbf{w}^{\mathsf T}\mathbf{x}_n+b)\ge 1-\xi_n$ ，目标加惩罚项 $C\sum_n\xi_n$ ；
$C$ ：正则参数，权衡准确性与泛化—— $C$ 大则重罚违规、间隔窄、易过拟合； $C$ 小则容忍违规、间隔宽、泛化好；
支持向量的定义：满足 $a_n>0$ 的样本（恰落在间隔边界 $t_n y(\mathbf{x}_n)=1$ 上，软间隔下也包括越界点）；
删掉所有非支持向量，分割面不变：因为 $\mathbf{w}=\sum_n a_n t_n\mathbf{x}_n$ 中非支持向量的 $a_n=0$ ，对 $\mathbf{w}, b$ 零贡献——这正是 SVM 得名的原因。

3. 目标检测

单阶段 vs 两阶段：
- 两阶段（R-CNN / Fast / Faster R-CNN）：先生成候选区域（RPN 或 Selective Search），再对候选框分类 + 边界框回归；准确率高、速度慢；
- 单阶段（YOLO / SSD）：在特征图上密集地直接回归框与类别，无显式候选阶段；速度快、适合实时，精度（尤其小目标）略逊。
IoU（交并比）：

$\text{IoU}=\frac{\text{两框交集面积}}{\text{两框并集面积}}$

取值 $[0,1]$ ，衡量预测框与真值框的重叠程度，常以 0.5 为正样本阈值。

非极大值抑制（NMS）原则：同一目标常被预测出多个重叠框，按置信度从高到低排序，选最高分框保留，删除与它 IoU 超过阈值的其余框，对剩下的框重复该过程，直到无框可删——即”每个目标只保留得分最高的框，抑制与之高度重叠的冗余框”。

4. Transformer

给定输入 $\mathbf{X}$ ，三组可学习投影得到 Query / Key / Value：

$\mathbf{Q}=\mathbf{X}\mathbf{W}_Q,\quad \mathbf{K}=\mathbf{X}\mathbf{W}_K,\quad \mathbf{V}=\mathbf{X}\mathbf{W}_V$

缩放点积注意力：

$\text{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^{\mathsf T}}{\sqrt{d_k}}\right)\mathbf{V}$

其中除以 $\sqrt{d_k}$ 是缩放因子，防止点积过大把 softmax 推到梯度极小的区域。

ViT 原理：把图像切成固定大小的 patch，每个 patch 展平后线性投影成 token 嵌入，加上位置编码和一个 [CLS] 分类 token，整体送入标准 Transformer 编码器；最后取 [CLS] 的输出经 MLP 头做分类。核心思想：把图像当作 patch 序列，用纯注意力机制替代卷积来建模全局依赖。

5. GAN 与 Diffusion 的异同

维度	GAN	Diffusion
机制	生成器 vs 判别器对抗，一步生成	前向加噪 + 反向去噪，多步迭代
训练	不稳定，易模式崩溃	稳定，目标简单（预测噪声）
采样	快（单次前向）	慢（需多步去噪）
质量 / 多样性	图像锐利但多样性偏弱	质量高、覆盖分布全、多样性好

相同点：都是生成模型，本质都是从随机噪声生成逼真样本；
GAN：优势是采样快、细节锐利；短板是训练不稳定、易模式崩溃、多样性不足；
Diffusion：优势是训练稳定、质量与多样性俱佳；短板是采样慢、算力开销大（后续有 DDIM、模型蒸馏等加速手段）。

以上凭记忆整理，题干与选项可能有偏差，参考答案对照各章笔记与考前速成清单复习即可。本卷考查重心很清楚：模式识别上半部分仍是计算主力（贝叶斯、MLE、SVM、PCA/LDA、k-means），机器视觉下半部分以概念与定义为主（目标检测、Transformer/ViT、GAN/Diffusion、CLIP）。