期末串讲与考点 | L.D.J 的私家工坊

对应 PPT：知识图谱期末串讲（317 页）把整门课的考点串一遍，配答题策略，期末冲刺用。

1. 全书思维导图（终极版）

知识图谱
├── 1. 概述
│   ├── 知识 vs 信息 vs 数据 vs 信号
│   ├── KG 定义（Google 2012）
│   ├── 三元组 (h, r, t) + 概念层/实例层
│   ├── 发展史（专家系统→本体→万维网→语义网→链接数据→KG）
│   ├── 典型项目（WordNet/ConceptNet/YAGO/DBpedia/Wikidata/...）
│   └── 4 关键问题（表示/抽取/融合/服务）
│
├── 2. 知识表示
│   ├── 一阶谓词逻辑（严密无不确定性）
│   ├── 语义网络（直观非严格）
│   ├── 产生式（IF-THEN 规则）
│   ├── 框架（槽+继承）
│   ├── 描述逻辑（TBox/ABox）
│   ├── 本体（5 元组）
│   ├── RDF（三元组+RDFS）
│   ├── OWL（Lite/DL/Full，4 大类构造）
│   └── 属性图（节点+边+属性，工业主流）
│
├── 3. 知识抽取总论
│   ├── 3 类数据源（结构化/半结构/非结构）
│   ├── 3 大子任务（NER/RE/EE）
│   ├── 3 大评测（MUC/ACE/KBP）
│   └── 5 个对应（表/列/行/单元/外键 → 类/属性/实例/值/指代）
│   └── DM vs R2RML；4 个工具（D2RQ/Mastro/Ultrawrap/Ontop）
│
├── 4. 半结构化抽取
│   ├── DBpedia 12 类信息抽取
│   ├── 包装器 3 方法（手工/监督/无监督）
│   └── Web Table 抽取与阐释（PageRank）
│
├── 5. 非结构化抽取
│   ├── NER：BIO/BIOES + CRF + BiLSTM+CRF
│   ├── RE：模板 / 深度学习 / 远程监督
│   └── EE：DMCNN / MOGANED / 隐式论元
│
├── 6. NER 前沿 + LLM
│   ├── Few/Zero-Shot、Continual、Nested、Cross-Domain、Multi-Modal
│   └── LLM 不是好抽取器，是好 reranker（Filter-then-Rerank）
│
├── 7. 知识融合
│   ├── 异构（语言层 4 + 模型层 2）
│   ├── 本体映射（基于术语/结构/实例）
│   ├── 字符串相似度（Dice/Jaccard）
│   └── 实例匹配（规则/分治/机器学习）
│
├── 8. 存储与检索
│   ├── RDF vs 属性图
│   ├── SPARQL vs Cypher
│   ├── 4 大 RDB 存储（三元组表/水平表/属性表/垂直划分）
│   └── Neo4j、RDF4J、AllegroGraph
│
├── 9. 推理 1
│   ├── 5 类推理（演绎/归纳/溯因/类比/统计）
│   ├── 3 大方法（逻辑/图/统计）
│   └── AMIE（3 操作 + 2 剪枝）、PRA、强化学习
│
├── 10. KGE 推理 1
│   ├── TransE（h+r≈t） + 变种
│   ├── RESCAL、NTN、R-GCN
│   ├── 4 大评价指标（MR/MRR/Hits@n）
│   └── 路径/规则增强（PTransE/RPJE/EngineKG）
│
├── 11. KGE 推理 2
│   ├── 关系特性分类（4+4+1）
│   ├── TransH/R/D/F/A/M
│   ├── 特定空间：KG2E、ManifoldE、TorusE、HAKE
│   ├── 张量分解改进：ComplEx/HolE/SimplE
│   ├── 关系感知映射改进：PairRE/TripleRE/TranS
│   └── 旋转操作：RotatE/QuatE/DualE + 层次（Poincaré）
│
└── 12. 应用
    ├── KBQA 3 大方法（模板/语义解析/深度学习）
    ├── 推荐系统（KGCN/PGPR/KGAT/RippleNet）
    ├── 视觉与跨模态（FVQA/Graphhopper/KCR/MMRG/IRGR）
    └── 行业（医疗 KGNN、商业 OpenBG/KAPR、安全 MDATA）

2. 高频考点清单（按考频排序）

2.1 第一梯队（必考 + 多次考）

考点	形式	关键细节
知识图谱定义 + 三元组	简答	Google 2012、(h, r, t)、节点=实体/概念、边=关系/属性
概念层 vs 实例层	简答/选择	Subclass/Type/Relation
KG 与数据库/知识工程的区别	简答	语义、可推理、灵活
典型 KG 项目	选择	WordNet/ConceptNet/YAGO/DBpedia/Wikidata
知识表示方法对比	简答/表格	FOPL/语义网络/产生式/框架/描述逻辑/本体/RDF/OWL/属性图
RDF vs 属性图	选择/简答	属性、标准化、查询语言
5 个对应（结构化抽取）	选择	表→类、列→属性、行→实例、单元→值、外键→指代
DM IRI 生成规则	简答	主语=前缀+表名+主键列名+主键值
包装器 3 大方法	选择	手工/监督/无监督
CRF 公式	计算/简答	判别式 + 标签依赖
BiLSTM+CRF 优势	简答	自动特征 + 标签约束
远程监督假设	简答	KG 有关系 → 句子都表达关系
Dice/Jaccard 系数	计算题	公式 + bigram 例题
本体映射过程	简答	导入→发现→表示
实体匹配 5 术语	选择	指代/匹配/消歧/链接/对齐
TF-IDF + 余弦	计算/简答	8 步骤 + 公式
属性图 4+5 性质	简答	节点 4 条 + 边 5 条
SPARQL 7 元素	简答	URI/PREFIX/变量/SELECT/WHERE/FILTER/OPTIONAL
Cypher 3 步走	简答	MATCH-WHERE-RETURN
4 大 RDB 存储方案	选择	三元组表/水平表/属性表/垂直划分
5 类推理	选择/简答	演绎/归纳/溯因/类比/统计
AMIE 3 操作 2 剪枝	简答	悬挂/闭合/实例化；头覆盖度/置信度
TransE 打分函数 + 损失	计算/简答	$\\|\mathbf{h} + \mathbf{r} - \mathbf{t}\\|$
TransE 局限	简答	1-N、对称、组合
MR/MRR/Hits@n	计算/简答	公式
RotatE 4 种关系模式	简答	对称/反对称/逆反/组合
KBQA 3 大方法对比	简答	模板/语义解析/深度学习
深度学习 KBQA 缺点	简答	无聚类→时序不可回答

2.2 第二梯队（常考）

考点	形式
DBpedia 12 类信息抽取	简答
PageRank 算法步骤	简答
4 大 NER 衍生方向	简答
LLM 在 IE 的反直觉结论	简答
异构 2+4+2 分类	选择
4 种 D2R 工具对比	选择
OBDA 概念	简答
实体对齐挑战 3 大类	选择
推理分类例子	选择
PRA 强化学习 5 要素	简答
4 类 KGE 模型	简答
TransH/R/D 投影公式	计算
RotatE 4 种模式约束	简答
HAKE 极坐标思想	简答
推荐系统 6 个模型名	简答
视觉问答/跨模态	简答

2.3 第三梯队（少考但要认识）

各种具体模型变种（TransF/A/M/STransE/KG2E/ManifoldE/TorusE/PairRE/TripleRE/TranS/QuatE/DualE/Poincaré）
各种行业应用案例（OpenBG/KGNN/MDATA/…）

3. 高频计算题（最容易拿分）

3.1 Dice / Jaccard 系数（必考）

公式：

\text{Dice}(S, T) = \frac{2|S \cap T|}{|S| + |T|}, \quad \text{Jaccard}(S, T) = \frac{|S \cap T|}{|S \cup T|}

例题：Lvensshtain vs Levenshtein

转 bigram：
- S = {Lv, ve, en, ns, ss, sh, ht, ta, ai, in} (10 个)
- T = {Le, ev, ve, en, ns, sh, ht, te, ei, in} (10 个)
交集：{ve, en, ns, sh, ht, in}， $|S \cap T| = 6$
Dice = $2 \times 6 / (10 + 10) = 0.6$
并集 14 个 → Jaccard = $6 / 14 \approx 0.429$

3.2 TF-IDF + 余弦相似度（必考）

8 步骤（一定要背）：

分词 → 2. 列所有词 → 3. 算 TF → 4. 算 IDF → 5. 算 TF-IDF → 6. 选 Top-N 关键词 → 7. 构词频向量 → 8. 余弦相似度

公式：

\text{TF}(t, D_i) = \frac{\text{词 } t \text{ 在文档 } D_i \text{ 中出现次数}}{\text{文档 } D_i \text{ 总词数}}

\text{IDF}(t) = \log \frac{N}{|\{i : t \in D_i\}|}

\text{cos}\theta = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}||\vec{B}|}

3.3 TransE 损失函数

L = \sum_{(h, r, t) \in T} \sum_{(h', r, t') \in T'} \max(0, \gamma + E(h, r, t) - E(h', r, t'))

$T$ = 正样本， $T'$ = 负样本， $\gamma$ = margin

3.4 KGE 评价指标

\text{MR} = \frac{1}{N} \sum_i \text{rank}_i

\text{MRR} = \frac{1}{N} \sum_i \frac{1}{\text{rank}_i}

\text{Hits@n} = \frac{1}{N} \sum_i \mathbb{I}(\text{rank}_i \le n)

3.5 RDF 直接映射 IRI 生成

主语 IRI = 前缀 + 表名 + 主键列名 + 主键值
谓词 IRI = 前缀 + 表名 + 列名
外键 IRI = 前缀 + 引用表名 + 引用列名

4. 高频简答题模板

4.1 模板 1：解释 X 是怎么做的

X 的定义 + 关键步骤 + 优缺点 + 应用场景

例题：“请解释知识图谱嵌入（KGE）的概念和主要方法”

参考答案结构：

定义：把 KG 嵌入到低维向量空间
动机：解决计算效率 + 数据稀疏
4 大类方法：翻译、张量分解、神经网络、图神经网络
代表模型：TransE（详细打分函数）
评价指标：MR / MRR / Hits@n
优缺点：效率高 vs 不可解释

4.2 模板 2：对比 A 和 B

A 的定义 → B 的定义 → A vs B 表格 → 总结建议

例题：“请对比 RDF 和属性图”

维度	RDF	属性图
起源	语义网	数据库
属性	无	原生支持
查询	SPARQL	Cypher
…	…	…

4.3 模板 3：分析问题 + 给出方案

问题描述 → 原因分析 → 解决方案 → 具体方法

例题：“KG 抽取中遇到实体歧义如何解决？” 答：

歧义类型：多义（同名不同实体）、同义（不同名同实体）
解决思路：实体消歧 + 共指消解
方法：基于规则、基于聚类（VMI）、基于表示学习（OAG / AMiner）
案例：用 PageRank + mention importance + semantic relatedness

5. 考试策略

5.1 时间分配（参考）

题型	时间分配
选择题（10-15 道）	15-20 分钟
简答题（3-5 道）	30-40 分钟
计算题（2-3 道）	15-20 分钟
综合应用题（1-2 道）	20-30 分钟
总计	120 分钟

5.2 答题原则

定义先行：每题先给定义/概念（保证有分）
要点 + 例子：用要点 + 1-2 个例子（让答案丰满）
对比表格：能列表就列表（直观 + 易得分）
公式 + 推导：计算题先写公式再代数字
关键词命中：教师按关键词给分，把”三元组""SPARQL""TransE”等术语写出来

5.3 临场不会怎么办

如果忘了细节：先写定义 + 思路方向，再补充能想起来的部分
如果完全没学过：从定义出发，写”这个问题我认为应该包括 X、Y、Z 几个方面”，展示思考过程
如果时间不够：把会的先写完，不留空白（写就有分）

6. 7 天冲刺计划（建议）

天	内容	重点
Day 1	块 1-2（概述 + 表示）	定义、三元组、表示方法对比
Day 2	块 3-4（抽取总论 + 半结构化）	5 对应、DM/R2RML、DBpedia、包装器
Day 3	块 5-6（非结构化 + NER 前沿）	BiLSTM+CRF、远程监督、LLM 反直觉结论
Day 4	块 7（融合）+ 块 8（存储）	Dice/Jaccard、TF-IDF、RDF vs 属性图、SPARQL/Cypher
Day 5	块 9-10（推理 + KGE1）	5 类推理、AMIE、TransE 公式、评价指标
Day 6	块 11（KGE2）+ 块 12（应用）	TransH/R/D/RotatE 公式、KBQA 3 方法对比
Day 7	块 13（本块）+ 模拟	思维导图、计算题、答题模板

7. 全书 1 张速查表（考前 5 分钟必看）

章节	一句话
1 概述	KG = Google 2012 提出，(h,r,t) 三元组，概念层+实例层
2 表示	FOPL/语义网/产生式/框架 → DL → 本体 → RDF/OWL → 属性图
3 抽取总论	3 类数据 + 3 大任务 + MUC/ACE/KBP + D2R（DM/R2RML）
4 半结构化	DBpedia 12 类 + 包装器 3 方法 + PageRank
5 非结构化	BIO 标注 + BiLSTM+CRF + 远程监督 + DMCNN
6 NER 前沿	Few/Zero/Continual/Nested/Cross/MM + LLM reranker
7 融合	异构（语言+模型）+ Dice/Jaccard + 规则/分治/ML
8 存储	RDF vs 属性图 + SPARQL vs Cypher + 4 大 RDB 方案
9 推理 1	5 类推理 + AMIE（3 操作 2 剪枝）+ PRA + 强化学习
10 KGE1	TransE（h+r≈t）+ 4 类模型 + 3 指标 + EngineKG
11 KGE2	TransH/R/D + RotatE 4 模式 + HAKE 极坐标 + Poincaré 双曲
12 应用	KBQA 3 方法（模板/语义/深度）+ 推荐 + 视觉 + 行业

8. 本章脑图

期末串讲
├── 13 块知识全图
├── 高频考点
│   ├── 第一梯队（必考+多次考）
│   ├── 第二梯队（常考）
│   └── 第三梯队（少考但要认识）
├── 高频计算题（最容易拿分）
│   ├── Dice / Jaccard
│   ├── TF-IDF + 余弦
│   ├── TransE 损失
│   ├── KGE 评价指标
│   └── RDF IRI 生成
├── 简答题模板
│   ├── 解释 X
│   ├── 对比 A 和 B
│   └── 分析 + 方案
├── 考试策略
│   ├── 时间分配
│   ├── 答题原则
│   └── 临场应对
├── 7 天冲刺计划
└── 全书 1 张速查表