期末串讲与考点
Views: --
对应 PPT:知识图谱期末串讲(317 页) 把整门课的考点串一遍,配答题策略,期末冲刺用。
1. 全书思维导图(终极版)
知识图谱
├── 1. 概述
│ ├── 知识 vs 信息 vs 数据 vs 信号
│ ├── KG 定义(Google 2012)
│ ├── 三元组 (h, r, t) + 概念层/实例层
│ ├── 发展史(专家系统→本体→万维网→语义网→链接数据→KG)
│ ├── 典型项目(WordNet/ConceptNet/YAGO/DBpedia/Wikidata/...)
│ └── 4 关键问题(表示/抽取/融合/服务)
│
├── 2. 知识表示
│ ├── 一阶谓词逻辑(严密无不确定性)
│ ├── 语义网络(直观非严格)
│ ├── 产生式(IF-THEN 规则)
│ ├── 框架(槽+继承)
│ ├── 描述逻辑(TBox/ABox)
│ ├── 本体(5 元组)
│ ├── RDF(三元组+RDFS)
│ ├── OWL(Lite/DL/Full,4 大类构造)
│ └── 属性图(节点+边+属性,工业主流)
│
├── 3. 知识抽取总论
│ ├── 3 类数据源(结构化/半结构/非结构)
│ ├── 3 大子任务(NER/RE/EE)
│ ├── 3 大评测(MUC/ACE/KBP)
│ └── 5 个对应(表/列/行/单元/外键 → 类/属性/实例/值/指代)
│ └── DM vs R2RML;4 个工具(D2RQ/Mastro/Ultrawrap/Ontop)
│
├── 4. 半结构化抽取
│ ├── DBpedia 12 类信息抽取
│ ├── 包装器 3 方法(手工/监督/无监督)
│ └── Web Table 抽取与阐释(PageRank)
│
├── 5. 非结构化抽取
│ ├── NER:BIO/BIOES + CRF + BiLSTM+CRF
│ ├── RE:模板 / 深度学习 / 远程监督
│ └── EE:DMCNN / MOGANED / 隐式论元
│
├── 6. NER 前沿 + LLM
│ ├── Few/Zero-Shot、Continual、Nested、Cross-Domain、Multi-Modal
│ └── LLM 不是好抽取器,是好 reranker(Filter-then-Rerank)
│
├── 7. 知识融合
│ ├── 异构(语言层 4 + 模型层 2)
│ ├── 本体映射(基于术语/结构/实例)
│ ├── 字符串相似度(Dice/Jaccard)
│ └── 实例匹配(规则/分治/机器学习)
│
├── 8. 存储与检索
│ ├── RDF vs 属性图
│ ├── SPARQL vs Cypher
│ ├── 4 大 RDB 存储(三元组表/水平表/属性表/垂直划分)
│ └── Neo4j、RDF4J、AllegroGraph
│
├── 9. 推理 1
│ ├── 5 类推理(演绎/归纳/溯因/类比/统计)
│ ├── 3 大方法(逻辑/图/统计)
│ └── AMIE(3 操作 + 2 剪枝)、PRA、强化学习
│
├── 10. KGE 推理 1
│ ├── TransE(h+r≈t) + 变种
│ ├── RESCAL、NTN、R-GCN
│ ├── 4 大评价指标(MR/MRR/Hits@n)
│ └── 路径/规则增强(PTransE/RPJE/EngineKG)
│
├── 11. KGE 推理 2
│ ├── 关系特性分类(4+4+1)
│ ├── TransH/R/D/F/A/M
│ ├── 特定空间:KG2E、ManifoldE、TorusE、HAKE
│ ├── 张量分解改进:ComplEx/HolE/SimplE
│ ├── 关系感知映射改进:PairRE/TripleRE/TranS
│ └── 旋转操作:RotatE/QuatE/DualE + 层次(Poincaré)
│
└── 12. 应用
├── KBQA 3 大方法(模板/语义解析/深度学习)
├── 推荐系统(KGCN/PGPR/KGAT/RippleNet)
├── 视觉与跨模态(FVQA/Graphhopper/KCR/MMRG/IRGR)
└── 行业(医疗 KGNN、商业 OpenBG/KAPR、安全 MDATA)
2. 高频考点清单(按考频排序)
2.1 第一梯队(必考 + 多次考)
| 考点 | 形式 | 关键细节 |
|---|---|---|
| 知识图谱定义 + 三元组 | 简答 | Google 2012、(h, r, t)、节点=实体/概念、边=关系/属性 |
| 概念层 vs 实例层 | 简答/选择 | Subclass/Type/Relation |
| KG 与数据库/知识工程的区别 | 简答 | 语义、可推理、灵活 |
| 典型 KG 项目 | 选择 | WordNet/ConceptNet/YAGO/DBpedia/Wikidata |
| 知识表示方法对比 | 简答/表格 | FOPL/语义网络/产生式/框架/描述逻辑/本体/RDF/OWL/属性图 |
| RDF vs 属性图 | 选择/简答 | 属性、标准化、查询语言 |
| 5 个对应(结构化抽取) | 选择 | 表→类、列→属性、行→实例、单元→值、外键→指代 |
| DM IRI 生成规则 | 简答 | 主语=前缀+表名+主键列名+主键值 |
| 包装器 3 大方法 | 选择 | 手工/监督/无监督 |
| CRF 公式 | 计算/简答 | 判别式 + 标签依赖 |
| BiLSTM+CRF 优势 | 简答 | 自动特征 + 标签约束 |
| 远程监督假设 | 简答 | KG 有关系 → 句子都表达关系 |
| Dice/Jaccard 系数 | 计算题 | 公式 + bigram 例题 |
| 本体映射过程 | 简答 | 导入→发现→表示 |
| 实体匹配 5 术语 | 选择 | 指代/匹配/消歧/链接/对齐 |
| TF-IDF + 余弦 | 计算/简答 | 8 步骤 + 公式 |
| 属性图 4+5 性质 | 简答 | 节点 4 条 + 边 5 条 |
| SPARQL 7 元素 | 简答 | URI/PREFIX/变量/SELECT/WHERE/FILTER/OPTIONAL |
| Cypher 3 步走 | 简答 | MATCH-WHERE-RETURN |
| 4 大 RDB 存储方案 | 选择 | 三元组表/水平表/属性表/垂直划分 |
| 5 类推理 | 选择/简答 | 演绎/归纳/溯因/类比/统计 |
| AMIE 3 操作 2 剪枝 | 简答 | 悬挂/闭合/实例化;头覆盖度/置信度 |
| TransE 打分函数 + 损失 | 计算/简答 | |
| TransE 局限 | 简答 | 1-N、对称、组合 |
| MR/MRR/Hits@n | 计算/简答 | 公式 |
| RotatE 4 种关系模式 | 简答 | 对称/反对称/逆反/组合 |
| KBQA 3 大方法对比 | 简答 | 模板/语义解析/深度学习 |
| 深度学习 KBQA 缺点 | 简答 | 无聚类→时序不可回答 |
2.2 第二梯队(常考)
| 考点 | 形式 |
|---|---|
| DBpedia 12 类信息抽取 | 简答 |
| PageRank 算法步骤 | 简答 |
| 4 大 NER 衍生方向 | 简答 |
| LLM 在 IE 的反直觉结论 | 简答 |
| 异构 2+4+2 分类 | 选择 |
| 4 种 D2R 工具对比 | 选择 |
| OBDA 概念 | 简答 |
| 实体对齐挑战 3 大类 | 选择 |
| 推理分类例子 | 选择 |
| PRA 强化学习 5 要素 | 简答 |
| 4 类 KGE 模型 | 简答 |
| TransH/R/D 投影公式 | 计算 |
| RotatE 4 种模式约束 | 简答 |
| HAKE 极坐标思想 | 简答 |
| 推荐系统 6 个模型名 | 简答 |
| 视觉问答/跨模态 | 简答 |
2.3 第三梯队(少考但要认识)
- 各种具体模型变种(TransF/A/M/STransE/KG2E/ManifoldE/TorusE/PairRE/TripleRE/TranS/QuatE/DualE/Poincaré)
- 各种行业应用案例(OpenBG/KGNN/MDATA/…)
3. 高频计算题(最容易拿分)
3.1 Dice / Jaccard 系数(必考)
公式:
例题:Lvensshtain vs Levenshtein
- 转 bigram:
- S = {Lv, ve, en, ns, ss, sh, ht, ta, ai, in} (10 个)
- T = {Le, ev, ve, en, ns, sh, ht, te, ei, in} (10 个)
- 交集:
{ve, en, ns, sh, ht, in}, - Dice =
- 并集 14 个 → Jaccard =
3.2 TF-IDF + 余弦相似度(必考)
8 步骤(一定要背):
- 分词 → 2. 列所有词 → 3. 算 TF → 4. 算 IDF → 5. 算 TF-IDF → 6. 选 Top-N 关键词 → 7. 构词频向量 → 8. 余弦相似度
公式:
3.3 TransE 损失函数
- = 正样本, = 负样本, = margin
3.4 KGE 评价指标
3.5 RDF 直接映射 IRI 生成
- 主语 IRI = 前缀 + 表名 + 主键列名 + 主键值
- 谓词 IRI = 前缀 + 表名 + 列名
- 外键 IRI = 前缀 + 引用表名 + 引用列名
4. 高频简答题模板
4.1 模板 1:解释 X 是怎么做的
X 的定义 + 关键步骤 + 优缺点 + 应用场景
例题:“请解释知识图谱嵌入(KGE)的概念和主要方法”
参考答案结构:
- 定义:把 KG 嵌入到低维向量空间
- 动机:解决计算效率 + 数据稀疏
- 4 大类方法:翻译、张量分解、神经网络、图神经网络
- 代表模型:TransE(详细打分函数)
- 评价指标:MR / MRR / Hits@n
- 优缺点:效率高 vs 不可解释
4.2 模板 2:对比 A 和 B
A 的定义 → B 的定义 → A vs B 表格 → 总结建议
例题:“请对比 RDF 和属性图”
| 维度 | RDF | 属性图 |
|---|---|---|
| 起源 | 语义网 | 数据库 |
| 属性 | 无 | 原生支持 |
| 查询 | SPARQL | Cypher |
| … | … | … |
4.3 模板 3:分析问题 + 给出方案
问题描述 → 原因分析 → 解决方案 → 具体方法
例题:“KG 抽取中遇到实体歧义如何解决?” 答:
- 歧义类型:多义(同名不同实体)、同义(不同名同实体)
- 解决思路:实体消歧 + 共指消解
- 方法:基于规则、基于聚类(VMI)、基于表示学习(OAG / AMiner)
- 案例:用 PageRank + mention importance + semantic relatedness
5. 考试策略
5.1 时间分配(参考)
| 题型 | 时间分配 |
|---|---|
| 选择题(10-15 道) | 15-20 分钟 |
| 简答题(3-5 道) | 30-40 分钟 |
| 计算题(2-3 道) | 15-20 分钟 |
| 综合应用题(1-2 道) | 20-30 分钟 |
| 总计 | 120 分钟 |
5.2 答题原则
- 定义先行:每题先给定义/概念(保证有分)
- 要点 + 例子:用要点 + 1-2 个例子(让答案丰满)
- 对比表格:能列表就列表(直观 + 易得分)
- 公式 + 推导:计算题先写公式再代数字
- 关键词命中:教师按关键词给分,把”三元组""SPARQL""TransE”等术语写出来
5.3 临场不会怎么办
- 如果忘了细节:先写定义 + 思路方向,再补充能想起来的部分
- 如果完全没学过:从定义出发,写”这个问题我认为应该包括 X、Y、Z 几个方面”,展示思考过程
- 如果时间不够:把会的先写完,不留空白(写就有分)
6. 7 天冲刺计划(建议)
| 天 | 内容 | 重点 |
|---|---|---|
| Day 1 | 块 1-2(概述 + 表示) | 定义、三元组、表示方法对比 |
| Day 2 | 块 3-4(抽取总论 + 半结构化) | 5 对应、DM/R2RML、DBpedia、包装器 |
| Day 3 | 块 5-6(非结构化 + NER 前沿) | BiLSTM+CRF、远程监督、LLM 反直觉结论 |
| Day 4 | 块 7(融合)+ 块 8(存储) | Dice/Jaccard、TF-IDF、RDF vs 属性图、SPARQL/Cypher |
| Day 5 | 块 9-10(推理 + KGE1) | 5 类推理、AMIE、TransE 公式、评价指标 |
| Day 6 | 块 11(KGE2)+ 块 12(应用) | TransH/R/D/RotatE 公式、KBQA 3 方法对比 |
| Day 7 | 块 13(本块)+ 模拟 | 思维导图、计算题、答题模板 |
7. 全书 1 张速查表(考前 5 分钟必看)
| 章节 | 一句话 |
|---|---|
| 1 概述 | KG = Google 2012 提出,(h,r,t) 三元组,概念层+实例层 |
| 2 表示 | FOPL/语义网/产生式/框架 → DL → 本体 → RDF/OWL → 属性图 |
| 3 抽取总论 | 3 类数据 + 3 大任务 + MUC/ACE/KBP + D2R(DM/R2RML) |
| 4 半结构化 | DBpedia 12 类 + 包装器 3 方法 + PageRank |
| 5 非结构化 | BIO 标注 + BiLSTM+CRF + 远程监督 + DMCNN |
| 6 NER 前沿 | Few/Zero/Continual/Nested/Cross/MM + LLM reranker |
| 7 融合 | 异构(语言+模型)+ Dice/Jaccard + 规则/分治/ML |
| 8 存储 | RDF vs 属性图 + SPARQL vs Cypher + 4 大 RDB 方案 |
| 9 推理 1 | 5 类推理 + AMIE(3 操作 2 剪枝)+ PRA + 强化学习 |
| 10 KGE1 | TransE(h+r≈t)+ 4 类模型 + 3 指标 + EngineKG |
| 11 KGE2 | TransH/R/D + RotatE 4 模式 + HAKE 极坐标 + Poincaré 双曲 |
| 12 应用 | KBQA 3 方法(模板/语义/深度)+ 推荐 + 视觉 + 行业 |
8. 本章脑图
期末串讲
├── 13 块知识全图
├── 高频考点
│ ├── 第一梯队(必考+多次考)
│ ├── 第二梯队(常考)
│ └── 第三梯队(少考但要认识)
├── 高频计算题(最容易拿分)
│ ├── Dice / Jaccard
│ ├── TF-IDF + 余弦
│ ├── TransE 损失
│ ├── KGE 评价指标
│ └── RDF IRI 生成
├── 简答题模板
│ ├── 解释 X
│ ├── 对比 A 和 B
│ └── 分析 + 方案
├── 考试策略
│ ├── 时间分配
│ ├── 答题原则
│ └── 临场应对
├── 7 天冲刺计划
└── 全书 1 张速查表