期末串讲与考点

Views: --

对应 PPT:知识图谱期末串讲(317 页) 把整门课的考点串一遍,配答题策略,期末冲刺用。


1. 全书思维导图(终极版)

知识图谱
├── 1. 概述
│   ├── 知识 vs 信息 vs 数据 vs 信号
│   ├── KG 定义(Google 2012)
│   ├── 三元组 (h, r, t) + 概念层/实例层
│   ├── 发展史(专家系统→本体→万维网→语义网→链接数据→KG)
│   ├── 典型项目(WordNet/ConceptNet/YAGO/DBpedia/Wikidata/...)
│   └── 4 关键问题(表示/抽取/融合/服务)

├── 2. 知识表示
│   ├── 一阶谓词逻辑(严密无不确定性)
│   ├── 语义网络(直观非严格)
│   ├── 产生式(IF-THEN 规则)
│   ├── 框架(槽+继承)
│   ├── 描述逻辑(TBox/ABox)
│   ├── 本体(5 元组)
│   ├── RDF(三元组+RDFS)
│   ├── OWL(Lite/DL/Full,4 大类构造)
│   └── 属性图(节点+边+属性,工业主流)

├── 3. 知识抽取总论
│   ├── 3 类数据源(结构化/半结构/非结构)
│   ├── 3 大子任务(NER/RE/EE)
│   ├── 3 大评测(MUC/ACE/KBP)
│   └── 5 个对应(表/列/行/单元/外键 → 类/属性/实例/值/指代)
│   └── DM vs R2RML;4 个工具(D2RQ/Mastro/Ultrawrap/Ontop)

├── 4. 半结构化抽取
│   ├── DBpedia 12 类信息抽取
│   ├── 包装器 3 方法(手工/监督/无监督)
│   └── Web Table 抽取与阐释(PageRank)

├── 5. 非结构化抽取
│   ├── NER:BIO/BIOES + CRF + BiLSTM+CRF
│   ├── RE:模板 / 深度学习 / 远程监督
│   └── EE:DMCNN / MOGANED / 隐式论元

├── 6. NER 前沿 + LLM
│   ├── Few/Zero-Shot、Continual、Nested、Cross-Domain、Multi-Modal
│   └── LLM 不是好抽取器,是好 reranker(Filter-then-Rerank)

├── 7. 知识融合
│   ├── 异构(语言层 4 + 模型层 2)
│   ├── 本体映射(基于术语/结构/实例)
│   ├── 字符串相似度(Dice/Jaccard)
│   └── 实例匹配(规则/分治/机器学习)

├── 8. 存储与检索
│   ├── RDF vs 属性图
│   ├── SPARQL vs Cypher
│   ├── 4 大 RDB 存储(三元组表/水平表/属性表/垂直划分)
│   └── Neo4j、RDF4J、AllegroGraph

├── 9. 推理 1
│   ├── 5 类推理(演绎/归纳/溯因/类比/统计)
│   ├── 3 大方法(逻辑/图/统计)
│   └── AMIE(3 操作 + 2 剪枝)、PRA、强化学习

├── 10. KGE 推理 1
│   ├── TransE(h+r≈t) + 变种
│   ├── RESCAL、NTN、R-GCN
│   ├── 4 大评价指标(MR/MRR/Hits@n)
│   └── 路径/规则增强(PTransE/RPJE/EngineKG)

├── 11. KGE 推理 2
│   ├── 关系特性分类(4+4+1)
│   ├── TransH/R/D/F/A/M
│   ├── 特定空间:KG2E、ManifoldE、TorusE、HAKE
│   ├── 张量分解改进:ComplEx/HolE/SimplE
│   ├── 关系感知映射改进:PairRE/TripleRE/TranS
│   └── 旋转操作:RotatE/QuatE/DualE + 层次(Poincaré)

└── 12. 应用
    ├── KBQA 3 大方法(模板/语义解析/深度学习)
    ├── 推荐系统(KGCN/PGPR/KGAT/RippleNet)
    ├── 视觉与跨模态(FVQA/Graphhopper/KCR/MMRG/IRGR)
    └── 行业(医疗 KGNN、商业 OpenBG/KAPR、安全 MDATA)

2. 高频考点清单(按考频排序)

2.1 第一梯队(必考 + 多次考)

考点形式关键细节
知识图谱定义 + 三元组简答Google 2012、(h, r, t)、节点=实体/概念、边=关系/属性
概念层 vs 实例层简答/选择Subclass/Type/Relation
KG 与数据库/知识工程的区别简答语义、可推理、灵活
典型 KG 项目选择WordNet/ConceptNet/YAGO/DBpedia/Wikidata
知识表示方法对比简答/表格FOPL/语义网络/产生式/框架/描述逻辑/本体/RDF/OWL/属性图
RDF vs 属性图选择/简答属性、标准化、查询语言
5 个对应(结构化抽取)选择表→类、列→属性、行→实例、单元→值、外键→指代
DM IRI 生成规则简答主语=前缀+表名+主键列名+主键值
包装器 3 大方法选择手工/监督/无监督
CRF 公式计算/简答判别式 + 标签依赖
BiLSTM+CRF 优势简答自动特征 + 标签约束
远程监督假设简答KG 有关系 → 句子都表达关系
Dice/Jaccard 系数计算题公式 + bigram 例题
本体映射过程简答导入→发现→表示
实体匹配 5 术语选择指代/匹配/消歧/链接/对齐
TF-IDF + 余弦计算/简答8 步骤 + 公式
属性图 4+5 性质简答节点 4 条 + 边 5 条
SPARQL 7 元素简答URI/PREFIX/变量/SELECT/WHERE/FILTER/OPTIONAL
Cypher 3 步走简答MATCH-WHERE-RETURN
4 大 RDB 存储方案选择三元组表/水平表/属性表/垂直划分
5 类推理选择/简答演绎/归纳/溯因/类比/统计
AMIE 3 操作 2 剪枝简答悬挂/闭合/实例化;头覆盖度/置信度
TransE 打分函数 + 损失计算/简答h+rt\|\mathbf{h} + \mathbf{r} - \mathbf{t}\|
TransE 局限简答1-N、对称、组合
MR/MRR/Hits@n计算/简答公式
RotatE 4 种关系模式简答对称/反对称/逆反/组合
KBQA 3 大方法对比简答模板/语义解析/深度学习
深度学习 KBQA 缺点简答无聚类→时序不可回答

2.2 第二梯队(常考)

考点形式
DBpedia 12 类信息抽取简答
PageRank 算法步骤简答
4 大 NER 衍生方向简答
LLM 在 IE 的反直觉结论简答
异构 2+4+2 分类选择
4 种 D2R 工具对比选择
OBDA 概念简答
实体对齐挑战 3 大类选择
推理分类例子选择
PRA 强化学习 5 要素简答
4 类 KGE 模型简答
TransH/R/D 投影公式计算
RotatE 4 种模式约束简答
HAKE 极坐标思想简答
推荐系统 6 个模型名简答
视觉问答/跨模态简答

2.3 第三梯队(少考但要认识)

  • 各种具体模型变种(TransF/A/M/STransE/KG2E/ManifoldE/TorusE/PairRE/TripleRE/TranS/QuatE/DualE/Poincaré)
  • 各种行业应用案例(OpenBG/KGNN/MDATA/…)

3. 高频计算题(最容易拿分)

3.1 Dice / Jaccard 系数(必考)

公式

Dice(S,T)=2STS+T,Jaccard(S,T)=STST\text{Dice}(S, T) = \frac{2|S \cap T|}{|S| + |T|}, \quad \text{Jaccard}(S, T) = \frac{|S \cap T|}{|S \cup T|}

例题Lvensshtain vs Levenshtein

  1. 转 bigram:
    • S = {Lv, ve, en, ns, ss, sh, ht, ta, ai, in} (10 个)
    • T = {Le, ev, ve, en, ns, sh, ht, te, ei, in} (10 个)
  2. 交集:{ve, en, ns, sh, ht, in}ST=6|S \cap T| = 6
  3. Dice = 2×6/(10+10)=0.62 \times 6 / (10 + 10) = 0.6
  4. 并集 14 个 → Jaccard = 6/140.4296 / 14 \approx 0.429

3.2 TF-IDF + 余弦相似度(必考)

8 步骤(一定要背):

  1. 分词 → 2. 列所有词 → 3. 算 TF → 4. 算 IDF → 5. 算 TF-IDF → 6. 选 Top-N 关键词 → 7. 构词频向量 → 8. 余弦相似度

公式:

TF(t,Di)=词 t 在文档 Di 中出现次数文档 Di 总词数\text{TF}(t, D_i) = \frac{\text{词 } t \text{ 在文档 } D_i \text{ 中出现次数}}{\text{文档 } D_i \text{ 总词数}} IDF(t)=logN{i:tDi}\text{IDF}(t) = \log \frac{N}{|\{i : t \in D_i\}|} cosθ=ABAB\text{cos}\theta = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}||\vec{B}|}

3.3 TransE 损失函数

L=(h,r,t)T(h,r,t)Tmax(0,γ+E(h,r,t)E(h,r,t))L = \sum_{(h, r, t) \in T} \sum_{(h', r, t') \in T'} \max(0, \gamma + E(h, r, t) - E(h', r, t'))
  • TT = 正样本,TT' = 负样本,γ\gamma = margin

3.4 KGE 评价指标

MR=1Niranki\text{MR} = \frac{1}{N} \sum_i \text{rank}_i MRR=1Ni1ranki\text{MRR} = \frac{1}{N} \sum_i \frac{1}{\text{rank}_i} Hits@n=1NiI(rankin)\text{Hits@n} = \frac{1}{N} \sum_i \mathbb{I}(\text{rank}_i \le n)

3.5 RDF 直接映射 IRI 生成

  • 主语 IRI = 前缀 + 表名 + 主键列名 + 主键值
  • 谓词 IRI = 前缀 + 表名 + 列名
  • 外键 IRI = 前缀 + 引用表名 + 引用列名

4. 高频简答题模板

4.1 模板 1:解释 X 是怎么做的

X 的定义 + 关键步骤 + 优缺点 + 应用场景

例题:“请解释知识图谱嵌入(KGE)的概念和主要方法”

参考答案结构:

  1. 定义:把 KG 嵌入到低维向量空间
  2. 动机:解决计算效率 + 数据稀疏
  3. 4 大类方法:翻译、张量分解、神经网络、图神经网络
  4. 代表模型:TransE(详细打分函数)
  5. 评价指标:MR / MRR / Hits@n
  6. 优缺点:效率高 vs 不可解释

4.2 模板 2:对比 A 和 B

A 的定义 → B 的定义 → A vs B 表格 → 总结建议

例题:“请对比 RDF 和属性图”

维度RDF属性图
起源语义网数据库
属性原生支持
查询SPARQLCypher

4.3 模板 3:分析问题 + 给出方案

问题描述 → 原因分析 → 解决方案 → 具体方法

例题:“KG 抽取中遇到实体歧义如何解决?” 答:

  1. 歧义类型:多义(同名不同实体)、同义(不同名同实体)
  2. 解决思路:实体消歧 + 共指消解
  3. 方法:基于规则、基于聚类(VMI)、基于表示学习(OAG / AMiner)
  4. 案例:用 PageRank + mention importance + semantic relatedness

5. 考试策略

5.1 时间分配(参考)

题型时间分配
选择题(10-15 道)15-20 分钟
简答题(3-5 道)30-40 分钟
计算题(2-3 道)15-20 分钟
综合应用题(1-2 道)20-30 分钟
总计120 分钟

5.2 答题原则

  1. 定义先行:每题先给定义/概念(保证有分)
  2. 要点 + 例子:用要点 + 1-2 个例子(让答案丰满)
  3. 对比表格:能列表就列表(直观 + 易得分)
  4. 公式 + 推导:计算题先写公式再代数字
  5. 关键词命中:教师按关键词给分,把”三元组""SPARQL""TransE”等术语写出来

5.3 临场不会怎么办

  • 如果忘了细节:先写定义 + 思路方向,再补充能想起来的部分
  • 如果完全没学过:从定义出发,写”这个问题我认为应该包括 X、Y、Z 几个方面”,展示思考过程
  • 如果时间不够:把会的先写完,不留空白(写就有分)

6. 7 天冲刺计划(建议)

内容重点
Day 1块 1-2(概述 + 表示)定义、三元组、表示方法对比
Day 2块 3-4(抽取总论 + 半结构化)5 对应、DM/R2RML、DBpedia、包装器
Day 3块 5-6(非结构化 + NER 前沿)BiLSTM+CRF、远程监督、LLM 反直觉结论
Day 4块 7(融合)+ 块 8(存储)Dice/Jaccard、TF-IDF、RDF vs 属性图、SPARQL/Cypher
Day 5块 9-10(推理 + KGE1)5 类推理、AMIE、TransE 公式、评价指标
Day 6块 11(KGE2)+ 块 12(应用)TransH/R/D/RotatE 公式、KBQA 3 方法对比
Day 7块 13(本块)+ 模拟思维导图、计算题、答题模板

7. 全书 1 张速查表(考前 5 分钟必看)

章节一句话
1 概述KG = Google 2012 提出,(h,r,t) 三元组,概念层+实例层
2 表示FOPL/语义网/产生式/框架 → DL → 本体 → RDF/OWL → 属性图
3 抽取总论3 类数据 + 3 大任务 + MUC/ACE/KBP + D2R(DM/R2RML)
4 半结构化DBpedia 12 类 + 包装器 3 方法 + PageRank
5 非结构化BIO 标注 + BiLSTM+CRF + 远程监督 + DMCNN
6 NER 前沿Few/Zero/Continual/Nested/Cross/MM + LLM reranker
7 融合异构(语言+模型)+ Dice/Jaccard + 规则/分治/ML
8 存储RDF vs 属性图 + SPARQL vs Cypher + 4 大 RDB 方案
9 推理 15 类推理 + AMIE(3 操作 2 剪枝)+ PRA + 强化学习
10 KGE1TransE(h+r≈t)+ 4 类模型 + 3 指标 + EngineKG
11 KGE2TransH/R/D + RotatE 4 模式 + HAKE 极坐标 + Poincaré 双曲
12 应用KBQA 3 方法(模板/语义/深度)+ 推荐 + 视觉 + 行业

8. 本章脑图

期末串讲
├── 13 块知识全图
├── 高频考点
│   ├── 第一梯队(必考+多次考)
│   ├── 第二梯队(常考)
│   └── 第三梯队(少考但要认识)
├── 高频计算题(最容易拿分)
│   ├── Dice / Jaccard
│   ├── TF-IDF + 余弦
│   ├── TransE 损失
│   ├── KGE 评价指标
│   └── RDF IRI 生成
├── 简答题模板
│   ├── 解释 X
│   ├── 对比 A 和 B
│   └── 分析 + 方案
├── 考试策略
│   ├── 时间分配
│   ├── 答题原则
│   └── 临场应对
├── 7 天冲刺计划
└── 全书 1 张速查表