📁 智能控制与机器人
BUAA《智能控制与机器人》课程完整学习笔记 · 从 PID 到具身智能 VLA,按 AI 三大主义重组的 8 篇系统讲义,覆盖专家系统、模糊控制、神经网络、强化学习、光流、VLA 与 AI 安全全部知识点
这是一份《智能控制与机器人》的系统学习笔记——目标是让一个没上过这门课、但有基本理工科基础(高数、线代、一点点 Python)的读者,跟着它从零把整门课学明白,并且覆盖课程的全部知识点。
它不照搬课件顺序,而是按一条**「智能控制方法演进」的主线重新组织:传统控制(PID)依赖被控对象的精确数学模型,遇到非线性、强不确定、难建模的复杂系统就力不从心;智能控制的思路是把人类专家的经验、学习与推理能力「装进」控制器。这门课就是带你认识「给控制器装智能」的几条主要技术路线,最后汇聚到当下最热的具身智能 / VLA(视觉-语言-动作)模型**。
组织主线是人工智能的三大主义,外加感知、集成与安全:
| 篇 | 模块 | 核心方法 | 一句话灵魂 |
|---|---|---|---|
| 第 0 篇 | 导论 | 、OODA、具身智能 | 给控制器装智能的全局地图 |
| 第 1 篇 | 符号主义 | 专家系统、专家 PID | 把专家经验写成 IF-THEN 规则 |
| 第 2 篇 | 模糊逻辑 | 模糊控制、TSK 模糊系统 | 把「有点高」量化成隶属度 |
| 第 3 篇 | 连接主义 | 神经网络 / RNN / LSTM / Transformer | 不写规则,让数据自己学映射 |
| 第 4 篇 | 行为主义 | 迭代学习控制、强化学习 | 没有标准答案,靠试错 + 反馈学 |
| 第 5 篇 | 感知 | 光流 | 给机器人装「看运动」的眼睛 |
| 第 6 篇 | 集大成 | 具身智能 / POMDP / VLA / NaVILA | 看 + 听懂 → 行动的端到端智能体 |
| 第 7 篇 | 安全 | 冰山模型 / 对抗样本 / 电车难题 | 给强大的智能体套上缰绳 |
这个顺序的逻辑是难度与依赖递进:先讲清「什么是智能控制」(第 0 篇),再从最像人类直觉的规则系统(符号、模糊)讲起,过渡到需要数据的学习方法(神经网络),再到需要交互的试错方法(强化学习),最后这些能力在具身智能 / VLA 里合流,并补上感知(光流)与安全两块拼图。
每一篇都尽量做到有直觉、有例子、有完整推导,公式用 KaTeX 书写。下面按篇阅读即可。
导论:机器人、智能控制与具身智能
全课地图:从 OODA 闭环看智能机器人、傅京逊与 Saridis 的智能控制定义 IC=AC∩AI∩OR、为什么传统控制力不从心、五大智能控制分支,以及具身智能为何是一个广义控制问题
符号主义:专家系统与专家控制
给控制器装智能的第一条路线:把专家经验写成 IF-THEN 规则。知识库+推理机、正反向推理、CF 确定性因子、专家系统 vs 专家控制、专家 PID(增量式 PID 完整推导 + 5 种情况),以及 XCON/MYCIN/PROSPECTOR 与专家系统的衰落
模糊逻辑:模糊控制与 TSK 模糊系统
把不精确的自然语言经验定量化:隶属度与模糊集合、交并补与 max-min 合成、模糊推理、模糊控制器三件套与 7 步设计、解模糊三法、模糊自适应 PID,以及 TSK 模糊系统、TSK≈RBF 网络、ANFIS 与 Mamba/SSM 回到状态空间法
连接主义:神经网络控制
不写规则,让数据自己学映射。机器学习三要素、神经元与激活函数(梯度消失→ReLU)、通用近似定理、反向传播、六种神经网络控制结构、RBF 网络控制、TSK≈RBF 的逐行证明,以及 RNN/LSTM/Transformer 处理序列
行为主义:迭代学习控制与强化学习
没有标准答案,靠试错+反馈学习。迭代学习控制的二维时间视角、D/P/PD/PID 型学习律与收敛性 |I-PΓ|<1 推导;强化学习的 MDP、贝尔曼方程、Q-Learning 走房间、DQN、Actor-Critic 与 PPO/SAC/TD-MPC 算法谱系
感知基础:光流
给机器人装上「看运动」的眼睛。光流的定义与稀疏/稠密之分、两条基本假设与核心约束方程推导、孔径问题,以及三代算法:Lucas-Kanade(最小二乘+角点)、Farneback(二次多项式拟合)、FlowNet(深度学习)
集大成:具身智能与 VLA 模型
全课汇聚点。第一人称智能与 POMDP、自动驾驶从模块化到端到端、VLA(视觉-语言-动作)五层架构与 Cross-Attention、典型模型 RT-2/Pi0/Pi0.5、SimLingo 与 NaVILA 实验,以及整门课的收束
安全与伦理:给智能体套上缰绳
能力越大失控后果越严重。AI 安全的冰山模型(内生风险=鲁棒性/隐私性/透明性,衍生风险=公平性/有害性/可靠性)、对抗样本(数字与物理世界)、三类隐私攻击、可解释性与 CNN 纹理偏差、防范与评估体系,以及 AI 的电车难题