行为主义：迭代学习控制与强化学习

对应 PPT：第五讲《迭代学习与强化学习控制》+ 具身智能专题（强化学习部分）前两派都是「先有知识再做」（符号主义人写规则；连接主义喂标注数据，需标准答案）。行为主义走第三条路：没人教、没标准答案，靠「做了看反馈」试错学习——对了奖励就强化、错了惩罚就改。最像人 / 动物「从经验学」（小孩学骑车没有标准答案，摔几次找到手感）。

0. 行为主义总纲

两个主角：迭代学习控制（ILC） 针对重复性任务，用上一轮误差改进这一轮动作（吃一堑长一智）；强化学习（RL） 针对一般决策任务，用环境奖励试错出最优策略。

引子——巴音布鲁克魔鬼赛道：赛道在脑中练千万遍成「肌肉记忆」，靠的不是「遇弯才打方向盘」（传统反馈慢半拍）而是「用上一圈的失败修正这一圈」（路书 + 前馈补偿）。这就是 ILC 的灵魂。

1. 迭代学习控制 ILC

定义（Uchiyama 1978 提出，Arimoto 1984 开创）：基于经验积累、逐步改进——对每轮执行后数据归纳处理、反馈优化策略，在「执行→学习→调整」重复中提升性能。三特点：① 重复性任务（相同条件反复执行：焊接 / 装配 / 巡逻 / 高铁固定路段，是前提）；② 逐步改进；③ 无需精确模型。

核心直觉（传统反馈 vs ILC）：

传统 PID = 盘山公路「见招拆招」：偏离车道才纠正，永远滞后；每天开同条路、同个急弯还犯同样错（没记忆），几乎不可能零误差。
ILC = 赛道「刷圈速」：第 1 圈在 3 号弯偏离，第 2 圈开到弯前就提前多打方向（记得上圈栽过），把上轮失败转成这轮前馈补偿，重复到零误差。

一句话：PID 事后纠错（时间轴 $t$ ），ILC 事前预判（迭代轴 $k$ ）。

1.1 「二维时间」视角（最精髓）

普通控制只有一维时间 $t$ （用 $t$ 误差修正 $t+1$ 动作，慢半拍）；ILC 引入第二维迭代次数 $k$ ——用上一圈同一时刻 $t$ 的误差 $e_k(t)$ 直接修正这一圈同一时刻的控制 $u_{k+1}(t)$ 。不在 $t$ 轴纠错，在 $k$ 轴纠错，同一个 $t=2s$ 点一圈比一圈好 = 真正的前馈预判。

1.2 控制律：从 D 型到 PID 型

最基础 D 型（Arimoto）： $u_{k+1}(t)=u_k(t)+\Gamma\dot e_k(t)$ 。统一 PID 型：

$u_{k+1}(t)=u_k(t)+\Gamma\dot e_k(t)+\Phi e_k(t)+\Psi\int_0^t e_k(\tau)\,d\tau$

只用 $e_k$ = P 型、加导数 = PD 型（提响应）、加积分 = PID 型（消稳态误差）。

易混点必须分清：普通 P 控制 $u(t)=K_p e(t)$ 用现在误差算现在控制量（同轮、时间轴反馈）；P 型 ILC $u_{k+1}(t)=u_k(t)+\Gamma e_k(t)$ 用上一轮误差加到这一轮（跨轮、迭代轴）。ILC 本质是前馈控制。按用哪轮误差：用 $e_k$ = 开环、用 $e_{k+1}$ = 闭环、都用 = 开闭环。

1.3 为什么「加上一轮误差」就能收敛（推导）

设线性例 $y=Pu$ ，误差 $e_k=y_d-Pu_k$ ，P 型律 $u_{k+1}=u_k+\Gamma e_k$ 。算下一轮误差：

$e_{k+1}=y_d-Pu_{k+1}=y_d-P(u_k+\Gamma e_k)=(y_d-Pu_k)-P\Gamma e_k$

注意 $y_d-Pu_k$ 正好是 $e_k$ ，所以误差递推公式：

$e_{k+1}=(I-P\Gamma)e_k$

每迭代一轮，误差就被乘以因子 $(I-P\Gamma)$ 。要让误差趋于零，收敛条件：

$|I-P\Gamma|<1$

满足则误差像 $0.8^n$ 指数衰减到 0。读出精髓：① 增益 $\Gamma$ 要与对象 $P$ 的逆动态相似（让 $P\Gamma$ 近 1）；② 不需精确模型——只要 $\Gamma$ 方向定对、大小合理，误差就被强行压到零。这从数学上证明了 ILC「免精确模型」的本质，它要的是正确的增益方向和范围。

1.4 四关键技术

① 稳定性与收敛性（光稳定不够，必须收敛到真值才最优）；② 初始值问题（收敛证明要求每轮初始状态相同 $x_k(0)=x_d(0)$ ，否则归为鲁棒性，故实验强调起点一致）；③ 学习速度（收敛条件多在 $k\to\infty$ 给出，实际要更快——高阶迭代 / 遗忘因子 / 当前项反馈）；④ 鲁棒性（有界干扰下收敛到期望轨迹邻域，干扰消除后收敛到期望轨迹）。

1.5 仿真实例（自动驾驶重复过弯）

二阶非线性 $\ddot y_k=f(y_k,\dot y_k)+bu_k(t)+d(t)$ ， $f$ = 轮胎侧偏未建模非线性， $d(t)$ = 重复性外扰（坡度 / 风阻 / 附着，每圈一样故 ILC 能学会补偿），误差 $e_k(t)=y_d-y_k$ 。三阶段：第 1 次迭代过弯大超调；第 5 次记录误差曲线、提前反向补偿、明显变好；第 30 次轨迹与期望几乎重合、误差近 0。即「刷圈」从生疏到肌肉记忆。

2. 强化学习 RL —— 框架与理论

入门例子（倒立摆 / 平衡杆）：杆铰接在小车上，左右推车让杆别倒。没人给「每刻推多大力」的标准答案（故不能监督学习），只能试错：立住 = 好、倒了 = 坏，摸索出策略。这种「靠好 / 坏反馈试错学策略」= 强化学习。

基本框架（两角色一循环）：智能体（Agent） 感知状态、做动作、按奖励调策略；环境（Environment） 受动作影响改状态、反馈奖励。心跳循环：时刻 $t$ 看状态 $s_t$ → 选动作 $a_t$ → 环境转移到 $s_{t+1}$ 并给奖励 $r_{t+1}$ → 智能体改策略 → 下一时刻……一句话：不断与环境交互、按经验调策略、最大化长远累积奖励。

MDP（马尔可夫决策过程）——要素：状态集 $S$ 、动作集 $A$ 、状态转移概率 $p(s'|s,a)$ 、即时奖励 $R$ 。马尔可夫假设：下一状态只取决于「当前状态 + 当前动作」，与更早历史无关（无记忆，如下棋只看当前棋盘）。马尔可夫家族定位（常考）：

模型	能否决策（动作）	状态是否完全可观测
马尔可夫链 MC	否（纯随机演化）	完全可观测
隐马尔可夫 HMM	否（无决策）	部分可观测
马尔可夫决策过程 MDP	是	完全可观测
POMDP	是	部分可观测

记忆：有无动作 = 决策过程 vs 纯过程；状态看全否 = 完全 vs 部分可观测。POMDP 最难，第 6 篇具身智能用（摄像头只看局部）。

策略 / 回报 / 折扣率：策略 $\pi(a|s)$ = 状态 $s$ 下选各动作的概率。总回报 = 一条轨迹累积奖励，但加折扣：

$G=r_1+\gamma r_2+\gamma^2 r_3+\cdots=\sum_{t=0}^{\infty}\gamma^t r_{t+1}$

折扣率 $\gamma\in[0,1]$ ：① 越远奖励越不确定越不值钱（明天的 100 不如今天的 100）；② 调眼光—— $\gamma\to0$ 目光短浅、 $\gamma\to1$ 重视长远。

值函数 / Q 函数 / 贝尔曼方程：

状态值函数 $V(s)$ ：从 $s$ 按 $\pi$ 走的期望总回报（「我现在处境前景如何」）。
动作值函数 $Q(s,a)$ （Q=Quality）： $s$ 下先做 $a$ 再按 $\pi$ 走的期望总回报。比 V 多「动作」维，更有用——挑 Q 最大的动作即可。
贝尔曼方程（RL 最核心）：当前状态期望回报 = 即时奖励 + 折扣后的下一状态期望回报， $V(s)=\mathbb E[r+\gamma V(s')]$ 。把「算到天荒地老的无穷累积」变成「只关联当前与下一步」的递推（像数学归纳法）。几乎所有 RL 算法本质都是反复用贝尔曼方程更新值函数到收敛。

探索 vs 利用（核心矛盾）：利用选已知最优动作（稳但可能错过更好）；探索试没试过的动作（可能发现更优也可能受罚）。类比常去餐馆 vs 试新店。只利用→困在局部最优；只探索→学不到稳定策略。

3. 强化学习的算法：从 Q-Learning 到 PPO/SAC

大分类：无模型（不建环境模型、纯交互试错）vs 有模型（先学环境模型再规划）。无模型再分两主干：基于值（只学值函数、策略硬贪心 $\pi=\arg\max_a Q$ 、无独立策略网络，如 Q-Learning、DQN）；基于策略（直接学策略，如 REINFORCE、策略梯度）。

3.1 Q-Learning——走房间例子

5 房间 + 屋外(5)，抽象成图（房间 = 状态节点，门 = 动作边），目标从任意房间到屋外。奖励：直通目标的边 = 100、其他 = 0、不通 = -1，状态 5 自环 = 100（吸收目标：到了就待着）。Q 表（行状态列动作）初始全 0，靠探索填。更新公式（贝尔曼实操版）：

$Q(s,a)\leftarrow R(s,a)+\gamma\max_{a'}Q(s',a')$

读法：在 $s$ 做 $a$ 的价值 = 即时奖励 + 折扣 $\gamma$ × 新状态 $s'$ 最优动作价值。 $\max_{a'}Q(s',a')$ 是精髓（假设到下一状态后走最优路，把未来最优价值回传）。例（ $\gamma=0.8$ ）：状态 1 随机去 5， $Q(1,5)=100+0.8\times0=100$ ，到目标则本 episode（回合） 结束、换起点重来。多个 episode 后 Q 表收敛，每步挑 Q 最大即最优路径。精髓：没人教最优路线，靠「反复试 + 奖励回传」自填价值地图。

3.2 DQN

Q-Learning 死穴是用表存所有 $Q(s,a)$ ，现实状态（如像素）天文数字列不成表。DQN（深度 Q 网络，Mnih 2015） 用神经网络代替 Q 表（输入状态、输出各动作 Q 值，神经网络 = 万能逼近器）。首次 CNN + Q-Learning，从原始像素端到端到动作，Atari 夺冠，标志深度 RL 主流化。技巧双网络：eval net 每步更新算当前 Q；target net 每 $C$ 步才复制 eval net 参数当稳定靶子（否则「追自己影子」会震荡发散）。

3.3 算法谱系（常以比较考）

先懂 Actor-Critic：Actor（演员） = 策略网络输出动作；Critic（评论家） = 值函数网络给动作打分；优势函数 $A(s,a)=Q(s,a)-V(s)$ （这动作比平均好多少，代替原始回报更新策略，降梯度方差、训练更稳）。

算法	动作空间	核心	定位
A2C	离散 / 连续	优势 AC 同步版，多环境并行采样全采完统一更新	稳定基础版
A3C	离散 / 连续	A2C 异步版，多 worker 各自采样随时异步上传梯度	训练快、利用率高
PPO	离散 / 连续	加裁剪 Clip 限制新旧策略更新幅度	工业界万能基线，ChatGPT RLHF 首选
SAC	连续	最大熵 RL，奖励 + 策略随机性(熵)→探索强鲁棒	连续控制(机械臂 / 无人机)天花板
TD-MPC	连续	有模型，学隐变量世界模型 + 短期规划 + 长期价值	样本效率碾压无模型，科研前沿

记忆主线：AC→A2C→A3C→TRPO→PPO（离散连续通吃、最通用、大模型训练首选）；DDPG→TD3→SAC（连续、最大熵、机器人控制专用）；传统 MPC + 无模型价值→TD-MPC。注：PPO = 训练 ChatGPT 的 RLHF 算法；SAC「最大熵」呼应探索 vs 利用。

3.4 强化学习与最优控制的接口

非线性系统 $\dot x=f(x)+g(x)u$ ，最优控制找 $u^*(x)$ 使性能函数 $V$ （状态代价 + 控制代价累积）最小，变分法推出 HJB（哈密顿-雅可比-贝尔曼）方程 = 连续版贝尔曼方程，但是非线性偏微分方程无解析解。RL 提供「策略迭代」数值解法、无需精确模型逼近求解 HJB。即 RL 本质 = 数据驱动求解最优控制，再证智能方法与控制论相通。

3.5 经典应用脉络

① 倒立摆(1983, Barto/Sutton/Anderson)——RL 控制奠基，动力学未知也能学会平衡（二人获 2024 图灵奖）；② DQN(2015)——深度 RL 主流化标志；③ AlphaGo(2016, Silver)——策略网络 + 价值网络 + 蒙特卡洛树搜索 + 自我博弈，标志 RL 从「学单一策略」到「表示学习 + 价值评估 + 规划搜索」综合决策；④ Roach(2021)——RL 专家(PPO 训练)当「教练」监督端到端城市自动驾驶，迁移决策知识给单目摄像头学生模型，缓解模仿学习分布偏移。

4. 本篇小结：ILC vs RL

维度	迭代学习控制 ILC	强化学习 RL
适用任务	重复性任务（同轨迹刷圈）	一般决策任务（状态多变）
学习信号	上一轮误差 $e_k(t)$	环境奖励 $r$
学习维度	迭代轴 $k$ （跨轮前馈）	时间轴状态-动作序列
目标	零误差跟踪期望轨迹	最大化长远累积奖励
直觉	吃一堑长一智（刷圈速）	试错 + 奖惩（学骑车）
模型依赖	免精确模型（要 $\Gamma$ 方向对）	无模型 / 有模型两支

一句话：行为主义把「学习」从『有人教』推进到『自己试』——ILC 在重复中逼近完美，RL 在试错中逼近最优；两者都与最优控制相通，是通往具身智能的最后一块方法论拼图。

下一篇：感知基础——光流。在让智能体「行动」之前，先让它「看懂」环境在怎么动。