行为主义:迭代学习控制与强化学习
对应 PPT:第五讲《迭代学习与强化学习控制》+ 具身智能专题(强化学习部分) 前两派都是「先有知识再做」(符号主义人写规则;连接主义喂标注数据,需标准答案)。行为主义走第三条路:没人教、没标准答案,靠「做了看反馈」试错学习——对了奖励就强化、错了惩罚就改。最像人 / 动物「从经验学」(小孩学骑车没有标准答案,摔几次找到手感)。
0. 行为主义总纲
两个主角:迭代学习控制(ILC) 针对重复性任务,用上一轮误差改进这一轮动作(吃一堑长一智);强化学习(RL) 针对一般决策任务,用环境奖励试错出最优策略。
引子——巴音布鲁克魔鬼赛道:赛道在脑中练千万遍成「肌肉记忆」,靠的不是「遇弯才打方向盘」(传统反馈慢半拍)而是「用上一圈的失败修正这一圈」(路书 + 前馈补偿)。这就是 ILC 的灵魂。
1. 迭代学习控制 ILC
定义(Uchiyama 1978 提出,Arimoto 1984 开创):基于经验积累、逐步改进——对每轮执行后数据归纳处理、反馈优化策略,在「执行→学习→调整」重复中提升性能。三特点:① 重复性任务(相同条件反复执行:焊接 / 装配 / 巡逻 / 高铁固定路段,是前提);② 逐步改进;③ 无需精确模型。
核心直觉(传统反馈 vs ILC):
- 传统 PID = 盘山公路「见招拆招」:偏离车道才纠正,永远滞后;每天开同条路、同个急弯还犯同样错(没记忆),几乎不可能零误差。
- ILC = 赛道「刷圈速」:第 1 圈在 3 号弯偏离,第 2 圈开到弯前就提前多打方向(记得上圈栽过),把上轮失败转成这轮前馈补偿,重复到零误差。
一句话:PID 事后纠错(时间轴 ),ILC 事前预判(迭代轴 )。
1.1 「二维时间」视角(最精髓)
普通控制只有一维时间 (用 误差修正 动作,慢半拍);ILC 引入第二维迭代次数 ——用上一圈同一时刻 的误差 直接修正这一圈同一时刻的控制 。不在 轴纠错,在 轴纠错,同一个 点一圈比一圈好 = 真正的前馈预判。
1.2 控制律:从 D 型到 PID 型
最基础 D 型(Arimoto):。统一 PID 型:
只用 = P 型、加导数 = PD 型(提响应)、加积分 = PID 型(消稳态误差)。
易混点必须分清:普通 P 控制 用现在误差算现在控制量(同轮、时间轴反馈);P 型 ILC 用上一轮误差加到这一轮(跨轮、迭代轴)。ILC 本质是前馈控制。按用哪轮误差:用 = 开环、用 = 闭环、都用 = 开闭环。
1.3 为什么「加上一轮误差」就能收敛(推导)
设线性例 ,误差 ,P 型律 。算下一轮误差:
注意 正好是 ,所以误差递推公式:
每迭代一轮,误差就被乘以因子 。要让误差趋于零,收敛条件:
满足则误差像 指数衰减到 0。读出精髓:① 增益 要与对象 的逆动态相似(让 近 1);② 不需精确模型——只要 方向定对、大小合理,误差就被强行压到零。这从数学上证明了 ILC「免精确模型」的本质,它要的是正确的增益方向和范围。
1.4 四关键技术
① 稳定性与收敛性(光稳定不够,必须收敛到真值才最优);② 初始值问题(收敛证明要求每轮初始状态相同 ,否则归为鲁棒性,故实验强调起点一致);③ 学习速度(收敛条件多在 给出,实际要更快——高阶迭代 / 遗忘因子 / 当前项反馈);④ 鲁棒性(有界干扰下收敛到期望轨迹邻域,干扰消除后收敛到期望轨迹)。
1.5 仿真实例(自动驾驶重复过弯)
二阶非线性 , = 轮胎侧偏未建模非线性, = 重复性外扰(坡度 / 风阻 / 附着,每圈一样故 ILC 能学会补偿),误差 。三阶段:第 1 次迭代过弯大超调;第 5 次记录误差曲线、提前反向补偿、明显变好;第 30 次轨迹与期望几乎重合、误差近 0。即「刷圈」从生疏到肌肉记忆。
2. 强化学习 RL —— 框架与理论
入门例子(倒立摆 / 平衡杆):杆铰接在小车上,左右推车让杆别倒。没人给「每刻推多大力」的标准答案(故不能监督学习),只能试错:立住 = 好、倒了 = 坏,摸索出策略。这种「靠好 / 坏反馈试错学策略」= 强化学习。
基本框架(两角色一循环):智能体(Agent) 感知状态、做动作、按奖励调策略;环境(Environment) 受动作影响改状态、反馈奖励。心跳循环:时刻 看状态 → 选动作 → 环境转移到 并给奖励 → 智能体改策略 → 下一时刻……一句话:不断与环境交互、按经验调策略、最大化长远累积奖励。
MDP(马尔可夫决策过程)——要素:状态集 、动作集 、状态转移概率 、即时奖励 。马尔可夫假设:下一状态只取决于「当前状态 + 当前动作」,与更早历史无关(无记忆,如下棋只看当前棋盘)。马尔可夫家族定位(常考):
| 模型 | 能否决策(动作) | 状态是否完全可观测 |
|---|---|---|
| 马尔可夫链 MC | 否(纯随机演化) | 完全可观测 |
| 隐马尔可夫 HMM | 否(无决策) | 部分可观测 |
| 马尔可夫决策过程 MDP | 是 | 完全可观测 |
| POMDP | 是 | 部分可观测 |
记忆:有无动作 = 决策过程 vs 纯过程;状态看全否 = 完全 vs 部分可观测。POMDP 最难,第 6 篇具身智能用(摄像头只看局部)。
策略 / 回报 / 折扣率:策略 = 状态 下选各动作的概率。总回报 = 一条轨迹累积奖励,但加折扣:
折扣率 :① 越远奖励越不确定越不值钱(明天的 100 不如今天的 100);② 调眼光—— 目光短浅、 重视长远。
值函数 / Q 函数 / 贝尔曼方程:
- 状态值函数 :从 按 走的期望总回报(「我现在处境前景如何」)。
- 动作值函数 (Q=Quality): 下先做 再按 走的期望总回报。比 V 多「动作」维,更有用——挑 Q 最大的动作即可。
- 贝尔曼方程(RL 最核心):当前状态期望回报 = 即时奖励 + 折扣后的下一状态期望回报,。把「算到天荒地老的无穷累积」变成「只关联当前与下一步」的递推(像数学归纳法)。几乎所有 RL 算法本质都是反复用贝尔曼方程更新值函数到收敛。
探索 vs 利用(核心矛盾):利用 选已知最优动作(稳但可能错过更好);探索 试没试过的动作(可能发现更优也可能受罚)。类比常去餐馆 vs 试新店。只利用→困在局部最优;只探索→学不到稳定策略。
3. 强化学习的算法:从 Q-Learning 到 PPO/SAC
大分类:无模型(不建环境模型、纯交互试错)vs 有模型(先学环境模型再规划)。无模型再分两主干:基于值(只学值函数、策略硬贪心 、无独立策略网络,如 Q-Learning、DQN);基于策略(直接学策略,如 REINFORCE、策略梯度)。
3.1 Q-Learning——走房间例子
5 房间 + 屋外(5),抽象成图(房间 = 状态节点,门 = 动作边),目标从任意房间到屋外。奖励:直通目标的边 = 100、其他 = 0、不通 = -1,状态 5 自环 = 100(吸收目标:到了就待着)。Q 表(行状态列动作)初始全 0,靠探索填。更新公式(贝尔曼实操版):
读法:在 做 的价值 = 即时奖励 + 折扣 × 新状态 最优动作价值。 是精髓(假设到下一状态后走最优路,把未来最优价值回传)。例():状态 1 随机去 5,,到目标则本 episode(回合) 结束、换起点重来。多个 episode 后 Q 表收敛,每步挑 Q 最大即最优路径。精髓:没人教最优路线,靠「反复试 + 奖励回传」自填价值地图。
3.2 DQN
Q-Learning 死穴是用表存所有 ,现实状态(如像素)天文数字列不成表。DQN(深度 Q 网络,Mnih 2015) 用神经网络代替 Q 表(输入状态、输出各动作 Q 值,神经网络 = 万能逼近器)。首次 CNN + Q-Learning,从原始像素端到端到动作,Atari 夺冠,标志深度 RL 主流化。技巧双网络:eval net 每步更新算当前 Q;target net 每 步才复制 eval net 参数当稳定靶子(否则「追自己影子」会震荡发散)。
3.3 算法谱系(常以比较考)
先懂 Actor-Critic:Actor(演员) = 策略网络输出动作;Critic(评论家) = 值函数网络给动作打分;优势函数 (这动作比平均好多少,代替原始回报更新策略,降梯度方差、训练更稳)。
| 算法 | 动作空间 | 核心 | 定位 |
|---|---|---|---|
| A2C | 离散 / 连续 | 优势 AC 同步版,多环境并行采样全采完统一更新 | 稳定基础版 |
| A3C | 离散 / 连续 | A2C 异步版,多 worker 各自采样随时异步上传梯度 | 训练快、利用率高 |
| PPO | 离散 / 连续 | 加裁剪 Clip 限制新旧策略更新幅度 | 工业界万能基线,ChatGPT RLHF 首选 |
| SAC | 连续 | 最大熵 RL,奖励 + 策略随机性(熵)→探索强鲁棒 | 连续控制(机械臂 / 无人机)天花板 |
| TD-MPC | 连续 | 有模型,学隐变量世界模型 + 短期规划 + 长期价值 | 样本效率碾压无模型,科研前沿 |
记忆主线:AC→A2C→A3C→TRPO→PPO(离散连续通吃、最通用、大模型训练首选);DDPG→TD3→SAC(连续、最大熵、机器人控制专用);传统 MPC + 无模型价值→TD-MPC。注:PPO = 训练 ChatGPT 的 RLHF 算法;SAC「最大熵」呼应探索 vs 利用。
3.4 强化学习与最优控制的接口
非线性系统 ,最优控制找 使性能函数 (状态代价 + 控制代价累积)最小,变分法推出 HJB(哈密顿-雅可比-贝尔曼)方程 = 连续版贝尔曼方程,但是非线性偏微分方程无解析解。RL 提供「策略迭代」数值解法、无需精确模型逼近求解 HJB。即 RL 本质 = 数据驱动求解最优控制,再证智能方法与控制论相通。
3.5 经典应用脉络
① 倒立摆(1983, Barto/Sutton/Anderson)——RL 控制奠基,动力学未知也能学会平衡(二人获 2024 图灵奖);② DQN(2015)——深度 RL 主流化标志;③ AlphaGo(2016, Silver)——策略网络 + 价值网络 + 蒙特卡洛树搜索 + 自我博弈,标志 RL 从「学单一策略」到「表示学习 + 价值评估 + 规划搜索」综合决策;④ Roach(2021)——RL 专家(PPO 训练)当「教练」监督端到端城市自动驾驶,迁移决策知识给单目摄像头学生模型,缓解模仿学习分布偏移。
4. 本篇小结:ILC vs RL
| 维度 | 迭代学习控制 ILC | 强化学习 RL |
|---|---|---|
| 适用任务 | 重复性任务(同轨迹刷圈) | 一般决策任务(状态多变) |
| 学习信号 | 上一轮误差 | 环境奖励 |
| 学习维度 | 迭代轴 (跨轮前馈) | 时间轴状态-动作序列 |
| 目标 | 零误差跟踪期望轨迹 | 最大化长远累积奖励 |
| 直觉 | 吃一堑长一智(刷圈速) | 试错 + 奖惩(学骑车) |
| 模型依赖 | 免精确模型(要 方向对) | 无模型 / 有模型两支 |
一句话:行为主义把「学习」从『有人教』推进到『自己试』——ILC 在重复中逼近完美,RL 在试错中逼近最优;两者都与最优控制相通,是通往具身智能的最后一块方法论拼图。
下一篇:感知基础——光流。在让智能体「行动」之前,先让它「看懂」环境在怎么动。