行为主义:迭代学习控制与强化学习

Views: --

对应 PPT:第五讲《迭代学习与强化学习控制》+ 具身智能专题(强化学习部分) 前两派都是「先有知识再做」(符号主义人写规则;连接主义喂标注数据,需标准答案)。行为主义走第三条路:没人教、没标准答案,靠「做了看反馈」试错学习——对了奖励就强化、错了惩罚就改。最像人 / 动物「从经验学」(小孩学骑车没有标准答案,摔几次找到手感)。


0. 行为主义总纲

两个主角:迭代学习控制(ILC) 针对重复性任务,用上一轮误差改进这一轮动作(吃一堑长一智);强化学习(RL) 针对一般决策任务,用环境奖励试错出最优策略。

引子——巴音布鲁克魔鬼赛道:赛道在脑中练千万遍成「肌肉记忆」,靠的不是「遇弯才打方向盘」(传统反馈慢半拍)而是「用上一圈的失败修正这一圈」(路书 + 前馈补偿)。这就是 ILC 的灵魂。

1. 迭代学习控制 ILC

定义(Uchiyama 1978 提出,Arimoto 1984 开创):基于经验积累、逐步改进——对每轮执行后数据归纳处理、反馈优化策略,在「执行→学习→调整」重复中提升性能。三特点:① 重复性任务(相同条件反复执行:焊接 / 装配 / 巡逻 / 高铁固定路段,是前提);② 逐步改进;③ 无需精确模型

核心直觉(传统反馈 vs ILC)

  • 传统 PID = 盘山公路「见招拆招」:偏离车道才纠正,永远滞后;每天开同条路、同个急弯还犯同样错(没记忆),几乎不可能零误差。
  • ILC = 赛道「刷圈速」:第 1 圈在 3 号弯偏离,第 2 圈开到弯前就提前多打方向(记得上圈栽过),把上轮失败转成这轮前馈补偿,重复到零误差。

一句话:PID 事后纠错(时间轴 tt),ILC 事前预判(迭代轴 kk)。

1.1 「二维时间」视角(最精髓)

普通控制只有一维时间 tt(用 tt 误差修正 t+1t+1 动作,慢半拍);ILC 引入第二维迭代次数 kk——用上一圈同一时刻 tt 的误差 ek(t)e_k(t) 直接修正这一圈同一时刻的控制 uk+1(t)u_{k+1}(t)不在 tt 轴纠错,在 kk 轴纠错,同一个 t=2st=2s 点一圈比一圈好 = 真正的前馈预判。

1.2 控制律:从 D 型到 PID 型

最基础 D 型(Arimoto):uk+1(t)=uk(t)+Γe˙k(t)u_{k+1}(t)=u_k(t)+\Gamma\dot e_k(t)。统一 PID 型

uk+1(t)=uk(t)+Γe˙k(t)+Φek(t)+Ψ0tek(τ)dτu_{k+1}(t)=u_k(t)+\Gamma\dot e_k(t)+\Phi e_k(t)+\Psi\int_0^t e_k(\tau)\,d\tau

只用 eke_k = P 型、加导数 = PD 型(提响应)、加积分 = PID 型(消稳态误差)。

易混点必须分清:普通 P 控制 u(t)=Kpe(t)u(t)=K_p e(t)现在误差算现在控制量(同轮、时间轴反馈);P 型 ILC uk+1(t)=uk(t)+Γek(t)u_{k+1}(t)=u_k(t)+\Gamma e_k(t)上一轮误差加到这一轮(跨轮、迭代轴)。ILC 本质是前馈控制。按用哪轮误差:用 eke_k = 开环、用 ek+1e_{k+1} = 闭环、都用 = 开闭环。

1.3 为什么「加上一轮误差」就能收敛(推导)

设线性例 y=Puy=Pu,误差 ek=ydPuke_k=y_d-Pu_k,P 型律 uk+1=uk+Γeku_{k+1}=u_k+\Gamma e_k。算下一轮误差:

ek+1=ydPuk+1=ydP(uk+Γek)=(ydPuk)PΓeke_{k+1}=y_d-Pu_{k+1}=y_d-P(u_k+\Gamma e_k)=(y_d-Pu_k)-P\Gamma e_k

注意 ydPuky_d-Pu_k 正好是 eke_k,所以误差递推公式:

ek+1=(IPΓ)eke_{k+1}=(I-P\Gamma)e_k

每迭代一轮,误差就被乘以因子 (IPΓ)(I-P\Gamma)。要让误差趋于零,收敛条件:

IPΓ<1|I-P\Gamma|<1

满足则误差像 0.8n0.8^n 指数衰减到 0。读出精髓:① 增益 Γ\Gamma 要与对象 PP逆动态相似(让 PΓP\Gamma 近 1);② 不需精确模型——只要 Γ\Gamma 方向定对、大小合理,误差就被强行压到零。这从数学上证明了 ILC「免精确模型」的本质,它要的是正确的增益方向和范围

1.4 四关键技术

稳定性与收敛性(光稳定不够,必须收敛到真值才最优);② 初始值问题(收敛证明要求每轮初始状态相同 xk(0)=xd(0)x_k(0)=x_d(0),否则归为鲁棒性,故实验强调起点一致);③ 学习速度(收敛条件多在 kk\to\infty 给出,实际要更快——高阶迭代 / 遗忘因子 / 当前项反馈);④ 鲁棒性(有界干扰下收敛到期望轨迹邻域,干扰消除后收敛到期望轨迹)。

1.5 仿真实例(自动驾驶重复过弯)

二阶非线性 y¨k=f(yk,y˙k)+buk(t)+d(t)\ddot y_k=f(y_k,\dot y_k)+bu_k(t)+d(t)ff = 轮胎侧偏未建模非线性,d(t)d(t) = 重复性外扰(坡度 / 风阻 / 附着,每圈一样故 ILC 能学会补偿),误差 ek(t)=ydyke_k(t)=y_d-y_k。三阶段:第 1 次迭代过弯大超调;第 5 次记录误差曲线、提前反向补偿、明显变好;第 30 次轨迹与期望几乎重合、误差近 0。即「刷圈」从生疏到肌肉记忆。


2. 强化学习 RL —— 框架与理论

入门例子(倒立摆 / 平衡杆):杆铰接在小车上,左右推车让杆别倒。没人给「每刻推多大力」的标准答案(故不能监督学习),只能试错:立住 = 好、倒了 = 坏,摸索出策略。这种「靠好 / 坏反馈试错学策略」= 强化学习。

基本框架(两角色一循环)智能体(Agent) 感知状态、做动作、按奖励调策略;环境(Environment) 受动作影响改状态、反馈奖励。心跳循环:时刻 tt 看状态 sts_t → 选动作 ata_t → 环境转移到 st+1s_{t+1} 并给奖励 rt+1r_{t+1} → 智能体改策略 → 下一时刻……一句话:不断与环境交互、按经验调策略、最大化长远累积奖励

MDP(马尔可夫决策过程)——要素:状态集 SS、动作集 AA、状态转移概率 p(ss,a)p(s'|s,a)、即时奖励 RR马尔可夫假设:下一状态只取决于「当前状态 + 当前动作」,与更早历史无关(无记忆,如下棋只看当前棋盘)。马尔可夫家族定位(常考):

模型能否决策(动作)状态是否完全可观测
马尔可夫链 MC否(纯随机演化)完全可观测
隐马尔可夫 HMM否(无决策)部分可观测
马尔可夫决策过程 MDP完全可观测
POMDP部分可观测

记忆:有无动作 = 决策过程 vs 纯过程;状态看全否 = 完全 vs 部分可观测。POMDP 最难,第 6 篇具身智能用(摄像头只看局部)。

策略 / 回报 / 折扣率:策略 π(as)\pi(a|s) = 状态 ss 下选各动作的概率。总回报 = 一条轨迹累积奖励,但加折扣:

G=r1+γr2+γ2r3+=t=0γtrt+1G=r_1+\gamma r_2+\gamma^2 r_3+\cdots=\sum_{t=0}^{\infty}\gamma^t r_{t+1}

折扣率 γ[0,1]\gamma\in[0,1]:① 越远奖励越不确定越不值钱(明天的 100 不如今天的 100);② 调眼光——γ0\gamma\to0 目光短浅、γ1\gamma\to1 重视长远。

值函数 / Q 函数 / 贝尔曼方程

  • 状态值函数 V(s)V(s):从 ssπ\pi 走的期望总回报(「我现在处境前景如何」)。
  • 动作值函数 Q(s,a)Q(s,a)(Q=Quality):ss 下先做 aa 再按 π\pi 走的期望总回报。比 V 多「动作」维,更有用——挑 Q 最大的动作即可。
  • 贝尔曼方程(RL 最核心):当前状态期望回报 = 即时奖励 + 折扣后的下一状态期望回报V(s)=E[r+γV(s)]V(s)=\mathbb E[r+\gamma V(s')]。把「算到天荒地老的无穷累积」变成「只关联当前与下一步」的递推(像数学归纳法)。几乎所有 RL 算法本质都是反复用贝尔曼方程更新值函数到收敛。

探索 vs 利用(核心矛盾)利用 选已知最优动作(稳但可能错过更好);探索 试没试过的动作(可能发现更优也可能受罚)。类比常去餐馆 vs 试新店。只利用→困在局部最优;只探索→学不到稳定策略。

3. 强化学习的算法:从 Q-Learning 到 PPO/SAC

大分类无模型(不建环境模型、纯交互试错)vs 有模型(先学环境模型再规划)。无模型再分两主干:基于值(只学值函数、策略硬贪心 π=argmaxaQ\pi=\arg\max_a Q、无独立策略网络,如 Q-Learning、DQN);基于策略(直接学策略,如 REINFORCE、策略梯度)。

3.1 Q-Learning——走房间例子

5 房间 + 屋外(5),抽象成图(房间 = 状态节点,门 = 动作边),目标从任意房间到屋外。奖励:直通目标的边 = 100、其他 = 0、不通 = -1,状态 5 自环 = 100(吸收目标:到了就待着)。Q 表(行状态列动作)初始全 0,靠探索填。更新公式(贝尔曼实操版):

Q(s,a)R(s,a)+γmaxaQ(s,a)Q(s,a)\leftarrow R(s,a)+\gamma\max_{a'}Q(s',a')

读法:在 ssaa 的价值 = 即时奖励 + 折扣 γ\gamma × 新状态 ss' 最优动作价值。maxaQ(s,a)\max_{a'}Q(s',a') 是精髓(假设到下一状态后走最优路,把未来最优价值回传)。例(γ=0.8\gamma=0.8):状态 1 随机去 5,Q(1,5)=100+0.8×0=100Q(1,5)=100+0.8\times0=100,到目标则本 episode(回合) 结束、换起点重来。多个 episode 后 Q 表收敛,每步挑 Q 最大即最优路径。精髓:没人教最优路线,靠「反复试 + 奖励回传」自填价值地图。

3.2 DQN

Q-Learning 死穴是用表存所有 Q(s,a)Q(s,a),现实状态(如像素)天文数字列不成表。DQN(深度 Q 网络,Mnih 2015)神经网络代替 Q 表(输入状态、输出各动作 Q 值,神经网络 = 万能逼近器)。首次 CNN + Q-Learning,从原始像素端到端到动作,Atari 夺冠,标志深度 RL 主流化。技巧双网络eval net 每步更新算当前 Q;target netCC 步才复制 eval net 参数当稳定靶子(否则「追自己影子」会震荡发散)。

3.3 算法谱系(常以比较考)

先懂 Actor-CriticActor(演员) = 策略网络输出动作;Critic(评论家) = 值函数网络给动作打分;优势函数 A(s,a)=Q(s,a)V(s)A(s,a)=Q(s,a)-V(s)(这动作比平均好多少,代替原始回报更新策略,降梯度方差、训练更稳)。

算法动作空间核心定位
A2C离散 / 连续优势 AC 同步版,多环境并行采样全采完统一更新稳定基础版
A3C离散 / 连续A2C 异步版,多 worker 各自采样随时异步上传梯度训练快、利用率高
PPO离散 / 连续裁剪 Clip 限制新旧策略更新幅度工业界万能基线,ChatGPT RLHF 首选
SAC连续最大熵 RL,奖励 + 策略随机性(熵)→探索强鲁棒连续控制(机械臂 / 无人机)天花板
TD-MPC连续有模型,学隐变量世界模型 + 短期规划 + 长期价值样本效率碾压无模型,科研前沿

记忆主线:AC→A2C→A3C→TRPO→PPO(离散连续通吃、最通用、大模型训练首选);DDPG→TD3→SAC(连续、最大熵、机器人控制专用);传统 MPC + 无模型价值→TD-MPC。注:PPO = 训练 ChatGPT 的 RLHF 算法;SAC「最大熵」呼应探索 vs 利用。

3.4 强化学习与最优控制的接口

非线性系统 x˙=f(x)+g(x)u\dot x=f(x)+g(x)u,最优控制找 u(x)u^*(x) 使性能函数 VV(状态代价 + 控制代价累积)最小,变分法推出 HJB(哈密顿-雅可比-贝尔曼)方程 = 连续版贝尔曼方程,但是非线性偏微分方程无解析解。RL 提供「策略迭代」数值解法、无需精确模型逼近求解 HJB。即 RL 本质 = 数据驱动求解最优控制,再证智能方法与控制论相通。

3.5 经典应用脉络

① 倒立摆(1983, Barto/Sutton/Anderson)——RL 控制奠基,动力学未知也能学会平衡(二人获 2024 图灵奖);② DQN(2015)——深度 RL 主流化标志;③ AlphaGo(2016, Silver)——策略网络 + 价值网络 + 蒙特卡洛树搜索 + 自我博弈,标志 RL 从「学单一策略」到「表示学习 + 价值评估 + 规划搜索」综合决策;④ Roach(2021)——RL 专家(PPO 训练)当「教练」监督端到端城市自动驾驶,迁移决策知识给单目摄像头学生模型,缓解模仿学习分布偏移。

4. 本篇小结:ILC vs RL

维度迭代学习控制 ILC强化学习 RL
适用任务重复性任务(同轨迹刷圈)一般决策任务(状态多变)
学习信号上一轮误差 ek(t)e_k(t)环境奖励 rr
学习维度迭代轴 kk(跨轮前馈)时间轴状态-动作序列
目标零误差跟踪期望轨迹最大化长远累积奖励
直觉吃一堑长一智(刷圈速)试错 + 奖惩(学骑车)
模型依赖免精确模型(要 Γ\Gamma 方向对)无模型 / 有模型两支

一句话:行为主义把「学习」从『有人教』推进到『自己试』——ILC 在重复中逼近完美,RL 在试错中逼近最优;两者都与最优控制相通,是通往具身智能的最后一块方法论拼图。

下一篇:感知基础——光流。在让智能体「行动」之前,先让它「看懂」环境在怎么动。

评论