集大成:具身智能与 VLA 模型

Views: --

对应 PPT:具身智能专题(前半)+ 第六讲《视觉-语言-动作模型 VLA》+ 实验课《NaVILA》 这是全课的汇聚点:符号、模糊、连接、行为、感知五条支流,在这一篇汇成一条大河——具身智能体,以及它当下最热的实现形态 VLA(视觉-语言-动作)模型。导论里那句「具身智能是广义控制问题」,到这里终于闭环。


1. 具身智能再深化:第一人称智能与 POMDP

1.1 第三人称 vs 第一人称智能

这是理解具身智能为什么特殊的钥匙:

第三人称智能第一人称智能(具身)
核心问题「这是什么?」(识别)「下一步该怎么做?」(决策)
典型输入静态图像、标签、语料连续观测、历史状态、目标、约束
怎么认识「盒子」有人告诉我「这是盒子」亲身体验——可以打开、可以装东西
优势 / 局限语义强、数据丰富 / 缺动作后果决策考虑身体、时间、风险、反馈

著名的 1963 年「两只猫」实验:两只小猫绑在同一转盘装置上看同样画面,主动猫能自己走动(视觉变化由自己行为引起),被动猫只能被动地被带着走。结果主动猫学会正常行走,被动猫却失去了视觉引导行走能力。深意:智能不是「被动接收信息」就能形成的,必须由「身体主动作用于世界」的行为来塑造——过去 5.4 亿年地球上所有生物智能皆如此。ChatGPT 是典型的「第三人称智能」(Sutton 批评它「与你互动时完全不会学习」),具身智能要的是「第一人称」。

1.2 POMDP

具身智能通常被表述为 POMDP(部分可观测马尔可夫决策过程)。为什么是「部分可观测」而非普通 MDP?因为这是具身的根本约束:机器人的摄像头只能看到局部,真实世界的完整状态永远看不全。MDP 看完整状态 ss,具身只能看观测 oo,真实 ss 藏在背后。

POMDP 用七元组 M=(S,A,O,T,Ω,R,γ)M=(S, A, O, T, \Omega, R, \gamma) 定义:SS 真实状态(不可完全观测)、AA 动作(离散 / 连续)、OO 观测(相机 / 深度 / 触觉 / 语言指令)、TT 转移(身体与环境耦合的动力学)、Ω\Omega 观测概率函数、RR 奖励(成功 / 碰撞 / 能耗 / 安全多目标加权)、γ\gamma 折扣。目标同 RL:maxπJ(π)=Eπ[tγtrt]\max_\pi J(\pi)=\mathbb E_\pi[\sum_t \gamma^t r_t]

具身场景下的四个难点:① 部分可观测(目标可能暂时不可见);② 接触不确定(摩擦 / 形变 / 遮挡 / 延迟放大误差);③ 长时程依赖(当前动作影响数十步后);④ 跨 embodiment 泛化(换相机 / 夹爪 / 底盘策略还能用吗)。

1.3 能力栈(全课方法对号入座)

干什么对应本课
目标与约束语言指令、成功判据、安全边界VLA 的 Language
感知与表征RGB-D / 触觉 / 力觉 / 场景图第 5 篇光流、视觉编码
记忆与世界模型时序记忆、对象持久化、地图先验第 3 篇 RNN/LSTM/Transformer
规划与推理任务分解、因果判断、长时程搜索符号主义 + LLM
技能与策略导航、抓取、操作、全身运动控制第 4 篇 RL/ILC
控制与执行轨迹跟踪、阻抗控制、急停传统控制 + 神经网络控制

具身智能不是某种新方法,而是把全课方法按层次组装成的系统,三大主义在此结合。

2. 从模块化到端到端:自动驾驶范式变革

VLA 的崛起最佳切入点是自动驾驶。先看自动驾驶分级 L0–L5(常考,记分界):

级别名称谁控制责任
L0完全人工人全权
L1辅助驾驶人为主 + 单一功能辅助(ACC / 车道保持)
L2部分自动化人系统共享(同时管加减速 + 转向,如特斯拉)
L3有条件自动化系统为主人备用(特定条件接管)系统 / 人
L4高度自动化系统完全控制(特定区域,如萝卜快跑)系统
L5完全自动化系统完全控制(任何条件)系统

分水岭 = L2 / L3 之间(人负责 vs 系统负责)。

传统四段式技术栈感知 → 预测 → 规划 → 控制。三致命伤:① 链式误差传递(错进错出)——模块串联、前一个微小误判被逐级放大,且模块割裂后面无法修正前面(最关键);② 过度依赖人工规则(长尾场景穷举不完);③ 泛化不足(OOD 未见情况易失效)。

端到端变革:不要割裂的中间模块,用统一神经网络把原始传感器数据直接映射到动作(传统四段 → 端到端「感知 → 动作」一步到位)。好处:减少信息损耗、简化架构、更强泛化。这是连接主义「端到端学映射」在自动驾驶的落地,通向 VLA 的最后一步。

3. VLA:视觉-语言-动作模型

VLA(Vision-Language-Action):融合视觉、语言、动作的统一智能模型,从感知到决策端到端学习。三个词:Vision(基础输入,摄像头图像)、Language(关键高层输入,解析指令 / 目标)、Action(最终输出,转向 / 加速控制)。核心思想:用语言指导视觉理解,直接输出动作——区别于普通端到端(图像→动作),VLA 多了语言这个高层指导信号。

为什么非要 Language(精髓):① 提供任务目标(「直行」「左转」,避免无意义探索);② 提供抽象语义(「前方施工绕行」「小心行人」,超越像素的高阶信息);③ 支持泛化(无需重训,靠指令快速适应新任务,最大价值)。语言是连接「人类意图」与「机器行为」的桥梁。

五层架构:① 输入层(图像 + 文本指令);② 编码层(视觉编码器 + 语言编码器并行转特征向量);③ 融合层(灵魂)(Cross-Attention 让视觉语言深度交互);④ 输出层 / 动作头(预测动作)。关键技术:

  • 视觉编码器:主流 ViT(图像切 Patch、线性投影 + 位置编码、送 Transformer 自注意力,即第 3 篇 Transformer 的应用,「词」换成「图像块」);还有 SigLIP。
  • 语言编码器(LLM Backbone):Llama / Vicuna 等 LLM 当「大脑」,理解指令 + 常识推理。
  • Cross-Attention 融合(最关键):用第 3 篇的 Q/K/V——语言特征当 Query 去关注视觉特征图相关区域。指令「红色的车」→注意力自动聚焦图中红色车辆像素 = 「语言引导视觉」。融合后视觉 Token + 语言 Token 拼成统一长序列送 Transformer 解码器生成动作。

动作头(连续 vs 离散):连续头 = MLP 回归直接输出连续控制量(方向盘 / 油门,精确平滑);离散头 = MLP + Softmax 从预定义集合选(直行 / 左转,可解释、易与规则系统结合)。

两种训练方式行为克隆(模仿人类「图像-指令-动作」三元组监督学习,简单但上限受人类数据限制);强化学习(环境交互 + 奖励优化,潜力超人但复杂不稳风险高)。现状:以行为克隆为主、RL 辅助(呼应第 4 篇 RL 落地难)。

4. 典型 VLA 模型

时间线 RT-1(2022) → RT-2(2023) → OpenVLA(2024) → Pi0(2024):

  • RT-2(Google DeepMind)无需大量机器人演示,直接从互联网文本 + 图像学习,极强泛化与常识推理,处理没见过的新物体新任务。「网络知识 → 物理世界直接迁移」。
  • OpenVLA(2024):开源 VLA(预训练模型 + 训练代码 + 评估基准),降门槛、促协同。
  • Pi0(Physical Intelligence):首个 VLA 基础模型,造控制多种机器人的通用大脑。混合专家(MoE)Transformer 架构 + 流匹配(Flow Matching) 生成平滑连续动作。
  • Pi0.5:解决 Pi0 的「知识干扰」(动作模块梯度反传破坏 VLM 预训练知识)。三创新:① 知识隔离(梯度截断保护 VLM 知识);② 分层推理(先预测高层子任务「拿起杯子」再生成低层动作,「先思考后行动」);③ 异构数据协同训练。效率比 Pi0 快 7.5 倍。核心矛盾:端到端训练同时不破坏大模型的语言 / 常识能力。

5. VLA 在自动驾驶 + SimLingo 实战

VLA 的位置:① 替代规划模块(感知 → VLA → 控制);② 替代整个端到端(原始数据 + 语言指令 → VLA → 控制动作)。输入:多摄像头 360° + BEV 鸟瞰图(多视角转统一鸟瞰视角、增强空间理解)+ 多样文本任务。输出:直接控制量(高效但风险高)/ 轨迹预测(未来位置点序列,易集成、可解释、安全)。

SimLingo(CVPR 2025 Spotlight、CARLA Challenge 2024 冠军):纯视觉闭环自动驾驶(仅摄像头、无 LiDAR/Radar)、1B 参数。架构 InternViT-300M + Qwen2-0.5B → 路径路点(横向)+ 速度路点(纵向),LoRA 微调(只训练 2.72% 参数)。三任务协同:驾驶(输出路点)+ Commentary(自然语言描述驾驶行为、提可解释性)+ VQA(场景问答、增强语义)。

核心创新 Action Dreaming(语言-动作对齐):解决「模型嘴上说该左转、实际却直行」的语言-行为脱节——合成多样化指令 → 为每条指令生成对应理想轨迹 → 联合训练强制两者一致 → 用指令跟随成功率验证。效果:指令跟随成功率从 28.2% 提升到 72.9%。指标:ADE(平均位移误差)/ FDE(终点位移误差);开环评估(离线数据集比对、4GB 显存即可)vs 闭环评估(车在 CARLA 真实行驶、有反馈、需更多显存)。

6. NaVILA:足式视觉语言导航(实验课)

实验课主角 NaVILA(机器人顶会 RSS 收录),专为四足 / 人形等足式机器人打造的端到端视觉语言导航(VLN) 系统。

核心架构:高层视觉语言理解 + 底层运动控制 解耦——高层(VLA 模型 VILA)处理单视角图像 + 语言指令,生成自然语言形式的路径点指令(如「向前走 2 米然后左转」);底层(运动策略)把路径点转化为精准的关节运动、实时控制。这个「高层决策 + 底层执行」的解耦,正好对应能力栈「规划推理」与「控制执行」的分层——也是这门课从头到尾的主线:智能决策(高层)+ 精确控制(底层)

VILA 三模块:视觉编码器(图像 → 视觉词元)+ 投影层(下采样、映射到语言空间)+ LLM(视觉词元和文本词元一起自回归生成)。处理视频时按固定间隔均匀采样帧,借序列并行训练最多支持 1024 帧。

数据(亮点:从人类视频学导航):以 YouTube 上 2000 条第一人称巡游视频为起点,用熵采样处理成 20000 条导航轨迹;用 MASt3R 算法估计相机位姿提取分步动作,用 VLM 生成字幕 + LLM 重述优化,为每条轨迹生成自然语言导航指令。

关键突破:① 首次实现从人类日常巡游视频学习通用导航能力;② 零重训适配多款不同结构的足式机器人(跨 embodiment 泛化,呼应 POMDP 那个难点);③ 在强光、透明障碍物等纯视觉极易失效的极端场景仍稳定。

实验技术细节:仿真用 Habitat-Sim(渲染)+ Habitat-Lab(任务逻辑),3D 场景用 Matterport3D(MP3D),导航任务用 R2R_VLNCE 数据集,模型权重基于 Llama-3-8B。一个工程点:官方 transformers 库原本只支持单图,NaVILA 的创新在于处理连续 8 帧视频级画面,所以要打补丁强行修改底层注意力机制让它理解时空序列(把第 3 篇的序列处理用到了导航上)。

7. 全课收束

到这里,整门《智能控制与机器人》闭环了。用一句话串起全程:

控制问题的本质是让系统在不确定环境里达成目标。当对象简单,PID 足矣;当对象复杂到拿不到精确模型,就需要给控制器装「智能」——符号主义用规则(专家系统)、模糊逻辑用隶属度(模糊控制)、连接主义用数据(神经网络 / RNN / Transformer)、行为主义用试错(ILC / 强化学习),再加上感知(光流)这块眼睛。最终,这些能力在具身智能 / VLA 里合流——一个能「看(Vision)+ 听懂(Language)→ 行动(Action)」的端到端智能体,在 POMDP 描述的真实世界里,用「高层语言决策 + 底层运动控制」完成复杂任务。这就是导论那句话的归宿:具身智能,是一个广义的控制问题。

下一篇(也是最后一篇):给这套强大的智能体补上「最后的缰绳」——安全与伦理。

评论