LingBot-VA

Paper:Causal World Modeling for Robot Control

传统的 VLA 模型普遍采用端到端的范式(直接从观测映射到动作),这种做法存在表征纠缠问题,模型被迫在同一个神经网络中学习复杂的视觉理解,物理规律和电机控制,导致以下瓶颈:

  • 样本效率低:缺乏对环境演化和物理规律的显式建模。
  • 长程任务失效:容易丢失记忆。
  • 因果关系混乱:现有的分块生成方法往往采用双向注意力,违背了物理世界现在仅取决于过去的因果时序。

论文没有将视频和动作分开处理,而是直接当作一个统一的序列。

image.png

论文采用 Mixture of Transformers 双流架构分别建模视觉特征和动作特征,并通过跨模态注意力进行融合。

优化公式:

其中 代表预测下一时刻的视觉变化,代表根据预测的视觉变化反推需要的动作

在机器人控制中,为了保证实时性,模型通常需要预测未来一段轨迹的动作或视觉状态。

  • 如果“逐帧生成”:模型每预测一个动作,就需要运行一次完整的神经网络计算。对于复杂的视觉模型,这会产生巨大的计算压力,导致机器人反应迟钝 。
  • “分块生成”策略:模型不再是一次只预测一个时间点的动作,而是一次性预测未来 个时间点的视频或动作序列 。这 个数据点被统称为一个“块(Chunk)” 。

分块生成主要是为了在“生成质量”和“计算效率”之间寻找平衡点。

整体的 Pipeline 如下:

image.png

LingBot-VA
https://d4wnnn.github.io/2026/04/25/Notion/LingBot-VA/
作者
D4wn
发布于
2026年4月25日
许可协议