LingBot-VA

Paper：Causal World Modeling for Robot Control

传统的 VLA 模型普遍采用端到端的范式（直接从观测映射到动作），这种做法存在表征纠缠问题，模型被迫在同一个神经网络中学习复杂的视觉理解，物理规律和电机控制，导致以下瓶颈：

论文没有将视频和动作分开处理，而是直接当作一个统一的序列。

论文采用 Mixture of Transformers 双流架构分别建模视觉特征和动作特征，并通过跨模态注意力进行融合。

优化公式：

其中代表预测下一时刻的视觉变化，代表根据预测的视觉变化反推需要的动作。

在机器人控制中，为了保证实时性，模型通常需要预测未来一段轨迹的动作或视觉状态。

分块生成主要是为了在“生成质量”和“计算效率”之间寻找平衡点。

整体的 Pipeline 如下：

#VLA

LingBot-VA

https://d4wnnn.github.io/2026/04/25/Notion/LingBot-VA/

作者

D4wn

发布于

2026年4月25日

许可协议