Fast-WAM

Paper：Fast-WAM: Do World Action Models Need Test-time Future Imagination?

这是一个新的研究领域：世界模型。

目前的世界动作模型（World Action Models，WAMs）通常遵循先想象再执行的范式，也就是先生成未来画面，再根据画面决定怎么动，但是存在两个问题：

世界动作模型存在如下几种范式：

因此论文提出 Fast-WAM，训练保留预测未来视频的任务，强迫模型学习物理世界的规律；但是在推理的时候，把预测未来的步骤去掉。

为了实现上述解耦，模型采用了 Mixture-of-Transformer（MoT）架构，包含一个视频 DiT 和一个动作 DiT。

论文使用 Flow Matching 作为训练目标，让模型学习如何从噪声中还原动作和视频。损失函数如下：

其中是动作损失，是预测未来视频，去掉会导致性能断崖式下降。

实验结果如下：

其中：

#WorldModel

Fast-WAM

https://d4wnnn.github.io/2026/04/18/Notion/Fast-WAM/

作者

D4wn

发布于

2026年4月18日

许可协议