ImageWAM

Paper：ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

传统的世界动作模型 WAM 通常依赖视频生成来让机器人“先思考再行动”——即先预测未来的多帧视频，再根据视频推导动作。但作者指出，这种视频基础的 WAMs 存在三个痛点：

那么论文是怎么解决的呢？

意思是说，一共 N 层 Layer，每层有两部分：

Image Editing Backbone（Freeze）
- Text Token
- Image Token
- Noise Target Image Token
Action Expert
- State Token
- Noise Target Action Token

然后将这两部分的 Token 拼接，做一次 Self Attention，然后拆开，各自做 FFN。

然后

#World Model

ImageWAM

https://d4wnnn.github.io/2026/06/19/Notion/ImageWAM/

作者

D4wn

发布于

2026年6月19日

许可协议