World Model 可以分成哪些？

如果是按照状态表示划分的话，我觉得可以分成三种：

pixel or video：比如 Sora，Kling，WoW，Cosmos
3D 显式表达：比如 3D-VLA
latent token：比如 Genie 1/2/3

如果是按照生成方式的话，我也觉得可以分成三种：

自回归的
Diffusion or Flow Matching
混合的

Kling-Omni

输入：文本、图片、视频

输出：视频

接收多模态输入，然后 LLM 进行 Prompt 增强，Diffusion Transformer 接收增强特征和原始多模态 Token，在共享的 Embedding 空间内进行跨模态交互，生成视频。

Genie

DeepMind 提出，技术路线是自回归，世界状态是 latent token。

输入：图像 + 离散动作

输出：下一帧

模型的技术路线是自回归的。首先训练一个 Video Tokenizer（基于VQ-VAE）。然后第二阶段冻结 Tokenizer，潜在动作模型LAM 提取动作（观察前后两帧），然后输出动作。然后一个 Decoder 接收历史的 video tokens 以及历史的动作 embeddings （用加性 embedding 融入），预测下一时间步的。

WoW

技术路线是 Diffusion，世界状态是 pixel。

输入：图像 + Prompt

输出：未来帧 + Action（机器人的 7 自由度动作序列，7-DoF）

这个一般用在 VLA 领域，首先输入一个图像，然后生成未来预测帧。引入 VLM 来审查这段视频，给出 Reward，让大模型去修改 Prompt，直到画面符合物理逻辑。最后根据预测视频帧提取动作序列（FM-IDM）。

另外，FM-IDM这个逆动力学模块是单独训练的，用 SAM 处理当前帧得到机械臂的 Mask，然后用 CoTracker3 提取两帧之间的光流，捕获精细的动作动态。然后将上述特征拼接一个 DINO，送入 MLP 预测 7自由度的动作特征。

什么是光流？

视频相邻帧之间，像素级别的运动偏移量，本质上是一个记录了每个像素运动方向和距离的 2D 向量场。

VLA 的范式一般是什么？是论文这样吗？

一般的 VLA 是输入图像+Prompt，直接输出动作序列。但是这里是先生成未来帧，再通过逆动力学生成动作序列。

🎉目前最主流的 VLA 是自回归的（OpenVLA），先把机械臂动作离散化，变成 Token，然后根据前面的图像和文本，自回归的生成动作序列。

优点：完美复用 LLM 的框架和基座，常识推理极强。
缺点：机械臂的动作是连续的，离散成 Token 会丢失精度，不够平滑，且容易累积误差。

🎉另一条范式是基于 Diffusion 架构（比如 Diffusion Policy）。

优点：动作很丝滑。能处理多峰分布，比如桌子中间一个水杯，机器人可以从左边也可以从右边过去，自回归容易把轨迹平均，直接撞上水杯，而 Diffusion 能完美塌陷到其中一条正确的路径上。
缺点：推理很慢。

JEPA

Paper：Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

技术路线不是自回归也不是 Diffusion，更像是一个基础模型。

从一个图像块随机挖掉几个比较大的区块作为目标，把剩下部分作为上下文，喂给编码器。然后把这个 latent feature 和目标的位置信息给一个 predictor，得到目标的 latent feature，计算 l2损失。

既然不使用对比学习的负样本，I-JEPA 是如何避免特征坍缩的？

I-JEPA 采用了非对称架构来避免坍缩。具体来说，它的目标 Encoder 不是通过梯度下降优化的，而是由上下文编码器 Encoder 的指数移动平均（EMA）来更新。

V-JEPA

Paper：Revisiting Feature Prediction for Learning Visual Representations from Video

类似 I-JEAP。仍然缺乏交互和动作条件。

V-JEPA 和 VideoMAE 的本质区别是什么？

VideoMAE是像素级重建，会浪费算力在高频细节，而V-JEPA是潜空间预测。

V-JEPA 2

paper：V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

首先在预训练阶段：

参考 V-JEPA，得到视频的编码器。

然后在后训练阶段：

冻结编码器，引入机器人的状态，预测未来帧的 latent token。

UniVideo

可灵团队。

将多模态 LLM 和多模态 DiT 结合起来。

也就是首先完全冻结 DiT 和 MLLM，只训练 MLP。

然后依然冻结 MLLM，联合训练 MLP 和 DiT。然后多任务训练。

MovieGen

如何过滤清洗数据？

Visual Filtering：
- 分辨率限制：去掉宽或高小于 720 px 的低清视频。
- 长宽比平衡：保持 60%的横屏数据和40%的竖屏数据。
- 文字移除：利用视频OCR移除掉包含过多水印，外挂字幕或者嵌入文本的视频。
- 镜头转场切分：原始视频在4s~2min不等，使用 FFmpeg 进行场景边界检测，找出其中大于16s的连续单镜头，随机截取一段4s~16s的视频片段。
- 美学打分：剔除掉严重压缩或者模糊的视频。
- 黑边检测：去掉有黑边的是屁。
Motion Filtering：
- 去掉纯静态的或者超慢动作。
- 去掉抖动的。
- 去掉纯后期特效的视频。
Content Filtering：
- 去重。
- 对视频聚类并重采样。
Captioning：
- 使用微调过的 LLaMa3-Video 为每个视频生成 Caption（100 words左右）。
- 额外训练了一个镜头运动分类器，能够自动识别出 zoom-in（放大）、pan-left（左摇）、tracking shot（跟镜头）等 16 种电影运镜级别。识别出高置信度的运镜后，会将该词作为前缀（Prefix）强制拼接到 LLaMa3 生成的 Caption 最前面。