Voyager

Paper：Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation，TOG，2025

论文解决了在利用单个图像进行长距离、可自由探索的3D场景视频生成时，存在的核心挑战：

论文框架如上。

首先模型的输出除了 RGB 图像外，还有深度图。将深度图和 RGB 图像进行反投影构建 3D 点云。

反投影：从 2D 图像到 3D 空间。

然后根据新视角的相机参数，通过渲染计算出当前视角下哪些地方是看得见的，哪些是看不见的：

因此核心逻辑是先建立几何底座，再进行像素生成。

然后论文将深度信息和 RGB 信息在通道维度进行拼接，利用 DiT 的全局注意力机制进行交互。

在上面的公式中，是当前是当前时刻包含噪声的潜空间特征，是渲染出来的参考图像的特征，是 Mask。然后是深度几何纠偏：

上面的是第层 Transformer 处理过程中的标准视频特征，是通过 Control Block 提取的几何辅助特征，是全零初始化的线性层（ControlNet），这个公式将几何信息注入到 DiT。

另外为了实现长距离、甚至理论上“无限”的场景探索，Voyager 还引入了如下的创新点：

随着新视频的生成，系统会增量将新帧的 RGB 和深度图反投影成 3D 点云，并存入世界缓存。为了缓解存储压力，对于已经存在的点，如果它于当前视角的表面法线夹角超过90（意味着不可见），就剔除这些点，缓解存储压力的同时能够避免多帧叠加带来的噪声积累。

为了避免视频闪烁，论文进行了平滑采样，也就是将上一个片段的生成结果作为噪声初始化的起点。然后：

#3D-Reconstruction #WorldModel

Voyager

https://d4wnnn.github.io/2026/04/22/Notion/Voyager/

作者

D4wn

发布于

2026年4月22日

许可协议