ViewCrafter

Paper：ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis，TPAMI 2025

论文解决的核心问题是：输入一张图和相应的轨迹，生成一个视频。

创新点1：点云条件视频扩散模型

同样是类似 Voyager 和 TrajectoryCrafter，根据单张图片和轨迹得到点云后投影成视频，作为结构条件约束模型。

创新点2：自适应相机轨迹规划与迭代视角合成

扩散模型生成长视频极度消耗显存且容易崩塌。为了能看更多、更远的视角，论文设计了“走一步，看一步，补一步”的迭代策略。

它没有使用死板的预设轨迹，而是提出了一个“下一步最佳视角（Next-Best-View）”的规划算法。相机会自动去探测当前点云里哪里“缺失严重/有盲区”，就往哪里移动。生成新视角的视频后，再把这些新画面反向投影回全局点云里，把原有的点云“越滚越大、越补越全” 。

相机如何挑下一步？

通俗拆解：是在视角下渲染点云得到的掩码（1表示盲区/破洞，0表示已知区域），是设定的阈值（论文中为 0.6）。这个分数的逻辑是：既要倾向于探索盲区大的视角（把盲区补上），又要避免步子迈得太大（盲区比例超过 导致画面崩坏），从而实现自适应的最优轨迹寻找 。

#Video

ViewCrafter

https://d4wnnn.github.io/2026/05/27/Notion/ViewCrafter/

作者

D4wn

发布于

2026年5月27日

许可协议