ViewCrafter

Paper:ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis,TPAMI 2025

论文解决的核心问题是:输入一张图和相应的轨迹,生成一个视频。

image.png

创新点1:点云条件视频扩散模型

同样是类似 Voyager 和 TrajectoryCrafter,根据单张图片和轨迹得到点云后投影成视频,作为结构条件约束模型。

创新点2:自适应相机轨迹规划与迭代视角合成

扩散模型生成长视频极度消耗显存且容易崩塌 。为了能看更多、更远的视角,论文设计了“走一步,看一步,补一步”的迭代策略 。

它没有使用死板的预设轨迹,而是提出了一个“下一步最佳视角(Next-Best-View)”的规划算法 。相机会自动去探测当前点云里哪里“缺失严重/有盲区”,就往哪里移动 。生成新视角的视频后,再把这些新画面反向投影回全局点云里,把原有的点云“越滚越大、越补越全” 。

相机如何挑下一步?

通俗拆解: 是在视角 下渲染点云得到的掩码(1表示盲区/破洞,0表示已知区域), 是设定的阈值(论文中为 0.6) 。这个分数的逻辑是:既要倾向于探索盲区大的视角(把盲区补上),又要避免步子迈得太大(盲区比例超过 导致画面崩坏),从而实现自适应的最优轨迹寻找


ViewCrafter
https://d4wnnn.github.io/2026/05/27/Notion/ViewCrafter/
作者
D4wn
发布于
2026年5月27日
许可协议