Paper：TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models，ICCV 2025 Oral

核心问题：如何从单目视频（普通单镜头拍摄的视频）中，精准控制并重定向相机的运动轨迹，生成高保真且时空连续的4D新视角视频。

核心创新点

创新点一：解耦控制，用动态点云把“几何轨迹”定死

有点类似 Voyager。

单目提深度：先用单目深度估计模型（如 DepthCrafter）把输入视频算出一套连续的深度图。
升维成点云：利用逆透视投影公式，把 2D 视频画面“反推”到 3D 空间，变成动态点云：

(通俗理解：把平面的像素根据深度，在三维空间里摆成一个立体的点组成的模型 )。
渲染新视角：根据用户指定的任意相机轨迹，把点云投影渲染回 2D，得到新视角的视频条件：

(通俗理解：直接在 3D 空间里移动虚拟摄像机去拍这个点云模型。虽然因为遮挡会有很多黑洞、拉伸，但它的透视关系、运动轨迹是 100% 绝对精准的 )。

光有带洞的投影图还不够，得用 Diffusion 模型把洞补上，并恢复画质。如果直接把原视频和带洞的图拼接给网络，网络会因为“画面对不齐”而混乱。于是论文设计了 Ref-DiT（Reference-conditioned Diffusion Transformer）块 ：

View Stream（视角流）：把带洞的新视角投影图作为主输入（View Tokens），用来死死卡住相机的轨迹。
Reference Stream（参考流）：把高清的原视频 编码为参考特征（Reference Tokens）。
交叉注意力融合（Cross-Attention）：在 Ref-DiT 模块内部，以视角流为 Query，参考流为 Key 和 Value 进行注意力计算。

既然找不到那么多“动态多视角视频”来训练，怎么教会网络去补洞和迁移纹理呢？论文提出一个非常聪明的自监督套路：

#Video

TrajectoryCrafter

https://d4wnnn.github.io/2026/05/27/Notion/TrajectoryCrafter/

作者

D4wn

发布于

2026年5月27日

许可协议