Paper：ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

论文解决的核心问题：如何通过指定的相机轨迹，对一段视频进行重拍？比如修改运镜。

论文的核心框架如上。看图的最左侧，输入的是原视频，是目的视频，然后是目标相机参数，是目的 prompt。

论文将源视频和目标视频在帧维度上进行拼接，是最终输入到 DiT 的序列。

然后将相机外参（去掉了相机内参，因为真实视频很难获取内参）通过线性编码器加到了空间注意力的输出上。

什么是相机外参？

也就是图里面的是什么？通常是指相机外参，而不是内参（焦距等，很难获得）。

具体定义是一个的矩阵，由旋转矩阵和和平移矩阵决定。

这个参数决定了相机如何旋转和平移。

什么是空间注意力？

视频生成模型通常处理的是 3D 数据（2D 的画面和 1D 的时间）。

空间注意力是指在同一帧画面内部找关系，而 3D/时间注意力是让模型跨越时间去对比。

#Diffusion #StereoVideo #Video

ReCamMaster

https://d4wnnn.github.io/2026/03/17/Notion/ReCamMaster/

作者

D4wn

发布于

2026年3月17日

许可协议