ReCamMaster

Paper:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

论文解决的核心问题:如何通过指定的相机轨迹,对一段视频进行重拍?比如修改运镜。

image.png

论文的核心框架如上。看图的最左侧,输入的 是原视频, 是目的视频,然后 是目标相机参数, 是目的 prompt。

论文将源视频和目标视频在帧维度上进行拼接, 是最终输入到 DiT 的序列。

然后将相机外参(去掉了相机内参,因为真实视频很难获取内参)通过线性编码器加到了空间注意力的输出上。

什么是相机外参?

也就是图里面的 是什么? 通常是指相机外参,而不是内参(焦距等,很难获得)。

具体定义是一个 的矩阵,由旋转矩阵 和和平移矩阵 决定。

这个参数 决定了相机如何旋转和平移。

什么是空间注意力?

视频生成模型通常处理的是 3D 数据(2D 的画面和 1D 的时间)。

空间注意力是指在同一帧画面内部找关系,而 3D/时间注意力是让模型跨越时间去对比。


ReCamMaster
https://d4wnnn.github.io/2026/03/17/Notion/ReCamMaster/
作者
D4wn
发布于
2026年3月17日
许可协议