ReDirector

Paper:ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

论文解决的核心问题:如何让 AI 完成视频补拍?

现有的视频补拍技术存在 3 个痛点:

  • 长度受限:不能处理长视频。
  • 几何畸变:剧烈运镜下,动态物体会漂移。
  • 对齐困难:难以在保留原相机质量的同时,精准遵循轨迹。
image.png

位置编码的修正

以往方法对输入和目标视频应用不同的位置编码,导致模型很难理解它们在物理空间上的对应关系。所以 ReDirector 提出对输入视频 和目标视频 应用完全共享的 3D RoPE。

论文提出了旋转相机编码 RoCE,通过 MLP 将相机参数 化为相位差

具体来说,论文首先根据相机参数 对每个像素计算得到 6 维的普吕克射线,然后再压缩成一个 Patch 的局部特征。然后再经过 MLP 映射得到额外相位。

几何感知注意力

在标准的 Transformer 注意力中, 决定注意力分配, 携带具体的信息。但是 还携带着原始相机的滤镜,因此需要首先对 进行逆旋转。

其中 是处理后的权重结果(修正后的位置编码)。


ReDirector
https://d4wnnn.github.io/2026/03/28/Notion/ReDirector/
作者
D4wn
发布于
2026年3月28日
许可协议