Paper：ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

论文解决的核心问题：如何让 AI 完成视频补拍？

现有的视频补拍技术存在 3 个痛点：

位置编码的修正

以往方法对输入和目标视频应用不同的位置编码，导致模型很难理解它们在物理空间上的对应关系。所以 ReDirector 提出对输入视频和目标视频应用完全共享的 3D RoPE。

论文提出了旋转相机编码 RoCE，通过 MLP 将相机参数化为相位差。

具体来说，论文首先根据相机参数对每个像素计算得到 6 维的普吕克射线，然后再压缩成一个 Patch 的局部特征。然后再经过 MLP 映射得到额外相位。

几何感知注意力

在标准的 Transformer 注意力中，和决定注意力分配，携带具体的信息。但是还携带着原始相机的滤镜，因此需要首先对进行逆旋转。

其中是处理后的权重结果（修正后的位置编码）。

#Diffusion #StereoVideo #Video

ReDirector

https://d4wnnn.github.io/2026/03/28/Notion/ReDirector/

作者

D4wn

发布于

2026年3月28日

许可协议