EasyStereo

Paper:EasyStereo: Monocular-to-Stereo Synthesis via Video Diffusion Transformer

理解位置编码

论文提出了对极旋转位置编码 Epipolar-RoPE,要想理解首先要理解 3D-RoPE 位置编码。然后还需要理解 RoPE 与复数的关系。公式如下(稍等再解释):

对于 3D-RoPE 的理解

3D-RoPE 是从 1D-RoPE 演化而来的,后者处理的往往是 NLP 序列,而前者则处理视频等 3 维数据。其实演进很简单,就是将最后的特征向量切分成 3 份,每一份分别代表长宽和时间,也就是有3份位置编码。

比如总维度 最常见的就是均分维度

  • :占用 4 个维度(索引 0, 1, 2, 3)。
  • :占用中间 4 个维度(索引 4, 5, 6, 7)。
  • :占用最后 4 个维度(索引 8, 9, 10, 11)。

然后计算频率

上面公式里的 代表特征维度对的索引(因为 RoPE 是成对编码)。

RoPE 与复数的理解

对于 RoPE 里面的一对特征,我们想要旋转,于是有:

其实这个形式与复数很像,定义:

那么旋转就变成:

因为:

可以看到 RoPE 的旋转可以看作在复平面真实的旋转。

对极旋转位置编码 Epipolar-RoPE

现在我们继续回到论文提出的编码公式:

上面的 是行号索引,代表像素在垂直位置上的位置, 是一组预设的频率,而 就是最终的旋转角度。因为论文提出一个关键直觉:左右眼的对应点必须在同一行。因此同一行的 是相同的,因此计算注意力时都会同时多转一个相同的角度,相似度得分会加到最高。

论文用复数形式进行了表达,方便更好理解:

其中 是 RoPE 的基准频率, 是由相机参数学习来的相位, 就是上面提到的对极几何相位。

强度控制

什么是普吕克坐标?

在 3D 空间中,一条直线可以由两个向量唯一确定:

  • 方向向量 ,表示光线指向哪里。
  • 力矩向量 ,表示这条线在空间中的位置。

普吕克坐标将这两个向量拼接成一个 6 维向量。

论文为了能够自由调节 3D 效果的强弱,引入了普吕克坐标。

我们知道,视差公式定义如下:

其中 代表视差,是指同一个点在左眼图像和右眼图像的水平像素位移量。 代表焦距, 为用户控制的缩放因子, 为预设的标准相机间距, 为深度,场景中的点到相机平面的物理距离。

设图像中心的点坐标为 ,则某个坐标为 的点到中心点的偏移为:

论文通过下面的公式将像素坐标投影到3D空间:

则光线方向为:

实现细节

数据集:使用 UE5 构建二十万对高质量立体视频。

Benchmark:Stereo4D-Parallel 和 Apple-Converged (Apple Vision Pro)

基础模型:1.3B 的 Wan 模型

两阶段微调:

  • 阶段1:在 Stereo4D 数据集上训练 5000 次。
  • 阶段2:在自建的 UE5 数据集进行 5000次迭代。

定量评估:

image.png

表格2 进行了定量分析。

指标介绍:

  • SSIM:结构相似性。越高越好,更看重物体的轮廓、亮度和对比度。
  • MS-SSIM:多尺度 SSIM,在多个分辨率下对比。
  • PSNR:峰值信噪比,越高越好,衡量像素级精度。
  • LPIPS:分越低说明人眼看起来越真实。
  • SIOU:立体交并比,衡量空间重叠度,越高越好。

Table 3 和 Table 4 进行了生成视频质量稳定性的测评:

image.png
image.png

Vbench 是评估生成视频质量的 Benchmark,从多个维度量化视频的生成表现。

主要有四个指标:

  • Subject Consistency:主体一致性,视频的主要对象在移动过程中特征是否一致。
  • Background Consistency:背景一致性,评估视频背景在相机移动时是否稳定。
  • Aesthetic Quality:美学质量,从人类的视觉感知出发,评估画面的色彩饱和度、构图等。
  • Motion Smoothness:运动平滑度,评估帧与帧之间的动作衔接是否自然。

上图的 Table 3 主要用于长视频序列,而 Table 4 则是标准时长(81 帧)。


EasyStereo
https://d4wnnn.github.io/2026/03/26/Notion/EasyStereo/
作者
D4wn
发布于
2026年3月26日
许可协议