Paper：EasyStereo: Monocular-to-Stereo Synthesis via Video Diffusion Transformer

理解位置编码

论文提出了对极旋转位置编码 Epipolar-RoPE，要想理解首先要理解 3D-RoPE 位置编码。然后还需要理解 RoPE 与复数的关系。公式如下(稍等再解释)：

对于 3D-RoPE 的理解

3D-RoPE 是从 1D-RoPE 演化而来的，后者处理的往往是 NLP 序列，而前者则处理视频等 3 维数据。其实演进很简单，就是将最后的特征向量切分成 3 份，每一份分别代表长宽和时间，也就是有3份位置编码。

比如总维度，最常见的就是均分维度：

：占用 4 个维度（索引 0, 1, 2, 3）。
：占用中间 4 个维度（索引 4, 5, 6, 7）。
：占用最后 4 个维度（索引 8, 9, 10, 11）。

然后计算频率：

上面公式里的代表特征维度对的索引（因为 RoPE 是成对编码）。

RoPE 与复数的理解

对于 RoPE 里面的一对特征，我们想要旋转，于是有：

其实这个形式与复数很像，定义：

那么旋转就变成：

因为：

可以看到 RoPE 的旋转可以看作在复平面真实的旋转。

对极旋转位置编码 Epipolar-RoPE

现在我们继续回到论文提出的编码公式：

上面的是行号索引，代表像素在垂直位置上的位置， 是一组预设的频率，而就是最终的旋转角度。因为论文提出一个关键直觉：左右眼的对应点必须在同一行。因此同一行的是相同的，因此计算注意力时都会同时多转一个相同的角度，相似度得分会加到最高。

论文用复数形式进行了表达，方便更好理解：

其中是 RoPE 的基准频率，是由相机参数学习来的相位，就是上面提到的对极几何相位。

强度控制

什么是普吕克坐标？

在 3D 空间中，一条直线可以由两个向量唯一确定：

方向向量，表示光线指向哪里。
力矩向量，表示这条线在空间中的位置。

普吕克坐标将这两个向量拼接成一个 6 维向量。

论文为了能够自由调节 3D 效果的强弱，引入了普吕克坐标。

我们知道，视差公式定义如下：

其中代表视差，是指同一个点在左眼图像和右眼图像的水平像素位移量。代表焦距，为用户控制的缩放因子，为预设的标准相机间距，为深度，场景中的点到相机平面的物理距离。

设图像中心的点坐标为，则某个坐标为的点到中心点的偏移为：

$水平偏移垂直偏移$

论文通过下面的公式将像素坐标投影到3D空间：

则光线方向为：

实现细节

数据集：使用 UE5 构建二十万对高质量立体视频。

Benchmark：Stereo4D-Parallel 和 Apple-Converged (Apple Vision Pro)

基础模型：1.3B 的 Wan 模型

两阶段微调：

阶段1：在 Stereo4D 数据集上训练 5000 次。
阶段2：在自建的 UE5 数据集进行 5000次迭代。

定量评估：

表格2 进行了定量分析。

指标介绍：

SSIM：结构相似性。越高越好，更看重物体的轮廓、亮度和对比度。
MS-SSIM：多尺度 SSIM，在多个分辨率下对比。
PSNR：峰值信噪比，越高越好，衡量像素级精度。
LPIPS：分越低说明人眼看起来越真实。
SIOU：立体交并比，衡量空间重叠度，越高越好。

Table 3 和 Table 4 进行了生成视频质量稳定性的测评：

Vbench 是评估生成视频质量的 Benchmark，从多个维度量化视频的生成表现。

主要有四个指标：

Subject Consistency：主体一致性，视频的主要对象在移动过程中特征是否一致。
Background Consistency：背景一致性，评估视频背景在相机移动时是否稳定。
Aesthetic Quality：美学质量，从人类的视觉感知出发，评估画面的色彩饱和度、构图等。
Motion Smoothness：运动平滑度，评估帧与帧之间的动作衔接是否自然。

上图的 Table 3 主要用于长视频序列，而 Table 4 则是标准时长（81 帧）。

#StereoVideo

EasyStereo

https://d4wnnn.github.io/2026/03/26/Notion/EasyStereo/

作者

D4wn

发布于

2026年3月26日

许可协议

StereoPilot 上一篇

周记—20260325 下一篇