EasyStereo
Paper:EasyStereo: Monocular-to-Stereo Synthesis via Video Diffusion Transformer
理解位置编码
论文提出了对极旋转位置编码 Epipolar-RoPE,要想理解首先要理解 3D-RoPE 位置编码。然后还需要理解 RoPE 与复数的关系。公式如下(稍等再解释):
对于 3D-RoPE 的理解
3D-RoPE 是从 1D-RoPE 演化而来的,后者处理的往往是 NLP 序列,而前者则处理视频等 3 维数据。其实演进很简单,就是将最后的特征向量切分成 3 份,每一份分别代表长宽和时间,也就是有3份位置编码。
比如总维度
:占用 4 个维度(索引 0, 1, 2, 3)。 :占用中间 4 个维度(索引 4, 5, 6, 7)。 :占用最后 4 个维度(索引 8, 9, 10, 11)。
然后计算频率
上面公式里的
RoPE 与复数的理解
对于 RoPE 里面的一对特征,我们想要旋转,于是有:
其实这个形式与复数很像,定义:
那么旋转就变成:
因为:
可以看到 RoPE 的旋转可以看作在复平面真实的旋转。
对极旋转位置编码 Epipolar-RoPE
现在我们继续回到论文提出的编码公式:
上面的
论文用复数形式进行了表达,方便更好理解:
其中
强度控制
什么是普吕克坐标?
在 3D 空间中,一条直线可以由两个向量唯一确定:
- 方向向量
,表示光线指向哪里。 - 力矩向量
,表示这条线在空间中的位置。
普吕克坐标将这两个向量拼接成一个 6 维向量。
论文为了能够自由调节 3D 效果的强弱,引入了普吕克坐标。
我们知道,视差公式定义如下:
其中
设图像中心的点坐标为
论文通过下面的公式将像素坐标投影到3D空间:
则光线方向为:
实现细节
数据集:使用 UE5 构建二十万对高质量立体视频。
Benchmark:Stereo4D-Parallel 和 Apple-Converged (Apple Vision Pro)
基础模型:1.3B 的 Wan 模型
两阶段微调:
- 阶段1:在 Stereo4D 数据集上训练 5000 次。
- 阶段2:在自建的 UE5 数据集进行 5000次迭代。
定量评估:
表格2 进行了定量分析。
指标介绍:
- SSIM:结构相似性。越高越好,更看重物体的轮廓、亮度和对比度。
- MS-SSIM:多尺度 SSIM,在多个分辨率下对比。
- PSNR:峰值信噪比,越高越好,衡量像素级精度。
- LPIPS:分越低说明人眼看起来越真实。
- SIOU:立体交并比,衡量空间重叠度,越高越好。
Table 3 和 Table 4 进行了生成视频质量稳定性的测评:
Vbench 是评估生成视频质量的 Benchmark,从多个维度量化视频的生成表现。
主要有四个指标:
- Subject Consistency:主体一致性,视频的主要对象在移动过程中特征是否一致。
- Background Consistency:背景一致性,评估视频背景在相机移动时是否稳定。
- Aesthetic Quality:美学质量,从人类的视觉感知出发,评估画面的色彩饱和度、构图等。
- Motion Smoothness:运动平滑度,评估帧与帧之间的动作衔接是否自然。
上图的 Table 3 主要用于长视频序列,而 Table 4 则是标准时长(81 帧)。