StereoWorld

Paper:StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation,2025

这篇论文解决的还是 2D 视频如何重建成 3D 视频的问题。论文认为传统方法(深度估计+畸变填充)容易导致纹理扭曲,颜色漂移的问题。那么论文是怎么解决的呢?

把左右眼画面视作一个视频序列。我们先看论文的整体 Pipline 图:

image.png

首先把三张图通过 VAE 转换为潜空间表示:

  • 左视图
  • 右视图
  • 右视图的深度图

Diffusion 的输入是左视图的潜空间表示,前面共享了一些 DiT Blocks,在最后几层,分别预测两个目标:

  • 预测右视图。很显然,我们需要预测这个。
  • 预测右视图的深度图。注意这个只有在训练的时候才有,能够让模型理解深度边界,确保生成的物体有立体感。

那么论文的损失函数是如何定义的呢?

image.png

根据上图可以看到有3个。

什么是 RGB 重建损失?本质是一种回归损失,目的是让模型从噪声中预测还原 RGB 信息。

其中:

  • :扩散过程中的噪声状态 。
  • :模型预测的“速度场”(即模型认为像素应该往哪个方向变化) 。
  • :真实的演化路径(即从噪声到真实画面的正确方向) 。

同理,预测深度图的损失为:

但是论文认为还是不够,还引入了视差的 Loss:

视差整体的 Loss 可以分成两部分。

  • :像素级别的精准约束。
    • ,里面的两个符号一个是真实的视差值,一个是预测的视差值。
    • 确保每个物体的位移是精准的。
  • :全局的几何一致性。
    • ,其中
    • 并不关注单个像素的对错,而是关注整幅画的结构。
  • :权重调节器。

StereoWorld
https://d4wnnn.github.io/2026/03/15/Notion/StereoWorld/
作者
D4wn
发布于
2026年3月15日
许可协议