Eye2Eye

Paper:Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis

传统方法往往采用深度估计+平移+图像修复的流水线,但是这些方法往往假设像素只有单一的深度值。但是当场景中存在透明物体或者镜面反射,一个像素点实际上融合了不和深度的信息,比如:

  • 玻璃表面的深度
  • 玻璃中倒影的虚像深度

传统方法在这种情况下会产生严重的伪影,导致 3D 效果失真。

因此论文放弃了显示的几何估计,直接用预训练的视频扩散模型的先验知识来合成新视角。

image.png

论文的方法如上,为了解决训练分辨率和推理分辨率的矛盾,论文首先从低分辨率下训练(画一个草图),确定左右眼的位移比例。然后对低分辨率图片上采样并加入噪声,在高清局部切片上训练的精炼模型去去噪。

然后模型在 Stereo4D 数据集上微调,利用模型的隐式先验来处理复杂的非朗伯体(Non-Lambertian)光效。

什么是郎伯体?就是从任何角度观察,物体的亮度都一样,比如白纸。

论文使用的模型是什么?

  • Base Eye2Eye Generator
  • Eye2Eye Refiner

二者都是基于 Lumiere

效果如下:

image.png

Eye2Eye
https://d4wnnn.github.io/2026/04/15/Notion/Eye2Eye/
作者
D4wn
发布于
2026年4月15日
许可协议