Eye2Eye

Paper：Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis

传统方法往往采用深度估计+平移+图像修复的流水线，但是这些方法往往假设像素只有单一的深度值。但是当场景中存在透明物体或者镜面反射，一个像素点实际上融合了不和深度的信息，比如：

传统方法在这种情况下会产生严重的伪影，导致 3D 效果失真。

因此论文放弃了显示的几何估计，直接用预训练的视频扩散模型的先验知识来合成新视角。

论文的方法如上，为了解决训练分辨率和推理分辨率的矛盾，论文首先从低分辨率下训练（画一个草图），确定左右眼的位移比例。然后对低分辨率图片上采样并加入噪声，在高清局部切片上训练的精炼模型去去噪。

然后模型在 Stereo4D 数据集上微调，利用模型的隐式先验来处理复杂的非朗伯体（Non-Lambertian）光效。

什么是郎伯体？就是从任何角度观察，物体的亮度都一样，比如白纸。

论文使用的模型是什么？

二者都是基于 Lumiere

效果如下：

#StereoVideo #Video #Diffusion

Eye2Eye

https://d4wnnn.github.io/2026/04/15/Notion/Eye2Eye/

作者

D4wn

发布于

2026年4月15日

许可协议