Elastic3D

Paper:Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding,CVPR 2026

论文发现了什么问题?

  • 深度估计+平移的方法会在遮挡区域产生明显的空洞和畸变。
  • 端到端生成方法无法控制3D效果的强弱。
  • 由于LDM的VAE是有损压缩,所以在纹理方面处理的并不好。

为了解决以上问题,论文提出的方法如下:

image.png

论文是如何控制 3D 强弱的?

其中 代表第一帧从Left到Right的视差图(每个像素代表偏移量)。代表中位数,用来衡量整段视频场景的基准视差。

然后将 投影为 Token,注入到 U-Net 的空间注意力之中。

另外论文是如何改进VAE的?

其中 代表像素 处的特征向量,代表极线注意力机制(其实也就是在同一行找,限制一下注意力),代表解码器第 层的特征,作为查询。 代表从原始左视图中提取的特征图。

另外论文还将多部的去噪改为单步,提高了推理速度。

不同强度的控制效果:

image.png

Elastic3D
https://d4wnnn.github.io/2026/04/15/Notion/Elastic3D/
作者
D4wn
发布于
2026年4月15日
许可协议