Elastic3D

Paper：Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding，CVPR 2026

论文发现了什么问题？

为了解决以上问题，论文提出的方法如下：

论文是如何控制 3D 强弱的？

其中代表第一帧从Left到Right的视差图（每个像素代表偏移量）。代表中位数，用来衡量整段视频场景的基准视差。

然后将投影为 Token，注入到 U-Net 的空间注意力之中。

另外论文是如何改进VAE的？

其中代表像素处的特征向量，代表极线注意力机制（其实也就是在同一行找，限制一下注意力），代表解码器第层的特征，作为查询。代表从原始左视图中提取的特征图。

另外论文还将多部的去噪改为单步，提高了推理速度。

不同强度的控制效果：

#Video

Elastic3D

https://d4wnnn.github.io/2026/04/15/Notion/Elastic3D/

作者

D4wn

发布于

2026年4月15日

许可协议