Beyond Geometry

Paper:Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

image.png

模型解决的核心问题:

  • 现在的深度估计算法往往用来还原物理世界的真实距离,但是在电影里,深度是用来讲故事的。比如有的镜头是导演故意设计的,但是会误判为噪声。

为了同时模拟导演对宏观和微观的把控,将视差建模为:

其中 是从现有模型获得的初始深度, 是像素索引, 是局部缩放, 是局部平移, 是全局缩放,控制场景是扁平还是深邃; 是全局平移,控制整个场景向观众飞来还是陷进去。

然后 StereoNet 输入左右视图的视频后,得到输出的深度 和有效像素掩码

Lang SAM 根据文本提示,例如:

  • Non-human out-of-screen object”(非人类的出窗物体,例如飞来的石块或箭镞) 。
  • “Foreground character pop-out”(前景角色弹出,用于强调主角的立体感) 。

得到需要特殊注意的掩码

然后计算剩下的作为背景全局掩码

论文最后的损失函数如下:

第一部分是艺术合成损失:

背景和突出物体分别计算损失,然后再加一个全局正则损失

第二部分是几何一致性损失:

包含平滑度损失和左右一致性损失。

StereoNet 是什么?

用于生成深度图,和 DepthNet 不同,它的输入是双目。

对比维度 StereoNet (谷歌, ECCV 2018) DepthNet (有多个版本)
📥 输入数据 双目图像 (左图 + 右图) 单目图像 (一张图) 或视频序列
⚙️ 核心原理 几何匹配寻找左右图对应点,通过三角测量计算深度 深度猜测通过网络学习从二维图像到三维深度的映射关系
🎯 核心优势 高精度、绝对尺度通过已知的“双目基线”距离,能得到真实的物理深度 成本低、适用广只需要一个普通摄像头,适用性更强
⏱️ 速度 极快 (可达 60 FPS)专为实时应用设计 相对较慢,取决于具体网络设计
🏠 应用场景 自动驾驶、机器人、AR/VR对精度和实时性要求高,且能搭载双目相机的场景 手机拍照、无人机、3D建模硬件受限或只有一个摄像头的场景

Beyond Geometry
https://d4wnnn.github.io/2026/04/12/Notion/Beyond Geometry/
作者
D4wn
发布于
2026年4月12日
许可协议