2D转3D视频工作的一些指标

EasyStereo 里,我们提及了一些常见的指标,下面进行分析总结。

时空一致性指标

对于 3D 长视频生成,最难的部分是保持视频在播放时不闪烁且左右眼镜对齐。

  • Sub. Cons.:主体一致性。衡量人在不同帧之间或者左右视图之间是否保持一致。
  • Back. Cons.:背景一致性。衡量背景的稳定性。

上面两者的计算方式如下:

  • 使用分割模型比如 SAM 获得主体的 Mask 和背景的 Mask。
  • 使用 CLIP 提取特征向量。
  • 计算两帧(或者左右视图)的余弦相似度。

⭐Motion Smooth.:运动平滑度。衡量帧与帧之间的过渡是否自然,比如检测是否有闪烁。

其中 表示第 帧到第 帧的平均光流。公式本质是计算运动的加速度,如果加速度很大,说明物体不连贯。

什么是光流?光流是指由于目标对象或者相机的运动,导致图像序列中的像素点在连续两帧之间产生的瞬时速度。为了计算光流,需要满足两个核心假设:同一个点的亮度在不同时刻拍摄不变;相邻像素的运动是相似的。

⭐Aes. Qual.:美学质量(通常用训练好的评分模型)。

图像/视图重建质量

⭐SSIM:结构相似性。越高越好,更看重物体的轮廓、亮度和对比度。

计算公式如下:

其中 是衡量两张图片的平均亮度是否接近,通过像素均值计算。 衡量对比度,也就是图像中明暗变化的剧烈程度。 衡量结构,也就是物体的轮廓。

⭐MS-SSIM:多尺度 SSIM,在多个分辨率下对比。

⭐PSNR:峰值信噪比,越高越好,衡量像素级精度。

计算方式如下:

其中 是真值图, 是生成图, 是像素的最大可能值(比如 8-bit 图像为 255)。

⭐LPIPS:分越低说明人眼看起来越真实。

用训练好的卷积网络(比如 VGG)来衡量两张图的差异,计算特征图的距离。越低越好,如果人眼看来很像,则 LPIPS 也会很低。

⭐SIOU:立体交并比,衡量空间重叠度,越高越好。

一种计算方式如下:


2D转3D视频工作的一些指标
https://d4wnnn.github.io/2026/04/16/Notion/2D转3D视频工作的一些指标/
作者
D4wn
发布于
2026年4月16日
许可协议