2D转3D视频工作的一些指标
在 EasyStereo 里,我们提及了一些常见的指标,下面进行分析总结。
时空一致性指标
对于 3D 长视频生成,最难的部分是保持视频在播放时不闪烁且左右眼镜对齐。
- Sub. Cons.:主体一致性。衡量人在不同帧之间或者左右视图之间是否保持一致。
- Back. Cons.:背景一致性。衡量背景的稳定性。
上面两者的计算方式如下:
- 使用分割模型比如 SAM 获得主体的 Mask 和背景的 Mask。
- 使用 CLIP 提取特征向量。
- 计算两帧(或者左右视图)的余弦相似度。
⭐Motion Smooth.:运动平滑度。衡量帧与帧之间的过渡是否自然,比如检测是否有闪烁。
其中
什么是光流?光流是指由于目标对象或者相机的运动,导致图像序列中的像素点在连续两帧之间产生的瞬时速度。为了计算光流,需要满足两个核心假设:同一个点的亮度在不同时刻拍摄不变;相邻像素的运动是相似的。
⭐Aes. Qual.:美学质量(通常用训练好的评分模型)。
图像/视图重建质量
⭐SSIM:结构相似性。越高越好,更看重物体的轮廓、亮度和对比度。
计算公式如下:
其中
⭐MS-SSIM:多尺度 SSIM,在多个分辨率下对比。
⭐PSNR:峰值信噪比,越高越好,衡量像素级精度。
计算方式如下:
其中
⭐LPIPS:分越低说明人眼看起来越真实。
用训练好的卷积网络(比如 VGG)来衡量两张图的差异,计算特征图的
⭐SIOU:立体交并比,衡量空间重叠度,越高越好。
一种计算方式如下:
2D转3D视频工作的一些指标
https://d4wnnn.github.io/2026/04/16/Notion/2D转3D视频工作的一些指标/