PRoPE
Paper:Cameras as Relative Positional Encoding,NeurIPS 2025
Transformer模型需要知道每张照片是从什么角度、用什么相机拍的(即相机几何结构) 。
过去主流的做法有两种,但都存在致命缺陷:
- 绝对编码(如 Raymaps 光线图):给每个图像 Token 强行拼接一个绝对三维坐标下的光线方向 。这就像非要用“经纬度”来记路,一旦换个世界坐标系模型就懵了,泛化能力极差 。
- 常规相对编码(如 CaPE, GTA):虽然改用相对位置解脱了坐标系束缚,但它们只考虑了相机的外参(旋转和平移),完全忽略了相机的内参(如焦距、缩放等) 。一旦测试时相机拉近焦距,模型就会崩溃 。
本论文解决的核心问题是:如何设计一种既具备全局坐标系不变性,又能同时完美捕捉相机“内参”和“外参”的相对位置编码机制?
核心方法:用矩阵乘法直接融合成套的内外参。
传统的相对位姿只管
什么是
变换?就是指刚体在三维空间中的所有“位置”和“姿态”的变化。刚体变换,是指物体在运动过程中,其内部任意两点之间的距离都不会发生改变(即物体不会被拉伸、挤压或扭曲)。
上面的公式有点难以理解,可以从右往左看:
这一步相当于“摘掉相机 2 的镜头”,把屏幕上的 2D 像素还原成从相机 2 芯片发射出去的一条 3D 射线 。
这一步
最后相当于加上相机 1 的内参。
然后是具体的应用。假设 Token 的维度是 128 维度,就把这 128 维度平分,前 64 维和后 64 维各司其职 :
左上角相当于前面我们提到的