PRoPE

Paper:Cameras as Relative Positional Encoding,NeurIPS 2025

Transformer模型需要知道每张照片是从什么角度、用什么相机拍的(即相机几何结构) 。

过去主流的做法有两种,但都存在致命缺陷:

  • 绝对编码(如 Raymaps 光线图):给每个图像 Token 强行拼接一个绝对三维坐标下的光线方向 。这就像非要用“经纬度”来记路,一旦换个世界坐标系模型就懵了,泛化能力极差
  • 常规相对编码(如 CaPE, GTA):虽然改用相对位置解脱了坐标系束缚,但它们只考虑了相机的外参(旋转和平移),完全忽略了相机的内参(如焦距、缩放等) 。一旦测试时相机拉近焦距,模型就会崩溃 。

本论文解决的核心问题是:如何设计一种既具备全局坐标系不变性,又能同时完美捕捉相机“内参”和“外参”的相对位置编码机制?

核心方法:用矩阵乘法直接融合成套的内外参。

传统的相对位姿只管 变换,而 PROPE 巧妙地利用了计算机图形学中的齐次投影矩阵 。相机1和相机2之间的完整几何关系被建模为:

什么是 变换?就是指刚体在三维空间中的所有“位置”和“姿态”的变化。刚体变换,是指物体在运动过程中,其内部任意两点之间的距离都不会发生改变(即物体不会被拉伸、挤压或扭曲)。

上面的公式有点难以理解,可以从右往左看:

这一步相当于“摘掉相机 2 的镜头”,把屏幕上的 2D 像素还原成从相机 2 芯片发射出去的一条 3D 射线 。

这一步 把光线从相机 2 的局部空间推向“世界坐标系”,然后 再把它拉进相机 1 的局部空间 。这一步做完,你就成功把相机 2 看到的那条光线,转换到了相机 1 的视角下

最后相当于加上相机 1 的内参。

然后是具体的应用。假设 Token 的维度是 128 维度,就把这 128 维度平分,前 64 维和后 64 维各司其职 :

左上角相当于前面我们提到的 。右下角就是经典的 RoPE。


PRoPE
https://d4wnnn.github.io/2026/05/30/Notion/PRoPE/
作者
D4wn
发布于
2026年5月30日
许可协议