PRoPE

Paper：Cameras as Relative Positional Encoding，NeurIPS 2025

Transformer模型需要知道每张照片是从什么角度、用什么相机拍的（即相机几何结构）。

过去主流的做法有两种，但都存在致命缺陷：

绝对编码（如 Raymaps 光线图）：给每个图像 Token 强行拼接一个绝对三维坐标下的光线方向。这就像非要用“经纬度”来记路，一旦换个世界坐标系模型就懵了，泛化能力极差 。
常规相对编码（如 CaPE, GTA）：虽然改用相对位置解脱了坐标系束缚，但它们只考虑了相机的外参（旋转和平移），完全忽略了相机的内参（如焦距、缩放等） 。一旦测试时相机拉近焦距，模型就会崩溃。

本论文解决的核心问题是：如何设计一种既具备全局坐标系不变性，又能同时完美捕捉相机“内参”和“外参”的相对位置编码机制？

核心方法：用矩阵乘法直接融合成套的内外参。

传统的相对位姿只管变换，而 PROPE 巧妙地利用了计算机图形学中的齐次投影矩阵 。相机1和相机2之间的完整几何关系被建模为：

什么是变换？就是指刚体在三维空间中的所有“位置”和“姿态”的变化。刚体变换，是指物体在运动过程中，其内部任意两点之间的距离都不会发生改变（即物体不会被拉伸、挤压或扭曲）。

上面的公式有点难以理解，可以从右往左看：

这一步相当于“摘掉相机 2 的镜头”，把屏幕上的 2D 像素还原成从相机 2 芯片发射出去的一条 3D 射线。

这一步把光线从相机 2 的局部空间推向“世界坐标系”，然后再把它拉进相机 1 的局部空间。这一步做完，你就成功把相机 2 看到的那条光线，转换到了相机 1 的视角下。

最后相当于加上相机 1 的内参。

然后是具体的应用。假设 Token 的维度是 128 维度，就把这 128 维度平分，前 64 维和后 64 维各司其职：

左上角相当于前面我们提到的。右下角就是经典的 RoPE。

#Others

PRoPE

https://d4wnnn.github.io/2026/05/30/Notion/PRoPE/

作者

D4wn

发布于

2026年5月30日

许可协议