UniDex
Paper:UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos,CVPR 2026
在机器人控制领域,存在如下问题:
- Shadow Hand 有 24 个关节 。
- Allegro Hand 有 16 个关节 。
有的手指多,有的手指少,且每个关节在程序里的编号不同。为此论文设计了统一动作空间FAAS,比如指令0不是定义关节,而是定义功能,比如拇指弯曲。
这个动作向量在论文里是82维:
- 腕部姿态18维。
- 关节指令64维。
| 维度编号(槽位) | 对应功能区域 | 说明 |
|---|---|---|
| 0 - 4 | 拇指 (Thumb) | 专门负责拇指的各种旋转和弯曲 。 |
| 5 - 9 | 食指 (Index) | 负责食指的动作 。 |
| 10 - 14 | 中指 (Middle) | 负责中指的动作 。 |
| 15 - 19 | 无名指 (Ring) | 负责无名指的动作 。 |
| 20 - 24 | 小指 (Little) | 负责小指的动作 。 |
统一动作空间可以屏蔽硬件差异。
另外,论文的第二个创新点是跨域的数据转化,也就是将人手视频转化为机器人视角的数据进行预训练。
首先进行人体工学重定向:
其中
然后在 3D 点云中扣掉人手,换成预处理好的机器人手模型,这样机器人在训练的时候就可以看到是机器人在干活,消除了视觉上的不一致。
然后是论文的第三个创新点,也就是提出了一个 3D-VLA 模型。
作者使用 Uni3D 替换传统的 2D 编码器,让机器人能够理解精细的 3D 几何。然后借鉴了 Flow Matching 的思想,让模型不再预测动作,而是预测动作的变化方向。
其中,
论文的整体框架如下图所示:
UniDex
https://d4wnnn.github.io/2026/04/20/Notion/UniDex/