AGILE

Paper:AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation

论文在做什么?通过普通的单目视频,精准还原出人操作物体的3D动态过程。

image.png

有什么意义?

  • 可以将大量的人类操作工具的视频转成高质量3D数据,进而训练机器人。
  • 让虚拟现实的显示更加真实。

难点是什么?

  • 几何破碎且不闭合。也就是手挡住物体。
  • 位姿初始化极其脆弱。也就是物体快速运动会崩溃。

论文是如何解决的?

image.png

上述图解释了论文的一个核心创新点:智能代理纹理对象生成。

具体可以分成两个步骤:

  • VLM 引导的多视角合成。
    • VLM 从视频中自主挑选1-4帧最具信息量的关键帧。
    • 基于选中的关键帧,生成模型合成物体的四个正交视角(前后左右)。
    • VLM 对视角进行评分,未达标则重新生成。
  • 3D 提升与网格精炼。
    • 通过3D生成模型将图像转成初始3D网格。
    • 纹理精炼。回复物体的高频细节。
    • VLM再次进行评分。

另外第二个创新点是免 SfM 的“锚定-追踪”初始化。

传统重建方法高度依赖 SfM(Structure-from-Motion) 技术,通过对比视频的不同帧的相同特征点来推算位置,但是在手持交互物中,物体通常被挡住且移动太快,只要 SfM算错一帧,视频质量就会崩塌。

AGILE会盯着交互起始帧(Interaction Onset Frame, IOF),也就是手刚碰到物体的那一帧,通过计算物体 Mask 的变化率 来捕获这个瞬间:

这一步用到了基础模型 FoundationPose。在第一阶段我们已经生成了一个完美的 3D 模型,这一步则是对准 IOF 帧的物体,完成初始定位。

image.png

上图可以分成3个阶段:

  • Preprocessing
    • 使用 SAM2 提取手和物体的 Mask,利用 MoGe-2 估算每一帧的深度信息和相机内参。
    • 利用VLM引导出3D物体。
  • Initialization of Pose and Scale
    • 利用 WiLoR 模型预测手部的形状参数,姿态参数和全局旋转
    • 尺度估算。确定全局物理尺度。
    • 锚定 IOF。确定物体的 6D 位姿。
  • Hand-Object Interaction Optimization
    • 手部轨迹精炼。固定旋转,仅仅通过关节重投影损失来微调手部的平移。
    • 交互感知追踪。再固定手部之后,优化物体的旋转和位移。
      • :让物体的3D轮廓与画面里的对齐。
      • :利用DINO特征匹配,即使物体被挡住,也能靠语义特征认出位置。
      • :物体稳定性约束。通过物体表面的 SDF(符号距离函数)计算权重,防止物体在手工滑动。

AGILE
https://d4wnnn.github.io/2026/04/19/Notion/AGILE/
作者
D4wn
发布于
2026年4月19日
许可协议