PhysX-Anything
Paper:PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image,CVPR 2026
这篇论文是 3D 生成领域的一篇文章。当下大多数模型只能生成看起来真实的视觉外壳,但是缺乏密度,绝对尺度,关节约束等物理属性。而且3D资产无法直接导入 MuJoCo 等物理引擎进行机器人训练。意思说白了就是,现在的模型大多停留在视觉效果不错,但是物理属性缺失,不能投入实际应用。
论文提出了首个基于多模态大模型的物理3D生成框架,核心在于如何高效地让语言模型理解并输出复杂的空间几何和物理规则。
论文的核心目标:给一张真实图像,比如一个椅子,最后输出图像对应的真实3D资产。
论文的 Pipeline 如上,可以分成两个阶段:
- 阶段1:VLM 多轮对话。
- 第 1 轮:全局属性分析,得到物体的属性信息,比如类别,尺寸,摩擦系数。
- 第 2 到 n+1 轮:局部几何生成。针对物体的每一个组件进行分析。为了节省
Token,模型将
的网格展平,并把连续占据的部分用连字符连接起来。
- 阶段2:几何精修与物理导出。
- 用受控流变换器,用第一阶段的粗糙网格作为底稿,结合原始图像的特征,生成高分辨率的几何特征。
为了解决数据匮乏的问题,论文构建了一个包含 2k+ 真实物体、覆盖 47 个类别的数据集。
PhysX-Anything
https://d4wnnn.github.io/2026/04/27/Notion/PhysX-Anything/