Paper：HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

目前已有的3D 世界模型生成方案主要存在两大痛点：

基于视频的生成（Video-based）：虽然视觉多样性丰富，但由于本质上是 2D 帧组合，缺乏真正的 3D 空间一致性，视角拉长就会产生严重的漂移，且渲染成本极高，无法直接导入游戏引擎。
基于 3D 资产的生成（3D-based）：虽然保证了显式的几何一致性，但高质量的 3D 场景数据集极度匮乏 。此外，过去的模型生成的 3D 场景多是“一块铁板”（Monolithic），物体之间相互粘连，无法进行单独的交互或操纵（如无法移开一辆车或一扇门）。

论文思路是：将 2D 扩散模型的“高画质与多样性”和 3D 的“几何一致性”有机结合 。
其核心架构是一个分阶段的生成管线：文字/单图 360°全景图（Proxy） 智能分层 3D 深度对齐与网格重建 。

核心创新点

创新点 1：以全景图作为世界代理

创新点 2：智能体驱动的世界分层

利用多模态 LLM 去理解全景图里哪些是静态背景（如地面、山脉），哪些是需要交互的前景物体（如城堡、桌子、车辆）。然后配合目标检测（Grounding DINO）和分割模型，把它们剥离成不同的 Layer：天空层、背景层、以及若干个独立的前景物体层。

创新点 3：跨图层深度对齐重建

有了各个拆开的图层后，要将它们变回 3D。模型首先预测原始全景图的“基准深度图”（Base Depth Map）。对于被抠出来的其他图层，单独预测其深度，并使用深度匹配技术（Depth Matching）进行对齐 。

虽然论文中主要以算法策略表述，但其核心的跨图层深度对齐，在数学本质上是通过最小化重叠区域的距离约束来完成的。设基准全景深度为，第个图层独立预测的相对深度为，对齐过程通过优化平移和缩放因子（）来实现，使得在重叠掩膜（Overlap Mask ）区域内的重构误差最小：

其他

全景图和普通照片不同，它具有严重的球面几何畸变，并且左右边界在物理空间上是首尾相连的。

为了适应这种特殊的图像格式，Panorama-DiT 核心引入了以下定制化的改进策略，这也是其最关键的创新点：

循环去噪：在 Transformer 计算图像边缘斑块的自注意力时，强行让最左边的 Patch 能够看到最右边的 Patch。这样模型在去噪生成时，就会天然地把左右两端当成连续的画面来画，从而实现无缝拼接。
视场/高度感知增强：为了让模型能够自如地应对不同摄像机拍摄角度、不同视角高度带来的全景畸变，在训练阶段，算法会将真实的 ground-truth 全景图在垂直方向上进行随机的位移和上下循环滚动（Vertical Shifting）。这极大地增强了变压器对高度、仰角变化的鲁棒性，让生成的 3D 世界代理拥有更广阔、更逼真的天地纵深。

#World Model

HunyuanWorld 1.0

https://d4wnnn.github.io/2026/05/28/Notion/HunyuanWorld 1.0/

作者

D4wn

发布于

2026年5月28日

许可协议