HunyuanWorld1.5
Paper:HY-World 1.5: A Systematic Framework for Interactive World Modeling with Real-Time Latency and Geometric Consistency
以前的 HunyuanWorld 1.0 已经能生成可探索的 3D 世界,但主要是离线生成,不能像游戏一样实时响应用户操作。HY-World 1.5 的目标是:用户按下键盘、移动视角,模型能实时生成后续画面,并且场景在长时间探索后仍保持几何一致。
论文把这个矛盾总结成两个目标:
实时性:要低延迟,最好能 24 FPS 流式生成。
长期几何一致性:你走出去再绕回来,房子、门、道路的位置不能“随机变样”。
核心创新点
双动作控制
若只用 WASD 这种离散控制:
- 符合用户交互习惯,但是没有精确的空间坐标
若只用连续的相机位姿:
- 训练不稳定。比如尺度差异很大,一个室内房间,移动 1 米已经很明显;一个开放世界游戏,移动 1 米可能几乎看不出来;
HY-World 1.5 的核心做法是:离散动作 + 连续相机位姿一起用。
对于离散动作,也就是键盘和鼠标输入,它们先被编码成 action embedding,然后通过一个 zero-initialized MLP 投影,再加入到 timestep embedding 里,用来调制 DiT blocks。
连续相机位姿不是简单加到 embedding 里,而是通过 Projective Positional Encoding,PRoPE 注入 self-attention。论文引用的是 “Cameras as Relative Positional Encoding” 这一类思想。
HunyuanWorld1.5
https://d4wnnn.github.io/2026/05/28/Notion/HunyuanWorld1.5/