WorldCache

Paper:WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching,ICML 2026

核心问题:如何在不损失生成质量的前提下,无痛、免训练地加速基于扩散模型的多模态世界模型的推理过程 。

传统方法的痛点:

  • Token 的异构性:世界模型同时处理多种模态(如 RGB 视频 + 3D 深度/几何图) 。不同的物理要素、空间区域(如静止背景 vs 剧烈运动的边界)其 Token 的演化轨迹和预测难度完全不同 。用统一的缓存规则要么太保守(没省多少算力),要么太激进(画面崩了)。
  • 时间动力学的非均匀性:去噪过程中,不同步长、不同模态的特征数值跨越好几个数量级 。更致命的是,全局误差通常不是平均增长的,而是由极少数极其难缓存的“瓶颈 Token(或称混沌 Token)”发生突变引起的 。

创新点

创新点1:基于曲率引导的异构 Token 预测 (CHTP)

要对所有 Token 一视同仁。在每次进行完整的骨干网络(Backbone)计算时,通过前后步长的输出计算出每个 Token 的“ temporal 轨迹曲率”,依此给 Token 分类,并分配不同的缓存预测规则 。

利用连续三次完整计算的输出 ,定义离散速度 和离散加速度 ,算出每个 Token 的曲率评分

通俗解释: 就像是 Token 在去噪时间轴上的“转弯率” 。如果曲率很小,说明它的特征演化很平稳、很像一条直线;如果曲率很大,说明它的演化轨迹非常混沌、经常急转弯 。

Token 分群治理:根据曲率的分位数,把 Token 划分成三类并采取不同动作 :

  1. 稳定 Token ():曲率极小(比如静止的背景) ,直接复制重用上次的结果。
  2. 线性 Token ():曲率适中(比如匀速的运动) ,沿切线方向做线性外推) 。
  3. 混沌 Token ():曲率巨大(如物体的运动边缘、几何不连续处) ,采用三次埃尔米特(Hermite)引导的阻尼预测器) 。 通俗解释:对于“乱转弯”的混沌 Token,如果还沿用直线的切线预测一定会产生“冲过头(Overshoot)”的严重漂移 。阻尼预测器结合了当前速度和历史速度 ,随着连续缓存步数 的增加,预测会变得越来越保守 ,从而拉住快要崩坏的边缘特征。

总结:

线线线

创新点2:混沌优先的自适应跳步策略 (CAS)

由于去噪时整体的数值尺度在剧烈波动(有的步长数值上千,有的只有个位数) ,设置固定的绝对误差阈值绝对会失效 。因此,论文设计了一个无量纲的漂移累积指标,且只死盯着那群最容易崩的“混沌 Token” 。

为了让不同步长、不同模态的数值可以站在同一个标准下衡量,CAS 将混沌 Token 的实际特征变化量 乘以它自身的曲率

CAS 在连续跳步的过程中,把每一步算出来的相对风险分 累加到指标 中 :

一旦 超过了全局设定的阈值 ,立刻拉响警报,强制让整个模型在当前步执行一次全量 Backbone 计算 。执行完 FULL 之后,重置 ,同时重新识别一次哪些 Token 是新阶段的“混沌 Token”,开启下一轮跳步循环 。


WorldCache
https://d4wnnn.github.io/2026/05/27/Notion/WorldCache/
作者
D4wn
发布于
2026年5月27日
许可协议