Paper：WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching，ICML 2026

核心问题：如何在不损失生成质量的前提下，无痛、免训练地加速基于扩散模型的多模态世界模型的推理过程。

传统方法的痛点：

Token 的异构性：世界模型同时处理多种模态（如 RGB 视频 + 3D 深度/几何图）。不同的物理要素、空间区域（如静止背景 vs 剧烈运动的边界）其 Token 的演化轨迹和预测难度完全不同。用统一的缓存规则要么太保守（没省多少算力），要么太激进（画面崩了）。
时间动力学的非均匀性：去噪过程中，不同步长、不同模态的特征数值跨越好几个数量级。更致命的是，全局误差通常不是平均增长的，而是由极少数极其难缓存的“瓶颈 Token（或称混沌 Token）”发生突变引起的。

创新点

创新点1：基于曲率引导的异构 Token 预测 (CHTP)

要对所有 Token 一视同仁。在每次进行完整的骨干网络（Backbone）计算时，通过前后步长的输出计算出每个 Token 的“ temporal 轨迹曲率”，依此给 Token 分类，并分配不同的缓存预测规则。

利用连续三次完整计算的输出，定义离散速度和离散加速度，算出每个 Token 的曲率评分：

通俗解释：就像是 Token 在去噪时间轴上的“转弯率” 。如果曲率很小，说明它的特征演化很平稳、很像一条直线；如果曲率很大，说明它的演化轨迹非常混沌、经常急转弯。

Token 分群治理：根据曲率的分位数，把 Token 划分成三类并采取不同动作：

稳定 Token ()：曲率极小（比如静止的背景），直接复制重用上次的结果。
线性 Token ()：曲率适中（比如匀速的运动），沿切线方向做线性外推（）。
混沌 Token ()：曲率巨大（如物体的运动边缘、几何不连续处），采用三次埃尔米特（Hermite）引导的阻尼预测器（）。 通俗解释：对于“乱转弯”的混沌 Token，如果还沿用直线的切线预测一定会产生“冲过头（Overshoot）”的严重漂移。阻尼预测器结合了当前速度和历史速度，随着连续缓存步数的增加，预测会变得越来越保守，从而拉住快要崩坏的边缘特征。

总结：

$（稳定：直接复制重用）（线性：切线一阶外推）（混沌：阻尼曲线校准）$

由于去噪时整体的数值尺度在剧烈波动（有的步长数值上千，有的只有个位数），设置固定的绝对误差阈值绝对会失效。因此，论文设计了一个无量纲的漂移累积指标，且只死盯着那群最容易崩的“混沌 Token” 。

为了让不同步长、不同模态的数值可以站在同一个标准下衡量，CAS 将混沌 Token 的实际特征变化量乘以它自身的曲率：

CAS 在连续跳步的过程中，把每一步算出来的相对风险分累加到指标中：

一旦 超过了全局设定的阈值 ，立刻拉响警报，强制让整个模型在当前步执行一次全量 Backbone 计算 。执行完 FULL 之后，重置，同时重新识别一次哪些 Token 是新阶段的“混沌 Token”，开启下一轮跳步循环。

#Diffusion Efficiency

WorldCache

https://d4wnnn.github.io/2026/05/27/Notion/WorldCache/

作者

D4wn

发布于

2026年5月27日

许可协议