WorldCache
Paper:WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching,ICML 2026
核心问题:如何在不损失生成质量的前提下,无痛、免训练地加速基于扩散模型的多模态世界模型的推理过程 。
传统方法的痛点:
- Token 的异构性:世界模型同时处理多种模态(如 RGB 视频 + 3D 深度/几何图) 。不同的物理要素、空间区域(如静止背景 vs 剧烈运动的边界)其 Token 的演化轨迹和预测难度完全不同 。用统一的缓存规则要么太保守(没省多少算力),要么太激进(画面崩了)。
- 时间动力学的非均匀性:去噪过程中,不同步长、不同模态的特征数值跨越好几个数量级 。更致命的是,全局误差通常不是平均增长的,而是由极少数极其难缓存的“瓶颈 Token(或称混沌 Token)”发生突变引起的 。
创新点
创新点1:基于曲率引导的异构 Token 预测 (CHTP)
要对所有 Token 一视同仁。在每次进行完整的骨干网络(Backbone)计算时,通过前后步长的输出计算出每个 Token 的“ temporal 轨迹曲率”,依此给 Token 分类,并分配不同的缓存预测规则 。
利用连续三次完整计算的输出
通俗解释:
Token 分群治理:根据曲率的分位数,把 Token 划分成三类并采取不同动作 :
- 稳定 Token (
):曲率极小(比如静止的背景) ,直接复制重用上次的结果。 - 线性 Token (
):曲率适中(比如匀速的运动) ,沿切线方向做线性外推( ) 。 - 混沌 Token (
):曲率巨大(如物体的运动边缘、几何不连续处) ,采用三次埃尔米特(Hermite)引导的阻尼预测器( ) 。 通俗解释:对于“乱转弯”的混沌 Token,如果还沿用直线的切线预测一定会产生“冲过头(Overshoot)”的严重漂移 。阻尼预测器结合了当前速度和历史速度 ,随着连续缓存步数 的增加,预测会变得越来越保守 ,从而拉住快要崩坏的边缘特征。
总结:
创新点2:混沌优先的自适应跳步策略 (CAS)
由于去噪时整体的数值尺度在剧烈波动(有的步长数值上千,有的只有个位数) ,设置固定的绝对误差阈值绝对会失效 。因此,论文设计了一个无量纲的漂移累积指标,且只死盯着那群最容易崩的“混沌 Token” 。
为了让不同步长、不同模态的数值可以站在同一个标准下衡量,CAS 将混沌
Token 的实际特征变化量
CAS 在连续跳步的过程中,把每一步算出来的相对风险分
一旦