HiCache

Paper:HiCache: A Plug-in Scaled-Hermite Upgrade for Taylor-Style Cache-then-Forecast Diffusion Acceleration,ICLR 2026

依然是时间维度上的加速。我们可以把时间维度的缓存加速分为三个进化阶段。

阶段 1:死板的“缓存并复用”(Cache-then-Reuse)

  • 代表作: DeepCache, FORA, ToCa
  • 它在干什么: 主要研究“在哪些 step 缓存,在哪些 step 跳过” 。比如每隔 5 步完整计算一次并把特征存下来,中间的 4 步完全不计算,直接复制粘贴(复用)第 5 步的缓存 。
  • 瓶颈: 因为特征在时间轴上是一直在变的,直接复制历史特征会导致严重的“时间滞后拼接感”,步长稍微拉大,生成画面就会崩溃 。

阶段 2:动态的“泰勒预测”(Cache-then-Forecast)

  • 代表作: TaylorSeer
  • 它在干什么: 引入了数值分析的思路,不仅仅是死板地复制,而是通过前几步缓存的特征计算出“一阶导数、二阶导数”(变化率),然后用泰勒展开式预测未来的特征 。
  • 瓶颈: 它虽然比直接复制好,但它用来预测的“数学工具(单项式基)”是单调递增的,一旦扩散模型走到拐点,预测就会严重脱轨 。

阶段 3:HiCache 阶段 —— 数学对齐的“高级时序外推”

  • 代表作: 本文(HiCache)
  • 它在干什么: 它在“决定哪些 step 缓存”(间隔参数 )的基础上 ,把核心精力放在了“在跳过的那些 step 里,如何进行更完美的数学拟合” 。它通过引入缩放的埃尔米特多项式作为基函数,让中间跳过步的特征预测能够优雅地转弯和波动,完美贴合真实轨迹 。

核心创新点

创新点 1:用埃尔米特多项式(Hermite Polynomials)替代泰勒单项式基

作者研究发现,神经网络在去噪时,前后两步特征的“差值”(也就是特征变化的趋势),在统计上居然完美符合高斯分布(正态分布) 。

在数学界有一个定理:用来拟合高斯分布相关的数据,埃尔米特多项式是理论上最完美的“正交基”。

埃尔米特多项式自带“振荡”基因: 泰勒的基函数长得像一条直冲云霄的直线;而埃尔米特多项式(比如 )天生就长得弯弯曲曲、有波浪起伏

创新点2:双重缩放机制以确保数值稳定

换了埃尔米特多项式虽然能拐弯了,但它带来了一个致命的数学副作用:脾气太暴躁。 因为它的公式里带有很高的系数和阶乘,一旦你预测的步长(自变量 )稍微大一点,或者预测的阶数()高一点,计算结果就会指数级爆炸,数值不稳定。

为了驯服它,作者设计了一个极其精妙的“双重缩放”机制(),只用了一个小于 1 的超参数 (比如取 0.5),就同时绑上了两条安全带 :

  • 输入压缩(把 变成 )。埃尔米特多项式只有在靠近中心(比如 )的区间里,波浪才最优雅、最稳定;一旦数字太大,两端就会暴涨 。输入压缩就是强行把预测步长拽回它最舒服、最稳定的“安全振荡区”内 。
  • 高阶系数压制。随着你预测的阶数 越来越高(比如 1阶、2阶、3阶……),公式外面会乘以 通俗理解: 因为 ,那么 。也就是说,阶数越高,外面这个压制系数就越小 。它就像一根橡皮筋,高阶项刚想数值爆炸,外面这个系数立刻把它狠狠地死死按住 。

HiCache
https://d4wnnn.github.io/2026/05/27/Notion/HiCache/
作者
D4wn
发布于
2026年5月27日
许可协议