Paper：PreciseCache Precise Feature Caching for Efficient and High-fidelity Video Generation，ICLR 2026

解决的核心问题：DiT 加速。

前人不足：虽然此前有研究通过“特征缓存（Feature Caching）”来跳过某些去噪步骤的计算，但它们往往采用固定的均匀间隔或不够精准的触发指标。这导致模型无法准确分辨哪些特征是真正冗余的，误跳过了重要特征的计算，从而造成视频生成质量的显著下降（如画面闪烁、变形等）。

论文提出了一个名为 PreciseCache 的即插即用、无需训练的加速框架。它从时间步级（Step-wise）和网络块级（Block-wise）两个空间粒度，精准检测并剔除真正冗余的计算。

核心方案

创新点一：时域自适应缓存 LFCache

在去噪过程中，高噪声阶段主要决定视频的“底层结构和轮廓”（低频信息，极其重要，不能跳过），而低噪声阶段只负责修饰“感知不明显的细节”（高频信息，可安全跳过）
利用快速傅里叶变换（FFT）提取模型预测特征的低频分量：

定义低频差异（Low-Frequency Difference, LFD）来衡量相邻时间步之间结构信息的改变程度：

在实际推理中，如果累加的低频误差小于设定阈值，就直接复用上一步的缓存，跳过当前推理。

创新点二：网络块级别自适应缓存

也就是跳过一些 Block。

在前面的一些 Step，所有的 Block 都参与计算，然后计算一下哪些 Block 没啥用。

对于第个 Block，它接收到的输入特征是，输出特征是。算法会计算这个 Block 对特征到底做了多大的修改，并将这个差值缓存下来：

算出所有 Block 的差值后，对它们求范数（矩阵模长）并排序。找出贡献最大的前的 Block（比如前 40%），把它们标记为核心块，其余的标记为非核心块。在紧接着的后面个同样需要执行网络推理的步骤中（论文中设置），模型不再傻傻地运行所有 Block，而是开始偷懒：

核心思想：那些在第 步时没有什么存在感的 Block（算出来的残差特别小），在接下来的第 步时，依然没有什么存在感 。而且，它们所负责处理的信息变化趋势也是高度相似的。

实验效果：

#Diffusion Efficiency

PreciseCache

https://d4wnnn.github.io/2026/05/26/Notion/PreciseCache/

作者

D4wn

发布于

2026年5月26日

许可协议