DuCa

Paper:Rethinking Token-wise Feature Caching: Accelerating Diffusion Transformers with Dual Feature Caching

传统的基于Token粒度的特征缓存(ToCa)存在两个致命痛点 :

  • 计算冗余与效率低下: ToCa 在每一个 Caching step 都坚持去计算所谓的“重要 Token” 。论文发现,在刚开始缓存的第一步,缓存误差其实还没来得及积累,此时去费力计算重要 Token 纯属浪费,导致加速比上不去 。
  • 硬件极其不友好: 为了筛选出“重要 Token”,ToCa 需要实时计算复杂的注意力矩阵得分 。这不仅引入了额外的计算开销,更致命的是它不兼容 FlashAttention 等硬件加速算子,导致内存开销从 飙升到 ,实际落地时的推理延迟反而加倍 。

创新点1:动态交替缓存策略

DuCa 不再在每个缓存步都使用同一种策略,而是将激进缓存(Aggressive Caching)保守缓存(Conservative Caching)交替进行 。

  • 激进缓存: 直接用前一步的整层输出替换当前层,几乎跳过整层的所有计算 。
  • 保守缓存: 引入 Token 级别的选择性计算,只缓存非残差部分的特征,并对部分 Token 进行真实计算来校准特征 。

创新点2:去中心化的“随机 Token 选择

核心发现: 如果选择彼此相似度极高的 Token 进行重算,效果最差 ;而选择彼此相似度最低(即信息互补、去重)的 Token,效果最好 。

既然多样性最重要,那根本不需要算任何注意力权重,直接用最简单的随机采样来选 Token 就可以完美保证语义的多样性

image.png

DuCa
https://d4wnnn.github.io/2026/06/16/Notion/DuCa/
作者
D4wn
发布于
2026年6月16日
许可协议