DuCa - D4wn

Paper：Rethinking Token-wise Feature Caching: Accelerating Diffusion Transformers with Dual Feature Caching

传统的基于Token粒度的特征缓存（ToCa）存在两个致命痛点：

计算冗余与效率低下： ToCa 在每一个 Caching step 都坚持去计算所谓的“重要 Token” 。论文发现，在刚开始缓存的第一步，缓存误差其实还没来得及积累，此时去费力计算重要 Token 纯属浪费，导致加速比上不去。
硬件极其不友好： 为了筛选出“重要 Token”，ToCa 需要实时计算复杂的注意力矩阵得分。这不仅引入了额外的计算开销，更致命的是它不兼容 FlashAttention 等硬件加速算子，导致内存开销从飙升到，实际落地时的推理延迟反而加倍。

创新点1：动态交替缓存策略

DuCa 不再在每个缓存步都使用同一种策略，而是将激进缓存（Aggressive Caching）和保守缓存（Conservative Caching）交替进行。

创新点2：去中心化的“随机 Token 选择

核心发现： 如果选择彼此相似度极高的 Token 进行重算，效果最差；而选择彼此相似度最低（即信息互补、去重）的 Token，效果最好。

既然多样性最重要，那根本不需要算任何注意力权重，直接用最简单的随机采样来选 Token 就可以完美保证语义的多样性

#Diffusion Efficiency

DuCa

https://d4wnnn.github.io/2026/06/16/Notion/DuCa/

作者

D4wn

发布于

2026年6月16日

许可协议