DuCo - D4wn

Paper：DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

针对 DiT 的一个加速方案，但不是 Training-free.

论文在架构上进行了解耦，将 DiT 拆分成两部分：

低频语义分支：将输入图像先进行下采样降低分辨率，丢弃大部分高频噪声。然后让主体的 DiT 只在低分辨率输入上专门学习低频语义。
高频细节分支：引入一个非常轻量、不含自注意力机制的 Pixel Decoder 。它直接接收全分辨率的噪点图像作为 Dense Query（密集查询），在 DiT 输出的语义特征指导下，快速缝合还原出图像的高频细节。

首先是 Diffusion Transformer：

输入：Noisy Token
条件
- 时间步 t：正余弦编码 + MLP
- 类别 y：查表得到embedding，与 t 相加 + SiLU
- 文本 y：Qwen 编码后，通过 cross-attention 注入
然后输出

然后是 Pixel Decoder：

Loss 有哪些？

#Diffusion Efficiency

DuCo

https://d4wnnn.github.io/2026/06/20/Notion/DuCo/

作者

D4wn

发布于

2026年6月20日

许可协议