DuCo

Paper:DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

针对 DiT 的一个加速方案,但不是 Training-free.

image.png

论文在架构上进行了解耦,将 DiT 拆分成两部分:

  • 低频语义分支:将输入图像先进行下采样降低分辨率,丢弃大部分高频噪声 。然后让主体的 DiT 只在低分辨率输入上专门学习低频语义。
  • 高频细节分支:引入一个非常轻量、不含自注意力机制的 Pixel Decoder 。它直接接收全分辨率的噪点图像作为 Dense Query(密集查询),在 DiT 输出的语义特征指导下,快速缝合还原出图像的高频细节 。
image.png

首先是 Diffusion Transformer:

  • 输入:Noisy Token
  • 条件
    • 时间步 t:正余弦编码 + MLP
    • 类别 y:查表得到embedding,与 t 相加 + SiLU
    • 文本 y:Qwen 编码后,通过 cross-attention 注入
  • 然后输出

然后是 Pixel Decoder:

  • 对每个 Patch,需要找到对应的语义 Token 经过 AdaLN 调制,然后 MLP 输出。

Loss 有哪些?

  • :主扩散损失,像素空间

  • :频率自适应流匹配损失

    频域速度矩阵

  • :把 DiT 网络的中间层特征,去和预训练好的视觉大模型(如 DINOv2)提取出的特征进行强行对齐


DuCo
https://d4wnnn.github.io/2026/06/20/Notion/DuCo/
作者
D4wn
发布于
2026年6月20日
许可协议