扩散模型之DDPM

Paper:Denoising Diffusion Probabilistic Models

DDPM(Denoising Diffusion Probabilistic Models) 可以说是一个里程碑式的论文,在此之前,扩散模型虽然有理论框架,但是一直缺乏生成高分辨率,高质量样本的能力。

首先我们理解一下前向扩散过程。前向扩散就是逐步给原始图像 加上噪声,直到它变成纯噪声

具体公式如下:

这个公式描述了图片如何从第 步到第 步。其实意思就是说,第 步的图像 是怎么来的呢?是从均值为 ,方差为 的正态分布采样来的。均值为 就是说,取前一刻的图像 ,稍微缩小一下信号强度,然后加上均值为 0,方差为 的噪声,这里的 会随着时间而增大。

这里有两个关键直觉:

  • 前面的系数应该是小于 0,因为最终的噪声必须均值为0。
  • 噪声应该是越来越大的。因为后期加噪图像本来就很混乱了,要想效果与前期相同,噪声应该越来越大。

但是这就意味着,这里的扩散必须是串行的,显然可以优化,比如如果是并行,就会好很多。实际上也确实可以。

观察下面的公式:

定义 ,且 的累乘。直觉理解, 决定保留多少原始信号, 决定混入多少噪声。

那么模型是怎么逆向还原的呢?

其实问题就是给定当前的噪声图 ,如何恢复到上一步 。从公式里面可以看到,模型其实学习的就是这个分布的均值和方差。

接下来就是 DDPM 的损失函数,其实就是一个均方误差:

下面是对一些符号的解释:

  • ,代表从训练集中随机抽取一张清晰图片。
  • ,代表随机抽取一个时间步进行训练。
  • ,随机生成的一个高斯噪声。

其实就是给模型输入带噪图片 和时间步 ,然后然模型猜测噪声是多大。

DDPM 整体的示意图如下:

image.png

扩散模型之DDPM
https://d4wnnn.github.io/2026/03/13/Notion/扩散模型之DDPM/
作者
D4wn
发布于
2026年3月13日
许可协议