从 LayerNorm 到 RMSNorm 的演进

归一化其实是一个很基础的问题,这里进行一些简单的回顾。

LayerNorm

归一化的核心作用是将神经元的输出拉回到合理的分布范围,使训练更稳定。

公式如下:

其中, 是特征向量的均值和方差,比如 x 的组成是 ,均值就是把这几个数字加起来除以

然后公式里的 是可学习的缩放和平移参数,都只有 个。

RMSNorm

为什么要迁移到 RMSNorm?

随着 LLM 时代的到来,效率变得格外重要,研究人员发现 LayerNorm 的成功可能主要归功于缩放。于是便大胆去掉减去均值的操作:

可以看到,RMSNorm 只利用均方根进行缩放

结构方面的演进:Pre-Norm 与 Post-Norm

原始的 Transformer 架构中,使用的是 Post-Norm,也就是将 Attention 和 MLP 的输出先和输入相加,再归一化:

上面这种方式训练不够稳定,容易梯度爆炸。

现在的主流方式是 Pre-Norm,即先将输入归一化,最后再相加。

Pre-Norm 的训练稳定性极好,收敛更加稳定,也是现在的主流。


从 LayerNorm 到 RMSNorm 的演进
https://d4wnnn.github.io/2026/03/19/Notion/从 LayerNorm 到 RMSNorm 的演进/
作者
D4wn
发布于
2026年3月19日
许可协议