从 LayerNorm 到 RMSNorm 的演进
归一化其实是一个很基础的问题,这里进行一些简单的回顾。
LayerNorm
归一化的核心作用是将神经元的输出拉回到合理的分布范围,使训练更稳定。
公式如下:
其中,
然后公式里的
RMSNorm
为什么要迁移到 RMSNorm?
随着 LLM 时代的到来,效率变得格外重要,研究人员发现 LayerNorm 的成功可能主要归功于缩放。于是便大胆去掉减去均值的操作:
可以看到,RMSNorm 只利用均方根进行缩放
结构方面的演进:Pre-Norm 与 Post-Norm
原始的 Transformer 架构中,使用的是 Post-Norm,也就是将 Attention 和 MLP 的输出先和输入相加,再归一化:
上面这种方式训练不够稳定,容易梯度爆炸。
现在的主流方式是 Pre-Norm,即先将输入归一化,最后再相加。
Pre-Norm 的训练稳定性极好,收敛更加稳定,也是现在的主流。
从 LayerNorm 到 RMSNorm 的演进
https://d4wnnn.github.io/2026/03/19/Notion/从 LayerNorm 到 RMSNorm 的演进/