归一化其实是一个很基础的问题，这里进行一些简单的回顾。

LayerNorm

归一化的核心作用是将神经元的输出拉回到合理的分布范围，使训练更稳定。

公式如下：

其中，和是特征向量的均值和方差，比如 x 的组成是，均值就是把这几个数字加起来除以：

然后公式里的是可学习的缩放和平移参数，都只有个。

RMSNorm

为什么要迁移到 RMSNorm？

随着 LLM 时代的到来，效率变得格外重要，研究人员发现 LayerNorm 的成功可能主要归功于缩放。于是便大胆去掉减去均值的操作：

$其中$

可以看到，RMSNorm 只利用均方根进行缩放

原始的 Transformer 架构中，使用的是 Post-Norm，也就是将 Attention 和 MLP 的输出先和输入相加，再归一化：

上面这种方式训练不够稳定，容易梯度爆炸。

现在的主流方式是 Pre-Norm，即先将输入归一化，最后再相加。

Pre-Norm 的训练稳定性极好，收敛更加稳定，也是现在的主流。

#LLM

从 LayerNorm 到 RMSNorm 的演进

https://d4wnnn.github.io/2026/03/19/Notion/从 LayerNorm 到 RMSNorm 的演进/

作者

D4wn

发布于

2026年3月19日

许可协议