全注意力机制有哪些问题？

在 Transformer 中，标准注意力机制公式为：

注意到由于 Softmax 的存在，为了得到第行第列的权重值，我们必须要知道该行的所有注意力分数。

也就是说，标准版注意力机制：必须产生。

这个时候就出现了显存瓶颈。那么线性注意力机制是如何优化的呢？

线性注意力机制利用了矩阵乘法的结合律，首先计算 KV 矩阵：

线性版：产生的是。而是 Token 的维度，这就与序列长度进行了解耦。

线性注意力有哪些问题？

降低计算量的坏处肯定是表达能力会随之下降。去掉 Exp 操作后，因果注意力的第个输出可以表示为：

观察上面的式子，注意到，如果将求和部分定义为状态，则有：

可以看到这里对于记忆的更新是及其简陋的，只是无脑将记忆进行相加。于是便可以引出DeltaRule。

前文我们提到，线性注意力的更新公式为：

这里我们可以引入一个小的网络，负责对新的记忆更聪明的融合到记忆里。

具体的更新规则如下：

意思是说，是我们更新后的记忆，是我们的旧记忆，那么我们如何更新呢？

Qwen3.5 解读—Gated Delta Networks

https://d4wnnn.github.io/2026/03/09/Notion/Qwen3.5 解读—Gated Delta Networks/

作者

D4wn

发布于

2026年3月9日

许可协议