Qwen3.5 解读—Gated Delta Networks

相关论文:

  • Linear Transformers Are Secretly Fast Weight Programmers
  • Gated Delta Networks: Improving Mamba2 with Delta Rule
  • Parallelizing Linear Transformers with the Delta Rule over Sequence Length

LLM 随着规模的不断提升,导致我们必须解决全注意力机序列长度为 时的 复杂度问题。而解决这个问题主要有两种思路,一种是线性注意力,而另一种是MoE架构。

全注意力机制有哪些问题?

在 Transformer 中,标准注意力机制公式为:

注意到由于 Softmax 的存在,为了得到第 行第 列的权重值,我们必须要知道该行的所有注意力分数。

也就是说,标准版注意力机制必须产生

这个时候就出现了显存瓶颈。那么线性注意力机制是如何优化的呢?

线性注意力机制利用了矩阵乘法的结合律,首先计算 KV 矩阵:

线性版产生的是 。而 是 Token 的维度,这就与序列长度 进行了解耦。

线性注意力有哪些问题?

降低计算量的坏处肯定是表达能力会随之下降。去掉 Exp 操作后,因果注意力的第 个输出可以表示为:

观察上面的式子,注意到,如果将求和部分定义为状态 ,则有:

  • 输出方程:
  • 更新方程:

可以看到这里对于记忆的更新是及其简陋的,只是无脑将记忆进行相加。于是便可以引出DeltaRule。

从在线学习的视角看RNN

前文我们提到,线性注意力的更新公式为:

这里我们可以引入一个小的网络,负责对新的记忆 更聪明的融合到记忆里。

具体的更新规则如下:

意思是说,是我们更新后的记忆,是我们的旧记忆,那么我们如何更新呢?

  • 先做一次测试。用旧状态预测当前的 ,也就是
  • 计算误差。也就是与真实的 做差值。
  • 更新。用这个差值去更新状态。

Qwen3.5 解读—Gated Delta Networks
https://d4wnnn.github.io/2026/03/09/Notion/Qwen3.5 解读—Gated Delta Networks/
作者
D4wn
发布于
2026年3月9日
许可协议