Qwen3.5 解读—Gated Delta Networks
相关论文:
- Linear Transformers Are Secretly Fast Weight Programmers
- Gated Delta Networks: Improving Mamba2 with Delta Rule
- Parallelizing Linear Transformers with the Delta Rule over Sequence Length
LLM 随着规模的不断提升,导致我们必须解决全注意力机序列长度为
全注意力机制有哪些问题?
在 Transformer 中,标准注意力机制公式为:
注意到由于 Softmax 的存在,为了得到第
也就是说,标准版注意力机制:
这个时候就出现了显存瓶颈。那么线性注意力机制是如何优化的呢?
线性注意力机制利用了矩阵乘法的结合律,首先计算 KV 矩阵:
线性版:
线性注意力有哪些问题?
降低计算量的坏处肯定是表达能力会随之下降。去掉 Exp 操作后,因果注意力的第
观察上面的式子,注意到,如果将求和部分定义为状态
- 输出方程:
- 更新方程:
可以看到这里对于记忆的更新是及其简陋的,只是无脑将记忆进行相加。于是便可以引出DeltaRule。
从在线学习的视角看RNN
前文我们提到,线性注意力的更新公式为:
这里我们可以引入一个小的网络,负责对新的记忆
具体的更新规则如下:
意思是说,
- 先做一次测试。用旧状态预测当前的
,也就是 。 - 计算误差。也就是与真实的
做差值。 - 更新。用这个差值去更新状态。
Qwen3.5 解读—Gated Delta Networks
https://d4wnnn.github.io/2026/03/09/Notion/Qwen3.5 解读—Gated Delta Networks/