Paper：EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

Publish：ICML 2024，Arxiv 2024.1.26

在 LLM 推理加速领域，有一类常见的方法是 Speculative Decoding，也就是投机解码。大致思想就是先用小模型一次性预测一些 Token，然后大模型再去并行验证，进而提升推理速度。在 Token-Level 的预测有一个问题，就是准确率低下。

EAGEL 的想法是，既然在 Token Level 预测效果一般，为什么不换到 Feature Level 呢？

加速流程细节

假设大模型输入的是 “How can”, 这个时候需要生成后面的 Token。

在 LLM 的倒数第二层（Transformer Block），经过 KQV 矩阵运算，得到了 “can” 位置的特征向量。然后分成两路：

然后 Draft Model 将和进行拼接，然后通过轻量级自回归头，预测下一个词的特征向量。接着这个进入原始大模型的 LM Head, 采样下一个草稿词，然后继续循环。

Draft Model 在每一步采样时，会采样多个，因此最后会形成一个 Token Tree. 然后主模型把这个Token Tree 输入，跑一次完整的前向传播，能够计算所有草稿词的概率。

如何训练?

使用现有高质量对话数据集 ShareGPT，输入模型，记录倒数第二层的特征向量和对应的Token。然后给 Draft Model 输入第步的特征和下一个 Token , 让 Draft Model 去预测下一步模型的隐藏状态向量。使用了两个损失：

值得注意的是，7B 模型已经很小，需要一个更小的模型来充当 Draft Model，但是很难找到，所以标记为 N/A。

EAGLE-1 解读

https://d4wnnn.github.io/2026/03/10/Notion/EAGLE-1 解读/

作者

D4wn

发布于

2026年3月10日

许可协议