TrafficLLM

Paper:TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation

论文的核心点:将 LLM 的泛化能力迁移到流量领域。

image.png

首先论文使用 Tshark 从流量包提取各个协议层的元数据,并组织成键值对的形式,例如:tcp.srcport: 443

然后用这些处理后的海量流量数据,训练一个 BEP 分词器。

image.png

最后将这个专用分词器和 LLM 的分词器合并,拓展 LLM 的词表。

然后进行微调。

  • 阶段1:自然指令微调。让 LLM 学会人类专家的质量,比如“请帮我分析这段流量是不是僵尸网络通信”,让 LLM 输出任务名称,比如 “Botnet Detection”。
  • 阶段2:任务相关的微调。
image.png

实验指标如下:

image.png

TrafficLLM
https://d4wnnn.github.io/2026/04/25/Notion/TrafficLLM/
作者
D4wn
发布于
2026年4月25日
许可协议