TrafficLLM

Paper：TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation

论文的核心点：将 LLM 的泛化能力迁移到流量领域。

首先论文使用 Tshark 从流量包提取各个协议层的元数据，并组织成键值对的形式，例如：tcp.srcport: 443

然后用这些处理后的海量流量数据，训练一个 BEP 分词器。

最后将这个专用分词器和 LLM 的分词器合并，拓展 LLM 的词表。

然后进行微调。

阶段1：自然指令微调。让 LLM 学会人类专家的质量，比如“请帮我分析这段流量是不是僵尸网络通信”，让 LLM 输出任务名称，比如 “Botnet Detection”。
阶段2：任务相关的微调。

实验指标如下：

#Traffic Analysis

TrafficLLM

https://d4wnnn.github.io/2026/04/25/Notion/TrafficLLM/

作者

D4wn

发布于

2026年4月25日

许可协议