TrafficLLM
Paper:TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation
论文的核心点:将 LLM 的泛化能力迁移到流量领域。
首先论文使用 Tshark 从流量包提取各个协议层的元数据,并组织成键值对的形式,例如:tcp.srcport: 443
然后用这些处理后的海量流量数据,训练一个 BEP 分词器。
最后将这个专用分词器和 LLM 的分词器合并,拓展 LLM 的词表。
然后进行微调。
- 阶段1:自然指令微调。让 LLM 学会人类专家的质量,比如“请帮我分析这段流量是不是僵尸网络通信”,让 LLM 输出任务名称,比如 “Botnet Detection”。
- 阶段2:任务相关的微调。
实验指标如下:
TrafficLLM
https://d4wnnn.github.io/2026/04/25/Notion/TrafficLLM/