TrafficGPT
Paper:TrafficGPT: An LLM Approach for Open-Set Encrypted Traffic Classification
也是将 LLM 应用在流量上的工作。
首先我觉得挺新奇的创新点,在数字字符之间加上空格,能保证相似的流量在空间中离得更近。其实也是一种变相对分词器的改进。
然后论文使用了 GPT-2-smal 微调,提取 Softmax 层之前的倒数第二层作为上下文相关特征向量。
在训练阶段,加一个分类头,目的是优化中间层的特征表示。在训练完成后会去掉。
然后论文为每个类别计算一个平均激活向量 MAV,如果一个新样本的特征向量与这些已知类别的距离太远,就判定它是“未知”的,即:
实验结果如下:
我个人觉得,这个分词器的改进真不错。另外这个思路感觉也很符合直觉。
TrafficGPT
https://d4wnnn.github.io/2026/04/25/Notion/TrafficGPT/