T5

Paper:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

在T5提出之前,NLP领域的迁移学习呈现出野蛮生长但缺乏统一标准的状态 。不同研究者在使用不同的预训练目标(如自回归、掩码语言模型)、不同的微调策略、以及不同的数据集 。这导致大家很难公平地比较到底哪种算法更有效 。

因此,本论文的核心目标是:构建一个统一的框架,将所有的NLP任务标准化,并在完全相同的学术基准下,系统性地探索迁移学习的极限 。

论文的核心创新可以概括为:“一个文本视角的统一 + 一个大规模清洗的数据集 + 一套系统性的消融实验方案”

论文核心

核心创新一:万物皆可 Text-to-Text

作者将所有的NLP任务(无论是分类、生成还是回归)都强制转换为“输入文本 输出文本”的生成任务 。

  • 实现方式: 通过在输入前加上一个特定的文本前缀(Task Prefix)来指示模型要执行的任务 。

核心创新二:Span-Corruption

假设原始序列为 。T5随机选择 的Token进行破坏 。它不满足于像BERT那样一个词一个词地用 <MASK> 替换,而是将连续的被破坏Token绑在一起,用一个唯一的哨兵Token(Sentinel Token,如 <X>, <Y>)代替 。

image.png

这种非对称设计极大地缩短了目标序列的长度,让 Decoder 在计算自回归 Self-Attention 时序列极短,显著降低了预训练的计算成本和显存开销

核心创新三:提出了一个 C4 数据集

论文提出了 745GB 的 C4 (Colossal Clean Crawled Corpus) 数据集。

可能问的问题

为什么 Sora、Imagen-Video 等很多视频/图像生成模型喜欢选择 T5 作为 Text Encoder,而不是用更轻量的 CLIP、BERT 或纯 GPT 的 Decoder?

  • 双向上下文理解(完胜纯 Decoder): T5 的标准架构是包含 Encoder-Decoder 的。它的 Encoder 采用完全可见的注意力掩码(Fully-visible Mask),相比 GPT 这种纯 Decoder 的因果掩码(Causal Mask),Encoder 能够实现真正的双向上下文融合,提取出来的文本 Embedding 空间语意更饱满、逻辑更强。
  • 细粒度文本对齐(完胜 CLIP): CLIP 采用对比学习,它的特征更偏向“句子级的宏观语义”。而 T5 经过了海量文本的 Span-Corruption(去噪填空)预训练,对词序、修饰词、长文本局部细节的捕捉极度敏感。在视频生成中,T5 能提供精确到“词级(Token-level)”的细粒度控制特征,能更好应对“画面里左边有一只红色的猫,右边有一只蓝色的狗”这种复杂的空间长句描述。

T5
https://d4wnnn.github.io/2026/06/02/Notion/T5/
作者
D4wn
发布于
2026年6月2日
许可协议