Paper：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

在T5提出之前，NLP领域的迁移学习呈现出野蛮生长但缺乏统一标准的状态。不同研究者在使用不同的预训练目标（如自回归、掩码语言模型）、不同的微调策略、以及不同的数据集。这导致大家很难公平地比较到底哪种算法更有效。

因此，本论文的核心目标是：构建一个统一的框架，将所有的NLP任务标准化，并在完全相同的学术基准下，系统性地探索迁移学习的极限。

论文的核心创新可以概括为：“一个文本视角的统一 + 一个大规模清洗的数据集 + 一套系统性的消融实验方案”。

论文核心

核心创新一：万物皆可 Text-to-Text

作者将所有的NLP任务（无论是分类、生成还是回归）都强制转换为“输入文本输出文本”的生成任务。

核心创新二：Span-Corruption

假设原始序列为。T5随机选择中的Token进行破坏。它不满足于像BERT那样一个词一个词地用 <MASK> 替换，而是将连续的被破坏Token绑在一起，用一个唯一的哨兵Token（Sentinel Token，如 <X>, <Y>）代替。

这种非对称设计极大地缩短了目标序列的长度，让 Decoder 在计算自回归 Self-Attention 时序列极短，显著降低了预训练的计算成本和显存开销。

核心创新三：提出了一个 C4 数据集

论文提出了 745GB 的 C4 (Colossal Clean Crawled Corpus) 数据集。

可能问的问题

为什么 Sora、Imagen-Video 等很多视频/图像生成模型喜欢选择 T5 作为 Text Encoder，而不是用更轻量的 CLIP、BERT 或纯 GPT 的 Decoder？

双向上下文理解（完胜纯 Decoder）： T5 的标准架构是包含 Encoder-Decoder 的。它的 Encoder 采用完全可见的注意力掩码（Fully-visible Mask），相比 GPT 这种纯 Decoder 的因果掩码（Causal Mask），Encoder 能够实现真正的双向上下文融合，提取出来的文本 Embedding 空间语意更饱满、逻辑更强。
细粒度文本对齐（完胜 CLIP）： CLIP 采用对比学习，它的特征更偏向“句子级的宏观语义”。而 T5 经过了海量文本的 Span-Corruption（去噪填空）预训练，对词序、修饰词、长文本局部细节的捕捉极度敏感。在视频生成中，T5 能提供精确到“词级（Token-level）”的细粒度控制特征，能更好应对“画面里左边有一只红色的猫，右边有一只蓝色的狗”这种复杂的空间长句描述。

#Multi Model

https://d4wnnn.github.io/2026/06/02/Notion/T5/

作者

D4wn

发布于

2026年6月2日

许可协议