Paper：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

现有的视觉-语言预训练（Vision-Language Pre-training, VLP）模型主要存在两大痛点：

模型层面（架构不统一）： 现有模型要么采用基于编码器（Encoder-based）的架构（如 CLIP），擅长“理解型”任务（如图像-文本检索），但不易直接迁移到“生成型”任务；要么采用编码器-解码器（Encoder-Decoder）架构，擅长“生成型”任务（如图像描述），但在检索类任务上表现不佳。
数据层面（网络噪音过大）： 现有的性能提升极度依赖于从网络上爬取的超大规模图像-文本对。但这些网络文本充斥着大量的噪音和错配，直接作为监督信号是次优的。

核心方法

创新点1：多模态混合编码器-解码器 MED

为了用一套参数兼顾“理解”与“生成”，BLIP 设计了一个多功能、高度复用参数的全新架构。它包含一个图像编码器（ViT）和一个文本 Transformer 。这个文本 Transformer 通过共享大部分参数（除自注意力层外），可以像瑞士军刀一样灵活切换成三种模式：

单模态 Encoder： 独立编码图像和文本。文本输入前加 [CLS] 标记。
- 预训练目标：图像-文本对比损失（ITC）。
图文融合 Encoder： 在文本 Transformer 的自注意力和 FFN 之间插入 Cross Attention 以注入视觉信息。文本输入前加 [Encode] 标记。
- 预训练目标：图像-文本匹配损失（ITM） 。
图文融合 Decoder： 将自注意力层替换为 Causal Self-Attention，用于预测下一个 Token 。文本输入前加 [Decode] 标记。
- 预训练目标：自回归语言模型损失（LM）。

创新点二：图文数据集

先预训练一遍。

#Multi Model

BLIP

https://d4wnnn.github.io/2026/06/02/Notion/BLIP/

作者

D4wn

发布于

2026年6月2日

许可协议