CogVideoX

Paper：CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

核心问题仍然是视频生成。

创新点1：仍然是用到了3D 因果自编码器

创新点2：专家自适应层归一化

文本特征和视频特征本就属于不同的“世界”（数值尺度和特征空间大相径庭）。如果直接拼接丢进 Transformer，模型会两头不讨好。Sora 等模型为了解决这个问题，往往为文本和视频各自搞一套独立的 Transformer 路径（如 MMDiT），但这会让参数量直接翻倍。

论文的解法非常聪明：保持 Transformer 核心参数共享，但在 LayerNorm 上开辟“文本专家”和“视觉专家”两条独立通道。根据扩散步长的调制信号，各自独立做缩放和偏移（Scale & Shift）。

创新点3：3D 全注意力机制与 3D-RoPE

以前的模型为了省显存，喜欢用“2D 空间注意力 + 1D 时间注意力”的解耦设计。但这会导致信息跨帧传递时需要通过背景“间接代传”，一旦物体运动速度过快就会跟丢（产生伪影）。论文直接采用了 3D Full Attention（全时空注意力），让任何一个画面的局部都能直接看到所有帧的对应位置。同时，将 LLM 里常用的旋转位置编码（RoPE）升级为 3D-RoPE，分别对坐标进行编码并拼接，且采用了外推（Extrapolation）而非内插法，保证了多分辨率切换时像素间相对位置不模糊。

创新点4：多分辨率帧打包

为了同时训练长、短、横屏、竖屏的各种视频，传统的做法是裁切或填充。论文借鉴了多模态 LLM 的打包思想，把不同分辨率、不同长度的视频“像拼图一样”打包进同一个 Batch 里，既不浪费数据，又保证了 shape 的整齐。另外，针对数据低质问题，建立了一套利用现成图像模型打标、再让 GPT-4 总结提炼出高质量“稠密视频长描述”的自动化流水线（并蒸馏给 Llama2 加速生成）。

#Video

CogVideoX

https://d4wnnn.github.io/2026/06/11/Notion/CogVideoX/

作者

D4wn

发布于

2026年6月11日

许可协议

在没有 GUI 的Remote Linux上查看仿真窗口上一篇

PPO，GRPO，DPO 下一篇