Paper：Structured 3D Latents for Scalable and Versatile 3D Generation

论文解决的核心问题：现有 3D 生成模型有一个大麻烦：3D 表示形式太多，而且各有短板。

于是论文想生成一个统一的 3D latent representation，让同一个生成结果可以灵活解码成不同 3D 格式：SLAT，全称是 Structured LATent。

如何理解：

在一个稀疏 3D 网格上，只保留物体表面附近的有效 voxel；每个有效 voxel 上挂一个 latent vector，用来表示该局部区域的几何和外观细节。

论文的核心方法分成两个阶段。

阶段0：数据准备

首先用 Sparse Structure VAE 将一个已有的 3D 资产转换成的 voxels。

然后每个资产渲染 150 张各个角度的图，然后用 DINOv2 提取多视角的 feature map。再把每个 active voxel 投影到这些图上，聚合得到 voxel feature：

阶段1：生成稀疏结构

由于直接在二值网格上生成太贵，所以作者先训练一个 3D VAE，把空间尺寸压缩到。

作用有两个：

然后训练 Diffusion。

注入的条件支持文本和图片，通过 Cross-Attention 注入，时间步通过 AdaLN 注入。

然后论文同样训练一个 3D-VAE，只不过这次压缩的 Voxel 是贴色的。

然后注入条件开始训练 Diffusion。

这里的条件有两种：

#3D

TRELLIS

https://d4wnnn.github.io/2026/05/26/Notion/TRELLIS/

作者

D4wn

发布于

2026年5月26日

许可协议