VAST 开源月 | TripoSG 和 TripoSF，树立 3D 生成新标杆

2024 年 3 月，VAST 与 Stability AI 联合开源了大型 3D 模型 TripoSR。凭借其革命性的能力，仅需 0.5 秒即可从单张图片生成 3D 模型，迅速成为全球 3D 创作者的首选工具。
同年，开源项目持续突破 AI 行业界限，推动学术研究和商业应用快速发展。
VAST 进一步推进 Tripo 系列，于 2024 年 9 月发布 Tripo 2.0，并于 2025 年 1 月发布 Tripo 2.5。这些迭代模型经过数千万高质量原生 3D 资产的训练，在生成速度、模型精度和整体成功率方面不断取得新突破——每一项都以非凡的几何精度重新定义了 3D 模型创建的边界。
在全球追求技术进步的过程中，我们深知基础模型团队需要颠覆性的基础架构创新和模型能力突破。尽管我们持续在封闭环境中将 Tripo 完善成一个“更完美的解决方案”，但我们认为更重要的是将其转化为开源生态系统中的“基本构建模块”。开放的技术生态系统比封闭系统具有更大的长期价值。
基于此，我们于 2025 年 3 月启动了“技术开源月”倡议。
我们计划陆续开源八个主要项目，涵盖整个技术链——从基础生成模型和核心功能组件，到创新理念的探索。我们的目标是构建全球首个端到端开源 3D 生成系统，我们真诚希望 3D 生成领域的研究人员和开发者能从中获得启发和价值。

现在，VAST 正在发布两款基础 3D 生成模型：

TripoSG 和 TripoSF。

TripoSG 重大升级：3D 生成领域首个 MoE Transformer 架构

TripoSG 是一个基于 Rectified Flow (RF) 的 MoE Transformer 架构构建的基础 3D 生成模型。在此次发布中，我们开源了 15 亿参数 TripoSG 模型的权重和推理代码，您可以通过 HuggingFace 上的交互式演示进行体验。
测试结果显示，TripoSG 的输出质量与 Tripo 2.0 不相上下——超越了所有现有开源 3D 生成项目。其突出优势包括卓越的泛化能力和生成复杂复合对象时的高稳定性。

遵循 Scaling Law，利用更高质量的数据和更大的模型，仍然是 TripoSG 成功的关键因素。以下是高效训练、架构设计和数据治理方面的四项关键创新：

1. 率先使用基于 RF 的 Transformer 进行 3D 形状生成

从 Tripo 2.0 开发初期，我们就发现与传统扩散模型相比，Rectified Flow 在噪声和数据之间提供了更直接的线性路径。这使得训练更加稳定和高效——与 DiT 结合后，显著增强了模型的稳定性。

2. 引入 3D 领域首个 MoE Transformer，实现更好的扩展性

尽管 MoE Transformer 已应用于语言、图像和视频模型，但 TripoSG 标志着其在 3D 领域的首次高效应用。这种方法显著增加了模型的参数容量——尤其是在更深、更关键的层中——而不会大幅增加推理成本。此外，TripoSG 基于 Transformer 框架构建，并包含了关键增强功能，例如跳跃连接（skip-connections）以改进跨层特征融合。独立的交叉注意力机制（cross-attention mechanism）还有效地注入全局（CLIP）和局部（DINOv2）图像特征，确保输入 2D 图像与生成的 3D 形状之间精确对齐。

3. 通过高质量 VAE 和创新几何监督增强几何表示

我们一直在追求更好的几何表示。在 TripoSG 中，我们采用了使用符号距离函数（SDFs）进行几何编码的 VAE，其精度高于之前流行的占用网格（occupancy grids）。此外，基于 Transformer 的 VAE 架构在不同分辨率下具有出色的泛化能力，无需重新训练即可处理高分辨率输入。

4. 通过全面的数据构建流程强调数据治理

数据质量和数量都至关重要。VAST 拥有全球最大的高质量原生 3D 数据集，并为开源社区开发了端到端的数据治理流程。
该流程包括：质量评分 → 数据过滤 → 修复与增强 → SDF 生成

使用此流程，我们构建了一个包含 200 万高质量“图像-SDF”训练对的数据集。消融研究清楚地表明，在此精炼数据集上训练的模型显著优于在更大、未过滤的原始数据集上训练的模型。

TripoSF 开启 3D 内部结构生成：突破性 Tokenizer 实现 3D 生成新标杆

TripoSF 是 VAST 基于一种新颖的 3D 表示 SparseFlex 开发的基础 3D 模型。
测试表明，其结果超越了所有现有开源和闭源工作。我们正在开源 TripoSF 的预训练 VAE 模型和相关推理代码，完整版将在 Tripo 3.0 中全面亮相。

TripoSF 重新定义了“模型质量的上限”。该模型首次不仅能生成物体的“背面”，还能生成其“内部结构”（如巴士座椅和驾驶室示例所示）。

此外，以往作品在生成服装或花瓣时往往几何形状过于厚重，而 TripoSF 则能以非凡的精细度处理开放表面资产。

其在其他模型类别中的丰富细节是前所未有的。

开发 TripoSF 的主要目标是突破 3D 建模在细节、复杂结构和可扩展性方面的传统瓶颈。过去的方法经常在预处理过程中丢失细节，难以表达复杂几何形状，或者在高分辨率下产生过高的内存和计算成本。我们一直在寻找能够突破 3D 生成极限的 tokenizer，最终开发出 SparseFlex——这是一个重要的进展。
SparseFlex 利用了 Flexicubes 的优势——能够可微分地提取具有锐利特征的网格——同时创新性地引入了稀疏体素结构，仅在物体表面附近存储和计算体素信息。其优势显著：

显著降低内存使用： 使 TripoSF 能够在 1024³ 的高分辨率下进行训练和推理。
原生支持任意拓扑： 通过省略空白区域的体素，它自然地表示开放表面（如织物和叶子），同时有效捕捉内部结构。
通过渲染损失直接优化： SparseFlex 是可微分的，允许 TripoSF 使用渲染损失进行端到端训练，避免了数据转换（例如，水密性调整）导致的细节退化。

实验结果表明 TripoSF 树立了新的行业标杆。在多个标准基准测试中，TripoSF 的 Chamfer 距离降低了约 82%，F-score 提高了 88%，远超现有方法。

资源

【TripoSG 】

【 TripoSF 】

我们开源项目的更多更新和增强功能将及时发布在 VAST AI Research 的官方 GitHub、HuggingFace 和 X（前身为 Twitter）上：

除了这些开源项目，Tripo 网站和我们经济高效的 API 上提供的工具可无缝访问 VAST 提供的最新模型服务。
如有任何技术或学术建议和合作，请随时通过 research@vastai3d.com 与我们联系。
扫描仪无法捕捉月球远侧的每一个缝隙，但在荒野中总有一些人在矿山辛勤劳作。镐头敲击地面的声音持续回响，直到有一天它们融为一体——这响亮的证明，开源就像镐头击地，为了那没有地图的月球远侧。

探索更多

Announcement

Tripo Segmentation v2 发布：精准控制，轻松分割 3D 模型

Tripo Segmentation v2 可在一分钟内将任意 3D 模型分割为整洁、可编辑的独立部件。三档精度模式，语义感知切割，无需使用网格编辑器。

Tripo Team

📅 · 2026/05/27

Announcement

Tripo最新发布与更新：算法2.5、Blender和Unity插件

探索革命性的 Tripo 2.5 更新，体验增强的 3D 模型生成功能，以及专为简化您的创作流程而设计的前沿 Blender 和 Unity 插件。

Maisie

📅 · 2025/02/10

Announcement

推出Tripo最新更新：超高清纹理、更智能的绑定与无限创意

体验 Tripo 的最新升级：超高清纹理、纹理放大、改进的绑定、100 多个新动画、帧锁定和一键式 3D 格式转换器。

Tripo Team

📅 · 2025/11/26

分享文章

用 3D 生成万物

点击下方，加入数百万 3D 创作者的行列。体验超高保真模型生成与一流的 PBR 贴图。

VAST 开源月 | TripoSG 和 TripoSF，树立 3D 生成新标杆

现在，VAST 正在发布两款基础 3D 生成模型：

TripoSG 和 TripoSF。

TripoSG 重大升级：3D 生成领域首个 MoE Transformer 架构

遵循 Scaling Law，利用更高质量的数据和更大的模型，仍然是 TripoSG 成功的关键因素。以下是高效训练、架构设计和数据治理方面的四项关键创新：

1. 率先使用基于 RF 的 Transformer 进行 3D 形状生成

2. 引入 3D 领域首个 MoE Transformer，实现更好的扩展性

3. 通过高质量 VAE 和创新几何监督增强几何表示

4. 通过全面的数据构建流程强调数据治理

TripoSF 开启 3D 内部结构生成：突破性 Tokenizer 实现 3D 生成新标杆

TripoSF 重新定义了“模型质量的上限”。该模型首次不仅能生成物体的“背面”，还能生成其“内部结构”（如巴士座椅和驾驶室示例所示）。

此外，以往作品在生成服装或花瓣时往往几何形状过于厚重，而 TripoSF 则能以非凡的精细度处理开放表面资产。

其在其他模型类别中的丰富细节是前所未有的。

显著降低内存使用： 使 TripoSF 能够在 1024³ 的高分辨率下进行训练和推理。
原生支持任意拓扑： 通过省略空白区域的体素，它自然地表示开放表面（如织物和叶子），同时有效捕捉内部结构。
通过渲染损失直接优化： SparseFlex 是可微分的，允许 TripoSF 使用渲染损失进行端到端训练，避免了数据转换（例如，水密性调整）导致的细节退化。

实验结果表明 TripoSF 树立了新的行业标杆。在多个标准基准测试中，TripoSF 的 Chamfer 距离降低了约 82%，F-score 提高了 88%，远超现有方法。