2024 年 3 月,VAST 与 Stability AI 联合开源了大型 3D 模型 TripoSR。凭借其革命性的能力,仅需 0.5 秒即可从单张图片生成 3D 模型,迅速成为全球 3D 创作者的首选工具。
同年,开源项目持续突破 AI 行业界限,推动学术研究和商业应用快速发展。
VAST 进一步推进 Tripo 系列,于 2024 年 9 月发布 Tripo 2.0,并于 2025 年 1 月发布 Tripo 2.5。这些迭代模型经过数千万高质量原生 3D 资产的训练,在生成速度、模型精度和整体成功率方面不断取得新突破——每一项都以非凡的几何精度重新定义了 3D 模型创建的边界。
在全球追求技术进步的过程中,我们深知基础模型团队需要颠覆性的基础架构创新和模型能力突破。尽管我们持续在封闭环境中将 Tripo 完善成一个“更完美的解决方案”,但我们认为更重要的是将其转化为开源生态系统中的“基本构建模块”。开放的技术生态系统比封闭系统具有更大的长期价值。
基于此,我们于 2025 年 3 月启动了“技术开源月”倡议。
我们计划陆续开源八个主要项目,涵盖整个技术链——从基础生成模型和核心功能组件,到创新理念的探索。我们的目标是构建全球首个端到端开源 3D 生成系统,我们真诚希望 3D 生成领域的研究人员和开发者能从中获得启发和价值。
TripoSG 是一个基于 Rectified Flow (RF) 的 MoE Transformer 架构构建的基础 3D 生成模型。在此次发布中,我们开源了 15 亿参数 TripoSG 模型的权重和推理代码,您可以通过 HuggingFace 上的交互式演示进行体验。
测试结果显示,TripoSG 的输出质量与 Tripo 2.0 不相上下——超越了所有现有开源 3D 生成项目。其突出优势包括卓越的泛化能力和生成复杂复合对象时的高稳定性。
遵循 Scaling Law,利用更高质量的数据和更大的模型,仍然是 TripoSG 成功的关键因素。以下是高效训练、架构设计和数据治理方面的四项关键创新:
从 Tripo 2.0 开发初期,我们就发现与传统扩散模型相比,Rectified Flow 在噪声和数据之间提供了更直接的线性路径。这使得训练更加稳定和高效——与 DiT 结合后,显著增强了模型的稳定性。
尽管 MoE Transformer 已应用于语言、图像和视频模型,但 TripoSG 标志着其在 3D 领域的首次高效应用。这种方法显著增加了模型的参数容量——尤其是在更深、更关键的层中——而不会大幅增加推理成本。
此外,TripoSG 基于 Transformer 框架构建,并包含了关键增强功能,例如跳跃连接(skip-connections)以改进跨层特征融合。独立的交叉注意力机制(cross-attention mechanism)还有效地注入全局(CLIP)和局部(DINOv2)图像特征,确保输入 2D 图像与生成的 3D 形状之间精确对齐。
我们一直在追求更好的几何表示。在 TripoSG 中,我们采用了使用符号距离函数(SDFs)进行几何编码的 VAE,其精度高于之前流行的占用网格(occupancy grids)。此外,基于 Transformer 的 VAE 架构在不同分辨率下具有出色的泛化能力,无需重新训练即可处理高分辨率输入。
数据质量和数量都至关重要。VAST 拥有全球最大的高质量原生 3D 数据集,并为开源社区开发了端到端的数据治理流程。
该流程包括:质量评分 → 数据过滤 → 修复与增强 → SDF 生成

使用此流程,我们构建了一个包含 200 万高质量“图像-SDF”训练对的数据集。消融研究清楚地表明,在此精炼数据集上训练的模型显著优于在更大、未过滤的原始数据集上训练的模型。
TripoSF 是 VAST 基于一种新颖的 3D 表示 SparseFlex 开发的基础 3D 模型。
测试表明,其结果超越了所有现有开源和闭源工作。我们正在开源 TripoSF 的预训练 VAE 模型和相关推理代码,完整版将在 Tripo 3.0 中全面亮相。
TripoSF 重新定义了“模型质量的上限”。该模型首次不仅能生成物体的“背面”,还能生成其“内部结构”(如巴士座椅和驾驶室示例所示)。
此外,以往作品在生成服装或花瓣时往往几何形状过于厚重,而 TripoSF 则能以非凡的精细度处理开放表面资产。
其在其他模型类别中的丰富细节是前所未有的。
开发 TripoSF 的主要目标是突破 3D 建模在细节、复杂结构和可扩展性方面的传统瓶颈。过去的方法经常在预处理过程中丢失细节,难以表达复杂几何形状,或者在高分辨率下产生过高的内存和计算成本。我们一直在寻找能够突破 3D 生成极限的 tokenizer,最终开发出 SparseFlex——这是一个重要的进展。
SparseFlex 利用了 Flexicubes 的优势——能够可微分地提取具有锐利特征的网格——同时创新性地引入了稀疏体素结构,仅在物体表面附近存储和计算体素信息。其优势显著:
实验结果表明 TripoSF 树立了新的行业标杆。在多个标准基准测试中,TripoSF 的 Chamfer 距离降低了约 82%,F-score 提高了 88%,远超现有方法。
我们开源项目的更多更新和增强功能将及时发布在 VAST AI Research 的官方 GitHub、HuggingFace 和 X(前身为 Twitter)上:
除了这些开源项目,Tripo 网站 和我们 经济高效的 API 上提供的工具可无缝访问 VAST 提供的最新模型服务。
如有任何技术或学术建议和合作,请随时通过 research@vastai3d.com 与我们联系。
扫描仪无法捕捉月球远侧的每一个缝隙,但在荒野中总有一些人在矿山辛勤劳作。镐头敲击地面的声音持续回响,直到有一天它们融为一体——这响亮的证明,开源就像镐头击地,为了那没有地图的月球远侧。
moving at the speed of creativity, achieving the depths of imagination.
文字/图片转 3D 模型
每月获赠免费额度
极致细节还原