2024年3月、VASTとStability AIは共同で大規模3DモデルTripoSRをオープンソース化しました。単一画像からわずか0.5秒で3Dモデルを生成する画期的な能力により、世界中の3Dクリエイターにとってすぐに頼りになるツールとなりました。
同年、オープンソースプロジェクトはAI業界の限界を押し広げ続け、学術研究と商業応用における急速な成長を促進しました。
VASTは、Tripoシリーズをさらに進化させ、2024年9月にTripo 2.0を、2025年1月にはTripo 2.5をリリースしました。数千万の高品質なネイティブ3Dアセットでトレーニングされたこれらのイテレーションは、生成速度、モデル精度、全体的な成功において常に新たな境地を切り開きました。それぞれが、3Dモデル作成のフロンティアを再定義する並外れた幾何学的精度を誇っています。
技術進歩を世界的に追求する中で、私たちは基盤アーキテクチャにおける破壊的なイノベーションとモデル能力におけるブレークスルーが、基盤モデルチームにとって不可欠であると理解しています。私たちはクローズドな環境でTripoを「完璧なソリューション」へと継続的に改良していますが、オープンソースエコシステム内で「基本的な構成要素」へと変革することのほうがさらに重要であると信じています。オープンな技術エコシステムは、クローズドなシステムよりもはるかに大きな長期的価値を持っています。
この考えに基づき、2025年3月に「テクノロジーオープンソース月間」イニシアチブを立ち上げました。
私たちは、基盤生成モデルから中核機能コンポーネント、革新的なアイデアの探求に至るまで、技術チェーン全体にわたる8つの主要プロジェクトを順次オープンソース化する予定です。私たちの目標は、世界初のend-to-endオープンソース3D生成システムを構築することであり、3D生成の研究者や開発者の皆様に、私たちの取り組みがインスピレーションと価値をもたらすことを心から願っています。
TripoSGは、Rectified Flow (RF) ベースのMoE Transformerアーキテクチャ上に構築された基盤3D生成モデルです。今回のリリースでは、1.5BパラメータのTripoSGモデルの重みと推論コードをオープンソース化し、HuggingFaceのインタラクティブデモで試すことができます。
テストにより、TripoSGの出力品質はTripo 2.0と同等であり、既存のすべてのオープンソース3D生成プロジェクトを上回ることが示されています。その際立った利点には、優れた汎化能力と、複雑な複合オブジェクトを生成する際の高い安定性が含まれます。
スケーリング則に準拠し、より高品質なデータを活用し、より大規模なモデルを使用することが、TripoSGの成功の鍵となる要因であり続けています。効率的なトレーニング、アーキテクチャ設計、データガバナンスにおける4つの主要なイノベーションを以下に示します。
Tripo 2.0の開発初期から、私たちは従来の拡散モデルと比較して、Rectified Flowがノイズとデータの間により直接的な線形パスを提供することを発見しました。これにより、より安定した効率的なトレーニングが可能となり、DiTと組み合わせることでモデルの安定性が大幅に向上します。
MoE Transformerは言語、画像、ビデオモデルで活用されてきましたが、TripoSGは3Dドメインで初めて効率的に適用された例となります。このアプローチにより、モデルのパラメータ容量が劇的に増加し、特に深く、より重要な層において、推論コストを大幅に増やすことなく実現されます。
さらに、Transformerフレームワーク上に構築されたTripoSGは、クロスレイヤーの特徴融合を改善するためのスキップコネクションなどの重要な機能強化を組み込んでいます。独立したクロスアテンションメカニズムも、グローバルな(CLIP)およびローカルな(DINOv2)画像特徴を効率的に注入し、入力2D画像と生成された3D形状間の正確なアライメントを保証します。
私たちはより良い幾何学的表現を追求し続けてきました。TripoSGでは、幾何学的エンコーディングにSigned Distance Functions (SDFs) を使用するVAEを採用しました。これは、以前に普及していたoccupancy gridsよりも高い精度を提供します。さらに、TransformerベースのVAEアーキテクチャは、高解像度の入力も再トレーニングなしで処理できるため、解像度全体で例外的に優れた汎化能力を発揮します。
データ品質と量の両方が重要です。VASTは世界最大の高品質なネイティブ3Dデータコレクションを保有しており、オープンソースコミュニティ向けにend-to-endのデータガバナンスパイプラインを開発しました。
そのプロセスには以下が含まれます:品質スコアリング → データフィルタリング → 修正と拡張 → SDF生成

このパイプラインを使用して、200万組の高品質な「画像-SDF」トレーニングペアのデータセットを構築しました。アブレーションスタディでは、この洗練されたデータセットでトレーニングされたモデルが、より大規模でフィルタリングされていない生のデータセットでトレーニングされたモデルを大幅に上回ることが明確に示されています。
TripoSFは、VASTが新しい3D表現であるSparseFlexに基づいて開発した基盤3Dモデルです。
テストでは、その結果が既存のすべてのオープンソースおよびクローズドソースの成果を上回ることが示されています。TripoSFの事前学習済みVAEモデルと関連する推論コードをオープンソース化しており、完全な「all-out」バージョンはTripo 3.0で発表される予定です。
TripoSFは「モデル品質の上限」を再定義します。このモデルは、オブジェクトの「背面」だけでなく、「内部構造」も生成できるようになったのは初めてです(バスの座席や運転席の例で示されているように)。
さらに、これまでの作品では衣服や花びらが過度に厚い形状で生成される傾向がありましたが、TripoSFは開いた表面のアセットを並外れた繊細さで処理します。
他のモデルカテゴリにおけるその豊かなディテールは前例がありません。
TripoSFを開発する主な目的は、ディテール、複雑な構造、スケーラビリティに関連する3Dモデリングの従来のボトルネックを打破することでした。過去の方法では、前処理中にディテールが失われたり、複雑なジオメトリの表現が不十分だったり、高解像度でのメモリと計算コストが法外だったりすることがよくありました。3D生成の限界を押し上げるトークナイザーを探求した結果、SparseFlexの開発に至りました。これは大きな前進です。
SparseFlexは、シャープな特徴を持つメッシュを微分可能に抽出できるFlexicubesの強みを活用しつつ、オブジェクト表面の近くにのみボクセル情報を保存および計算する疎なボクセル構造を革新的に導入しています。その利点は大きく、以下の通りです。
実験結果は、TripoSFが新たな最先端を確立していることを示しています。複数の標準ベンチマークにおいて、TripoSFはChamfer Distanceで約82%の削減を達成し、Fスコアで以前の方法と比較して88%の改善を達成しました。
私たちのオープンソースプロジェクトに関するさらなる更新と機能強化は、VAST AI Researchの公式GitHub、HuggingFace、およびX(旧Twitter)で随時公開されます。
これらのオープンソースプロジェクトに加えて、Tripo Webと費用対効果の高いAPIで利用できるツールは、VASTが提供する最新のモデルサービスへのシームレスなアクセスを提供します。
技術的または学術的なご提案やコラボレーションについては、お気軽にresearch@vastai3d.comまでご連絡ください。
スキャナーは月の裏側のあらゆる隙間を捉えることはできませんが、荒野には常に鉱山で働く人々がいます。つるはしが地面を打つ音が絶え間なく響き渡り、やがてすべてが一つに溶け合うまで—オープンソースは、地図が存在しない月の裏側で地面を打つつるはしのようなものだという、力強い証です。
moving at the speed of creativity, achieving the depths of imagination.
テキスト・画像から3Dモデルを生成
毎月無料クレジット付与
究極のディテール再現