VAST 오픈소스의 달 | TripoSG & TripoSF, 3D 생성 분야의 새로운 SOTA를 제시하다

2024년 3월, VAST와 Stability AI는 대규모 3D 모델인 TripoSR을 공동 오픈소스화했습니다. 단일 이미지에서 0.5초 만에 3D 모델을 생성하는 혁신적인 능력으로, TripoSR은 전 세계 3D 크리에이터들이 가장 많이 찾는 도구가 되었습니다.
같은 해, 오픈소스 프로젝트들은 AI 산업의 경계를 계속 확장하며 학술 연구와 상업적 응용 분야 모두에서 급격한 성장을 이끌었습니다.
VAST는 2024년 9월 Tripo 2.0, 2025년 1월 Tripo 2.5를 출시하며 Tripo 시리즈를 더욱 발전시켰습니다. 수천만 개의 고품질 네이티브 3D 에셋으로 훈련된 이 모델들은 생성 속도, 모델 정확도, 전반적인 성공률 면에서 끊임없이 새로운 지평을 열었으며, 각 모델은 3D 모델 생성의 한계를 재정의하는 놀라운 기하학적 정밀도를 자랑했습니다.
기술 발전을 향한 우리의 전 세계적인 노력 속에서, 우리는 기반 모델 팀에게 근본적인 아키텍처의 혁신과 모델 기능의 발전이 필수적이라는 것을 이해하고 있습니다. Tripo를 폐쇄된 환경에서 "완벽한 솔루션"으로 지속적으로 개선하는 동시에, 오픈소스 생태계 내에서 "기본 구성 요소"로 변모하는 것이 훨씬 더 중요하다고 믿습니다. 개방형 기술 생태계는 폐쇄형 시스템보다 훨씬 더 큰 장기적 가치를 지닙니다.
이러한 생각으로, 2025년 3월 우리는 "기술 오픈소스의 달" 이니셔티브를 시작했습니다.
우리는 기반 생성 모델과 핵심 기능 구성 요소부터 혁신적인 아이디어 탐색에 이르기까지 전체 기술 체인을 아우르는 8가지 주요 프로젝트를 순차적으로 오픈소스화할 계획입니다. 우리의 목표는 세계 최초의 종단간 오픈소스 3D 생성 시스템을 구축하는 것이며, 3D 생성 분야의 연구자와 개발자들이 우리의 작업에서 영감과 가치를 찾기를 진심으로 바랍니다.

이제 VAST는 두 가지 기반 3D 생성 모델인 TripoSG와 TripoSF를 공개합니다.


TripoSG의 주요 업그레이드: 3D 생성 분야 최초의 MoE Transformer 아키텍처

TripoSG는 Rectified Flow (RF) 기반 MoE Transformer 아키텍처로 구축된 기반 3D 생성 모델입니다. 이번 릴리스에서는 1.5B 파라미터 TripoSG 모델의 가중치와 추론 코드를 오픈소스화하며, HuggingFace에서 제공되는 인터랙티브 데모를 통해 직접 체험해 볼 수 있습니다.
테스트 결과 TripoSG의 출력 품질은 Tripo 2.0과 동등하며, 기존의 모든 오픈소스 3D 생성 프로젝트를 능가하는 것으로 나타났습니다. 특히 복잡한 복합 객체를 생성할 때 뛰어난 일반화 능력과 높은 안정성이 두드러지는 장점입니다.

Scaling Law를 준수하고, 더 높은 품질의 데이터를 활용하며, 더 큰 모델을 사용하는 것이 TripoSG 성공의 핵심 요소입니다. 효율적인 훈련, 아키텍처 설계 및 데이터 거버넌스 분야의 네 가지 주요 혁신은 다음과 같습니다.

1. RF 기반 Transformer를 3D 형상 생성에 최초로 활용

Tripo 2.0 개발 초기부터 우리는 기존 확산 모델에 비해 Rectified Flow가 노이즈와 데이터 사이의 더 직접적인 선형 경로를 제공한다는 것을 발견했습니다. 이는 더 안정적이고 효율적인 훈련을 가능하게 하며, DiT와 결합될 때 모델 안정성을 크게 향상시킵니다.

2. 더 나은 스케일링을 위한 3D 분야 최초의 MoE Transformer 도입

MoE Transformer는 언어, 이미지, 비디오 모델에 사용되어 왔지만, TripoSG는 3D 영역에서 최초로 효율적으로 적용되었습니다. 이 접근 방식은 모델의 파라미터 용량을 극적으로 증가시키며, 특히 더 깊고 중요한 레이어에서 추론 비용을 크게 추가하지 않습니다. 또한 Transformer 프레임워크를 기반으로 구축된 TripoSG는 계층 간 특징 융합을 개선하기 위한 skip-connection과 같은 주요 개선 사항을 통합합니다. 독립적인 교차 주의(cross-attention) 메커니즘은 전역(CLIP) 및 지역(DINOv2) 이미지 특징을 효율적으로 주입하여 입력 2D 이미지와 생성된 3D 형상 간의 정밀한 정렬을 보장합니다.

3. 고품질 VAE와 혁신적인 기하학적 감독을 통한 기하학적 표현 강화

우리는 더 나은 기하학적 표현을 지속적으로 추구해왔습니다. TripoSG에서는 기하학적 인코딩을 위해 Signed Distance Functions (SDFs)를 사용하는 VAE를 채택했으며, 이는 이전에 널리 사용되던 occupancy grids보다 더 높은 정밀도를 제공합니다. 또한 Transformer 기반 VAE 아키텍처는 해상도에 걸쳐 탁월한 일반화 능력을 보여주며, 재훈련 없이도 고해상도 입력을 처리할 수 있습니다.

4. 포괄적인 데이터 구축 파이프라인을 통한 데이터 거버넌스 강조

데이터 품질과 양은 모두 중요합니다. VAST는 전 세계적으로 가장 큰 고품질 네이티브 3D 데이터 컬렉션을 보유하고 있으며, 오픈소스 커뮤니티를 위한 종단간 데이터 거버넌스 파이프라인을 개발했습니다.
이 과정은 다음을 포함합니다: 품질 점수화 → 데이터 필터링 → 수정 및 증강 → SDF 생성

이 파이프라인을 사용하여 우리는 2백만 개의 고품질 "이미지-SDF" 훈련 쌍 데이터셋을 구축했습니다. 제거 연구(Ablation studies)는 이 정제된 데이터셋으로 훈련된 모델이 더 크지만 필터링되지 않은 원본 데이터셋으로 훈련된 모델보다 훨씬 우수한 성능을 보인다는 것을 명확히 보여줍니다.

TripoSF는 내부 3D 구조 생성을 가능하게 합니다: 획기적인 토크나이저가 3D 생성 분야에서 새로운 SOTA를 달성하다

TripoSF는 VAST가 개발한 새로운 3D 표현인 SparseFlex를 기반으로 하는 기반 3D 모델입니다.
테스트 결과 TripoSF의 결과는 기존의 모든 오픈소스 및 비공개 작업을 능가하는 것으로 나타났습니다. 우리는 TripoSF의 사전 훈련된 VAE 모델과 관련 추론 코드를 오픈소스화하고 있으며, 완전한 "전면적인" 버전은 Tripo 3.0에서 공개될 예정입니다.

TripoSF는 "모델 품질의 상한선"을 재정의합니다. 이 모델은 처음으로 객체의 "뒷면"뿐만 아니라 "내부 구조"까지 생성할 수 있습니다(버스 좌석 및 운전석 캐빈 예시 참조).

또한 이전 작업들이 옷이나 꽃잎을 과도하게 두꺼운 기하학적 형태로 생성하는 경향이 있었던 반면, TripoSF는 개방형 표면 에셋을 탁월한 정교함으로 처리합니다.

다른 모델 카테고리에서의 풍부한 디테일은 전례가 없습니다.

TripoSF 개발의 주요 목표는 디테일, 복잡한 구조 및 확장성과 관련된 3D 모델링의 전통적인 병목 현상을 해결하는 것이었습니다. 기존 방법은 전처리 과정에서 디테일 손실, 복잡한 기하학적 형태의 불충분한 표현, 또는 고해상도에서의 엄청난 메모리 및 계산 비용으로 어려움을 겪는 경우가 많았습니다. 3D 생성의 한계를 뛰어넘을 수 있는 토크나이저를 찾던 중 SparseFlex를 개발하게 되었고, 이는 상당한 진전을 의미합니다.
SparseFlex는 날카로운 특징을 가진 메시를 차등적으로 추출할 수 있는 Flexicubes의 장점을 활용하는 동시에, 객체 표면 근처에만 복셀 정보를 저장하고 계산하는 혁신적인 희소 복셀 구조를 도입합니다. 그 이점은 상당합니다.

  • 메모리 사용량 대폭 감소: TripoSF가 1024³의 고해상도에서 훈련 및 추론할 수 있도록 합니다.
  • 임의의 토폴로지에 대한 기본 지원: 빈 공간의 복셀을 생략함으로써, 개방형 표면(예: 직물 및 나뭇잎)을 자연스럽게 표현하는 동시에 내부 구조를 효과적으로 포착합니다.
  • 렌더링 손실을 통한 직접 최적화: SparseFlex는 미분 가능하여 TripoSF가 렌더링 손실을 사용하여 종단간 훈련을 수행하고 데이터 변환으로 인한 디테일 저하(예: watertightness 조정)를 피할 수 있도록 합니다.

실험 결과 TripoSF가 새로운 최첨단 기술을 확립했음을 보여줍니다. 여러 표준 벤치마크에서 TripoSF는 이전 방법에 비해 Chamfer Distance에서 약 82% 감소, F-score에서 88% 향상을 달성했습니다.

자료

【TripoSG 】

【 TripoSF 】

오픈소스 프로젝트에 대한 추가 업데이트 및 개선 사항은 VAST AI Research의 공식 GitHub, HuggingFace, X(이전 Twitter)에 즉시 게시될 예정입니다.

이러한 오픈소스 프로젝트 외에도 Tripo 웹합리적인 가격의 API에서 제공되는 도구는 VAST가 제공하는 최신 모델 서비스에 원활하게 접근할 수 있도록 합니다.
기술적 또는 학술적 제안 및 협력에 대해서는 research@vastai3d.com으로 문의해 주시기 바랍니다.
스캐너는 달의 뒷면 모든 틈새를 포착할 수 없지만, 황야에는 항상 광산에서 수고하는 사람들이 있습니다. 곡괭이가 땅을 때리는 소리는 끊임없이 울려 퍼지다가 어느 날 하나로 합쳐져 울림 있는 증거가 됩니다. 오픈소스는 마치 곡괭이가 땅을 치는 소리와 같다고, 지도가 존재하지 않는 달의 뒷면에서 말입니다.

더 알아보기


Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.

무엇이든 3D로 생성
텍스트·이미지를 3D 모델로 변환텍스트·이미지를 3D 모델로 변환
매월 무료 크레딧 제공매월 무료 크레딧 제공
압도적인 디테일 복원력압도적인 디테일 복원력