CVPR 2025 | Tripo AI와 북항대학교, 단일 이미지로 복합 3D 장면을 생성하는 MIDI 오픈소스 공개

본 연구는 VAST, 북항대학교, 칭화대학교, 홍콩대학교 연구원들이 주도했습니다. 제1저자는 생성 AI 및 3D 비전 연구에 집중하는 북항대학교 석사 과정 학생인 황저환(Zehuan Huang)입니다. 교신저자는 VAST 수석 과학자 차오옌페이(Yanpei Cao)와 북항대학교 부교수 성루(Lv Sheng)입니다.

Sora가 월드 모델에 혁명을 일으키면서, 물리적 세계의 디지털 기반인 3D 장면은 역동적이고 상호작용적인 AI 시스템을 구축하는 데 필수적인 인프라가 되고 있습니다. 단일 이미지로부터 3D 에셋을 생성하는 현재의 획기적인 기술은 3D 콘텐츠 제작을 위한 "상상에서 3D로"라는 핵심 역량을 제공했습니다.

그러나 복합 장면 생성으로 기술이 발전함에 따라 단일 객체 생성 패러다임의 한계가 명확해집니다. 기존 방법들은 흩어진 "디지털 원자"처럼 3D 에셋을 생성하며, 합리적인 공간 관계를 가진 "분자 구조"로 스스로 조직화하는 데 어려움을 겪습니다. 이는 다음과 같은 몇 가지 핵심 과제로 이어집니다: ① 인스턴스 분리 딜레마 (단일 뷰에서 겹치는 객체를 정확하게 분리하는 방법); ② 물리적 제약 모델링 (비현실적인 교차 및 충돌을 피하는 방법); ③ 장면 수준의 의미 이해 (객체 기능과 공간 레이아웃 간의 일관성을 유지하는 방법). 이러한 병목 현상은 "디지털 원자"로부터 "상호작용하는 세계"를 효율적으로 구축하는 데 심각한 지장을 줍니다.

최근 북항대학교, VAST 등의 연구팀은 단일 이미지로부터 높은 기하학적 품질과 인스턴스 분리가 가능한 3D 복합 장면을 생성하여 단일 뷰 3D 장면 생성에 획기적인 발전을 이루고 상호작용하는 세계를 생성하기 위한 기반을 마련하는 새로운 모델인 MIDI를 소개했습니다.

논문: https://arxiv.org/abs/2412.03558
프로젝트 페이지: https://huanngzh.github.io/MIDI-Page/
코드: https://github.com/VAST-AI-Research/MIDI-3D
온라인 데모: https://huggingface.co/spaces/VAST-AI/MIDI-3D

기술적 돌파

기존의 복합 3D 장면 재구성 기술은 종종 다단계, 객체별 생성 및 장면 최적화에 의존하여 긴 프로세스를 거치며, 종종 낮은 기하학적 품질과 부정확한 공간 레이아웃을 가진 장면을 생성했습니다. 이러한 문제를 해결하기 위해 **MIDI (Multi-Instance Diffusion Model)**는 3D 객체 생성 모델을 혁신적으로 활용하여, 이를 여러 3D 인스턴스를 정확한 공간 관계와 함께 동시에 생성할 수 있는 다중 인스턴스 확산 모델로 확장하여 효율적이고 고품질의 3D 장면 생성을 달성합니다.

단일 객체에서 다중 인스턴스 생성으로: 여러 3D 인스턴스의 잠재 표현을 동시에 노이즈 제거하고, 노이즈 제거 과정에서 다중 인스턴스 토큰 간의 상호작용을 도입함으로써, MIDI는 3D 객체 생성 모델을 확장하여 상호작용 모델링을 통해 여러 인스턴스를 동시에 생성하고, 이를 3D 장면으로 직접 결합합니다.
다중 인스턴스 셀프-어텐션 메커니즘: 객체 생성 모델의 셀프-어텐션 메커니즘을 다중 인스턴스 셀프-어텐션으로 확장함으로써, MIDI는 생성 과정에서 인스턴스 간의 공간 상관관계와 전체 장면의 일관성을 효과적으로 포착하여 장면별 최적화가 필요 없습니다.
훈련 중 데이터 증강: 제한된 장면 데이터를 사용하여 3D 인스턴스 간의 상호작용을 감독하면서 객체 데이터로 훈련을 증강함으로써, MIDI는 사전 훈련의 일반화 능력을 유지하면서 장면 레이아웃을 효과적으로 모델링합니다.

생성 결과

단일 이미지를 기반으로 MIDI는 고품질의 복합 3D 장면을 생성할 수 있습니다:

온라인 데모

뛰어난 성능

MIDI는 정밀한 공간 레이아웃 모델링, 우수한 기하학적 생성 품질, 생성 효율성, 그리고 폭넓은 적용 가능성을 특징으로 합니다. 실험 결과, 이 모델은 여러 데이터셋에서 기존 방법들을 능가하며, 3D 인스턴스 공간 관계, 3D 인스턴스 기하학적 품질, 그리고 엔드투엔드 생성 속도에서 탁월한 성능을 달성했습니다.

응용 분야: 3D 장면 콘텐츠 제작을 위한 새로운 도구

MIDI는 3D 장면 제작을 위한 새로운 솔루션을 제공합니다. 이 기술은 건축 설계, 가상 현실, 영화 특수 효과, 게임 개발 등 다양한 분야에서 큰 잠재력을 보여줍니다. 고정밀, 고품질의 3D 장면 생성 능력을 통해 MIDI는 복잡한 장면에서 고품질 콘텐츠에 대한 수요를 충족시키고, 창작자들에게 더 많은 가능성을 제공할 수 있습니다.

Tripo: AI 기반 3D 모델 생성기

MIDI가 3D 장면 구성에 혁명을 일으키는 동안, Tripo는 최첨단 AI 기능을 통해 개별 에셋 생성을 강화합니다:

단일 이미지를 3D 모델로 변환

단일 2D 이미지를 즉시 고품질 3D 모델로 변환합니다.
AI 기반 재구성은 정확한 형태와 텍스처를 보장합니다.
빠른 프로토타이핑 및 컨셉 시각화에 이상적입니다.

여러 이미지를 3D 모델로 변환

더 나은 깊이와 디테일을 위해 여러 각도에서 찍은 이미지를 사용합니다.
기하학적 정확성과 사실감을 향상시킵니다.
정밀한 객체 모델링 및 제품 설계에 적합합니다.

텍스트를 3D 모델로 변환

간단한 텍스트 설명으로 3D 모델을 생성합니다.
AI가 프롬프트를 해석하여 상세하고 창의적인 에셋을 만듭니다.
게임, VR, 애니메이션을 위한 컨셉 생성 속도를 높입니다.

자동 리깅 및 애니메이션

최소한의 노력으로 애니메이션을 위한 모델을 즉시 리깅합니다.
AI 기반 뼈대 구조 및 모션 생성.
모델을 게임에 바로 사용할 수 있도록 하여 원활한 통합을 가능하게 합니다.

향후 연구

모델의 뛰어난 성능에도 불구하고, MIDI 개발팀은 아직 개선하고 탐구해야 할 많은 영역이 있다는 점을 인지하고 있습니다. 예를 들어, 복잡한 상호작용 장면의 적응성을 더욱 최적화하고 객체 생성의 세부 사항을 개선하는 것이 향후 노력의 주요 초점입니다. 팀은 지속적인 개선과 정제를 통해 이 연구 방향이 단일 뷰 복합 3D 장면 생성 기술의 발전을 이끌 뿐만 아니라 실용적인 응용 분야에서 3D 기술의 광범위한 채택에 기여하기를 희망합니다.