Project Eden 소개: 멀티플레이어와 AI 에이전트를 위한 월드 모델

VAST AI Research의 Project Eden 타이틀 배너 - 사막 협곡 풍경 속 거대한 빨간 사과

저희는 Project Eden의 리서치 프리뷰를 공개합니다. 멀티플레이어 환경과 AI 에이전트가 하나의 일관된 세계를 공유할 수 있도록 설계된 지속적 월드 모델입니다. 이 세계는 끊임없이 작동하고, 당신이 가한 변화를 기억하며, 어떤 카메라로 바라봐도 일관성을 유지합니다. 전체 기술 프리뷰는 여기서 확인하세요: Project Eden 리서치 프리뷰.

Project Eden의 핵심 아이디어는 말로는 간단하지만, 구현하기는 매우 어렵습니다. 현재 "월드 모델"이라 불리는 대부분의 시스템은 사실상 비디오 생성기에 가깝습니다. 다음 프레임을 예측하고, 화면 밖으로 사라지면 모든 것을 잊어버리죠. Project Eden은 다릅니다. 화면 뒤에서 세계 자체를 계속 작동시킵니다. 불을 끄면 그 상태가 유지됩니다. 벽에서 시선을 돌렸다가 다시 봐도 벽은 그 자리에 있습니다. 두 플레이어가 서로 다른 시점에서 같은 트랙을 달려도, 두 사람은 동일한 현실 안에 존재합니다.

바로 이 차이가 핵심입니다. 아래 섹션에서 그 이유와 작동 방식을 설명합니다.

왜 대부분의 "월드 모델"은 진짜 월드 모델이 아닌가

생성형 비디오 기술은 크게 발전했습니다. 행동 조건부 모델은 입력에 반응하고 자연스러운 움직임을 만들어내며, 업계는 이를 월드 모델이라 부르기 시작했습니다.

하지만 픽셀을 예측하는 것과 세계를 시뮬레이션하는 것 사이에는 분명한 간극이 있습니다. 다음 프레임을 생성하는 것은 이미지가 어떻게 변해야 하는지를 알려줄 뿐입니다. 진정한 월드 모델은 그 픽셀들이 무엇을 의미하는지를 추적해야 합니다. 카메라가 바라보지 않더라도 제자리를 지켜야 하는 물체, 공간, 규칙, 기억, 그리고 물리적 인과관계까지 말이죠.

지금까지의 연구는 두 갈래로 나뉘었고, 각각 한계에 부딪혔습니다.

행동 조건부 비디오 생성은 움직임을 잘 처리하지만 지속적인 기억이 없습니다. 세계의 "상태"는 최근 프레임의 짧은 윈도우 안에만 존재하기 때문에, 카메라 밖으로 나간 것들은 흐릿해지거나 사라지거나 엉뚱하게 돌아올 수 있습니다. 시간은 있지만 영속성이 없는 셈입니다.

정적 3D 장면 생성은 견고하고 걸어 다닐 수 있는 공간을 제공하지만 그 상태에 고정됩니다. 물리, 이벤트, 변화는 설계에 포함되지 않습니다. 구조는 있지만 변화가 없는 셈입니다.

결국 한 길은 사물이 어떻게 움직이는지는 기억하지만 그것이 존재한다는 사실을 잊어버리고, 다른 길은 존재한다는 사실은 기억하지만 변화를 허용하지 않습니다. 진정한 월드 모델에는 두 가지가 모두 필요합니다.

핵심 아이디어: 렌더링 이전의 상태

Project Eden의 핵심 설계 원칙은 세계의 상태와 렌더링을 분리하는 것입니다.

현실 세계도 이미 이런 방식으로 작동합니다. 세계는 어떤 카메라가 바라보기 전부터 존재합니다. 이것은 렌더링의 문제가 아니라 상태의 문제입니다. 그래서 공간, 물체, 이벤트, 외형을 픽셀 스트림 안에 모두 욱여넣는 대신, Project Eden은 그 아래에서 독립적으로 작동하는 세계를 유지합니다. 렌더링은 그 세계를 바라보는 방법이 되고, 세계가 저장되는 장소가 아닙니다.

작동 방식: 세 개의 레이어

모든 것을 처리하는 단일 비디오 생성기 대신, 각자 명확한 역할을 가진 세 개의 레이어로 구성됩니다.

진화하는 구조적 상태. 세계가 실제로 존재하는 곳입니다. 거대한 4D 포인트 클라우드가 아닌 압축된 표현으로, 대략적인 geometry, 물체의 정체성, 의미론적 정보, 그리고 당신의 행동이 가져온 변화를 추적합니다. 프레임 밖으로 나간 물체는 버려지지 않습니다. 변화는 기록되고 유지됩니다.

상태-관측 인터페이스. 특정 시점에서 렌더링이 필요할 때, 이 레이어가 세계 상태를 카메라 조건부 단서로 변환합니다. 로컬 geometry, 의미론적 정보, 최근 변화 등이 여기에 해당합니다. 모든 시점은 동일한 소스에서 정보를 가져오므로, 서로 다른 카메라도 물리적으로 일관성을 유지합니다.

생성형 neural rendering. 렌더러는 이 단서들을 받아 실제로 보이는 것을 만들어냅니다. 조명, 텍스처, 재질, 연기, 불, 물, 움직임이 여기서 표현됩니다. 렌더러는 세계를 기억할 필요가 없습니다. 세계를 보여주기만 하면 됩니다.

Eden이 할 수 있는 것

상태와 렌더링을 분리함으로써, 순수한 비디오나 정적 3D만으로는 동시에 구현할 수 없었던 것들이 가능해집니다.

물체는 프레임 밖으로 나가도 사라지지 않습니다. 기저 상태에 계속 존재하기 때문에, 아무리 오래 시선을 돌려도 다시 봤을 때 세계는 그대로입니다. 불 끄기 데모에서, 불을 끄는 것은 일시적인 효과가 아닙니다. 환경이 변화된 상태로 진입하고 그 상태를 유지합니다.

물리는 다양한 입력에 반응합니다. 보트를 조종하거나 자동차를 운전하면, 그 행동이 상태에 기록되고 역학이 업데이트됩니다.

세계는 재사용하고 편집할 수 있습니다. 비디오 생성은 한 방향으로만 흐릅니다. 타임라인이 지나가면 되돌릴 수 없죠. Eden은 작동 중인 세계에 반복적으로 행동을 가할 수 있습니다. 흔적을 남기고, 물체를 이동시키고, 결과를 유발하면 그것이 지속됩니다. 그 세계에 들어오는 다른 사람들도 같은 변화를 보게 됩니다.

멀티플레이어는 기본으로 내장되어 있습니다. 여러 에이전트가 하나의 압축된 상태를 공유하고, 각 카메라마다 별도의 시점이 렌더링됩니다. 레이싱 데모에서 두 대의 자동차는 서로 다른 시점에서 하나의 동기화된 트랙을 공유합니다. 사격장 데모에서는 서로 다른 플레이어가 하나의 환경에서 각자 다른 행동을 취하고, Eden은 동일한 규칙 아래 이를 처리합니다.

에이전트 훈련에도 활용할 수 있습니다. 안정적인 물리, 시간적 일관성, 장기 기억을 갖춘 세계는 구현된 AI를 훈련하고 테스트하는 환경으로 기능합니다. 행동은 신뢰할 수 있는 결과를 낳고, 세계는 잠깐 눈을 돌렸다고 해서 초기화되지 않습니다.

왜 중요한가

Eden은 두 부류의 사용자를 위한 것입니다. 크리에이터에게는 인터랙티브 콘텐츠를 위한 엔진입니다. 환경을 생성하고, 상호작용을 설정하고, 사람들을 동일한 지속적 공간으로 초대할 수 있습니다. 연구자에게는 장기적 일관성, 실제 물리 규칙, 편집 가능한 시나리오, 측정 가능한 결과를 갖춘 시뮬레이션 기반입니다. 이것이 바로 구현된 에이전트가 안정적으로 학습하기 위해 필요한 것입니다.

그것이 바로 저희가 월드 모델을 비디오 생성의 범주로 분류하지 않는 이유입니다. 월드 모델에는 변화할 수 있는 상태가 필요합니다.

앞으로의 계획

이것은 리서치 프리뷰이며, 완성된 범용 월드 모델이 아닙니다. 아직 초기 단계입니다. 저희는 더 풍부한 물리, 더 넓은 환경, 더 자유로운 시점 탐색, 더 세밀한 물체 상호작용, 그리고 행동·규칙·피드백으로부터 세계를 업데이트하는 더 강력한 State Transition Model을 구축하고 있습니다. 평가 방식도 발전해야 합니다. 시각적 품질만이 아니라 영속성, 인과적 일관성, 규칙 준수, 멀티 에이전트 동기화를 검증하는 방향으로 나아가야 합니다.

다음 픽셀을 예측하는 것에서 다음 상태를 시뮬레이션하는 것으로의 전환은 단순한 엔지니어링 변화가 아닙니다. 이것은 세계를 창조하고, 기억하고, 그 안에서 추론할 수 있는 AI를 향한 방향을 가리킵니다.

데모와 아키텍처 세부 내용을 포함한 전체 내용은 Project Eden 리서치 프리뷰에서 확인하세요.

VAST AI Research 소개: VAST AI Research는 3D 파운데이션 모델과 월드 모델을 연구합니다. 자세한 내용은 tripo3d.ai/research에서 확인하고, @vastairesearch를 팔로우하세요.

Project Eden 소개: 멀티플레이어와 AI 에이전트를 위한 월드 모델

바로 이 차이가 핵심입니다. 아래 섹션에서 그 이유와 작동 방식을 설명합니다.

왜 대부분의 "월드 모델"은 진짜 월드 모델이 아닌가

지금까지의 연구는 두 갈래로 나뉘었고, 각각 한계에 부딪혔습니다.

핵심 아이디어: 렌더링 이전의 상태

Project Eden의 핵심 설계 원칙은 세계의 상태와 렌더링을 분리하는 것입니다.

작동 방식: 세 개의 레이어

모든 것을 처리하는 단일 비디오 생성기 대신, 각자 명확한 역할을 가진 세 개의 레이어로 구성됩니다.

Eden이 할 수 있는 것

상태와 렌더링을 분리함으로써, 순수한 비디오나 정적 3D만으로는 동시에 구현할 수 없었던 것들이 가능해집니다.

물리는 다양한 입력에 반응합니다. 보트를 조종하거나 자동차를 운전하면, 그 행동이 상태에 기록되고 역학이 업데이트됩니다.

왜 중요한가

그것이 바로 저희가 월드 모델을 비디오 생성의 범주로 분류하지 않는 이유입니다. 월드 모델에는 변화할 수 있는 상태가 필요합니다.

앞으로의 계획

데모와 아키텍처 세부 내용을 포함한 전체 내용은 Project Eden 리서치 프리뷰에서 확인하세요.

Project Eden 소개: 멀티플레이어와 AI 에이전트를 위한 월드 모델

왜 대부분의 "월드 모델"은 진짜 월드 모델이 아닌가

핵심 아이디어: 렌더링 이전의 상태

작동 방식: 세 개의 레이어

Eden이 할 수 있는 것

왜 중요한가

앞으로의 계획

관련 문서

무엇이든 3D로 생성하세요

Project Eden 소개: 멀티플레이어와 AI 에이전트를 위한 월드 모델

왜 대부분의 "월드 모델"은 진짜 월드 모델이 아닌가

핵심 아이디어: 렌더링 이전의 상태

작동 방식: 세 개의 레이어

Eden이 할 수 있는 것

왜 중요한가

앞으로의 계획

관련 문서

무엇이든 3D로 생성하세요