Представляем Project Eden: мировая модель для мультиплеера и агентов

Мы публикуем исследовательский превью Project Eden — постоянно существующей мировой модели, созданной для мультиплеера и ИИ-агентов, которые разделяют один согласованный мир. Она работает непрерывно, запоминает всё, что вы делаете, и остаётся согласованной независимо от того, с какой камеры на неё смотреть. Полный технический превью доступен здесь: исследовательский превью Project Eden.
Идея Project Eden проста в формулировке, но сложна в реализации. Большинство систем, которые сейчас называют «мировыми моделями», по сути являются генераторами видео: они предсказывают следующий кадр и забывают всё, как только он уходит за край экрана. Project Eden поддерживает работу мира под поверхностью изображения. Потушили огонь — он остаётся потушенным. Отвернулись от стены — она всё равно на месте, когда вы оглянетесь. Два игрока едут по одной трассе с разных ракурсов и остаются в одной реальности.
Именно в этом и состоит принципиальное отличие. В разделах ниже объясняется, почему это важно и как это работает.
Почему большинство «мировых моделей» таковыми не являются
Генеративное видео заметно улучшилось. Модели с управлением по действиям реагируют на ввод пользователя и создают плавное движение, и индустрия начала называть их мировыми моделями.
Однако между предсказанием пикселей и симуляцией мира есть принципиальная разница. Генерация следующего кадра показывает, как должно измениться изображение. Настоящая мировая модель должна отслеживать смысл этих пикселей: объекты, пространства, правила, память и физические последствия, которые должны оставаться на месте вне зависимости от того, смотрит ли на них камера.
Исследования до сих пор шли по двум путям, и каждый упирается в стену.
Генерация видео с управлением по действиям хорошо справляется с движением, но не имеет долговременной памяти. «Состояние» мира хранится в коротком окне последних кадров, поэтому всё, что выходит за пределы камеры, может сместиться, исчезнуть или вернуться в искажённом виде. Получается время без постоянства.
Статическая генерация 3D-сцен даёт устойчивое, проходимое пространство, но замораживает его. Физика, события и изменения в такой системе не предусмотрены. Получается структура без изменений.
Таким образом, один путь запоминает, как вещи движутся, но забывает, что они существуют. Другой помнит об их существовании, но не позволяет им меняться. Настоящая мировая модель требует и того, и другого.
Ключевая идея: состояние до рендеринга
Главное архитектурное решение Project Eden — разделение состояния мира и его рендеринга.
Реальность устроена именно так. Мир существует до того, как на него смотрит какая-либо камера. Это вопросы состояния, а не рендеринга. Поэтому вместо того чтобы упаковывать пространство, объекты, события и внешний вид в поток пикселей, Project Eden поддерживает работу базового мира независимо. Рендеринг становится способом взглянуть на этот мир, а не местом, где мир хранится.
Как это работает: три уровня
Единый генератор видео, делающий всё сразу, заменяется тремя уровнями, каждый из которых выполняет чётко определённую задачу.
Эволюционирующее структурированное состояние. Здесь живёт мир. Это компактное представление — не гигантское 4D облако точек — которое отслеживает грубую геометрию, идентичность объектов, семантику и результаты ваших действий. Объекты, покидающие кадр, не удаляются. Изменения записываются и сохраняются.
Интерфейс состояние–наблюдение. Когда нужно отрендерить вид, этот уровень преобразует состояние мира в подсказки с привязкой к камере: локальная геометрия, семантика, последние изменения. Каждая точка обзора обращается к одному источнику, поэтому разные камеры остаются физически согласованными.
Генеративный нейронный рендеринг. Рендерер принимает эти подсказки и создаёт то, что вы видите: освещение, текстуры, материалы, дым, огонь, воду, движение. Ему не нужно помнить мир. Ему нужно только его показать.
Что умеет Eden
Разделение состояния и рендеринга открывает возможности, недоступные ни чистому видео, ни статическому 3D по отдельности.
Объекты не исчезают, когда выходят за пределы кадра. Они остаются в базовом состоянии, поэтому вы можете смотреть в другую сторону сколько угодно — мир будет на месте, когда вы вернётесь. В демо с тушением пожара потушенный огонь — это не мимолётный эффект. Среда переходит в изменённое состояние и сохраняет его.
Физика реагирует на разнообразный ввод. Управляйте лодкой или автомобилем — действие регистрируется в состоянии и обновляет динамику.
Миры можно использовать повторно и редактировать. Генерация видео работает в одном направлении: как только временная шкала движется вперёд, вернуться назад невозможно. Eden позволяет воздействовать на работающий мир снова и снова. Оставьте след, переместите объект, вызовите результат — и он сохранится. Другие люди, входящие в этот мир, увидят те же изменения.
Мультиплеер встроен изначально. Множество агентов разделяют одно компактное состояние, при этом для каждой камеры рендерится отдельный вид. В демо с гонками два автомобиля разделяют одну синхронизированную трассу с разных ракурсов. В демо со стрельбищем разные игроки совершают разные действия в одной среде, и Eden разрешает их по единым правилам.
Система может обучать агентов. Мир со стабильной физикой, временной согласованностью и долговременной памятью служит средой для обучения и тестирования воплощённого ИИ, где действия имеют предсказуемые последствия, а мир не сбрасывается после каждого взгляда.
Почему это важно
Eden ориентирован на две аудитории. Для создателей контента — это движок для интерактивного контента: сгенерируйте среду, настройте взаимодействия, пригласите людей в одно постоянное пространство. Для исследователей — это симуляционная база с долгосрочной согласованностью, реальными физическими правилами, редактируемыми сценариями и измеримыми последствиями — именно то, что нужно воплощённым агентам для надёжного обучения.
Именно поэтому мы не относим мировые модели к категории генерации видео. Мировая модель требует состояния, которое может меняться.
Что дальше
Это исследовательский превью, а не готовая универсальная мировая модель — работа ещё в самом начале. Мы развиваем более богатую физику, более масштабные среды, более широкое исследование с произвольной точки обзора, более тонкое взаимодействие с объектами и более мощную модель переходов состояний (State Transition Model), которая обновляет мир на основе действий, правил и обратной связи. Необходимо расширить и методы оценки — тестировать постоянство, причинно-следственную согласованность, соблюдение правил и синхронизацию нескольких агентов, а не только визуальное качество.
Переход от предсказания следующего пикселя к симуляции следующего состояния — это не просто инженерное изменение. Это шаг к ИИ, способному создавать, запоминать и рассуждать внутри миров, которые сохраняются.
Полное описание с демонстрациями и деталями архитектуры читайте в исследовательском превью Project Eden.
О VAST AI Research: VAST AI Research создаёт 3D foundation models и мировые модели. Узнайте больше на tripo3d.ai/research и подписывайтесь на @vastairesearch.


