Presentamos Project Eden: Un Modelo de Mundo para Multijugador y Agentes

Publicamos una vista previa de investigación de Project Eden, un modelo de mundo persistente diseñado para uso multijugador y para agentes de IA que comparten un mismo mundo coherente. Funciona de forma continua, recuerda lo que haces en él y se mantiene consistente sin importar desde qué cámara se observe. La vista previa técnica completa está disponible aquí: Vista previa de investigación de Project Eden.
La idea detrás de Project Eden es fácil de enunciar y difícil de construir. La mayoría de los sistemas que hoy se denominan "modelos de mundo" son en realidad generadores de video: predicen el siguiente fotograma y olvidan todo en cuanto desaparece de la pantalla. Project Eden, en cambio, mantiene el mundo activo por debajo de la imagen. Apaga un fuego y permanece apagado. Aparta la vista de una pared y sigue ahí cuando vuelves a mirar. Dos jugadores corren en una misma pista desde ángulos distintos y comparten la misma realidad.
Esa diferencia lo es todo. Las siguientes secciones explican por qué importa y cómo funciona.
Por Qué la Mayoría de los "Modelos de Mundo" No Lo Son
El video generativo ha mejorado mucho. Los modelos condicionados por acciones responden a tus entradas y producen movimiento fluido, y la industria comenzó a llamarlos modelos de mundo.
Sin embargo, hay una brecha entre predecir píxeles y simular un mundo. Generar el siguiente fotograma te dice cómo debería cambiar una imagen. Un modelo de mundo real tiene que rastrear lo que esos píxeles significan: los objetos, los espacios, las reglas, la memoria y las consecuencias físicas que deben permanecer ahí, independientemente de si una cámara los está mirando.
La investigación hasta ahora se ha dividido en dos caminos, y cada uno choca con una pared.
La generación de video condicionada por acciones maneja bien el movimiento, pero no tiene memoria duradera. El "estado" del mundo vive dentro de una ventana corta de fotogramas recientes, por lo que cualquier cosa que salga del encuadre puede desviarse, desaparecer o volver de forma incorrecta. Obtienes tiempo sin permanencia.
La generación estática de escenas 3D te da un espacio sólido y transitable, pero lo congela. La física, los eventos y el cambio no forman parte del diseño. Obtienes estructura sin cambio.
Así que un camino recuerda cómo se mueven las cosas, pero olvida que existen. El otro recuerda que existen, pero no puede dejar que cambien. Un modelo de mundo real necesita ambas cosas.
La Idea Central: El Estado Antes del Renderizado
La principal decisión de diseño de Project Eden es separar el estado del mundo del renderizado.
La realidad ya funciona así. El mundo existe antes de que cualquier cámara lo observe. Estas son preguntas sobre el estado, no sobre el renderizado. Por eso, en lugar de comprimir el espacio, los objetos, los eventos y la apariencia en un flujo de píxeles, Project Eden mantiene un mundo subyacente que funciona por sí solo. El renderizado se convierte en una forma de observar ese mundo, no en el lugar donde el mundo se almacena.
Cómo Funciona: Tres Capas
Un único generador de video que lo hace todo se reemplaza por tres capas, cada una con una función clara.
Un estado estructurado en evolución. Aquí es donde vive el mundo. Es una representación compacta, no una enorme nube de puntos 4D, y rastrea la geometría general, la identidad de los objetos, la semántica y el efecto de tus acciones. Los objetos que salen del encuadre no se descartan. Los cambios se registran y persisten.
Una interfaz de estado a observación. Cuando una vista necesita renderizarse, esta capa convierte el estado del mundo en señales condicionadas por la cámara: geometría local, semántica, cambios recientes. Cada punto de vista extrae información de la misma fuente, por lo que las distintas cámaras se mantienen físicamente coherentes.
Renderizado neural generativo. El renderizador toma esas señales y produce lo que ves: iluminación, texturas, materiales, humo, fuego, agua, movimiento. No necesita recordar el mundo. Solo tiene que mostrarlo.
Qué Puede Hacer Eden
Separar el estado del renderizado abre posibilidades que el video puro o el 3D estático no pueden ofrecer por separado.
Los objetos no desaparecen cuando salen del encuadre. Permanecen en el estado subyacente, así que puedes apartar la vista todo el tiempo que quieras y el mundo seguirá ahí cuando vuelvas. En nuestra demo de extinción de incendios, apagar el fuego no es un efecto pasajero. El entorno entra en un estado modificado y lo mantiene.
La física responde a distintos tipos de entrada. Maneja un barco o conduce un coche, y la acción queda registrada en el estado y actualiza la dinámica.
Los mundos son reutilizables y editables. La generación de video avanza en una sola dirección; una vez que la línea de tiempo sigue adelante, no puedes volver atrás. Eden te permite actuar sobre un mundo en ejecución una y otra vez. Deja una marca, mueve un objeto, desencadena un resultado, y persiste. Otras personas que entren a ese mundo verán los mismos cambios.
El multijugador está integrado. Muchos agentes comparten un único estado compacto, con una vista renderizada por separado para cada cámara. En la demo de carreras, dos coches comparten una misma pista sincronizada desde ángulos distintos. En la demo del campo de tiro, distintos jugadores realizan acciones diferentes en un mismo entorno, y Eden las resuelve bajo las mismas reglas.
Puede entrenar agentes. Un mundo con física estable, coherencia temporal y memoria a largo plazo funciona como entorno para entrenar y probar IA encarnada, donde las acciones tienen resultados predecibles y el mundo no se reinicia tras cada mirada.
Por Qué Importa
Eden sirve a dos tipos de usuarios. Para los creadores, es un motor para contenido interactivo: genera un entorno, configura interacciones e invita a personas a compartir el mismo espacio persistente. Para los investigadores, es una base de simulación con coherencia a largo plazo, reglas físicas reales, escenarios editables y consecuencias medibles, que es exactamente lo que los agentes encarnados necesitan para aprender de forma fiable.
Por eso no clasificamos los modelos de mundo dentro de la generación de video. Un modelo de mundo necesita un estado que pueda cambiar.
Qué Viene Después
Esta es una vista previa de investigación, no un modelo de mundo de propósito general terminado, y el trabajo está en una etapa temprana. Estamos desarrollando física más rica, entornos más grandes, exploración de punto de vista libre más amplia, interacción con objetos más detallada y un State Transition Model más robusto que actualice el mundo a partir de acciones, reglas y retroalimentación. La evaluación también debe crecer: probando persistencia, coherencia causal, seguimiento de reglas y sincronización entre múltiples agentes, no solo la calidad visual.
Pasar de predecir el siguiente píxel a simular el siguiente estado no es solo un cambio de ingeniería. Apunta hacia una IA capaz de crear, recordar y razonar dentro de mundos que perduran.
Lee el artículo completo, con demos y detalles de arquitectura, en la vista previa de investigación de Project Eden.
Sobre VAST AI Research: VAST AI Research desarrolla modelos fundacionales 3D y modelos de mundo. Más información en tripo3d.ai/research y síguenos en @vastairesearch.


