Project Eden 发布:面向多人游戏与智能体的世界模型

我们正式发布 Project Eden 的研究预览版。这是一个为多人使用和 AI 智能体共享同一一致世界而构建的持久化世界模型。它持续运行,记住你对它所做的一切,无论哪个摄像机在观察,世界都保持一致。完整技术预览请见:Project Eden 研究预览。
Project Eden 背后的理念说起来简单,做起来却很难。目前大多数被称为"世界模型"的系统本质上是视频生成器——它们预测下一帧,一旦画面滚过就什么都忘了。Project Eden 则不同,它在画面之下维持着一个持续运行的世界。扑灭一场火,它就永远熄灭了。转身离开一面墙,回头时它依然在那里。两名玩家从不同角度在同一赛道上竞速,始终处于同一个现实之中。
这个区别正是关键所在。以下各节将解释它为何重要,以及它是如何实现的。
为什么大多数"世界模型"名不副实
生成式视频技术已经相当成熟。动作条件模型能够响应输入并生成流畅的运动画面,业界也开始将它们称为世界模型。
然而,预测像素和模拟世界之间存在本质差距。生成下一帧告诉你图像应该如何变化,而真正的世界模型必须追踪这些像素所代表的含义:物体、空间、规则、记忆,以及无论摄像机是否在看都应该保持不变的物理因果关系。
目前的研究走向了两条路,而两条路都碰了壁。
动作条件视频生成能很好地处理运动,但没有持久记忆。世界的"状态"只存在于最近几帧的短暂窗口中,因此任何离开镜头的东西都可能漂移、消失,或以错误的方式重新出现。你得到了时间,却失去了永久性。
静态 3D 场景生成给你坚实的、可行走的空间,但将其冻结了。物理、事件和变化都不在设计范围之内。你得到了结构,却失去了变化。
所以一条路记得事物如何运动,却忘了它们的存在;另一条路记得它们的存在,却无法让它们改变。真正的世界模型两者都需要。
核心理念:渲染之前先有状态
Project Eden 的核心设计选择是将世界状态与渲染分离。
现实世界本就如此运作。世界在任何摄像机观察它之前就已经存在。这些是关于状态的问题,而非关于渲染的问题。因此,Project Eden 不是将空间、物体、事件和外观全部塞进一串像素流,而是让一个底层世界独立持续运行。渲染成为观察这个世界的方式,而不是世界存储的地方。
工作原理:三层架构
用一个视频生成器包揽一切的方式,被替换为三个各司其职的层次。
持续演化的结构化状态。 这是世界存在的地方。它是一种紧凑的表示,而非庞大的 4D 点云,负责追踪粗略几何形状、物体身份、语义信息以及你的操作所产生的影响。离开画面的物体不会被丢弃,变化会被写回并持久保存。
状态到观测的接口。 当某个视角需要渲染时,这一层将世界状态转化为以摄像机为条件的线索:局部几何、语义信息、近期变化。每个视角都从同一来源获取数据,因此不同摄像机在物理上保持一致。
生成式神经渲染。 渲染器接收这些线索,生成你所看到的画面:光照、纹理、材质、烟雾、火焰、水流、运动。它不需要记住世界,只需要将其呈现出来。
Eden 能做什么
将状态与渲染分离,开启了纯视频生成或静态 3D 无法同时实现的能力。
物体离开画面后不会消失。它们保留在底层状态中,因此你可以随时转身离开,回头时世界依然如故。在我们的灭火演示中,扑灭火焰不是一个转瞬即逝的效果,环境进入了一个已改变的状态并将其保持下去。
物理系统响应多样化的输入。驾驶一艘船或一辆汽车,操作会被记录到状态中并更新动力学。
世界可以复用和编辑。视频生成是单向的,时间线一旦推进就无法回头。Eden 让你可以反复作用于一个持续运行的世界。留下痕迹、移动物体、触发结果,这些都会持久存在。进入这个世界的其他人会看到同样的变化。
多人模式是内置的。多个智能体共享一个紧凑的状态,每个摄像机分别渲染各自的视角。在赛车演示中,两辆赛车从不同角度共享同一条同步赛道。在射击场演示中,不同玩家在同一环境中执行不同操作,Eden 在同一套规则下统一处理。
它可以用于训练智能体。一个具备稳定物理、时间一致性和长期记忆的世界,可以作为训练和测试具身 AI 的环境——在这里,操作有可靠的结果,世界不会在每次视线转移后重置。
为什么这很重要
Eden 服务于两类用户。对于创作者,它是一个交互内容引擎:生成一个环境,设置交互方式,邀请人们进入同一个持久空间。对于研究者,它是一个具备长时程一致性、真实物理规则、可编辑场景和可量化结果的仿真基础——这正是具身智能体可靠学习所需要的。
这就是我们不把世界模型归入视频生成的原因。世界模型需要一个能够改变的状态。
下一步计划
这是一个研究预览版,而非成熟的通用世界模型,相关工作仍处于早期阶段。我们正在构建更丰富的物理系统、更大的环境、更广泛的自由视角探索、更精细的物体交互,以及更强大的状态转移模型——它能够根据操作、规则和反馈来更新世界。评估体系也需要扩展,不仅要测试视觉质量,还要测试持久性、因果一致性、规则遵循和多智能体同步。
从预测下一个像素到模拟下一个状态,这不仅仅是一次工程上的转变,它指向一种能够在持久世界中创造、记忆和推理的 AI。
完整介绍(含演示和架构细节)请见 Project Eden 研究预览。
关于 VAST AI Research: VAST AI Research 专注于构建 3D 基础模型和世界模型。了解更多请访问 tripo3d.ai/research,并关注 @vastairesearch。


