Project Eden 发布：面向多人游戏与智能体的世界模型

Project Eden 标题横幅，展示沙漠峡谷中一颗巨大的红苹果，由 VAST AI Research 制作

我们正式发布 Project Eden 的研究预览版。这是一个为多人使用和 AI 智能体共享同一一致世界而构建的持久化世界模型。它持续运行，记住你对它所做的一切，无论哪个摄像机在观察，世界都保持一致。完整技术预览请见：Project Eden 研究预览。

Project Eden 背后的理念说起来简单，做起来却很难。目前大多数被称为"世界模型"的系统本质上是视频生成器——它们预测下一帧，一旦画面滚过就什么都忘了。Project Eden 则不同，它在画面之下维持着一个持续运行的世界。扑灭一场火，它就永远熄灭了。转身离开一面墙，回头时它依然在那里。两名玩家从不同角度在同一赛道上竞速，始终处于同一个现实之中。

这个区别正是关键所在。以下各节将解释它为何重要，以及它是如何实现的。

为什么大多数"世界模型"名不副实

生成式视频技术已经相当成熟。动作条件模型能够响应输入并生成流畅的运动画面，业界也开始将它们称为世界模型。

然而，预测像素和模拟世界之间存在本质差距。生成下一帧告诉你图像应该如何变化，而真正的世界模型必须追踪这些像素所代表的含义：物体、空间、规则、记忆，以及无论摄像机是否在看都应该保持不变的物理因果关系。

目前的研究走向了两条路，而两条路都碰了壁。

动作条件视频生成能很好地处理运动，但没有持久记忆。世界的"状态"只存在于最近几帧的短暂窗口中，因此任何离开镜头的东西都可能漂移、消失，或以错误的方式重新出现。你得到了时间，却失去了永久性。

静态 3D 场景生成给你坚实的、可行走的空间，但将其冻结了。物理、事件和变化都不在设计范围之内。你得到了结构，却失去了变化。

所以一条路记得事物如何运动，却忘了它们的存在；另一条路记得它们的存在，却无法让它们改变。真正的世界模型两者都需要。

核心理念：渲染之前先有状态

Project Eden 的核心设计选择是将世界状态与渲染分离。

现实世界本就如此运作。世界在任何摄像机观察它之前就已经存在。这些是关于状态的问题，而非关于渲染的问题。因此，Project Eden 不是将空间、物体、事件和外观全部塞进一串像素流，而是让一个底层世界独立持续运行。渲染成为观察这个世界的方式，而不是世界存储的地方。

工作原理：三层架构

用一个视频生成器包揽一切的方式，被替换为三个各司其职的层次。

持续演化的结构化状态。 这是世界存在的地方。它是一种紧凑的表示，而非庞大的 4D 点云，负责追踪粗略几何形状、物体身份、语义信息以及你的操作所产生的影响。离开画面的物体不会被丢弃，变化会被写回并持久保存。

状态到观测的接口。 当某个视角需要渲染时，这一层将世界状态转化为以摄像机为条件的线索：局部几何、语义信息、近期变化。每个视角都从同一来源获取数据，因此不同摄像机在物理上保持一致。

生成式神经渲染。 渲染器接收这些线索，生成你所看到的画面：光照、纹理、材质、烟雾、火焰、水流、运动。它不需要记住世界，只需要将其呈现出来。

Eden 能做什么

将状态与渲染分离，开启了纯视频生成或静态 3D 无法同时实现的能力。

物体离开画面后不会消失。它们保留在底层状态中，因此你可以随时转身离开，回头时世界依然如故。在我们的灭火演示中，扑灭火焰不是一个转瞬即逝的效果，环境进入了一个已改变的状态并将其保持下去。

物理系统响应多样化的输入。驾驶一艘船或一辆汽车，操作会被记录到状态中并更新动力学。

世界可以复用和编辑。视频生成是单向的，时间线一旦推进就无法回头。Eden 让你可以反复作用于一个持续运行的世界。留下痕迹、移动物体、触发结果，这些都会持久存在。进入这个世界的其他人会看到同样的变化。

多人模式是内置的。多个智能体共享一个紧凑的状态，每个摄像机分别渲染各自的视角。在赛车演示中，两辆赛车从不同角度共享同一条同步赛道。在射击场演示中，不同玩家在同一环境中执行不同操作，Eden 在同一套规则下统一处理。

它可以用于训练智能体。一个具备稳定物理、时间一致性和长期记忆的世界，可以作为训练和测试具身 AI 的环境——在这里，操作有可靠的结果，世界不会在每次视线转移后重置。

为什么这很重要

Eden 服务于两类用户。对于创作者，它是一个交互内容引擎：生成一个环境，设置交互方式，邀请人们进入同一个持久空间。对于研究者，它是一个具备长时程一致性、真实物理规则、可编辑场景和可量化结果的仿真基础——这正是具身智能体可靠学习所需要的。

这就是我们不把世界模型归入视频生成的原因。世界模型需要一个能够改变的状态。

下一步计划

这是一个研究预览版，而非成熟的通用世界模型，相关工作仍处于早期阶段。我们正在构建更丰富的物理系统、更大的环境、更广泛的自由视角探索、更精细的物体交互，以及更强大的状态转移模型——它能够根据操作、规则和反馈来更新世界。评估体系也需要扩展，不仅要测试视觉质量，还要测试持久性、因果一致性、规则遵循和多智能体同步。

从预测下一个像素到模拟下一个状态，这不仅仅是一次工程上的转变，它指向一种能够在持久世界中创造、记忆和推理的 AI。

完整介绍（含演示和架构细节）请见 Project Eden 研究预览。

关于 VAST AI Research： VAST AI Research 专注于构建 3D 基础模型和世界模型。了解更多请访问 tripo3d.ai/research，并关注 @vastairesearch。