Project Eden 発表:マルチプレイヤーとAIエージェントのためのワールドモデル

Project Eden のリサーチプレビューを公開します。これはマルチプレイヤー利用とAIエージェントが一つの一貫した世界を共有することを前提に構築された、持続的なワールドモデルです。世界は継続的に動き続け、あなたの行動を記憶し、どのカメラから見ても一貫性を保ちます。技術的な詳細はこちらでご覧いただけます:Project Eden リサーチプレビュー。
Project Eden の基本的なアイデアはシンプルに言えますが、実現は容易ではありません。現在「ワールドモデル」と呼ばれているシステムの多くは、実質的には動画生成器です。次のフレームを予測し、画面から消えた瞬間にすべてを忘れてしまいます。Project Eden は違います。映像の裏側で世界そのものを動かし続けます。火を消せば、消えたままです。壁から目を離しても、振り返ればそこにあります。2人のプレイヤーが同じコースを異なる視点でレースしても、同じ現実の中に存在し続けます。
この違いこそが核心です。以下のセクションでは、その重要性と仕組みについて説明します。
なぜ多くの「ワールドモデル」はワールドモデルではないのか
生成動画の技術は大きく進歩しました。アクション条件付きモデルは入力に反応してなめらかな動きを生成できるようになり、業界はこれらを「ワールドモデル」と呼び始めました。
しかし、ピクセルを予測することと世界をシミュレートすることの間には、大きな隔たりがあります。次のフレームを生成することは、画像がどう変化すべきかを示すに過ぎません。真のワールドモデルは、そのピクセルが何を意味するかを追跡しなければなりません。つまり、カメラが向いていなくても存在し続けるべきオブジェクト、空間、ルール、記憶、そして物理的な因果関係です。
これまでの研究は二つの方向に分かれており、それぞれが壁にぶつかっています。
アクション条件付き動画生成は動きの表現には優れていますが、持続的な記憶を持ちません。世界の「状態」は直近のフレームという短いウィンドウの中にしか存在しないため、カメラの外に出たものはずれたり、消えたり、おかしな形で戻ってきたりします。時間はあっても、永続性がありません。
静的な3Dシーン生成は、しっかりとした歩き回れる空間を提供しますが、それは固定されています。物理演算、イベント、変化は設計に含まれていません。構造はあっても、変化がありません。
つまり、一方の道は物事の動き方を覚えているが存在を忘れ、もう一方は存在を覚えているが変化を許しません。真のワールドモデルには、その両方が必要です。
核心的なアイデア:レンダリングより先に状態を
Project Eden の主要な設計思想は、世界の状態とレンダリングを分離することです。
現実はもともとそのように機能しています。世界はカメラが向く前から存在しています。これらは状態に関する問いであり、レンダリングに関する問いではありません。そのため、空間・オブジェクト・イベント・外観をピクセルのストリームに詰め込む代わりに、Project Eden は独立して動き続ける基盤となる世界を維持します。レンダリングはその世界を「見る」手段であり、世界が保存される場所ではありません。
仕組み:3つのレイヤー
すべてを一つの動画生成器に担わせる代わりに、それぞれ明確な役割を持つ3つのレイヤーに分けています。
進化する構造化された状態。 これが世界の本体です。巨大な4次元点群ではなく、コンパクトな表現で、粗いジオメトリ、オブジェクトのアイデンティティ、セマンティクス、そしてあなたの行動の結果を追跡します。フレームの外に出たオブジェクトは破棄されません。変化は書き戻され、保持されます。
状態から観測へのインターフェース。 ある視点のレンダリングが必要になると、このレイヤーが世界の状態をカメラ条件付きの手がかりに変換します。ローカルジオメトリ、セマンティクス、最近の変化などです。すべての視点が同じソースから情報を引き出すため、異なるカメラ間でも物理的な一貫性が保たれます。
生成的ニューラルレンダリング。 レンダラーはその手がかりを受け取り、あなたが見るものを生成します。ライティング、テクスチャ、マテリアル、煙、火、水、動きなどです。レンダラーは世界を記憶する必要はありません。ただ、それを映し出すだけでよいのです。
Eden にできること
状態とレンダリングを分離することで、純粋な動画生成や静的な3Dでは同時に実現できなかったことが可能になります。
オブジェクトはフレームの外に出ても消えません。基盤となる状態の中に保持されるため、どれだけ目を離しても、振り返れば世界はそこにあります。火を消すデモでは、消火は一時的なエフェクトではありません。環境は変化した状態に入り、それを維持し続けます。
物理演算はさまざまな入力に反応します。ボートを操縦したり車を運転したりすると、その行動が状態に記録され、ダイナミクスが更新されます。
世界は再利用・編集が可能です。動画生成は一方向にしか進みません。タイムラインが進んだ後に過去に戻ることはできません。Eden では、動き続ける世界に何度でも働きかけることができます。痕跡を残し、オブジェクトを動かし、結果を引き起こす。そしてそれは持続します。その世界に入った他のプレイヤーも同じ変化を目にします。
マルチプレイヤーは最初から組み込まれています。多くのエージェントが一つのコンパクトな状態を共有し、各カメラに対して個別のビューがレンダリングされます。レースのデモでは、2台の車が異なる視点から一つの同期されたコースを共有します。射撃場のデモでは、異なるプレイヤーが一つの環境で異なる行動を取り、Eden が同じルールのもとでそれらを処理します。
AIエージェントの訓練にも活用できます。安定した物理演算、時間的一貫性、長期記憶を持つ世界は、具現化されたAIの訓練とテストのための環境として機能します。行動には信頼できる結果があり、視線を向けるたびに世界がリセットされることもありません。
なぜ重要なのか
Eden は二つのユーザー層に向けたものです。クリエイターにとっては、インタラクティブなコンテンツのためのエンジンです。環境を生成し、インタラクションを設定し、人々を同じ持続的な空間に招待できます。研究者にとっては、長期的な一貫性、実際の物理ルール、編集可能なシナリオ、測定可能な結果を備えたシミュレーション基盤です。これは具現化されたエージェントが確実に学習するために必要なものです。
これが、ワールドモデルを動画生成の一種として分類しない理由です。ワールドモデルには、変化できる状態が必要です。
今後の展望
これはリサーチプレビューであり、完成した汎用ワールドモデルではありません。研究はまだ初期段階です。より豊かな物理演算、より広大な環境、より自由な視点探索、より精細なオブジェクトインタラクション、そして行動・ルール・フィードバックから世界を更新するState Transition Modelの強化に取り組んでいます。評価手法も進化させる必要があります。視覚的な品質だけでなく、持続性、因果的一貫性、ルール遵守、マルチエージェントの同期をテストする必要があります。
次のピクセルを予測することから次の状態をシミュレートすることへの移行は、単なるエンジニアリング上の変化ではありません。それは、持続する世界の中で創造し、記憶し、推論できるAIへの道を示しています。
デモとアーキテクチャの詳細を含む完全な解説は、Project Eden リサーチプレビューでご覧いただけます。
VAST AI Research について: VAST AI Research は3D基盤モデルとワールドモデルの開発に取り組んでいます。詳細は tripo3d.ai/research をご覧いただき、@vastairesearch をフォローしてください。


