One Model to Rig Them All: VAST/Tripoが多様な3Dリギングを自動化するUniRigを発表

自己回帰モデルと新しいトークン化スキームを活用することで、UniRigは多様なキャラクターやオブジェクトにおいて最先端のパフォーマンスを発揮し、3Dアニメーションのボトルネックを解消する可能性を秘めています。

3Dコンテンツ制作の分野は爆発的に拡大しています。洗練された従来のワークフローと、TripoのようなAIを活用した生成ツールの急速な台頭の両方に後押しされ、高品質な3Dアセットへの需要が急増しています。しかし、依然として重大なボトルネックが存在します。それはリギングです。静的な3Dメッシュを、スケルトンとスキニングウェイトを持つアニメーション可能なキャラクターに変えることは、複雑で時間のかかる、多くの場合手作業を要するプロセスであり、かなりの専門知識が求められます。
既存の自動化ソリューションは部分的な解決策を提供しますが、しばしば不十分です。テンプレートベースの方法は、定義済みの構造(標準的な二足歩行キャラクターなど)内では優れていますが、今日作成されている多種多様なモデルに対する柔軟性に欠けます。テンプレートフリーのアプローチはより高い適応性を提供しますが、トポロジカルに有効なスケルトンの生成に苦労したり、複雑な後処理を必要としたりすることが多く、実用的な導入を妨げています。
本日、Tripoはこれらの制約を克服するために設計された、自動スケルトンリギングのための新しい統合フレームワークUniRigを発表できることを嬉しく思います。最新の研究論文「One Model to Rig Them All: Diverse Skeleton Rigging with UniRig」で詳しく説明されているように、UniRigは、人間や動物から複雑な架空のキャラクター、さらには無機構造物まで、前例のない多様な3Dモデルに対して高品質なスケルトンリグを生成できる強力なモデルです。

UniRigのアプローチ:自己回帰予測と新しいトークン化

UniRigの核となるのは、言語や画像生成の進歩を推進する大規模な自己回帰モデルの力を活用している点です。UniRigはピクセルや単語を予測する代わりに、3Dスケルトンの構造をジョイントごとに予測します。このシーケンシャルな予測プロセスは、トポロジカルに有効なスケルトンの生成を保証する上で重要です。
これを可能にする重要な設計は、私たちのSkeleton Tree Tokenization(スケルトンツリートークン化)手法です。複雑なジョイントの相互依存性を持つ階層的なスケルトン構造を、トランスフォーマーに適した線形シーケンスとして表現することは容易ではありません。私たちのトークン化スキームは、以下を効率的にエンコードします。

  1. ジョイント座標: 骨のジョイントの離散化された空間位置。
  2. 階層構造: 明示的な親子関係により、有効なツリー構造を保証します。
  3. 骨のセマンティクス: 骨の種類(例:Mixamoのような標準テンプレートボーン、髪や布のシミュレーション用の動的スプリングボーン)を識別する特殊トークンは、下流のタスクやリアルなアニメーションにとって不可欠です。

この最適化されたトークン化(単純なアプローチと比較してシーケンス長を約30%削減)により、自己回帰モデル(OPTアーキテクチャに基づく)は、形状エンコーダーによって処理された入力メッシュジオメトリを条件として、スケルトン構造の根底にあるパターンを効果的に学習できます。

スケルトンを超えて:正確なスキニングと属性

有効なスケルトンが予測されると、UniRigはBone-Point Cross Attentionメカニズムを使用して、頂点ごとのスキニングウェイトを予測します。このモジュールは、各ボーンが周囲のメッシュ表面に与える複雑な影響を効果的に捉え、メッシュとスケルトンからの幾何学的特徴を取り込み、空間認識を向上させるために測地距離情報によって決定的に補強されます。
さらに、UniRigはボーン固有の属性(スプリングボーンの剛性や重力の影響など)を予測し、学習されたパラメータから直接、より物理的に説得力のある二次モーションを可能にし、リアリズムを高めるためにトレーニング中に微分可能な物理シミュレーションを介して評価されます。

Rig-XL:データによる汎用性の向上

モデルはデータがなければ成り立ちません。UniRigを幅広い用途に対応させるために、私たちは14,000を超える多様なリグ付き3Dモデルを含む新しい大規模データセットRig-XLをキュレーションしました。Objaverse-XLのようなリソースから派生し、細心の注意を払ってクリーンアップされたRig-XLは、複数のカテゴリ(二足歩行、四足歩行、鳥、昆虫、静的オブジェクトなど)に及び、真に汎用的なリギングモデルをトレーニングするために必要な規模と多様性を提供します。これにVRoidデータセットを補完することで、スプリングボーンを持つ詳細なアニメスタイルのキャラクターに対するパフォーマンスを向上させました。

最先端のパフォーマンス

UniRigは、自動リギングの最先端を大幅に前進させます。

  • 精度: 既存の学術的および商業的手法と比較して劇的な改善を達成し、困難なデータセットにおいてリギング精度(ジョイント予測)で215%の改善モーション精度(アニメーション時のメッシュ変形)で194%の改善を示しています。
  • 汎用性: 詳細なキャラクター、動物、複雑な有機的および無機的な形状など、以前の方法ではしばしば失敗した幅広いカテゴリで堅牢なパフォーマンスを発揮します。
  • 堅牢性: トポロジカルに健全なスケルトンと説得力のあるスキニングウェイトを生成し、以前の学術的手法や人気のある商用ツールと比較して優れたアニメーション品質をもたらします。
  • 効率性: 最適化されたトークン化とモデルアーキテクチャにより、実用的な推論時間(1〜5秒)が実現されます。

UniRigが重要な理由

UniRigは、現代の3Dパイプラインにおけるリギングのボトルネックを解決するための重要な一歩です。高速で正確、かつ汎用性の高い自動化ソリューションを提供することで、以下の可能性を秘めています。

  1. 制作の加速: リギングに必要な時間と専門知識を削減し、アーティストを創造的なタスクに解放します。
  2. 新しいワークフローの実現: AI駆動の3Dモデル生成の出力とシームレスに統合し、生成された膨大なコンテンツライブラリをすぐにアニメーション可能にします。
  3. インタラクティブ性の向上: ヒューマン・イン・ザ・ループの改善をサポートします。ユーザーは予測されたスケルトンを編集(例:ボーンの追加/削除、トポロジーの調整)し、リグを再生成することで、自動化と芸術的コントロールを融合させることができます。
  4. アニメーションの民主化: アニメーション3Dコンテンツ作成への参入障壁を低くします。


今後の展望:オープンソースリリース

Tripoの分野を前進させるというコミットメントに沿って、私たちはUniRigをオープンソース化します。この技術がクリエイターコミュニティに大きく貢献し、さらなる革新を促進すると信じています。
詳細については、以下をご覧ください。

UniRigは単なるアルゴリズムではありません。それは次世代の3Dコンテンツ作成のための基礎的なピースであり、アニメーションをこれまで以上にアクセスしやすく、効率的で、汎用性の高いものにします。

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.