ユーザーガイド(I):Tripo AIのText/Image-to-3Dを徹底解説 – 効果的なプロンプト作成の秘訣とコツ

Oliver
Lyson
· 2023/12/22

はじめに

皆さん、こんにちは!Lysonです!

過去1年間、GenAI (Generative AI)分野は急速な成長を続けてきました。今年の初めには、BilibiliでMidjourneyの体系的なチュートリアルを提供しましたが、今日、AI生成3Dモデルの技術はますます成熟しています。学習曲線が低下したことで、誰もがより早く3Dスキルを習得し、3D制作の喜びを体験できるようになりました。

可能性を探る:Tripo AI + Blender + Magnific AI

最近の私の実験では、Tripo AIのエキサイティングな世界に飛び込み、BlenderMagnific AIを組み合わせました。その結果が、以下の見事な画像です。

Tripo AIとの最初の出会いは、Midjourney V3モデルを初めて使ったときの喜びを思い出させました。3D生成技術と絡み合うもう一つのストーリーは、モーションキャプチャ技術の進歩です。以前は、高精度なモーションファイルを得るには高価な機器が必要でしたが、今ではスマートフォン一つで十分です。

3D学習における時間のジレンマ

多くの皆さんが3Dモデリングの学習に必要な時間について疑問に思っていることでしょう。それはかなりのものです!もしAIが直接モデルを生成し、100%とは言わずとも80%の完成度を達成できるなら、それは大きな成果です。特に反復的で「積み重ね」のような作業においては、多くの時間を節約できます。これが私がTripo AIに興奮する理由の一つです!

限界への挑戦:Tripo AIとの一日

Tripo AIを使った初日、私は何百ものモデルをバッチ処理するPythonスクリプトを書き、Tripo AIの性能の限界をテストしました。ご存じの通り、特にツールの急速な開発段階において、テキスト生成におけるプロンプトの重要性は極めて高いです。どのプロンプトが効率的に機能するかを理解することは、クリエイティブなプロセスにおいて貴重な時間を節約できます。

私の実験では、単純な形容詞からテクスチャ素材、色の光沢、そして「Masterpiece」のようなプロンプトの開始語まで、さまざまなフィールド属性を徐々に探求していきました。

明らかになったテクニックと結論

ここで、私が明らかにしたいくつかの重要なテクニックと結論を紹介します。

  1. 簡潔さが鍵: 現在、モデルは主要な主題と簡潔な修飾語の理解に優れています。しかし、長いテキストは細部を大幅に向上させるわけではありません。主要な主題とその際立った特徴を明確に表現することに焦点を当ててください。
  2. 色のプロンプトの力: 色のプロンプトは、その色が結果の広い領域で表現される場合に最も効果的です。2つ以上の色を言葉だけで記述するのは難しい場合があります。プロの3Dソフトウェアで直接修正する方がワークフローに合致しています。
  3. 開始フレーズの重要性: 良い開始フレーズは、テクスチャに予期せぬ改善をもたらすことがあります。高品質な出力に関連するプロンプトを記憶し、観察し、繰り返し実験してください。
  4. マテリアルの重要性: マテリアルの記述は、光源の記述よりも優先されます。モデルのマテリアルの反射率の理解は正確であり、注目に値します。
  5. マルチヘッド問題」: モデルは最初のDraftフェーズで優れた詳細を生成するのに優れていますが、2番目のRefineフェーズで「マルチヘッド問題」に遭遇する可能性があります。しかし、これは3Dワークフロー内で簡単に解決できます。

完璧なプロンプトを作成する:理解を深めるための例

それでは、これらの洞察を例を使って分析し、皆さんの理解を深め、3D作品を向上させるためのニュアンスを解き明かしていきましょう。

簡潔さと開始フレーズの力:「主要な被写体 + 1~3つの最も際立った形容詞 + 開始フレーズ」の公式

Prompt: Cyberpunk mask, Compact, digital, Futuristic design, Voice modulator, Air filtration system, Quick-release mechanism, Concealed weapon storage, Biometric locking, Textured solar panel, moderate brightness, functional reflectivity, Sophisticated models, Smooth LOD transitions, gradient detail levels

上記のプロンプトでは、より抽象的なデザイン要素の一部を除けば、モデルはプロンプトの他の部分、特にP4をよく理解していることを示しています。しかし、これは長いプロンプトの方が価値があるということでしょうか?プロンプトを詳しく調べると、実際には主要な被写体(マスク)、最も際立った記述修飾語(cyberpunk, futuristic)、そして開始フレーズ(Smooth LOD transitions, gradient detail levels)だけが大きな重みを持っていることがわかります。コミュニティからの関連する例を比較して続けていきましょう。

Prompt: a futuristic hardsurface helmet in green marble, high resolution

この例では、プロンプトは単一の文ですが、私が述べた「主要な被写体 + 1~3つの最も際立った形容詞 + 開始フレーズ」の公式を完全に組み込んでいるため、高精度で絹のように滑らかな表面という印象を与えます。

さて、別の例を見てみましょう。

Prompt: Cybernetic heart, display, Lifesaving, mechanical, High-definition screen, Laser-cut steel, Modular seat configuration, Anti-graffiti coating, Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature

この例では、P3のサイバーパンク電子心臓とP4の未来的なディスプレイ画面は、プロンプトの意図とよく合致しています。長いプロンプトの構造を観察すると、オブジェクトをあまりにも多くの詳細な形容詞で記述しようとはしていないことに気づきます。したがって、主要な被写体を除けば、そのほとんどは「masterpiece」や「4k」のような単語と同様に、開始フレーズのカテゴリに分類されます。

しかし、3Dでは、より良い結果を達成するためにいくつかの新しいプロンプトを覚えておく必要があります。例えば、「Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature」などです。開始フレーズには、マテリアル、反射効果、曲率に関する多くの記述が含まれていることにお気づきかもしれません。したがって、開始フレーズを、AIの出力に大きく影響を与えるこれらの「3D特性」と考えることもできます。

一度に1つのアイテムを生成することに集中する:

よく見ると、このプロンプトにはサイバネティックハートとディスプレイという、一見すると並行する2つの主題があることに気づくでしょう。Stable Diffusionの場合、このようなプロンプトは、ぼやけた画像になったり、両方の要素が1つの画像に表示されたりして、画像に論理的な問題を引き起こす可能性があります。

しかし、Tripo AIでの私の実験では、モデルは一つのオブジェクトを描くことに集中する傾向があることがわかりました。したがって、プロンプトに2つのオブジェクトが含まれている場合、画像1は完全にオブジェクトA、画像2は完全にオブジェクトBとして生成される可能性があります。

これは、AI製品開発の現在の段階に関する洞察を与え、3Dワークフローとの関連性を示唆しています。つまり、「一度に1つのアイテムを生成することに集中する」ということです。

マテリアルと対称性に関する考慮事項:

Prompt 1:Sci-fi bench, Durable, rugged, Flush installation, Anti-slip surface, Illuminated edges, Slick oil surface texture, variable brightness, high reflectivity, Seamless 3D integration, Harmonious light mapping, balanced illumination
Prompt 2:Sci-fi bench, Miniaturized, interactive, Flush installation, Anti-slip surface, Illuminated edges, Boosted motors, Grip tape detailing, Customizable wheels, Abrasive sandpaper texture, low brightness, non-reflective, Procedural generation techniques, Seamless mesh, unified surfaces

特に注目すべきは、最初の画像の椅子と2番目の画像のP2とP3の椅子との比較で、マテリアルの特性に焦点を当てています。反射特性の記述は生成結果に大きな影響を与え、これは複数の試行で一貫して効果的でした。スペースの制約上、ここではすべての例を表示しません。

続けて、3Dモデリングに慣れている方なら、モデル作成プロセスにおける「対称性」の重要性をご存じでしょう。したがって、必要に応じて、AIに特に「対称性」に焦点を当てるように指示することを忘れないでください。

Prompt:Security turret, Tactical, time-telling, 360-degree surveillance, Automated targeting, Infrared vision, Augmented vision, Prescription compatibility, Lightweight frame, Composite fiber paneling, moderate brightness, reduced reflectivity, Immersive world-building, Intentional reflective design, deliberate symmetry

Image to 3D機能:

もちろん、この画像のようにImage to 3D機能も使用できます。Tripo AIを使用する際は、「Image to 3D」を選択し、画像をアップロードして、単にDraftボタンをクリックするだけです。システムはまず画像から被写体を自動的に抽出し、その後モデルを生成します。個人的には、最初のDraftで自動的にセグメント化されるとぼやけて見えることがあるため、Photoshopで画像を事前に編集(前景を抽出)して精度を確保することをお勧めします。

その後、Refineをクリックしてモデルの精度を向上させます。最終的に得られたモデルは以下の通りです。ダウンロードをクリックすることで、プロの3Dソフトウェアにインポートして、さらに調整を行うことができます。

その他のImage-to-3Dの例を以下に示します。

Tripo AIを探索し、私たちのメディアプラットフォームにご参加ください。

元記事:https://medium.com/@thegodtripo/ultimate-tripo-ai-guide-i-prompt-tips-and-tricks-for-text-image-to-3d-cd49523b10ae

Lyson (Twitter@lyson_ober) 執筆、Oliver 編集

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.