ユーザーガイド (I): Tripo AI のテキスト/画像から3D生成機能を探る — 効果的なプロンプトのための実証済みヒントとコツ

はじめに

皆さん、こんにちは、Lysonです！

この1年間、GenAI (ジェネレーティブAI) の分野は急速な成長を続けています。今年の初めには、BilibiliでMidjourneyの体系的なチュートリアルを提供しましたが、今日、AIによる3Dモデル生成技術はますます成熟してきました。学習曲線が低下したことで、3Dスキルをより早く習得できるようになり、誰もが3D制作の楽しさを体験できるようになりました。

可能性を探る: Tripo AI + Blender + Magnific AI

最近の実験で、私はTripo AIの刺激的な世界に飛び込み、それをBlenderやMagnific AIと組み合わせました。その結果が、以下の見事な画像です。ぜひご覧ください。

Tripo AIとの最初の出会いは、Midjourney V3モデルを初めて試したときの喜びを思い出させてくれました。3D生成技術と並行して進歩しているもう一つのストーリーラインは、モーションキャプチャ技術の進歩です。以前は、高精度なモーションファイルを得るには高価な機器が必要でしたが、今ではスマートフォン一つで事足ります。

3D学習における時間的ジレンマ

多くの皆さんが、3Dモデリングを学ぶのに必要な時間投資について疑問に思っています。それはかなりのものです！もしAIがモデルを直接生成し、たとえ100%とは言わずとも80%の完成度を達成できるなら、それは大きな成果です。特に繰り返し行う「レンガ積み」のような作業において、多くの時間を節約できます。これがTripo AIに私が興奮する理由の一つです！

限界への挑戦: Tripo AIと過ごした一日

Tripo AIを使い始めた初日、私は何百ものモデルをバッチ処理するPythonスクリプトを書き、Tripo AIのパフォーマンスの限界をテストしました。ご存じの通り、テキスト生成におけるプロンプトの重要性は極めて高く、特にツールの急速な開発段階ではそれが顕著です。どのプロンプトが効率的に機能するかを理解することは、クリエイティブなプロセスにおいて貴重な時間を節約できます。

私の実験では、単純な形容詞からテクスチャ素材、色の光沢、そして「Masterpiece」のようなプロンプトの冒頭の言葉まで、さまざまなフィールド属性を徐々に探求しました。

明らかになったテクニックと結論

私が発見したいくつかの重要なテクニックと結論を以下に示します。

簡潔さが鍵: 現在、モデルは主要な被写体と短い修飾語を理解するのに優れています。しかし、長いテキストは詳細を著しく向上させません。主要な被写体とその主要な特徴を明確に表現することに集中してください。
カラープロンプトの力: カラープロンプトは、その色が結果の広い領域に表示される場合に最も効果を発揮します。言語だけで2色以上を記述するのは難しい場合があります。プロの3Dソフトウェアで直接変更する方がワークフローに適しています。
開始フレーズの重要性: 良い開始フレーズは、テクスチャに予期せぬ改善をもたらすことがあります。高品質な出力に関連するプロンプトを覚えて観察し、繰り返し実験してください。
素材が重要: 光源を記述するよりも、素材を記述する方が優先されます。モデルの素材の反射率に対する理解は正確であり、注目に値します。
「マルチヘッド問題」: モデルは最初のDraftフェーズで優れた詳細を生成するのに優れていますが、2番目のRefineフェーズで「マルチヘッド問題」に遭遇する可能性があります。しかし、これは3Dワークフロー内で簡単に解決できます。

完璧なプロンプトの作成: 理解を深めるための例

それでは、これらの洞察を例を使って分析し、3D制作を向上させるニュアンスを解き明かしていきましょう。

簡潔さと開始フレーズの力: 「主要な被写体 + 1～3つの最も顕著な形容詞 + 開始フレーズ」の公式:

Prompt: Cyberpunk mask, Compact, digital, Futuristic design, Voice modulator, Air filtration system, Quick-release mechanism, Concealed weapon storage, Biometric locking, Textured solar panel, moderate brightness, functional reflectivity, Sophisticated models, Smooth LOD transitions, gradient detail levels

上記のプロンプトでは、ある程度抽象的なデザイン要素を除けば、モデルはプロンプトの他の部分、特にP4をよく理解しています。しかし、これはプロンプトが長ければ長いほど良いということでしょうか？プロンプトをよく見ると、実際に重要なのは主要な被写体 (マスク)、最も顕著な記述修飾語 (サイバーパンク、未来的)、そして開始フレーズ (Smooth LOD transitions, gradient detail levels) だけであることがわかります。コミュニティからの関連する例を比較しながら見ていきましょう。

Prompt: a futuristic hardsurface helmet in green marble, high resolution

この例では、プロンプトは単一の文ですが、私が述べた「主要な被写体 + 1～3つの最も顕著な形容詞 + 開始フレーズ」の公式を完全に組み込んでいるため、高精度で絹のような滑らかな表面という印象を与えます。

次に、別の例を見てみましょう。

Prompt: Cybernetic heart, display, Lifesaving, mechanical, High-definition screen, Laser-cut steel, Modular seat configuration, Anti-graffiti coating, Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature

この例では、P3のサイバーパンクな電子心臓とP4の未来的なディスプレイ画面が、プロンプトの意図とよく一致しています。長いプロンプトの構造を観察すると、オブジェクトをあまりに多くの詳細な形容詞で記述しようとはしていないことに気づきます。したがって、主要な被写体を除けば、そのほとんどは「masterpiece」や「4k」のような言葉と同様に、開始フレーズのカテゴリに分類されます。

しかし、3Dでは、より良い結果を得るためにいくつかの新しいプロンプトを覚えておく必要があります。例えば、「Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature」などです。開始フレーズには、素材、反射効果、曲率に関する記述が多く含まれていることにお気づきかもしれません。したがって、開始フレーズを、AIの出力に大きく影響を与えるこれらの「3D特性」と考えることもできます。

一度に一つのアイテムの生成に集中する:

よく見ると、このプロンプトにはサイバネティックハートとディスプレイという、一見すると並行する2つの主題が含まれているように見えます。Stable Diffusionの場合、このようなプロンプトは、ぼやけた結果になったり、両方の要素が1つの画像に表示され、画像に論理的な問題が生じる可能性があります。

しかし、Tripo AIを使った私の実験では、モデルは1つのオブジェクトを描画することに集中する傾向があることがわかりました。したがって、プロンプトに2つのオブジェクトが含まれている場合、画像1が完全にオブジェクトAであり、画像2が完全にオブジェクトBとして生成される可能性があります。

これは、AI製品開発の現在の段階についての洞察を与え、3Dワークフローとの関連性を示唆しています。一度に一つのアイテムの生成に集中することです。

素材と対称性に関する考慮事項:

Prompt 1:Sci-fi bench, Durable, rugged, Flush installation, Anti-slip surface, Illuminated edges, Slick oil surface texture, variable brightness, high reflectivity, Seamless 3D integration, Harmonious light mapping, balanced illumination

Prompt 2:Sci-fi bench, Miniaturized, interactive, Flush installation, Anti-slip surface, Illuminated edges, Boosted motors, Grip tape detailing, Customizable wheels, Abrasive sandpaper texture, low brightness, non-reflective, Procedural generation techniques, Seamless mesh, unified surfaces

特に注目すべきは、最初の画像の椅子と、2番目の画像のP2とP3の椅子を比較し、素材の特性に焦点を当てた点です。反射特性の記述は生成結果に大きな影響を与え、これは複数の試行で一貫して効果的でした。スペースの都合上、すべての例をここに表示することはできません。

次に、3Dモデリングに詳しい方なら、モデル作成プロセスにおける「対称性」の重要性をご存じでしょう。したがって、必要に応じて、AIに「対称性」に焦点を当てるよう具体的に指示することを忘れないでください。

Prompt:Security turret, Tactical, time-telling, 360-degree surveillance, Automated targeting, Infrared vision, Augmented vision, Prescription compatibility, Lightweight frame, Composite fiber paneling, moderate brightness, reduced reflectivity, Immersive world-building, Intentional reflective design, deliberate symmetry

画像から3D機能:

もちろん、この画像のように画像から3D機能を使うこともできます。Tripo AIを使用する際は、「Image to 3D」を選択し、画像をアップロードして「Draft」ボタンをクリックするだけです。システムはまず画像から被写体を自動的に抽出し、その後モデルを生成します。個人的には、最初のドラフトで自動的にセグメント化されたときにぼやけて見えることがあるため、Photoshopで画像を事前に編集（前景を抽出）して精度を確保することをお勧めします。

その後、「Refine」をクリックしてモデルの精度を向上させます。最終的に得られるモデルは以下の通りです。ダウンロードをクリックすることで、それをプロの3Dソフトウェアにインポートし、さらに調整することができます。

その他の画像から3Dへの変換例です。

Tripo AIを探索し、私たちのメディアプラットフォームにご参加ください。

オリジナル記事: https://medium.com/@thegodtripo/ultimate-tripo-ai-guide-i-prompt-tips-and-tricks-for-text-image-to-3d-cd49523b10ae

Lyson (Twitter@lyson_ober) 執筆、Oliver 編集

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.