Руководство пользователя (I): Изучаем Text/Image-to-3D в Tripo AI с проверенными советами и хитростями для эффективных промптов

Введение

Всем привет, я Lyson!

За последний год область GenAI (Генеративный ИИ) продолжала стремительно развиваться. В начале года я опубликовал систематический туториал по Midjourney на Bilibili, и сегодня технология создания 3D-моделей с помощью ИИ становится всё более зрелой. Снижение порога входа означает, что вы можете быстрее освоить навыки 3D, позволяя каждому испытать радость 3D-творчества.

Исследуем потенциал: Tripo AI + Blender + Magnific AI

В своём недавнем эксперименте я погрузился в увлекательный мир Tripo AI, объединив его с Blender и Magnific AI. Результат? Взгляните на потрясающее изображение ниже:

Первое знакомство с Tripo AI вернуло меня к радости, которую я испытал, когда впервые работал с моделью Midjourney V3. Ещё одна сюжетная линия, переплетающаяся с технологией 3D-генерации, — это развитие технологии motion capture. В прошлом получение высокоточных файлов движения требовало дорогостоящего оборудования, но сегодня достаточно лишь смартфона.

Дилемма времени в изучении 3D

Многие из вас задавались вопросом о том, сколько времени требуется для изучения 3D-моделирования. Это значительные затраты! Если ИИ сможет генерировать модели напрямую, достигая даже 80% готовности, не говоря уже о 100%, это было бы огромным преимуществом. Это сэкономило бы много времени, особенно для выполнения повторяющихся, «черновых» задач. Это одна из причин, почему Tripo AI меня так вдохновляет!

Проверяя границы возможностей: Один день с Tripo AI

В свой первый день работы с Tripo AI я написал скрипты на Python для пакетной обработки сотен моделей, чтобы проверить пределы производительности Tripo AI. Как мы все знаем, важность промптов в текстовой генерации первостепенна, особенно на этапах быстрой разработки инструментов. Понимание того, какие промпты работают эффективно, может сэкономить ценное время в творческом процессе.

В своих экспериментах я постепенно исследовал различные атрибуты полей, от простых прилагательных до материалов текстур, блеска цвета и начальных фраз промптов, таких как слово "Masterpiece".

Раскрытие техник и выводов

Вот несколько ключевых техник и выводов, которые я обнаружил:

Краткость — залог успеха: В настоящее время модель отлично справляется с пониманием основного объекта и кратких модификаторов. Однако длинные тексты не значительно улучшают детализацию. Сосредоточьтесь на чётком выражении основного объекта и его выдающихся особенностей.
Сила цветовых промптов: Цветовые промпты работают лучше всего, когда в результатах представлена большая область этого цвета. Описание более двух цветов только с помощью языка может быть сложным — прямое изменение в профессиональном 3D-программном обеспечении лучше соответствует рабочему процессу.
Важность начальных фраз: Хорошая начальная фраза может принести неожиданные улучшения в текстуре. Запоминайте и отслеживайте промпты, связанные с высококачественными результатами, экспериментируя с ними многократно.
Материал имеет значение: Описание материалов имеет приоритет над описанием источников света. Понимание моделью отражательной способности материалов является точным и заслуживает внимания.
«Проблема нескольких голов»: Модель отлично генерирует хорошие детали на первой фазе Draft (черновика), с вероятностью столкнуться с «проблемой нескольких голов» на второй фазе Refine (уточнения), но это легко решается в рамках 3D-рабочего процесса.

Создание идеального промпта: Примеры для углубления понимания

Теперь давайте разберём эти выводы на примерах, раскрывая нюансы, которые могут улучшить ваше понимание и поднять ваши 3D-творения на новый уровень.

Сила краткости и начальной фразы: Формула «Основной объект + 1–3 самых ярких прилагательных + Начальная фраза»:

Prompt: Cyberpunk mask, Compact, digital, Futuristic design, Voice modulator, Air filtration system, Quick-release mechanism, Concealed weapon storage, Biometric locking, Textured solar panel, moderate brightness, functional reflectivity, Sophisticated models, Smooth LOD transitions, gradient detail levels

В вышеупомянутых промптах, помимо некоторых более абстрактных элементов дизайна, модель демонстрирует хорошее понимание других частей промпта, особенно P4. Однако означает ли это, что более длинные промпты более ценны? Более внимательное изучение промптов показывает, что на самом деле только основной объект (mask), наиболее яркие описательные модификаторы (cyberpunk, futuristic) и начальные фразы (Smooth LOD transitions, gradient detail levels) имеют значительный вес. Давайте продолжим, сравнив несколько связанных примеров из сообщества:

Prompt: a futuristic hardsurface helmet in green marble, high resolution

В этом примере промпт представляет собой всего одно предложение, но поскольку он полностью включает упомянутую мной формулу «основной объект + 1–3 самых ярких прилагательных + начальная фраза», он создаёт впечатление высокой точности и шелковисто-гладкой поверхности.

Теперь давайте посмотрим на другой пример:

Prompt: Cybernetic heart, display, Lifesaving, mechanical, High-definition screen, Laser-cut steel, Modular seat configuration, Anti-graffiti coating, Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature

В этом примере киберпанк-электронное сердце P3 и футуристический дисплей P4 хорошо согласуются с намерением промптов. Наблюдая за нашей структурой длинных промптов, мы замечаем, что мы не пытались описать объект слишком большим количеством подробных прилагательных. Поэтому, помимо основного объекта, большая часть относится к категории начальных фраз, аналогичных словам «masterpiece» или «4k».

Однако в 3D нам нужно запомнить несколько новых промптов для достижения лучших результатов. Например: Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature. Возможно, вы заметили, что начальные фразы включают много описаний материала, отражательных эффектов и кривизны. Таким образом, вы также можете рассматривать начальные фразы как эти «3D-характеристики», которые могут значительно влиять на вывод ИИ.

Сосредоточьтесь на генерации одного объекта за раз:

При ближайшем рассмотрении вы заметите, что этот промпт, похоже, имеет два кажущихся параллельными объекта: кибернетическое сердце и дисплей. Для Stable Diffusion такой промпт может привести к размытому изображению или появлению обоих элементов на одном изображении, что потенциально может вызвать логические проблемы в изображении.

Но в моих экспериментах с Tripo AI я обнаружил, что модель склонна фокусироваться на рисовании одного объекта. Поэтому, если ваш промпт включает 2 объекта, вы можете обнаружить, что Изображение 1 полностью состоит из Объекта A, в то время как Изображение 2 полностью генерируется как Объект B.

Это даёт нам представление о текущей стадии разработки ИИ-продуктов, предполагая связь с 3D-рабочим процессом: сосредоточьтесь на генерации одного объекта за раз.

Соображения, связанные с материалом и симметрией:

Prompt 1:Sci-fi bench, Durable, rugged, Flush installation, Anti-slip surface, Illuminated edges, Slick oil surface texture, variable brightness, high reflectivity, Seamless 3D integration, Harmonious light mapping, balanced illumination

Prompt 2:Sci-fi bench, Miniaturized, interactive, Flush installation, Anti-slip surface, Illuminated edges, Boosted motors, Grip tape detailing, Customizable wheels, Abrasive sandpaper texture, low brightness, non-reflective, Procedural generation techniques, Seamless mesh, unified surfaces

Особого внимания заслуживает сравнение кресла на первом изображении и кресел на P2 и P3 второго изображения, с акцентом на характеристики материала. Описания отражательных свойств оказывают значительное влияние на генерируемые результаты, что было неизменно эффективно во многих испытаниях. Из-за ограничений по объёму я не буду приводить здесь все примеры.

Далее, если вы знакомы с 3D-моделированием, вы знаете важность «симметрии» в процессе создания модели. Поэтому, при необходимости, не забудьте специально напомнить ИИ сосредоточиться на «симметрии».

Prompt:Security turret, Tactical, time-telling, 360-degree surveillance, Automated targeting, Infrared vision, Augmented vision, Prescription compatibility, Lightweight frame, Composite fiber paneling, moderate brightness, reduced reflectivity, Immersive world-building, Intentional reflective design, deliberate symmetry

Функция Image to 3D (Изображение в 3D):

Конечно, вы также можете использовать функцию Image to 3D, как с этим изображением. При использовании Tripo AI выберите «Image to 3D», загрузите своё изображение и просто нажмите кнопку Draft. Система сначала автоматически извлечёт объект из изображения, а затем сгенерирует модель. Лично я предпочитаю предварительно редактировать изображение (извлекать передний план) в Photoshop, чтобы обеспечить точность начального черновика, который иногда может выглядеть размытым при автоматической сегментации.

После этого мы нажимаем Refine, чтобы повысить точность модели. Конечная полученная модель выглядит следующим образом. Нажав «скачать», вы можете импортировать её в профессиональное 3D-программное обеспечение для дальнейшей доработки:

Вот другие примеры Image-to-3D:

Изучите Tripo AI и присоединяйтесь к нам на наших медиа-платформах:

Официальный сайт: https://www.tripo3d.ai
Twitter: https://twitter.com/tripoai
Medium: https://medium.com/@thegodtripo
Discord: https://discord.gg/chrV6rjAfY

Оригинальная статья: https://medium.com/@thegodtripo/ultimate-tripo-ai-guide-i-prompt-tips-and-tricks-for-text-image-to-3d-cd49523b10ae

Автор: Lyson (Twitter@lyson_ober), редактор: Oliver

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.