Всем привет, я Lyson!
За последний год область GenAI (Генеративный ИИ) продолжала стремительно развиваться. В начале года я опубликовал систематический туториал по Midjourney на Bilibili, и сегодня технология создания 3D-моделей с помощью ИИ становится всё более зрелой. Снижение порога входа означает, что вы можете быстрее освоить навыки 3D, позволяя каждому испытать радость 3D-творчества.
В своём недавнем эксперименте я погрузился в увлекательный мир Tripo AI, объединив его с Blender и Magnific AI. Результат? Взгляните на потрясающее изображение ниже:
Первое знакомство с Tripo AI вернуло меня к радости, которую я испытал, когда впервые работал с моделью Midjourney V3. Ещё одна сюжетная линия, переплетающаяся с технологией 3D-генерации, — это развитие технологии motion capture. В прошлом получение высокоточных файлов движения требовало дорогостоящего оборудования, но сегодня достаточно лишь смартфона.
Многие из вас задавались вопросом о том, сколько времени требуется для изучения 3D-моделирования. Это значительные затраты! Если ИИ сможет генерировать модели напрямую, достигая даже 80% готовности, не говоря уже о 100%, это было бы огромным преимуществом. Это сэкономило бы много времени, особенно для выполнения повторяющихся, «черновых» задач. Это одна из причин, почему Tripo AI меня так вдохновляет!
В свой первый день работы с Tripo AI я написал скрипты на Python для пакетной обработки сотен моделей, чтобы проверить пределы производительности Tripo AI. Как мы все знаем, важность промптов в текстовой генерации первостепенна, особенно на этапах быстрой разработки инструментов. Понимание того, какие промпты работают эффективно, может сэкономить ценное время в творческом процессе.
В своих экспериментах я постепенно исследовал различные атрибуты полей, от простых прилагательных до материалов текстур, блеска цвета и начальных фраз промптов, таких как слово "Masterpiece".
Вот несколько ключевых техник и выводов, которые я обнаружил:
Теперь давайте разберём эти выводы на примерах, раскрывая нюансы, которые могут улучшить ваше понимание и поднять ваши 3D-творения на новый уровень.
Prompt: Cyberpunk mask, Compact, digital, Futuristic design, Voice modulator, Air filtration system, Quick-release mechanism, Concealed weapon storage, Biometric locking, Textured solar panel, moderate brightness, functional reflectivity, Sophisticated models, Smooth LOD transitions, gradient detail levels
В вышеупомянутых промптах, помимо некоторых более абстрактных элементов дизайна, модель демонстрирует хорошее понимание других частей промпта, особенно P4. Однако означает ли это, что более длинные промпты более ценны? Более внимательное изучение промптов показывает, что на самом деле только основной объект (mask), наиболее яркие описательные модификаторы (cyberpunk, futuristic) и начальные фразы (Smooth LOD transitions, gradient detail levels) имеют значительный вес. Давайте продолжим, сравнив несколько связанных примеров из сообщества:
Prompt: a futuristic hardsurface helmet in green marble, high resolution
В этом примере промпт представляет собой всего одно предложение, но поскольку он полностью включает упомянутую мной формулу «основной объект + 1–3 самых ярких прилагательных + начальная фраза», он создаёт впечатление высокой точности и шелковисто-гладкой поверхности.
Теперь давайте посмотрим на другой пример:
Prompt: Cybernetic heart, display, Lifesaving, mechanical, High-definition screen, Laser-cut steel, Modular seat configuration, Anti-graffiti coating, Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature
В этом примере киберпанк-электронное сердце P3 и футуристический дисплей P4 хорошо согласуются с намерением промптов. Наблюдая за нашей структурой длинных промптов, мы замечаем, что мы не пытались описать объект слишком большим количеством подробных прилагательных. Поэтому, помимо основного объекта, большая часть относится к категории начальных фраз, аналогичных словам «masterpiece» или «4k».
Однако в 3D нам нужно запомнить несколько новых промптов для достижения лучших результатов. Например: Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature. Возможно, вы заметили, что начальные фразы включают много описаний материала, отражательных эффектов и кривизны. Таким образом, вы также можете рассматривать начальные фразы как эти «3D-характеристики», которые могут значительно влиять на вывод ИИ.
При ближайшем рассмотрении вы заметите, что этот промпт, похоже, имеет два кажущихся параллельными объекта: кибернетическое сердце и дисплей. Для Stable Diffusion такой промпт может привести к размытому изображению или появлению обоих элементов на одном изображении, что потенциально может вызвать логические проблемы в изображении.
Но в моих экспериментах с Tripo AI я обнаружил, что модель склонна фокусироваться на рисовании одного объекта. Поэтому, если ваш промпт включает 2 объекта, вы можете обнаружить, что Изображение 1 полностью состоит из Объекта A, в то время как Изображение 2 полностью генерируется как Объект B.
Это даёт нам представление о текущей стадии разработки ИИ-продуктов, предполагая связь с 3D-рабочим процессом: сосредоточьтесь на генерации одного объекта за раз.
Prompt 1:Sci-fi bench, Durable, rugged, Flush installation, Anti-slip surface, Illuminated edges, Slick oil surface texture, variable brightness, high reflectivity, Seamless 3D integration, Harmonious light mapping, balanced illumination
Prompt 2:Sci-fi bench, Miniaturized, interactive, Flush installation, Anti-slip surface, Illuminated edges, Boosted motors, Grip tape detailing, Customizable wheels, Abrasive sandpaper texture, low brightness, non-reflective, Procedural generation techniques, Seamless mesh, unified surfaces
Особого внимания заслуживает сравнение кресла на первом изображении и кресел на P2 и P3 второго изображения, с акцентом на характеристики материала. Описания отражательных свойств оказывают значительное влияние на генерируемые результаты, что было неизменно эффективно во многих испытаниях. Из-за ограничений по объёму я не буду приводить здесь все примеры.
Далее, если вы знакомы с 3D-моделированием, вы знаете важность «симметрии» в процессе создания модели. Поэтому, при необходимости, не забудьте специально напомнить ИИ сосредоточиться на «симметрии».
Prompt:Security turret, Tactical, time-telling, 360-degree surveillance, Automated targeting, Infrared vision, Augmented vision, Prescription compatibility, Lightweight frame, Composite fiber paneling, moderate brightness, reduced reflectivity, Immersive world-building, Intentional reflective design, deliberate symmetry
Конечно, вы также можете использовать функцию Image to 3D, как с этим изображением. При использовании Tripo AI выберите «Image to 3D», загрузите своё изображение и просто нажмите кнопку Draft. Система сначала автоматически извлечёт объект из изображения, а затем сгенерирует модель. Лично я предпочитаю предварительно редактировать изображение (извлекать передний план) в Photoshop, чтобы обеспечить точность начального черновика, который иногда может выглядеть размытым при автоматической сегментации.
После этого мы нажимаем Refine, чтобы повысить точность модели. Конечная полученная модель выглядит следующим образом. Нажав «скачать», вы можете импортировать её в профессиональное 3D-программное обеспечение для дальнейшей доработки:
Вот другие примеры Image-to-3D:
Изучите Tripo AI и присоединяйтесь к нам на наших медиа-платформах:
Оригинальная статья: https://medium.com/@thegodtripo/ultimate-tripo-ai-guide-i-prompt-tips-and-tricks-for-text-image-to-3d-cd49523b10ae
Автор: Lyson (Twitter@lyson_ober), редактор: Oliver
moving at the speed of creativity, achieving the depths of imagination.
Текст и изображения в 3D-модели
Бесплатные кредиты ежемесячно
Максимальная детализация