Движок для создания 3D-моделей с ИИ
В моей повседневной работе с генерацией 3D-моделей с помощью ИИ я обнаружил, что смещение по ракурсу камеры является наиболее распространенным, но часто упускаемым из виду фактором, который ухудшает качество модели. Это системная проблема, коренящаяся в обучающих данных, и если ее не контролировать, она приводит к созданию моделей с искаженной геометрией, отсутствующими деталями и непригодной топологией. Эта статья предназначена для 3D-художников, разработчиков игр и дизайнеров, которые хотят выйти за рамки разочаровывающих первых результатов и последовательно генерировать готовые к производству активы. Я поделюсь своим практическим опытом по диагностике и устранению этого смещения, сравнивая текстовые и графические входы, а также внедряя передовые методы коррекции.
Основные выводы:
Смещение по ракурсу камеры относится к тенденции генератора 3D-моделей с ИИ создавать геометрию, которая искажена или неполна, потому что он был преимущественно обучен на данных с определенных точек обзора. Модель изучает 2D-проекцию 3D-объекта, а не его истинную объемную форму.
Большинство общедоступных 3D-наборов данных собираются из онлайн-репозиториев и в подавляющем большинстве состоят из рендеров с фронтального, бокового или трехчетвертного вида. ИИ узнает, что «стул» выглядит определенным образом под этими углами, но плохо понимает его нижнюю сторону, спинку или верх. На практике это означает, что ИИ будет галлюцинировать правдоподобную геометрию для невидимых углов, часто создавая плоские, растянутые или слитые поверхности. Это не ошибка алгоритма как таковая, а фундаментальное ограничение данных, которые он потреблял.
Шаблоны удивительно последовательны. Для моделей персонажей я часто вижу уплощенные затылки и искаженные уши, когда обучающие данные в основном состоят из фронтальных портретов. Для мебели нижние части столов или задние стенки шкафов часто представляют собой беспорядочную кучу пересекающихся плоскостей. У транспортных средств колеса могут быть овальной формы или отсутствовать детали осей. Распознавание этих шаблонов — первый шаг к их исправлению.
Это смещение затрагивает оба основных метода ввода, но по-разному. При работе с текстом в 3D смещение заложено в скрытое понимание модели; запрос «детальный стул» будет использовать его предвзятое внутреннее представление. При работе с изображением в 3D смещение передается напрямую; если вы подадите одну фотографию с фронтальным видом, ИИ будет изо всех сил пытаться экстраполировать остальные 270 градусов геометрии, часто создавая «2.5D» барельеф вместо истинного 3D-объекта.
При использовании изображений у вас есть наиболее прямой контроль для борьбы со смещением. Цель состоит в том, чтобы с самого начала дать ИИ многоперспективное понимание вашего объекта.
Я никогда не использую одно изображение, если могу этого избежать. Идеальный ввод — это небольшой набор из 3-8 фотографий, снятых с равномерно расположенных углов по горизонтальной оси. Ортографические виды (спереди, сбоку, сверху) — это золото, если вы можете их найти или создать. Я избегаю изображений с сильным перспективным искажением (например, снимков с широкоугольным объективом) и сложным, загроможденным фоном, поскольку они вносят шум, который ИИ должен интерпретировать.
Мой контрольный список предварительной обработки быстрый, но имеет решающее значение:
В Tripo AI я начинаю с функции ввода нескольких изображений. После первоначальной генерации я немедленно использую 360-градусный просмотрщик для проверки смещения. Я ищу характерные признаки: области, которые становятся размытыми или деградируют под определенными углами. Инструменты сегментации платформы полезны здесь; я часто могу изолировать проблемную область (например, искаженное колесо) и использовать запрос на закрашивание или уточнение, сосредоточенный только на этой области с «слабого» угла обзора, что более эффективно, чем перегенерация всей модели.
Выбор метода ввода — это стратегическое решение, которое напрямую влияет на вашу борьбу со смещением.
Плюсы Text-to-3D: Непревзойденная творческая свобода для концептуальной работы, быстрая итерация по стилю и форме, хорошо подходит для генерации базовых сеток для твердотельных объектов с простой симметрией. Минусы Text-to-3D: Подвержен внутренним смещениям ИИ, менее точен для конкретных реальных объектов, детали часто «импрессионистичны», а не точны.
Плюсы Image-to-3D: Более высокая точность для репликации конкретного объекта, дает ИИ конкретные геометрические подсказки, лучше подходит для органических форм и сложных текстур. Минусы Image-to-3D: Наследует и может усиливать смещения, присутствующие в ваших исходных изображениях, требует хорошего исходного материала, менее гибок для сценариев «что, если».
Я использую текстовые запросы для мозгового штурма, создания стилистических вариаций или создания простой прокси-геометрии. Я переключаюсь на ввод изображений, когда мне нужна модель конкретного продукта, персонажа или архитектурного элемента, или когда у меня есть ортографические справочные чертежи. Для задач архивирования или репликации изображения — единственный жизнеспособный путь.
Моя самая надежная техника — это гибридный рабочий процесс. Я могу сгенерировать базовую модель из текстового запроса (например, «низкополигональный спортивный автомобиль»), затем использовать отрисованное изображение этой сгенерированной модели с «слабого» угла (например, вид сверху) в качестве входного изображения для прохода уточнения, добавив текстовый запрос, такой как «детализированные вентиляционные отверстия на крыше и антенна». Это использует каждый метод для компенсации слабостей другого.
Рассматривать вывод ИИ как конечный актив — ошибка. Это высококачественный черновик, который должен войти в профессиональный конвейер.
Мой первый шаг — всегда импортировать сгенерированную модель в стандартный инструмент DCC, такой как Blender или Maya. Я проверяю плотность сетки, которая обычно неравномерна и неэффективна. Я ищу и исправляю:
Сгенерированная ИИ сетка — это скульптура. Для анимации или использования в играх ее необходимо ретопологизировать. Я использую вывод ИИ в качестве высокополигональной эталонной поверхности и создаю чистую, низкополигональную сетку с правильным потоком ребер поверх нее. Для текстурирования исходные UV-развертки, сгенерированные ИИ, часто пригодны для запекания, но я почти всегда переразворачиваю ретопологизированную модель для оптимальной плотности текселей и расположения швов. Такие инструменты, как автоматическая UV-развертка Tripo AI, могут послужить отличной отправной точкой для этого этапа.
Прежде чем назвать любую сгенерированную ИИ модель «готовой», я прохожусь по этому списку:
moving at the speed of creativity, achieving the depths of imagination.
Текст и изображения в 3D-модели
Бесплатные кредиты ежемесячно
Максимальная детализация