Эта работа выполнена исследователями из VAST, Бэйханского университета, Университета Цинхуа и Гонконгского университета. Первым автором является Цзэхуань Хуан, магистрант Бэйханского университета, чьи исследования сосредоточены на генеративном ИИ и 3D-зрении. Соответствующими авторами являются Яньпэй Цао, главный научный сотрудник VAST, и Лю Шэн, доцент Бэйханского университета.
В то время как Sora зажигает революцию в мировых моделях, 3D-сцены, являясь цифровой основой физического мира, становятся критически важной инфраструктурой для построения динамических и интерактивных систем ИИ. Текущие прорывы в генерации 3D-активов из отдельных изображений обеспечили базовую возможность "от воображения к 3D" для создания 3D-контента.
Однако, по мере развития технологий в сторону генерации композитных сцен, становятся очевидными ограничения парадигм генерации отдельных объектов. Существующие методы генерируют 3D-активы, как разрозненные "цифровые атомы", с трудом самоорганизующиеся в "молекулярные структуры" с разумными пространственными отношениями. Это приводит к нескольким основным проблемам: ① Дилемма разделения экземпляров (как точно отделить перекрывающиеся объекты от одного вида); ② Моделирование физических ограничений (как избежать нереалистичных пересечений и столкновений); ③ Семантическое понимание на уровне сцены (как поддерживать согласованность между функцией объекта и пространственным расположением). Эти узкие места серьезно препятствуют эффективному построению "интерактивных миров" из "цифровых атомов".
Недавно исследовательская группа из Бэйханского университета, VAST и других учреждений представила новую модель — MIDI, которая может генерировать высококачественные с точки зрения геометрии, разделяемые на экземпляры композитные 3D-сцены из одного изображения, достигая прорыва в генерации 3D-сцен из одного вида и закладывая основу для генерации интерактивных миров.
Технологический прорыв
Традиционные методы реконструкции композиционных 3D-сцен часто полагаются на многостадийную, пообъектную генерацию и оптимизацию сцены, что приводит к длительным процессам и часто генерирует сцены с низким геометрическим качеством и неточными пространственными расположениями. Для решения этих проблем MIDI (Multi-Instance Diffusion Model) инновационно использует модели генерации 3D-объектов, расширяя их до модели многоэкземплярной диффузии, способной одновременно генерировать несколько 3D-экземпляров с точными пространственными отношениями, достигая эффективной и высококачественной генерации 3D-сцен:
На основе одного изображения MIDI может генерировать высококачественные композиционные 3D-сцены:
MIDI характеризуется точным моделированием пространственного расположения, превосходным качеством генерации геометрии, эффективностью генерации и широкой применимостью. Экспериментальные результаты показывают, что модель превосходит существующие методы на нескольких наборах данных, достигая отличных результатов в пространственных отношениях 3D-экземпляров, геометрическом качестве 3D-экземпляров и сквозной скорости генерации.
MIDI предлагает новое решение для создания 3D-сцен. Эта технология демонстрирует большой потенциал в различных областях, таких как архитектурный дизайн, виртуальная реальность, киноспецэффекты и разработка игр. Благодаря своим возможностям генерации высокоточных 3D-сцен с высоким геометрическим качеством, MIDI может удовлетворить спрос на высококачественный контент в сложных сценах, предлагая создателям больше возможностей.
Пока MIDI революционизирует композицию 3D-сцен, Tripo улучшает создание отдельных активов с помощью передовых возможностей ИИ:
Несмотря на отличную производительность модели, команда разработчиков MIDI признает, что еще есть много областей для улучшения и исследования. Например, дальнейшая оптимизация адаптивности к сложным интерактивным сценам и улучшение детализации генерации объектов являются ключевыми направлениями будущих усилий. Команда надеется, что благодаря постоянному совершенствованию и доработке это направление исследований не только будет способствовать развитию технологии генерации композитных 3D-сцен из одного вида, но и внесет вклад в широкое внедрение 3D-технологий в практических приложениях.
moving at the speed of creativity, achieving the depths of imagination.
Текст и изображения в 3D-модели
Бесплатные кредиты ежемесячно
Максимальная детализация