CVPR 2025|Tripo AI e Universidade Beihang Lançam o MIDI: Geração de Cenas 3D Compostas a Partir de uma Única Imagem

Este trabalho é liderado por pesquisadores da VAST, Universidade Beihang, Universidade Tsinghua e Universidade de Hong Kong. O primeiro autor é Zehuan Huang, estudante de Mestrado na Universidade Beihang, cuja pesquisa se foca em IA generativa e visão 3D. Os autores correspondentes são Yanpei Cao, Cientista Chefe da VAST, e Lv Sheng, Professor Associado na Universidade Beihang.

Com Sora acendendo uma revolução nos modelos de mundo, as cenas 3D, como a base digital do mundo físico, estão se tornando uma infraestrutura crítica para a construção de sistemas de IA dinâmicos e interativos. Os avanços atuais na geração de ativos 3D a partir de imagens únicas forneceram a capacidade atômica de "da imaginação para o 3D" para a criação de conteúdo 3D.

No entanto, à medida que a tecnologia evolui para a geração de cenas compostas, as limitações dos paradigmas de geração de objeto único tornam-se aparentes. Os métodos existentes geram ativos 3D como "átomos digitais" dispersos, lutando para se auto-organizar em "estruturas moleculares" com relações espaciais razoáveis. Isso leva a vários desafios centrais: ① Dilema de separação de instâncias (como desacoplar com precisão objetos sobrepostos de uma única vista); ② Modelagem de restrições físicas (como evitar intersecções e colisões irrealistas); ③ Compreensão semântica em nível de cena (como manter a consistência entre a função do objeto e o layout espacial). Esses gargalos dificultam severamente a construção eficiente de "mundos interativos" a partir de "átomos digitais".

Recentemente, uma equipe de pesquisa da Universidade Beihang, VAST e outras instituições introduziu um modelo inovador – MIDI – que pode gerar cenas 3D compostas de alta qualidade geométrica e separáveis por instância a partir de imagens únicas, alcançando um avanço na geração de cenas 3D de uma única vista e lançando as bases para a geração de mundos interativos.

Artigo: https://arxiv.org/abs/2412.03558
Página do Projeto: https://huanngzh.github.io/MIDI-Page/
Código: https://github.com/VAST-AI-Research/MIDI-3D
Demonstração Online: https://huggingface.co/spaces/VAST-AI/MIDI-3D

Avanço Tecnológico

As técnicas tradicionais de reconstrução de cenas 3D compostas frequentemente dependem de geração multi-estágio, objeto por objeto e otimização de cena, resultando em processos demorados e muitas vezes gerando cenas com baixa qualidade geométrica e layouts espaciais imprecisos. Para resolver esses problemas, o MIDI (Multi-Instance Diffusion Model) inova ao utilizar modelos de geração de objetos 3D, estendendo-os para um modelo de difusão multi-instância capaz de gerar simultaneamente múltiplas instâncias 3D com relações espaciais precisas, alcançando uma geração eficiente e de alta qualidade de cenas 3D:

De Geração de Objeto Único para Multi-Instância: Ao denoising simultaneamente as representações latentes de múltiplas instâncias 3D e introduzindo interações entre tokens multi-instância durante o processo de denoising, o MIDI estende os modelos de geração de objetos 3D para gerar simultaneamente múltiplas instâncias com modelagem de interação, que são então diretamente combinadas em uma cena 3D.
Mecanismo de Autoatenção Multi-Instância: Ao estender o mecanismo de autoatenção de modelos de geração de objetos para autoatenção multi-instância, o MIDI captura efetivamente as correlações espaciais entre as instâncias e a coerência da cena geral durante o processo de geração, eliminando a necessidade de otimização por cena.
Aumento de Dados durante o Treinamento: Ao supervisionar a interação entre instâncias 3D usando dados de cena limitados enquanto aumenta o treinamento com dados de objetos, o MIDI modela efetivamente os layouts de cena enquanto mantém as capacidades de generalização do pré-treinamento.

Resultados Gerados

Com base em uma única imagem, o MIDI pode gerar cenas 3D compostas de alta qualidade:

Demonstração Online

Desempenho Superior

O MIDI se caracteriza por sua modelagem precisa de layout espacial, qualidade superior de geração geométrica, eficiência de geração e ampla aplicabilidade. Os resultados experimentais demonstram que o modelo supera os métodos existentes em múltiplos conjuntos de dados, alcançando excelente desempenho em relações espaciais de instâncias 3D, qualidade geométrica de instâncias 3D e velocidade de geração de ponta a ponta.

Aplicações: Uma Nova Ferramenta para Criação de Conteúdo de Cena 3D

O MIDI oferece uma solução inovadora para a criação de cenas 3D. Essa tecnologia demonstra grande potencial em diversas áreas, como design arquitetônico, realidade virtual, efeitos especiais de filmes e desenvolvimento de jogos. Com suas capacidades de geração de cenas 3D de alta precisão e alta qualidade geométrica, o MIDI pode atender à demanda por conteúdo de alta qualidade em cenas complexas, oferecendo mais possibilidades aos criadores.

Tripo: Gerador de Modelos 3D com IA

À medida que o MIDI revoluciona a composição de cenas 3D, a Tripo aprimora a criação de ativos individuais com recursos de IA de ponta:

Imagem Única para Modelo 3D

Converta uma única imagem 2D em um modelo 3D de alta qualidade instantaneamente.
A reconstrução impulsionada por IA garante forma e textura precisas.
Ideal para prototipagem rápida e visualização de conceitos.

Múltiplas Imagens para Modelo 3D

Use várias imagens de diferentes ângulos para melhor profundidade e detalhe.
Aumenta a precisão geométrica e o realismo.
Perfeito para modelagem precisa de objetos e design de produtos.

Texto para Modelo 3D

Gere modelos 3D a partir de descrições de texto simples.
A IA interpreta os prompts para criar ativos detalhados e criativos.
Acelera a geração de conceitos para jogos, VR e animação.

Auto Rigging e Animação

Rigging instantâneo de modelos para animação com esforço mínimo.
Estrutura óssea e geração de movimento impulsionadas por IA.
Torna os modelos prontos para jogos para integração perfeita.

Trabalhos Futuros

Apesar do excelente desempenho do modelo, a equipe de desenvolvimento do MIDI reconhece que ainda há muitas áreas para melhoria e exploração. Por exemplo, otimizar ainda mais a adaptabilidade a cenas interativas complexas e melhorar o detalhe da geração de objetos são focos chave para esforços futuros. A equipe espera que, através de melhorias e refinamentos contínuos, esta direção de pesquisa não apenas impulsione o avanço da tecnologia de geração de cenas 3D compostas de uma única vista, mas também contribua para a ampla adoção da tecnologia 3D em aplicações práticas.