Este trabalho é liderado por pesquisadores da VAST, Universidade Beihang, Universidade Tsinghua e Universidade de Hong Kong. O primeiro autor é Zehuan Huang, estudante de Mestrado na Universidade Beihang, cuja pesquisa se foca em IA generativa e visão 3D. Os autores correspondentes são Yanpei Cao, Cientista Chefe da VAST, e Lv Sheng, Professor Associado na Universidade Beihang.
Com Sora acendendo uma revolução nos modelos de mundo, as cenas 3D, como a base digital do mundo físico, estão se tornando uma infraestrutura crítica para a construção de sistemas de IA dinâmicos e interativos. Os avanços atuais na geração de ativos 3D a partir de imagens únicas forneceram a capacidade atômica de "da imaginação para o 3D" para a criação de conteúdo 3D.
No entanto, à medida que a tecnologia evolui para a geração de cenas compostas, as limitações dos paradigmas de geração de objeto único tornam-se aparentes. Os métodos existentes geram ativos 3D como "átomos digitais" dispersos, lutando para se auto-organizar em "estruturas moleculares" com relações espaciais razoáveis. Isso leva a vários desafios centrais: ① Dilema de separação de instâncias (como desacoplar com precisão objetos sobrepostos de uma única vista); ② Modelagem de restrições físicas (como evitar intersecções e colisões irrealistas); ③ Compreensão semântica em nível de cena (como manter a consistência entre a função do objeto e o layout espacial). Esses gargalos dificultam severamente a construção eficiente de "mundos interativos" a partir de "átomos digitais".
Recentemente, uma equipe de pesquisa da Universidade Beihang, VAST e outras instituições introduziu um modelo inovador – MIDI – que pode gerar cenas 3D compostas de alta qualidade geométrica e separáveis por instância a partir de imagens únicas, alcançando um avanço na geração de cenas 3D de uma única vista e lançando as bases para a geração de mundos interativos.
Avanço Tecnológico
As técnicas tradicionais de reconstrução de cenas 3D compostas frequentemente dependem de geração multi-estágio, objeto por objeto e otimização de cena, resultando em processos demorados e muitas vezes gerando cenas com baixa qualidade geométrica e layouts espaciais imprecisos. Para resolver esses problemas, o MIDI (Multi-Instance Diffusion Model) inova ao utilizar modelos de geração de objetos 3D, estendendo-os para um modelo de difusão multi-instância capaz de gerar simultaneamente múltiplas instâncias 3D com relações espaciais precisas, alcançando uma geração eficiente e de alta qualidade de cenas 3D:
Com base em uma única imagem, o MIDI pode gerar cenas 3D compostas de alta qualidade:
O MIDI se caracteriza por sua modelagem precisa de layout espacial, qualidade superior de geração geométrica, eficiência de geração e ampla aplicabilidade. Os resultados experimentais demonstram que o modelo supera os métodos existentes em múltiplos conjuntos de dados, alcançando excelente desempenho em relações espaciais de instâncias 3D, qualidade geométrica de instâncias 3D e velocidade de geração de ponta a ponta.
O MIDI oferece uma solução inovadora para a criação de cenas 3D. Essa tecnologia demonstra grande potencial em diversas áreas, como design arquitetônico, realidade virtual, efeitos especiais de filmes e desenvolvimento de jogos. Com suas capacidades de geração de cenas 3D de alta precisão e alta qualidade geométrica, o MIDI pode atender à demanda por conteúdo de alta qualidade em cenas complexas, oferecendo mais possibilidades aos criadores.
À medida que o MIDI revoluciona a composição de cenas 3D, a Tripo aprimora a criação de ativos individuais com recursos de IA de ponta:
Apesar do excelente desempenho do modelo, a equipe de desenvolvimento do MIDI reconhece que ainda há muitas áreas para melhoria e exploração. Por exemplo, otimizar ainda mais a adaptabilidade a cenas interativas complexas e melhorar o detalhe da geração de objetos são focos chave para esforços futuros. A equipe espera que, através de melhorias e refinamentos contínuos, esta direção de pesquisa não apenas impulsione o avanço da tecnologia de geração de cenas 3D compostas de uma única vista, mas também contribua para a ampla adoção da tecnologia 3D em aplicações práticas.
moving at the speed of creativity, achieving the depths of imagination.
Texto e imagens para modelos 3D
Créditos gratuitos mensais
Fidelidade de detalhes extrema