Em março de 2024, a VAST e a Stability AI lançaram conjuntamente o modelo 3D de larga escala, TripoSR, em código aberto. Com sua capacidade revolucionária de gerar um modelo 3D a partir de uma única imagem em apenas 0,5 segundos, rapidamente se tornou a ferramenta preferida para criadores 3D em todo o mundo.
No mesmo ano, projetos de código aberto continuaram a impulsionar os limites da indústria de IA, alimentando um rápido crescimento tanto na pesquisa acadêmica quanto em aplicações comerciais.
A VAST aprimorou ainda mais sua série Tripo, lançando o Tripo 2.0 em setembro de 2024 e o Tripo 2.5 em janeiro de 2025. Treinados em dezenas de milhões de ativos 3D nativos de alta qualidade, essas iterações consistentemente abriram novos caminhos em velocidade de geração, precisão do modelo e sucesso geral — cada uma com uma precisão geométrica extraordinária que redefiniu as fronteiras da criação de modelos 3D.
Em nossa busca global por avanço tecnológico, entendemos que inovações disruptivas em arquiteturas fundamentais e avanços nas capacidades dos modelos são essenciais para as equipes de modelos fundamentais. Enquanto continuamente refinamos o Tripo para ser uma "solução cada vez mais perfeita" em um ambiente fechado, acreditamos que é ainda mais importante nos transformar em um "bloco de construção fundamental" dentro do ecossistema de código aberto. Um ecossistema técnico aberto possui um valor de longo prazo muito maior do que um sistema fechado.
Com isso em mente, em março de 2025, lançamos nossa iniciativa "Mês da Tecnologia Open-Source".
Planejamos abrir sequencialmente oito grandes projetos que abrangem toda a cadeia técnica — desde modelos de geração fundamentais e componentes funcionais essenciais até explorações de ideias inovadoras. Nossa ambição é construir o primeiro sistema de geração 3D open-source de ponta a ponta do mundo, e esperamos sinceramente que pesquisadores e desenvolvedores na área de geração 3D achem nosso trabalho inspirador e valioso.
TripoSG é um modelo fundamental de geração 3D construído sobre uma arquitetura MoE Transformer baseada em Rectified Flow (RF). Nesta versão, disponibilizamos os pesos e o código de inferência para o modelo TripoSG de 1.5B parâmetros, que você pode experimentar através de uma demonstração interativa no HuggingFace.
Testes mostraram que a qualidade de saída do TripoSG está no mesmo nível do Tripo 2.0 — superando todos os projetos de geração 3D de código aberto existentes. Suas vantagens marcantes incluem excelente generalização e alta estabilidade ao gerar objetos compostos complexos.
Aderir à Lei de Escala, aproveitar dados de maior qualidade e utilizar modelos maiores continuam sendo os fatores chave por trás do sucesso do TripoSG. Aqui estão quatro inovações importantes em treinamento eficiente, design de arquitetura e governança de dados:
Desde os primeiros dias do desenvolvimento do Tripo 2.0, descobrimos que, em comparação com os modelos de difusão tradicionais, o Rectified Flow oferece um caminho linear mais direto entre ruído e dados. Isso resulta em um treinamento mais estável e eficiente — e, quando combinado com DiT, aumenta significativamente a estabilidade do modelo.
Embora os MoE Transformers tenham sido usados em modelos de linguagem, imagem e vídeo, o TripoSG marca a primeira aplicação eficiente no domínio 3D. Essa abordagem aumenta dramaticamente a capacidade de parâmetros do modelo — especialmente nas camadas mais profundas e críticas — sem adicionar custos de inferência substanciais.
Além disso, construído sobre a estrutura Transformer, o TripoSG incorpora aprimoramentos chave, como skip-connections, para melhorar a fusão de recursos entre camadas. Um mecanismo de cross-attention independente também injeta eficientemente recursos de imagem globais (CLIP) e locais (DINOv2), garantindo um alinhamento preciso entre as imagens 2D de entrada e as formas 3D geradas.
Temos buscado continuamente melhores representações geométricas. No TripoSG, adotamos um VAE que usa Funções de Distância Assinadas (SDFs) para codificação geométrica, o que oferece maior precisão do que as grades de ocupação anteriormente populares. Além disso, a arquitetura VAE baseada em Transformer generaliza excepcionalmente bem em diferentes resoluções, lidando com entradas de alta resolução sem a necessidade de retreinamento.
Tanto a qualidade quanto a quantidade dos dados são cruciais. A VAST possui a maior coleção de dados 3D nativos de alta qualidade globalmente e desenvolveu um pipeline de governança de dados de ponta a ponta para a comunidade de código aberto.
O processo inclui: Pontuação de Qualidade → Filtragem de Dados → Correção e Aumento → Produção de SDF

Usando este pipeline, construímos um conjunto de dados de 2 milhões de pares de treinamento "imagem-SDF" de alta qualidade. Estudos de ablação demonstram claramente que os modelos treinados neste conjunto de dados refinado superam significativamente aqueles treinados em conjuntos de dados brutos maiores e não filtrados.
TripoSF é um modelo 3D fundamental desenvolvido pela VAST baseado em uma nova representação 3D chamada SparseFlex.
Testes revelam que seus resultados superam todos os trabalhos existentes, tanto de código aberto quanto fechado. Estamos abrindo o código do modelo VAE pré-treinado e o código de inferência relacionado para o TripoSF, com a versão completa e "total" a ser revelada no Tripo 3.0.
TripoSF redefine o "limite superior da qualidade do modelo". Pela primeira vez, o modelo pode gerar não apenas a "parte de trás" de um objeto, mas também sua "estrutura interna" (como visto nos exemplos de assento de ônibus e cabine do motorista).
Além disso, enquanto trabalhos anteriores tendiam a gerar roupas ou pétalas com geometrias excessivamente grossas, o TripoSF lida com ativos de superfície aberta com uma delicadeza excepcional.
Seu rico detalhamento em outras categorias de modelos é sem precedentes.
O objetivo principal no desenvolvimento do TripoSF foi romper os gargalos tradicionais na modelagem 3D relacionados a detalhes, estruturas complexas e escalabilidade. Métodos anteriores frequentemente sofriam com perda de detalhes durante o pré-processamento, expressão inadequada de geometrias complexas ou custos exorbitantes de memória e computação em altas resoluções. Nossa busca por um tokenizer que pudesse empurrar os limites da geração 3D levou ao desenvolvimento do SparseFlex — um avanço significativo.
SparseFlex aproveita os pontos fortes do Flexicubes — que pode extrair de forma diferenciada meshes com características nítidas — ao mesmo tempo em que introduz inovadoramente uma estrutura de voxel esparsa que armazena e calcula informações de voxel apenas perto das superfícies do objeto. Os benefícios são significativos:
Os resultados experimentais indicam que o TripoSF estabelece um novo estado da arte. Em vários benchmarks padrão, o TripoSF alcançou aproximadamente uma redução de 82% na Distância de Chamfer e uma melhoria de 88% no F-score em comparação com métodos anteriores.
Mais atualizações e melhorias para nossos projetos de código aberto serão publicadas prontamente nos canais oficiais do VAST AI Research no GitHub, HuggingFace e X (anteriormente Twitter):
Além desses projetos de código aberto, as ferramentas disponíveis no Tripo Web e nossa API econômica oferecem acesso contínuo aos mais recentes serviços de modelos fornecidos pela VAST.
Para quaisquer sugestões ou colaborações técnicas e acadêmicas, sinta-se à vontade para nos contatar em research@vastai3d.com.
Um scanner não pode capturar cada fenda no lado oculto da lua, mas na natureza sempre há aqueles que trabalham nas minas. O som das picaretas batendo na terra ecoa continuamente até que um dia tudo se funde em um — um testemunho retumbante de que o código aberto é como uma picareta atingindo o chão, pois no lado oculto da lua onde nenhum mapa existe.
moving at the speed of creativity, achieving the depths of imagination.
Texto e imagens para modelos 3D
Créditos gratuitos mensais
Fidelidade de detalhes extrema