Mês Open Source VAST | TripoSG & TripoSF, Estabelecendo um Novo SOTA em Geração 3D

Em março de 2024, a VAST e a Stability AI lançaram conjuntamente o modelo 3D de larga escala, TripoSR, em código aberto. Com sua capacidade revolucionária de gerar um modelo 3D a partir de uma única imagem em apenas 0,5 segundos, rapidamente se tornou a ferramenta preferida para criadores 3D em todo o mundo.
No mesmo ano, projetos de código aberto continuaram a impulsionar os limites da indústria de IA, alimentando um rápido crescimento tanto na pesquisa acadêmica quanto em aplicações comerciais.
A VAST aprimorou ainda mais sua série Tripo, lançando o Tripo 2.0 em setembro de 2024 e o Tripo 2.5 em janeiro de 2025. Treinados em dezenas de milhões de ativos 3D nativos de alta qualidade, essas iterações consistentemente abriram novos caminhos em velocidade de geração, precisão do modelo e sucesso geral — cada uma com uma precisão geométrica extraordinária que redefiniu as fronteiras da criação de modelos 3D.
Em nossa busca global por avanço tecnológico, entendemos que inovações disruptivas em arquiteturas fundamentais e avanços nas capacidades dos modelos são essenciais para as equipes de modelos fundamentais. Enquanto continuamente refinamos o Tripo para ser uma "solução cada vez mais perfeita" em um ambiente fechado, acreditamos que é ainda mais importante nos transformar em um "bloco de construção fundamental" dentro do ecossistema de código aberto. Um ecossistema técnico aberto possui um valor de longo prazo muito maior do que um sistema fechado.
Com isso em mente, em março de 2025, lançamos nossa iniciativa "Mês da Tecnologia Open-Source".
Planejamos abrir sequencialmente oito grandes projetos que abrangem toda a cadeia técnica — desde modelos de geração fundamentais e componentes funcionais essenciais até explorações de ideias inovadoras. Nossa ambição é construir o primeiro sistema de geração 3D open-source de ponta a ponta do mundo, e esperamos sinceramente que pesquisadores e desenvolvedores na área de geração 3D achem nosso trabalho inspirador e valioso.

Agora, a VAST está lançando dois modelos fundamentais de geração 3D:

TripoSG e TripoSF.

Grande Atualização do TripoSG: A Primeira Arquitetura MoE Transformer em Geração 3D

TripoSG é um modelo fundamental de geração 3D construído sobre uma arquitetura MoE Transformer baseada em Rectified Flow (RF). Nesta versão, disponibilizamos os pesos e o código de inferência para o modelo TripoSG de 1.5B parâmetros, que você pode experimentar através de uma demonstração interativa no HuggingFace.
Testes mostraram que a qualidade de saída do TripoSG está no mesmo nível do Tripo 2.0 — superando todos os projetos de geração 3D de código aberto existentes. Suas vantagens marcantes incluem excelente generalização e alta estabilidade ao gerar objetos compostos complexos.

Aderir à Lei de Escala, aproveitar dados de maior qualidade e utilizar modelos maiores continuam sendo os fatores chave por trás do sucesso do TripoSG. Aqui estão quatro inovações importantes em treinamento eficiente, design de arquitetura e governança de dados:

1. Pioneirismo no Uso de um Transformer Baseado em RF para Geração de Formas 3D

Desde os primeiros dias do desenvolvimento do Tripo 2.0, descobrimos que, em comparação com os modelos de difusão tradicionais, o Rectified Flow oferece um caminho linear mais direto entre ruído e dados. Isso resulta em um treinamento mais estável e eficiente — e, quando combinado com DiT, aumenta significativamente a estabilidade do modelo.

2. Introdução do Primeiro MoE Transformer em 3D para Melhor Escala

Embora os MoE Transformers tenham sido usados em modelos de linguagem, imagem e vídeo, o TripoSG marca a primeira aplicação eficiente no domínio 3D. Essa abordagem aumenta dramaticamente a capacidade de parâmetros do modelo — especialmente nas camadas mais profundas e críticas — sem adicionar custos de inferência substanciais. Além disso, construído sobre a estrutura Transformer, o TripoSG incorpora aprimoramentos chave, como skip-connections, para melhorar a fusão de recursos entre camadas. Um mecanismo de cross-attention independente também injeta eficientemente recursos de imagem globais (CLIP) e locais (DINOv2), garantindo um alinhamento preciso entre as imagens 2D de entrada e as formas 3D geradas.

3. Aprimorando a Representação Geométrica com um VAE de Alta Qualidade e Supervisão Geométrica Inovadora

Temos buscado continuamente melhores representações geométricas. No TripoSG, adotamos um VAE que usa Funções de Distância Assinadas (SDFs) para codificação geométrica, o que oferece maior precisão do que as grades de ocupação anteriormente populares. Além disso, a arquitetura VAE baseada em Transformer generaliza excepcionalmente bem em diferentes resoluções, lidando com entradas de alta resolução sem a necessidade de retreinamento.

4. Ênfase na Governança de Dados com um Pipeline Abrangente de Construção de Dados

Tanto a qualidade quanto a quantidade dos dados são cruciais. A VAST possui a maior coleção de dados 3D nativos de alta qualidade globalmente e desenvolveu um pipeline de governança de dados de ponta a ponta para a comunidade de código aberto.
O processo inclui: Pontuação de Qualidade → Filtragem de Dados → Correção e Aumento → Produção de SDF

Usando este pipeline, construímos um conjunto de dados de 2 milhões de pares de treinamento "imagem-SDF" de alta qualidade. Estudos de ablação demonstram claramente que os modelos treinados neste conjunto de dados refinado superam significativamente aqueles treinados em conjuntos de dados brutos maiores e não filtrados.

TripoSF Desbloqueia a Geração de Estruturas 3D Internas: Um Tokenizer Revolucionário Alcança um Novo SOTA em Geração 3D

TripoSF é um modelo 3D fundamental desenvolvido pela VAST baseado em uma nova representação 3D chamada SparseFlex.
Testes revelam que seus resultados superam todos os trabalhos existentes, tanto de código aberto quanto fechado. Estamos abrindo o código do modelo VAE pré-treinado e o código de inferência relacionado para o TripoSF, com a versão completa e "total" a ser revelada no Tripo 3.0.

TripoSF redefine o "limite superior da qualidade do modelo". Pela primeira vez, o modelo pode gerar não apenas a "parte de trás" de um objeto, mas também sua "estrutura interna" (como visto nos exemplos de assento de ônibus e cabine do motorista).

Além disso, enquanto trabalhos anteriores tendiam a gerar roupas ou pétalas com geometrias excessivamente grossas, o TripoSF lida com ativos de superfície aberta com uma delicadeza excepcional.

Seu rico detalhamento em outras categorias de modelos é sem precedentes.

O objetivo principal no desenvolvimento do TripoSF foi romper os gargalos tradicionais na modelagem 3D relacionados a detalhes, estruturas complexas e escalabilidade. Métodos anteriores frequentemente sofriam com perda de detalhes durante o pré-processamento, expressão inadequada de geometrias complexas ou custos exorbitantes de memória e computação em altas resoluções. Nossa busca por um tokenizer que pudesse empurrar os limites da geração 3D levou ao desenvolvimento do SparseFlex — um avanço significativo.
SparseFlex aproveita os pontos fortes do Flexicubes — que pode extrair de forma diferenciada meshes com características nítidas — ao mesmo tempo em que introduz inovadoramente uma estrutura de voxel esparsa que armazena e calcula informações de voxel apenas perto das superfícies do objeto. Os benefícios são significativos:

Uso de Memória Significativamente Reduzido: Permite que o TripoSF treine e infira em alta resolução de 1024³.
Suporte Nativo para Topologias Arbitrárias: Ao omitir voxels em regiões vazias, ele representa naturalmente superfícies abertas (como tecidos e folhas), enquanto captura efetivamente estruturas internas.
Otimização Direta via Perda de Renderização: O SparseFlex é diferenciável, permitindo que o TripoSF use a perda de renderização para treinamento de ponta a ponta e evitando a degradação de detalhes causada pela conversão de dados (por exemplo, ajustes de estanqueidade).

Os resultados experimentais indicam que o TripoSF estabelece um novo estado da arte. Em vários benchmarks padrão, o TripoSF alcançou aproximadamente uma redução de 82% na Distância de Chamfer e uma melhoria de 88% no F-score em comparação com métodos anteriores.

Recursos

【TripoSG 】

【 TripoSF 】

Mais atualizações e melhorias para nossos projetos de código aberto serão publicadas prontamente nos canais oficiais do VAST AI Research no GitHub, HuggingFace e X (anteriormente Twitter):

Além desses projetos de código aberto, as ferramentas disponíveis no Tripo Web e nossa API econômica oferecem acesso contínuo aos mais recentes serviços de modelos fornecidos pela VAST.
Para quaisquer sugestões ou colaborações técnicas e acadêmicas, sinta-se à vontade para nos contatar em research@vastai3d.com.
Um scanner não pode capturar cada fenda no lado oculto da lua, mas na natureza sempre há aqueles que trabalham nas minas. O som das picaretas batendo na terra ecoa continuamente até que um dia tudo se funde em um — um testemunho retumbante de que o código aberto é como uma picareta atingindo o chão, pois no lado oculto da lua onde nenhum mapa existe.

Explore Mais

Gere qualquer coisa em 3D

Clique abaixo para se juntar a milhões de criadores 3D. Experimente a geração de modelos de altíssima fidelidade e texturas PBR de primeira linha.

Mês Open Source VAST | TripoSG & TripoSF, Estabelecendo um Novo SOTA em Geração 3D

Agora, a VAST está lançando dois modelos fundamentais de geração 3D:

TripoSG e TripoSF.

Grande Atualização do TripoSG: A Primeira Arquitetura MoE Transformer em Geração 3D

1. Pioneirismo no Uso de um Transformer Baseado em RF para Geração de Formas 3D

2. Introdução do Primeiro MoE Transformer em 3D para Melhor Escala

3. Aprimorando a Representação Geométrica com um VAE de Alta Qualidade e Supervisão Geométrica Inovadora

4. Ênfase na Governança de Dados com um Pipeline Abrangente de Construção de Dados

TripoSF Desbloqueia a Geração de Estruturas 3D Internas: Um Tokenizer Revolucionário Alcança um Novo SOTA em Geração 3D

Além disso, enquanto trabalhos anteriores tendiam a gerar roupas ou pétalas com geometrias excessivamente grossas, o TripoSF lida com ativos de superfície aberta com uma delicadeza excepcional.

Seu rico detalhamento em outras categorias de modelos é sem precedentes.

Uso de Memória Significativamente Reduzido: Permite que o TripoSF treine e infira em alta resolução de 1024³.
Suporte Nativo para Topologias Arbitrárias: Ao omitir voxels em regiões vazias, ele representa naturalmente superfícies abertas (como tecidos e folhas), enquanto captura efetivamente estruturas internas.
Otimização Direta via Perda de Renderização: O SparseFlex é diferenciável, permitindo que o TripoSF use a perda de renderização para treinamento de ponta a ponta e evitando a degradação de detalhes causada pela conversão de dados (por exemplo, ajustes de estanqueidade).

Recursos

【TripoSG 】

【 TripoSF 】

Mais atualizações e melhorias para nossos projetos de código aberto serão publicadas prontamente nos canais oficiais do VAST AI Research no GitHub, HuggingFace e X (anteriormente Twitter):

Explore Mais

Gere qualquer coisa em 3D

Clique abaixo para se juntar a milhões de criadores 3D. Experimente a geração de modelos de altíssima fidelidade e texturas PBR de primeira linha.

Mês Open Source VAST | TripoSG & TripoSF, Estabelecendo um Novo SOTA em Geração 3D

Agora, a VAST está lançando dois modelos fundamentais de geração 3D:

TripoSG e TripoSF.

Grande Atualização do TripoSG: A Primeira Arquitetura MoE Transformer em Geração 3D

1. Pioneirismo no Uso de um Transformer Baseado em RF para Geração de Formas 3D

2. Introdução do Primeiro MoE Transformer em 3D para Melhor Escala

3. Aprimorando a Representação Geométrica com um VAE de Alta Qualidade e Supervisão Geométrica Inovadora

4. Ênfase na Governança de Dados com um Pipeline Abrangente de Construção de Dados

TripoSF Desbloqueia a Geração de Estruturas 3D Internas: Um Tokenizer Revolucionário Alcança um Novo SOTA em Geração 3D

Recursos

【TripoSG 】

【 TripoSF 】

Explore Mais

Artigos relacionados

Gere qualquer coisa em 3D

Mês Open Source VAST | TripoSG & TripoSF, Estabelecendo um Novo SOTA em Geração 3D

Agora, a VAST está lançando dois modelos fundamentais de geração 3D:

TripoSG e TripoSF.

Grande Atualização do TripoSG: A Primeira Arquitetura MoE Transformer em Geração 3D

1. Pioneirismo no Uso de um Transformer Baseado em RF para Geração de Formas 3D

2. Introdução do Primeiro MoE Transformer em 3D para Melhor Escala

3. Aprimorando a Representação Geométrica com um VAE de Alta Qualidade e Supervisão Geométrica Inovadora

4. Ênfase na Governança de Dados com um Pipeline Abrangente de Construção de Dados

TripoSF Desbloqueia a Geração de Estruturas 3D Internas: Um Tokenizer Revolucionário Alcança um Novo SOTA em Geração 3D

Recursos

【TripoSG 】

【 TripoSF 】

Explore Mais

Artigos relacionados

Gere qualquer coisa em 3D