Um Modelo para Rigar Todos: VAST/Tripo Apresenta UniRig para Rigging 3D Diverso e Automatizado

Aproveitando modelos autorregressivos e um novo esquema de tokenização, o UniRig oferece desempenho de ponta em diversos personagens e objetos, pronto para romper o gargalo da animação 3D.

O cenário da criação de conteúdo 3D está em plena expansão. Impulsionado tanto por fluxos de trabalho tradicionais sofisticados quanto pelo rápido avanço das ferramentas de geração impulsionadas por IA (como as nossas na Tripo), a demanda por ativos 3D de alta qualidade está aumentando. No entanto, um gargalo crítico persiste: o rigging. Transformar uma malha 3D estática em um personagem animável com um esqueleto e pesos de skinning continua sendo um processo complexo, demorado e muitas vezes manual, exigindo experiência significativa.
As soluções automatizadas existentes oferecem alívio parcial, mas muitas vezes ficam aquém. Métodos baseados em modelos se destacam dentro de suas estruturas predefinidas (como bípedes padrão), mas carecem de flexibilidade para a pura diversidade de modelos sendo criados hoje. Abordagens sem modelo oferecem mais adaptabilidade, mas frequentemente lutam para gerar esqueletos topologicamente válidos ou exigem pós-processamento complexo, dificultando a adoção prática.
Hoje, a Tripo tem o prazer de apresentar o UniRig, uma estrutura nova e unificada para rigging esquelético automático, projetada para superar essas limitações. Conforme detalhado em nosso último artigo de pesquisa "One Model to Rig Them All: Diverse Skeleton Rigging with UniRig", o UniRig apresenta um modelo poderoso capaz de gerar rigs esqueléticos de alta qualidade para uma variedade sem precedentes de modelos 3D – de humanos e animais a personagens ficcionais complexos e até estruturas inorgânicas.

A Abordagem UniRig: Predição Autorregressiva e Nova Tokenização

Em sua essência, o UniRig aproveita o poder de grandes modelos autorregressivos, semelhantes aos que impulsionam os avanços na geração de linguagem e imagem. Em vez de prever pixels ou palavras, o UniRig prevê a estrutura de um esqueleto 3D, articulação por articulação. Esse processo de predição sequencial é fundamental para garantir a geração de esqueletos topologicamente válidos.
Um design crítico que permite isso é o nosso método de Tokenização de Árvore de Esqueleto. Representar uma estrutura esquelética hierárquica com complexas interdependências de articulações como uma sequência linear adequada para um transformer não é trivial. Nosso esquema de tokenização codifica eficientemente:

  1. Coordenadas das Articulações: Localizações espaciais discretizadas das articulações ósseas.
  2. Estrutura Hierárquica: Relações explícitas pai-filho, garantindo estruturas de árvore válidas.
  3. Semântica Óssea: Tokens especiais identificam tipos de ossos (por exemplo, ossos de modelo padrão como Mixamo, ossos de mola dinâmicos para simulação de cabelo/tecido), cruciais para tarefas subsequentes e animação realista.

Essa tokenização otimizada (reduzindo o comprimento da sequência em ~30% em comparação com abordagens ingênuas) permite que o modelo autorregressivo (baseado na arquitetura OPT) aprenda os padrões subjacentes das estruturas esqueléticas de forma eficaz, condicionado à geometria da malha de entrada processada por um codificador de forma.

Além do Esqueleto: Skinning e Atributos Precisos

Uma vez que um esqueleto válido é previsto, o UniRig emprega um mecanismo de Atenção Cruzada Osso-Ponto para prever pesos de skinning por vértice. Este módulo captura efetivamente a influência complexa de cada osso na superfície da malha circundante, incorporando características geométricas da malha e do esqueleto, crucialmente aumentado por informações de distância geodésica para melhor consciência espacial.
Além disso, o UniRig prevê atributos específicos do osso (como rigidez ou influência da gravidade para ossos de mola), permitindo um movimento secundário mais fisicamente plausível diretamente dos parâmetros aprendidos, avaliados via simulação física diferenciável durante o treinamento para maior realismo.

Rig-XL: Alimentando a Generalização com Dados

Um modelo é tão bom quanto seus dados. Para treinar o UniRig para ampla aplicabilidade, nós selecionamos o Rig-XL, um novo conjunto de dados em larga escala contendo mais de 14.000 modelos 3D diversos e rigados. Derivado e meticulosamente limpo de recursos como Objaverse-XL, o Rig-XL abrange várias categorias (bípedes, quadrúpedes, pássaros, insetos, objetos estáticos, etc.) e fornece a escala e variedade necessárias para treinar um modelo de rigging verdadeiramente generalizável. Complementamos isso com um conjunto de dados VRoid para refinar o desempenho em personagens detalhados estilo anime com ossos de mola.

Desempenho de Ponta

O UniRig avança significativamente o estado da arte no rigging automático:

  • Precisão: Alcança melhorias dramáticas em relação aos métodos acadêmicos e comerciais existentes, mostrando uma melhoria de 215% na precisão do rigging (predição de articulações) e uma melhoria de 194% na precisão do movimento (deformação da malha sob animação) em conjuntos de dados desafiadores.
  • Versatilidade: Demonstra desempenho robusto em um amplo espectro de categorias – personagens detalhados, animais, formas orgânicas e inorgânicas complexas – onde métodos anteriores frequentemente falhavam.
  • Robustez: Gera esqueletos topologicamente sólidos e pesos de skinning plausíveis, levando a uma qualidade de animação superior em comparação com métodos acadêmicos anteriores e ferramentas comerciais populares.
  • Eficiência: A tokenização otimizada e a arquitetura do modelo levam a tempos de inferência práticos (1-5s).

Por Que o UniRig Importa

O UniRig representa um passo significativo para resolver o gargalo do rigging nos pipelines 3D modernos. Ao fornecer uma solução automatizada rápida, precisa e versátil, ele tem o potencial de:

  1. Acelerar a Produção: Reduzir o tempo e a experiência necessários para o rigging, liberando artistas para tarefas criativas.
  2. Permitir Novos Fluxos de Trabalho: Integrar-se perfeitamente com a saída da geração de modelos 3D impulsionada por IA, tornando vastas bibliotecas de conteúdo gerado facilmente animáveis.
  3. Aprimorar a Interatividade: Suportar o refinamento com interação humana; os usuários podem editar o esqueleto previsto (por exemplo, adicionar/remover ossos, ajustar a topologia) e regenerar o rig, misturando automação com controle artístico.
  4. Democratizar a Animação: Reduzir a barreira de entrada para a criação de conteúdo 3D animado.


Olhando para o Futuro: Lançamento de Código Aberto

Em linha com o compromisso da Tripo em avançar o campo, estamos lançando o UniRig como código aberto. Acreditamos que essa tecnologia pode beneficiar significativamente a comunidade de criadores e fomentar ainda mais a inovação.
Convidamos você a se aprofundar:

O UniRig é mais do que apenas um algoritmo; é uma peça fundamental para a próxima geração de criação de conteúdo 3D, tornando a animação mais acessível, eficiente e versátil do que nunca.

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.