Un Modelo para Riggearlos a Todos: VAST/Tripo Presenta UniRig para un Rigging 3D Diverso y Automatizado

Aprovechando modelos autorregresivos y un novedoso esquema de tokenización, UniRig ofrece un rendimiento de vanguardia en diversos personajes y objetos, preparado para romper el cuello de botella de la animación 3D.

El panorama de la creación de contenido 3D está explotando. Impulsado tanto por flujos de trabajo tradicionales sofisticados como por el rápido auge de las herramientas de generación impulsadas por IA (como las nuestras en Tripo), la demanda de activos 3D de alta calidad está aumentando. Sin embargo, persiste un cuello de botella crítico: el rigging. Transformar una malla 3D estática en un personaje animable con un esqueleto y pesos de skinning sigue siendo un proceso complejo, que consume mucho tiempo y a menudo es manual, requiriendo una experiencia significativa.
Las soluciones automatizadas existentes ofrecen un alivio parcial, pero a menudo se quedan cortas. Los métodos basados en plantillas sobresalen dentro de sus estructuras predefinidas (como los bípedos estándar), pero carecen de la flexibilidad para la gran diversidad de modelos que se crean hoy en día. Los enfoques sin plantillas ofrecen más adaptabilidad, pero con frecuencia tienen dificultades para generar esqueletos topológicamente válidos o requieren un post-procesamiento complejo, lo que dificulta su adopción práctica.
Hoy, Tripo se complace en presentar UniRig, un novedoso marco unificado para el rigging esquelético automático diseñado para superar estas limitaciones. Como se detalla en nuestro último artículo de investigación "One Model to Rig Them All: Diverse Skeleton Rigging with UniRig", UniRig presenta un potente modelo capaz de generar rigs esqueléticos de alta calidad para una variedad sin precedentes de modelos 3D, desde humanos y animales hasta complejos personajes ficticios e incluso estructuras inorgánicas.

El Enfoque UniRig: Predicción Autorregresiva y Tokenización Novedosa

En esencia, UniRig aprovecha el poder de los grandes modelos autorregresivos, similares a los que impulsan los avances en la generación de lenguaje e imágenes. En lugar de predecir píxeles o palabras, UniRig predice la estructura de un esqueleto 3D, articulación por articulación. Este proceso de predicción secuencial es clave para asegurar la generación de esqueletos topológicamente válidos.
Un diseño crítico que permite esto es nuestro método de Tokenización de Árbol de Esqueletos. Representar una estructura de esqueleto jerárquica con interdependencias complejas entre articulaciones como una secuencia lineal adecuada para un transformer no es trivial. Nuestro esquema de tokenización codifica eficientemente:

  1. Coordenadas de Articulaciones: Ubicaciones espaciales discretizadas de las articulaciones de los huesos.
  2. Estructura Jerárquica: Relaciones explícitas padre-hijo, asegurando estructuras de árbol válidas.
  3. Semántica de Huesos: Tokens especiales identifican tipos de huesos (p. ej., huesos de plantilla estándar como Mixamo, huesos de resorte dinámicos para simulación de cabello/tela), cruciales para tareas posteriores y animación realista.

Esta tokenización optimizada (que reduce la longitud de la secuencia en ~30% en comparación con enfoques ingenuos) permite que el modelo autorregresivo (basado en la arquitectura OPT) aprenda eficazmente los patrones subyacentes de las estructuras esqueléticas, condicionado a la geometría de la malla de entrada procesada por un codificador de forma.

Más Allá del Esqueleto: Skinning y Atributos Precisos

Una vez que se predice un esqueleto válido, UniRig emplea un mecanismo de Atención Cruzada Hueso-Punto para predecir los pesos de skinning por vértice. Este módulo captura eficazmente la compleja influencia de cada hueso en la superficie de la malla circundante, incorporando características geométricas de la malla y el esqueleto, crucialmente aumentadas por información de distancia geodésica para una mejor conciencia espacial.
Además, UniRig predice atributos específicos de los huesos (como la rigidez o la influencia de la gravedad para los huesos de resorte), lo que permite un movimiento secundario más físicamente plausible directamente a partir de los parámetros aprendidos, evaluados mediante simulación física diferenciable durante el entrenamiento para un mayor realismo.

Rig-XL: Impulsando la Generalización con Datos

Un modelo es tan bueno como sus datos. Para entrenar UniRig para una amplia aplicabilidad, seleccionamos Rig-XL, un nuevo conjunto de datos a gran escala que contiene más de 14.000 modelos 3D diversos y riggeados. Derivado y meticulosamente limpiado de recursos como Objaverse-XL, Rig-XL abarca múltiples categorías (bípedos, cuadrúpedos, aves, insectos, objetos estáticos, etc.) y proporciona la escala y variedad necesarias para entrenar un modelo de rigging verdaderamente generalizable. Complementamos esto con un conjunto de datos VRoid para refinar el rendimiento en personajes detallados de estilo anime con huesos de resorte.

Rendimiento de Vanguardia

UniRig avanza significativamente el estado del arte en el rigging automático:

  • Precisión: Logra mejoras dramáticas sobre los métodos académicos y comerciales existentes, mostrando una mejora del 215% en la precisión del rigging (predicción de articulaciones) y una mejora del 194% en la precisión del movimiento (deformación de malla bajo animación) en conjuntos de datos desafiantes.
  • Versatilidad: Demuestra un rendimiento robusto en un amplio espectro de categorías –personajes detallados, animales, formas orgánicas e inorgánicas complejas– donde los métodos anteriores a menudo fallaban.
  • Robustez: Genera esqueletos topológicamente sólidos y pesos de skinning plausibles, lo que lleva a una calidad de animación superior en comparación con los métodos académicos anteriores y las herramientas comerciales populares.
  • Eficiencia: La tokenización optimizada y la arquitectura del modelo conducen a tiempos de inferencia prácticos (1-5s).

Por Qué UniRig Importa

UniRig representa un paso significativo hacia la resolución del cuello de botella del rigging en los pipelines 3D modernos. Al proporcionar una solución automatizada rápida, precisa y versátil, tiene el potencial de:

  1. Acelerar la Producción: Reducir el tiempo y la experiencia necesarios para el rigging, liberando a los artistas para tareas creativas.
  2. Habilitar Nuevos Flujos de Trabajo: Integrarse sin problemas con la salida de la generación de modelos 3D impulsada por IA, haciendo que vastas bibliotecas de contenido generado sean fácilmente animables.
  3. Mejorar la Interactividad: Apoyar el refinamiento con intervención humana; los usuarios pueden editar el esqueleto predicho (p. ej., añadir/eliminar huesos, ajustar la topología) y regenerar el rig, fusionando la automatización con el control artístico.
  4. Democratizar la Animación: Reducir la barrera de entrada para crear contenido 3D animado.


Mirando Hacia Adelante: Lanzamiento de Código Abierto

En línea con el compromiso de Tripo de avanzar en el campo, estamos liberando UniRig como código abierto. Creemos que esta tecnología puede beneficiar significativamente a la comunidad de creadores y fomentar una mayor innovación.
Te invitamos a profundizar:

UniRig es más que un algoritmo; es una pieza fundamental para la próxima generación de creación de contenido 3D, haciendo que la animación sea más accesible, eficiente y versátil que nunca.

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.