Mes del Código Abierto de VAST | TripoSG y TripoSF, estableciendo un nuevo SOTA en generación 3D

En marzo de 2024, VAST y Stability AI lanzaron conjuntamente el modelo 3D a gran escala de código abierto, TripoSR. Con su revolucionaria capacidad para generar un modelo 3D a partir de una sola imagen en tan solo 0.5 segundos, rápidamente se convirtió en la herramienta preferida por los creadores 3D de todo el mundo.
Ese mismo año, los proyectos de código abierto siguieron ampliando los límites de la industria de la IA, impulsando un rápido crecimiento tanto en la investigación académica como en las aplicaciones comerciales.
VAST avanzó aún más su serie Tripo lanzando Tripo 2.0 en septiembre de 2024 y Tripo 2.5 en enero de 2025. Entrenadas con decenas de millones de activos 3D nativos de alta calidad, estas iteraciones abrieron nuevos caminos de forma consistente en velocidad de generación, precisión del modelo y éxito general, cada una con una extraordinaria precisión geométrica que redefinió las fronteras de la creación de modelos 3D.
En nuestra búsqueda global de avances tecnológicos, entendemos que las innovaciones disruptivas en arquitecturas fundamentales y los avances en las capacidades de los modelos son esenciales para los equipos de modelos fundamentales. Aunque continuamente perfeccionamos Tripo hasta convertirlo en una "solución perfecta" en un entorno cerrado, creemos que es aún más importante transformarnos en un "bloque de construcción fundamental" dentro del ecosistema de código abierto. Un ecosistema técnico abierto tiene un valor a largo plazo mucho mayor que un sistema cerrado.
Con esto en mente, en marzo de 2025, lanzamos nuestra iniciativa "Mes de la Tecnología de Código Abierto".
Tenemos previsto liberar secuencialmente ocho proyectos importantes que abarcan toda la cadena técnica, desde modelos de generación fundamentales y componentes funcionales centrales hasta exploraciones de ideas innovadoras. Nuestra ambición es construir el primer sistema de generación 3D de código abierto de extremo a extremo del mundo, y esperamos sinceramente que los investigadores y desarrolladores en la generación 3D encuentren nuestro trabajo inspirador y valioso.

Ahora, VAST está lanzando dos modelos fundamentales de generación 3D:

TripoSG y TripoSF.


Gran mejora de TripoSG: la primera arquitectura MoE Transformer en generación 3D

TripoSG es un modelo fundamental de generación 3D construido sobre una arquitectura MoE Transformer basada en Rectified Flow (RF). En esta versión, liberamos el código de inferencia y los pesos para el modelo TripoSG de 1.5B parámetros, que puedes probar a través de una demo interactiva en HuggingFace.
Las pruebas han demostrado que la calidad de salida de TripoSG está a la par de Tripo 2.0, superando a todos los proyectos de generación 3D de código abierto existentes. Sus ventajas destacadas incluyen una excelente generalización y una alta estabilidad al generar objetos compuestos complejos.

Adherirse a la Ley de Escalado, aprovechar datos de mayor calidad y utilizar modelos más grandes siguen siendo los factores clave detrás del éxito de TripoSG. Aquí hay cuatro innovaciones clave en entrenamiento eficiente, diseño de arquitectura y gobierno de datos:

1. Uso pionero de un Transformer basado en RF para la generación de formas 3D

Desde los primeros días del desarrollo de Tripo 2.0, descubrimos que, en comparación con los modelos de difusión tradicionales, Rectified Flow ofrece una ruta lineal más sencilla entre el ruido y los datos. Esto resulta en un entrenamiento más estable y eficiente, y cuando se combina con DiT, mejora significativamente la estabilidad del modelo.

2. Introducción del primer MoE Transformer en 3D para una mejor escalabilidad

Aunque los MoE Transformers se han utilizado en modelos de lenguaje, imagen y video, TripoSG marca la primera aplicación eficiente en el dominio 3D. Este enfoque aumenta drásticamente la capacidad de parámetros del modelo, especialmente en las capas más profundas y críticas, sin añadir un costo de inferencia sustancial. Además, construido sobre el marco Transformer, TripoSG incorpora mejoras clave como skip-connections para mejorar la fusión de características entre capas. Un mecanismo de atención cruzada independiente también inyecta eficientemente características de imagen globales (CLIP) y locales (DINOv2), asegurando una alineación precisa entre las imágenes 2D de entrada y las formas 3D generadas.

3. Mejora de la representación geométrica con un VAE de alta calidad y una supervisión geométrica innovadora

Hemos buscado continuamente mejores representaciones geométricas. En TripoSG, adoptamos un VAE que utiliza Funciones de Distancia Firmada (SDFs) para la codificación geométrica, lo que ofrece mayor precisión que las cuadrículas de ocupación populares anteriormente. Además, la arquitectura VAE basada en Transformer se generaliza excepcionalmente bien en todas las resoluciones, manejando entradas de alta resolución sin necesidad de reentrenamiento.

4. Énfasis en la gobernanza de datos con un pipeline integral de construcción de datos

Tanto la calidad como la cantidad de datos son cruciales. VAST posee la mayor colección de datos 3D nativos de alta calidad a nivel mundial y ha desarrollado un pipeline de gobernanza de datos de extremo a extremo para la comunidad de código abierto.
El proceso incluye: Puntuación de Calidad → Filtrado de Datos → Reparación y Aumento → Producción de SDF

Utilizando este pipeline, construimos un conjunto de datos de 2 millones de pares de entrenamiento "imagen-SDF" de alta calidad. Los estudios de ablación demuestran claramente que los modelos entrenados con este conjunto de datos refinado superan significativamente a los entrenados con conjuntos de datos sin procesar más grandes y sin filtrar.

TripoSF Desbloquea la generación de estructuras 3D internas: un tokenizer innovador logra un nuevo SOTA en generación 3D

TripoSF es un modelo 3D fundamental desarrollado por VAST basado en una novedosa representación 3D llamada SparseFlex.
Las pruebas revelan que sus resultados superan a todos los trabajos existentes, tanto de código abierto como cerrado. Estamos liberando el modelo VAE preentrenado y el código de inferencia relacionado para TripoSF, y la versión completa y "total" se dará a conocer en Tripo 3.0.

TripoSF redefine el "límite superior de la calidad del modelo". Por primera vez, el modelo puede generar no solo la "parte trasera" de un objeto, sino también su "estructura interior" (como se ve en los ejemplos de asiento de autobús y cabina del conductor).

Además, mientras que los trabajos anteriores tendían a generar ropa o pétalos con geometrías excesivamente gruesas, TripoSF maneja los activos de superficie abierta con una finura excepcional.

Su rico nivel de detalle en otras categorías de modelos no tiene precedentes.

El objetivo principal al desarrollar TripoSF fue romper los cuellos de botella tradicionales en el modelado 3D relacionados con el detalle, las estructuras complejas y la escalabilidad. Los métodos anteriores a menudo sufrían de pérdida de detalles durante el preprocesamiento, expresión inadecuada de geometrías complejas o costos de memoria y computación exorbitantes a altas resoluciones. Nuestra búsqueda de un tokenizer que pudiera superar los límites de la generación 3D llevó al desarrollo de SparseFlex, un avance significativo.
SparseFlex aprovecha las fortalezas de Flexicubes, que pueden extraer de forma diferenciable mallas con características nítidas, al tiempo que introduce de manera innovadora una estructura de vóxeles dispersa que almacena y calcula información de vóxeles solo cerca de las superficies del objeto. Los beneficios son significativos:

  • Reducción significativa del uso de memoria: Permite a TripoSF entrenar e inferir a una alta resolución de 1024³.
  • Soporte nativo para topologías arbitrarias: Al omitir vóxeles en regiones vacías, representa naturalmente superficies abiertas (como telas y hojas) mientras captura eficazmente estructuras internas.
  • Optimización directa a través de la pérdida de renderizado: SparseFlex es diferenciable, lo que permite a TripoSF usar la pérdida de renderizado para el entrenamiento de extremo a extremo y evitar la degradación de detalles causada por la conversión de datos (por ejemplo, ajustes de estanqueidad).

Los resultados experimentales indican que TripoSF establece un nuevo estado del arte. En múltiples puntos de referencia estándar, TripoSF logró aproximadamente una reducción del 82% en la distancia de Chamfer y una mejora del 88% en la puntuación F en comparación con los métodos anteriores.

Recursos

【TripoSG 】

【 TripoSF 】

Las futuras actualizaciones y mejoras de nuestros proyectos de código abierto se publicarán puntualmente en los canales oficiales de VAST AI Research en GitHub, HuggingFace y X (anteriormente Twitter):

Además de estos proyectos de código abierto, las herramientas disponibles en Tripo Web y nuestra API rentable ofrecen un acceso fluido a los últimos servicios de modelos proporcionados por VAST.
Para cualquier sugerencia técnica o académica y colaboraciones, no dudes en contactarnos en research@vastai3d.com.
Un escáner no puede capturar cada grieta en la cara oculta de la luna, pero en la inmensidad siempre hay quienes trabajan en las minas. El sonido de los picos golpeando la tierra resuena continuamente hasta que un día todo se fusiona en uno, un testimonio rotundo de que el código abierto es como un pico golpeando el suelo, en la cara oculta de la luna donde no existe un mapa.

Explora Más


Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.

Genera cualquier cosa en 3D
Texto e imágenes a modelos 3DTexto e imágenes a modelos 3D
Créditos gratuitos mensualesCréditos gratuitos mensuales
Fidelidad de detalles extremaFidelidad de detalles extrema