En marzo de 2024, VAST y Stability AI lanzaron conjuntamente el modelo 3D a gran escala de código abierto, TripoSR. Con su revolucionaria capacidad para generar un modelo 3D a partir de una sola imagen en tan solo 0.5 segundos, rápidamente se convirtió en la herramienta preferida por los creadores 3D de todo el mundo.
Ese mismo año, los proyectos de código abierto siguieron ampliando los límites de la industria de la IA, impulsando un rápido crecimiento tanto en la investigación académica como en las aplicaciones comerciales.
VAST avanzó aún más su serie Tripo lanzando Tripo 2.0 en septiembre de 2024 y Tripo 2.5 en enero de 2025. Entrenadas con decenas de millones de activos 3D nativos de alta calidad, estas iteraciones abrieron nuevos caminos de forma consistente en velocidad de generación, precisión del modelo y éxito general, cada una con una extraordinaria precisión geométrica que redefinió las fronteras de la creación de modelos 3D.
En nuestra búsqueda global de avances tecnológicos, entendemos que las innovaciones disruptivas en arquitecturas fundamentales y los avances en las capacidades de los modelos son esenciales para los equipos de modelos fundamentales. Aunque continuamente perfeccionamos Tripo hasta convertirlo en una "solución perfecta" en un entorno cerrado, creemos que es aún más importante transformarnos en un "bloque de construcción fundamental" dentro del ecosistema de código abierto. Un ecosistema técnico abierto tiene un valor a largo plazo mucho mayor que un sistema cerrado.
Con esto en mente, en marzo de 2025, lanzamos nuestra iniciativa "Mes de la Tecnología de Código Abierto".
Tenemos previsto liberar secuencialmente ocho proyectos importantes que abarcan toda la cadena técnica, desde modelos de generación fundamentales y componentes funcionales centrales hasta exploraciones de ideas innovadoras. Nuestra ambición es construir el primer sistema de generación 3D de código abierto de extremo a extremo del mundo, y esperamos sinceramente que los investigadores y desarrolladores en la generación 3D encuentren nuestro trabajo inspirador y valioso.
TripoSG es un modelo fundamental de generación 3D construido sobre una arquitectura MoE Transformer basada en Rectified Flow (RF). En esta versión, liberamos el código de inferencia y los pesos para el modelo TripoSG de 1.5B parámetros, que puedes probar a través de una demo interactiva en HuggingFace.
Las pruebas han demostrado que la calidad de salida de TripoSG está a la par de Tripo 2.0, superando a todos los proyectos de generación 3D de código abierto existentes. Sus ventajas destacadas incluyen una excelente generalización y una alta estabilidad al generar objetos compuestos complejos.
Adherirse a la Ley de Escalado, aprovechar datos de mayor calidad y utilizar modelos más grandes siguen siendo los factores clave detrás del éxito de TripoSG. Aquí hay cuatro innovaciones clave en entrenamiento eficiente, diseño de arquitectura y gobierno de datos:
Desde los primeros días del desarrollo de Tripo 2.0, descubrimos que, en comparación con los modelos de difusión tradicionales, Rectified Flow ofrece una ruta lineal más sencilla entre el ruido y los datos. Esto resulta en un entrenamiento más estable y eficiente, y cuando se combina con DiT, mejora significativamente la estabilidad del modelo.
Aunque los MoE Transformers se han utilizado en modelos de lenguaje, imagen y video, TripoSG marca la primera aplicación eficiente en el dominio 3D. Este enfoque aumenta drásticamente la capacidad de parámetros del modelo, especialmente en las capas más profundas y críticas, sin añadir un costo de inferencia sustancial.
Además, construido sobre el marco Transformer, TripoSG incorpora mejoras clave como skip-connections para mejorar la fusión de características entre capas. Un mecanismo de atención cruzada independiente también inyecta eficientemente características de imagen globales (CLIP) y locales (DINOv2), asegurando una alineación precisa entre las imágenes 2D de entrada y las formas 3D generadas.
Hemos buscado continuamente mejores representaciones geométricas. En TripoSG, adoptamos un VAE que utiliza Funciones de Distancia Firmada (SDFs) para la codificación geométrica, lo que ofrece mayor precisión que las cuadrículas de ocupación populares anteriormente. Además, la arquitectura VAE basada en Transformer se generaliza excepcionalmente bien en todas las resoluciones, manejando entradas de alta resolución sin necesidad de reentrenamiento.
Tanto la calidad como la cantidad de datos son cruciales. VAST posee la mayor colección de datos 3D nativos de alta calidad a nivel mundial y ha desarrollado un pipeline de gobernanza de datos de extremo a extremo para la comunidad de código abierto.
El proceso incluye: Puntuación de Calidad → Filtrado de Datos → Reparación y Aumento → Producción de SDF

Utilizando este pipeline, construimos un conjunto de datos de 2 millones de pares de entrenamiento "imagen-SDF" de alta calidad. Los estudios de ablación demuestran claramente que los modelos entrenados con este conjunto de datos refinado superan significativamente a los entrenados con conjuntos de datos sin procesar más grandes y sin filtrar.
TripoSF es un modelo 3D fundamental desarrollado por VAST basado en una novedosa representación 3D llamada SparseFlex.
Las pruebas revelan que sus resultados superan a todos los trabajos existentes, tanto de código abierto como cerrado. Estamos liberando el modelo VAE preentrenado y el código de inferencia relacionado para TripoSF, y la versión completa y "total" se dará a conocer en Tripo 3.0.
TripoSF redefine el "límite superior de la calidad del modelo". Por primera vez, el modelo puede generar no solo la "parte trasera" de un objeto, sino también su "estructura interior" (como se ve en los ejemplos de asiento de autobús y cabina del conductor).
Además, mientras que los trabajos anteriores tendían a generar ropa o pétalos con geometrías excesivamente gruesas, TripoSF maneja los activos de superficie abierta con una finura excepcional.
Su rico nivel de detalle en otras categorías de modelos no tiene precedentes.
El objetivo principal al desarrollar TripoSF fue romper los cuellos de botella tradicionales en el modelado 3D relacionados con el detalle, las estructuras complejas y la escalabilidad. Los métodos anteriores a menudo sufrían de pérdida de detalles durante el preprocesamiento, expresión inadecuada de geometrías complejas o costos de memoria y computación exorbitantes a altas resoluciones. Nuestra búsqueda de un tokenizer que pudiera superar los límites de la generación 3D llevó al desarrollo de SparseFlex, un avance significativo.
SparseFlex aprovecha las fortalezas de Flexicubes, que pueden extraer de forma diferenciable mallas con características nítidas, al tiempo que introduce de manera innovadora una estructura de vóxeles dispersa que almacena y calcula información de vóxeles solo cerca de las superficies del objeto. Los beneficios son significativos:
Los resultados experimentales indican que TripoSF establece un nuevo estado del arte. En múltiples puntos de referencia estándar, TripoSF logró aproximadamente una reducción del 82% en la distancia de Chamfer y una mejora del 88% en la puntuación F en comparación con los métodos anteriores.
Las futuras actualizaciones y mejoras de nuestros proyectos de código abierto se publicarán puntualmente en los canales oficiales de VAST AI Research en GitHub, HuggingFace y X (anteriormente Twitter):
Además de estos proyectos de código abierto, las herramientas disponibles en Tripo Web y nuestra API rentable ofrecen un acceso fluido a los últimos servicios de modelos proporcionados por VAST.
Para cualquier sugerencia técnica o académica y colaboraciones, no dudes en contactarnos en research@vastai3d.com.
Un escáner no puede capturar cada grieta en la cara oculta de la luna, pero en la inmensidad siempre hay quienes trabajan en las minas. El sonido de los picos golpeando la tierra resuena continuamente hasta que un día todo se fusiona en uno, un testimonio rotundo de que el código abierto es como un pico golpeando el suelo, en la cara oculta de la luna donde no existe un mapa.
moving at the speed of creativity, achieving the depths of imagination.
Texto e imágenes a modelos 3D
Créditos gratuitos mensuales
Fidelidad de detalles extrema