Guía de usuario (I): Explorando Text/Image-to-3D de Tripo AI con consejos y trucos probados para prompts efectivos

Oliver
Lyson
· 2023/12/22

Introducción

¡Hola a todos, soy Lyson!

Durante el último año, el campo de la GenAI (Inteligencia Artificial Generativa) ha seguido creciendo rápidamente. Justo a principios de año, di un tutorial sistemático de Midjourney en Bilibili, y hoy, la tecnología para modelos 3D generados por IA ha madurado cada vez más. La curva de aprendizaje decreciente significa que puedes adquirir habilidades 3D más rápido, permitiendo que todos experimenten la alegría de la creación 3D.

Explorando el potencial: Tripo AI + Blender + Magnific AI

En mi experimento reciente, me sumergí en el emocionante mundo de Tripo AI, combinándolo con Blender y Magnific AI. ¿El resultado? Deleita tu vista con la impresionante imagen de abajo:

El primer encuentro con Tripo AI me transportó de nuevo a la alegría que experimenté cuando jugué por primera vez con el modelo Midjourney V3. Otra línea argumental entrelazada con la tecnología de generación 3D es el avance en la tecnología de [captura de movimiento](https://en.wikipedia.org/wiki/Motion_capture#:~:text=Motion%20capture%20(sometimes%20referred%20as,of%20computer%20vision%20and%20robots.). En el pasado, obtener archivos de movimiento de alta precisión requería equipos costosos, pero hoy, un smartphone es todo lo que se necesita.

El dilema del tiempo en el aprendizaje 3D

Muchos de ustedes se han preguntado sobre la inversión de tiempo necesaria para aprender modelado 3D. ¡Es sustancial! Si la IA puede generar modelos directamente, logrando incluso un 80% de finalización, sin mencionar el 100%, eso sería una gran victoria. Ahorraría mucho tiempo, especialmente para esas tareas repetitivas y "mecánicas". ¡Esta es una de las razones por las que Tripo AI me emociona!

Poniendo a prueba los límites: Un día con Tripo AI

En mi primer día con Tripo AI, escribí scripts de Python para procesar por lotes cientos de modelos y así probar los límites del rendimiento de Tripo AI. Como todos sabemos, la importancia de los prompts en la generación de texto es primordial, especialmente durante las fases de rápido desarrollo de herramientas. Comprender qué prompts funcionan de manera eficiente puede ahorrar un tiempo valioso en el proceso creativo.

En mi experimentación, exploré gradualmente diferentes atributos de campo, desde adjetivos simples hasta materiales de textura, brillo de color y frases iniciales de prompt como la palabra "Obra maestra".

Técnicas y conclusiones reveladas

Aquí hay algunas técnicas y conclusiones clave que he descubierto:

  1. La concisión es clave: Actualmente, el modelo se destaca en la comprensión del sujeto principal y modificadores breves. Los textos largos, sin embargo, no mejoran significativamente el detalle. Concéntrate en expresar claramente el sujeto principal y sus características más destacadas.
  2. El poder de los prompts de color: Los prompts de color funcionan mejor cuando una gran área de ese color se presenta en los resultados. Describir más de dos colores solo con lenguaje puede ser un desafío; la modificación directa en software 3D profesional se alinea mejor con el flujo de trabajo.
  3. La importancia de las frases iniciales: Una buena frase inicial puede aportar mejoras inesperadas en la textura. Recuerda y observa los prompts asociados con salidas de alta calidad, experimentando con ellos repetidamente.
  4. El material importa: La descripción de los materiales tiene prioridad sobre la descripción de las fuentes de luz. La comprensión del modelo sobre la reflectividad del material es precisa y merece atención.
  5. El "Problema de múltiples cabezas": El modelo se destaca en la generación de buenos detalles en la primera fase de borrador (Draft), con la posibilidad de encontrar un "problema de múltiples cabezas" durante la segunda fase de refinado (Refine), pero se puede resolver fácilmente dentro del flujo de trabajo 3D.

Creando el prompt perfecto: Ejemplos para profundizar tu comprensión

Ahora, analicemos estas ideas utilizando ejemplos, desentrañando los matices que pueden mejorar tu comprensión y elevar tus creaciones 3D.

El poder de la concisión y la frase inicial: La fórmula "Sujeto principal + 1-3 adjetivos más prominentes + Frase inicial":

Prompt: Cyberpunk mask, Compact, digital, Futuristic design, Voice modulator, Air filtration system, Quick-release mechanism, Concealed weapon storage, Biometric locking, Textured solar panel, moderate brightness, functional reflectivity, Sophisticated models, Smooth LOD transitions, gradient detail levels

En los prompts mencionados anteriormente, aparte de ciertos elementos de diseño más abstractos, el modelo demuestra una buena comprensión de otras partes del prompt, especialmente P4. Sin embargo, ¿significa esto que los prompts más largos son más valiosos? Un examen más detenido de los prompts revela que, en realidad, solo el sujeto principal (máscara), los modificadores descriptivos más prominentes (cyberpunk, futurista) y las frases iniciales (Smooth LOD transitions, gradient detail levels) tienen un peso significativo. Continuemos comparando algunos ejemplos relacionados de la comunidad:

Prompt: a futuristic hardsurface helmet in green marble, high resolution

En este ejemplo, el prompt es solo una frase, pero debido a que incorpora completamente la fórmula de "sujeto principal + 1-3 adjetivos más prominentes + frase inicial" que mencioné, crea una impresión de alta precisión y una superficie suave como la seda.

Ahora, veamos otro ejemplo:

Prompt: Cybernetic heart, display, Lifesaving, mechanical, High-definition screen, Laser-cut steel, Modular seat configuration, Anti-graffiti coating, Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature

En este ejemplo, el corazón electrónico cyberpunk de P3 y la pantalla futurista de P4 se alinean bien con la intención de los prompts. Observando nuestra estructura de prompts largos, notamos que no hemos intentado describir el objeto con demasiados adjetivos detallados. Por lo tanto, aparte del sujeto principal, la mayor parte se encuadra en la categoría de frases iniciales, similar a palabras como "obra maestra" o "4k".

Sin embargo, en 3D, necesitamos recordar algunos prompts nuevos para lograr mejores resultados. Por ejemplo: Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature. Es posible que hayas notado que las frases iniciales incluyen muchas descripciones sobre el material, los efectos reflectantes y la curvatura. Por lo tanto, también puedes pensar en las frases iniciales como estas "características 3D" que pueden influir significativamente en la salida de la IA.

Enfocarse en generar un elemento a la vez:

Al examinarlo más de cerca, notarás que este prompt parece tener dos sujetos aparentemente paralelos: un corazón cibernético y una pantalla. Para Stable Diffusion, un prompt así podría resultar en algo borroso o ambos elementos apareciendo en una misma imagen, lo que podría llevar a problemas lógicos en la imagen.

Pero en mis experimentos con Tripo AI, descubrí que el modelo tiende a enfocarse en dibujar un objeto. Por lo tanto, si tu prompt incluye 2 objetos, podrías encontrar que la Imagen 1 es completamente del Objeto A, mientras que la Imagen 2 se genera completamente como el Objeto B.

Esto nos da una visión del estado actual del desarrollo de productos de IA, sugiriendo una conexión con el flujo de trabajo 3D: enfocarse en generar un elemento a la vez.

Consideraciones relacionadas con el material y la simetría:

Prompt 1:Sci-fi bench, Durable, rugged, Flush installation, Anti-slip surface, Illuminated edges, Slick oil surface texture, variable brightness, high reflectivity, Seamless 3D integration, Harmonious light mapping, balanced illumination
Prompt 2:Sci-fi bench, Miniaturized, interactive, Flush installation, Anti-slip surface, Illuminated edges, Boosted motors, Grip tape detailing, Customizable wheels, Abrasive sandpaper texture, low brightness, non-reflective, Procedural generation techniques, Seamless mesh, unified surfaces

Particularmente digna de mención es la comparación entre la silla de la primera imagen y las sillas de P2 y P3 de la segunda imagen, centrándose en las características del material. Las descripciones de las propiedades reflectantes tienen un impacto significativo en los resultados generados, lo que ha sido constantemente efectivo en múltiples pruebas. Debido a limitaciones de espacio, no mostraré todos los ejemplos aquí.

Continuando, si estás familiarizado con el modelado 3D, sabrás la importancia de la "simetría" en el proceso de creación del modelo. Por lo tanto, si es necesario, no olvides recordarle específicamente a la IA que se enfoque en la "simetría".

Prompt:Security turret, Tactical, time-telling, 360-degree surveillance, Automated targeting, Infrared vision, Augmented vision, Prescription compatibility, Lightweight frame, Composite fiber paneling, moderate brightness, reduced reflectivity, Immersive world-building, Intentional reflective design, deliberate symmetry

Función de Imagen a 3D:

Por supuesto, también puedes usar la función de Imagen a 3D, como con esta imagen. Al usar Tripo AI, selecciona 'Image to 3D', sube tu imagen y simplemente haz clic en el botón Draft (Borrador). El sistema primero extraerá automáticamente el sujeto de la imagen y luego generará el modelo. Personalmente, prefiero pre-editar la imagen (extraer el primer plano) en Photoshop para garantizar la precisión en el borrador inicial, que a veces puede aparecer borroso cuando se segmenta automáticamente.

Después de eso, hacemos clic en Refine (Refinar) para mejorar la precisión del modelo. El modelo final obtenido es el siguiente. Al hacer clic en descargar, puedes importarlo a software 3D profesional para su posterior refinamiento:

Aquí hay otros ejemplos de Imagen a 3D:

Explora Tripo AI y únete a nosotros en nuestras plataformas de medios:

Artículo Original: https://medium.com/@thegodtripo/ultimate-tripo-ai-guide-i-prompt-tips-and-tricks-for-text-image-to-3d-cd49523b10ae

Escrito por Lyson (Twitter@lyson_ober) y editado por Oliver

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.