Guia do Usuário (I): Explorando Text/Image-to-3D da Tripo AI com Dicas e Truques Comprovados para uma Criação de Prompts Eficaz

Introdução

Olá a todos, sou Lyson!

No último ano, o campo da GenAI (Inteligência Artificial Generativa) continuou a crescer rapidamente. Logo no início do ano, dei um tutorial sistemático sobre Midjourney no Bilibili, e hoje, a tecnologia para modelos 3D gerados por IA tornou-se cada vez mais madura. A curva de aprendizado decrescente significa que você pode aprender habilidades 3D mais rapidamente, permitindo que todos experimentem a alegria da criação 3D.

Explorando o Potencial: Tripo AI + Blender + Magnific AI

No meu experimento recente, mergulhei no emocionante mundo da Tripo AI, combinando-a com Blender e Magnific AI. O resultado? Deleite-se com a imagem impressionante abaixo:

O primeiro contato com a Tripo AI me transportou de volta à alegria que experimentei quando joguei pela primeira vez com o modelo Midjourney V3. Outra narrativa entrelaçada com a tecnologia de geração 3D é o avanço na tecnologia de captura de movimento. No passado, a obtenção de arquivos de movimento de alta precisão exigia equipamentos caros, mas hoje, um smartphone é tudo o que é preciso.

O Dilema do Tempo no Aprendizado 3D

Muitos de vocês têm se perguntado sobre o investimento de tempo necessário para aprender modelagem 3D. É substancial! Se a IA puder gerar modelos diretamente, alcançando até 80% de conclusão, sem mencionar 100%, isso seria uma enorme vitória. Economizaria muito tempo, especialmente para aquelas tarefas repetitivas e de ‘construção’. Esta é uma das razões pelas quais a Tripo AI me entusiasma!

Testando os Limites: Um Dia com Tripo AI

No meu primeiro dia com a Tripo AI, escrevi scripts Python para processar em lote centenas de modelos para testar os limites do desempenho da Tripo AI. Como todos sabemos, a importância dos prompts na geração de texto é primordial, especialmente durante fases de desenvolvimento rápido de ferramentas. Compreender quais prompts funcionam eficientemente pode economizar tempo valioso no processo criativo.

Na minha experimentação, explorei gradualmente diferentes atributos de campo, desde adjetivos simples até materiais de textura, brilho de cor e iniciadores de prompt como a palavra "Masterpiece" (Obra-prima).

Técnicas e Conclusões Reveladas

Aqui estão algumas técnicas e conclusões importantes que descobri:

A Concisão é Fundamental: Atualmente, o modelo se destaca na compreensão do assunto principal e de modificadores breves. Textos longos, no entanto, não melhoram significativamente os detalhes. Concentre-se em expressar claramente o assunto principal e suas características proeminentes.
O Poder dos Prompts de Cores: Os prompts de cores funcionam melhor quando uma grande área dessa cor é apresentada nos resultados. Descrever mais de duas cores apenas com a linguagem pode ser desafiador – a modificação direta em softwares 3D profissionais se alinha melhor com o fluxo de trabalho.
Importância das Frases Iniciais: Uma boa frase inicial pode trazer melhorias inesperadas na textura. Lembre-se e observe os prompts associados a saídas de alta qualidade, experimentando-os repetidamente.
A Matéria dos Materiais: A descrição dos materiais tem precedência sobre a descrição das fontes de luz. A compreensão do modelo sobre a refletividade do material é precisa e merece atenção.
O "Problema de Múltiplas Cabeças": O modelo se destaca na geração de bons detalhes na fase inicial de Rascunho (Draft), com a chance de encontrar um "problema de múltiplas cabeças" durante a segunda fase de Refinamento (Refine), mas pode ser facilmente resolvido dentro do fluxo de trabalho 3D.

Criando o Prompt Perfeito: Exemplos para Aprofundar Seu Entendimento

Vamos agora dissecar essas percepções usando exemplos, desvendando as nuances que podem aprimorar seu entendimento e elevar suas criações 3D.

O Poder da Concisão e da Frase Inicial: A Fórmula "Assunto Principal + 1-3 Adjetivos Mais Proeminentes + Frase Inicial":

Prompt: Cyberpunk mask, Compact, digital, Futuristic design, Voice modulator, Air filtration system, Quick-release mechanism, Concealed weapon storage, Biometric locking, Textured solar panel, moderate brightness, functional reflectivity, Sophisticated models, Smooth LOD transitions, gradient detail levels

Nos prompts mencionados acima, além de certos elementos de design mais abstratos, o modelo demonstra uma boa compreensão de outras partes do prompt, especialmente P4. No entanto, isso significa que prompts mais longos são mais vantajosos? Uma análise mais detalhada dos prompts revela que, na verdade, apenas o assunto principal (máscara), os modificadores descritivos mais proeminentes (cyberpunk, futurista) e as frases iniciais (Smooth LOD transitions, gradient detail levels) têm um peso significativo. Vamos continuar comparando alguns exemplos relacionados da comunidade:

Prompt: a futuristic hardsurface helmet in green marble, high resolution

Neste exemplo, o prompt é apenas uma única frase, mas como ele incorpora totalmente a fórmula "assunto principal + 1-3 adjetivos mais proeminentes + frase inicial" que mencionei, ele cria uma impressão de alta precisão e uma superfície suave como seda.

Agora, vamos ver outro exemplo:

Prompt: Cybernetic heart, display, Lifesaving, mechanical, High-definition screen, Laser-cut steel, Modular seat configuration, Anti-graffiti coating, Shimmering sequin texture, bright appearance, sparkling reflectivity, Realistic fluid dynamics simulation, Precision surface smoothing, artifact-free curvature

Neste exemplo, o coração eletrônico cyberpunk de P3 e a tela de exibição futurista de P4 se alinham bem com a intenção dos prompts. Observando nossa estrutura de prompts longos, notamos que não tentamos descrever o objeto com muitos adjetivos detalhados. Portanto, além do assunto principal, a maior parte se enquadra na categoria de frases iniciais, semelhante a palavras como "obra-prima" ou "4k".

No entanto, em 3D, precisamos lembrar de alguns novos prompts para obter melhores resultados. Por exemplo: Shimmering sequin texture (textura de lantejoulas cintilantes), bright appearance (aparência brilhante), sparkling reflectivity (refletividade cintilante), Realistic fluid dynamics simulation (simulação realista de dinâmica de fluidos), Precision surface smoothing (suavização de superfície de precisão), artifact-free curvature (curvatura sem artefatos). Você deve ter notado que as frases iniciais incluem muitas descrições sobre material, efeitos reflexivos e curvatura. Assim, você também pode pensar nas frases iniciais como essas ‘características 3D’ que podem influenciar significativamente a saída da IA.

Concentre-se em Gerar Um Item por Vez:

Em uma inspeção mais próxima, você notará que este prompt parece ter dois assuntos aparentemente paralelos: um coração cibernético e uma tela. Para Stable Diffusion, tal prompt pode resultar em algo borrado ou ambos os elementos aparecendo em uma imagem, potencialmente levando a problemas lógicos na imagem.

Mas em meus experimentos com a Tripo AI, descobri que o modelo tende a se concentrar em desenhar um objeto. Portanto, se seu prompt incluir 2 objetos, você pode descobrir que a Imagem 1 é inteiramente do Objeto A, enquanto a Imagem 2 é completamente gerada como Objeto B.

Isso nos dá uma visão sobre o estágio atual de desenvolvimento do produto de IA, sugerindo uma conexão com o fluxo de trabalho 3D: concentre-se em gerar um item por vez.

Considerações Relacionadas a Material e Simetria:

Prompt 1:Sci-fi bench, Durable, rugged, Flush installation, Anti-slip surface, Illuminated edges, Slick oil surface texture, variable brightness, high reflectivity, Seamless 3D integration, Harmonious light mapping, balanced illumination

Prompt 2:Sci-fi bench, Miniaturized, interactive, Flush installation, Anti-slip surface, Illuminated edges, Boosted motors, Grip tape detailing, Customizable wheels, Abrasive sandpaper texture, low brightness, non-reflective, Procedural generation techniques, Seamless mesh, unified surfaces

Particularmente digna de nota é a comparação entre a cadeira na primeira imagem e as cadeiras em P2 e P3 da segunda imagem, focando nas características do material. As descrições das propriedades reflexivas têm um impacto significativo nos resultados gerados, o que tem sido consistentemente eficaz em vários testes. Devido a limitações de espaço, não exibirei todos os exemplos aqui.

Prosseguindo, se você está familiarizado com modelagem 3D, sabe a importância da ‘simetria’ no processo de criação do modelo. Portanto, se necessário, não se esqueça de lembrar especificamente à IA para focar na ‘simetria’.

Prompt:Security turret, Tactical, time-telling, 360-degree surveillance, Automated targeting, Infrared vision, Augmented vision, Prescription compatibility, Lightweight frame, Composite fiber paneling, moderate brightness, reduced reflectivity, Immersive world-building, Intentional reflective design, deliberate symmetry

Recurso de Imagem para 3D:

Claro, você também pode usar o recurso de Imagem para 3D, como com esta imagem. Ao usar a Tripo AI, selecione ‘Image to 3D’ (Imagem para 3D), carregue sua imagem e simplesmente clique no botão Draft (Rascunho). O sistema primeiro extrairá automaticamente o assunto da imagem e, em seguida, gerará o modelo. Pessoalmente, prefiro pré-editar a imagem (extrair o primeiro plano) no Photoshop para garantir a precisão no rascunho inicial, que às vezes pode parecer borrado quando segmentado automaticamente.

Depois disso, clicamos em Refine (Refinar) para aprimorar a precisão do modelo. O modelo final obtido é o seguinte. Ao clicar em download, você pode importá-lo para software 3D profissional para mais refinamento:

Aqui estão outros exemplos de Imagem para 3D:

Explore a Tripo AI e junte-se a nós em nossas plataformas de mídia:

Artigo Original: https://medium.com/@thegodtripo/ultimate-tripo-ai-guide-i-prompt-tips-and-tricks-for-text-image-to-3d-cd49523b10ae

Escrito por Lyson (Twitter@lyson_ober) e editado por Oliver

Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.