Glossário

Difusão estável

Descubra o Stable Diffusion, um modelo de IA de vanguarda para gerar imagens realistas a partir de instruções de texto, revolucionando a criatividade e a eficiência.

O Stable Diffusion é um poderoso e popular modelo de IA generativa de código aberto lançado pela Stability AI em 2022. Ele é conhecido principalmente por sua capacidade de criar imagens detalhadas e de alta qualidade a partir de descrições de texto simples, um processo conhecido como síntese de texto para imagem. Como um modelo de difusão latente, ele representa um avanço significativo ao tornar a geração de imagens de alto desempenho acessível a um público mais amplo de desenvolvedores, artistas e pesquisadores devido à sua natureza de código aberto e requisitos computacionais relativamente modestos em comparação com outros modelos de grande escala.

Como funciona a difusão estável

Na sua essência, a Difusão Estável funciona com base nos princípios de um processo de difusão. O modelo é primeiro treinado através da recolha de um vasto número de imagens e da adição progressiva de "ruído" (estática aleatória) até a imagem original ficar completamente obscurecida. Em seguida, aprende a inverter este processo, partindo do ruído puro e reduzindo-o gradualmente, passo a passo, para formar uma imagem coerente que corresponda a um determinado texto.

O que torna a difusão estável particularmente eficiente é o facto de realizar este processo de difusão num "espaço latente" de dimensão inferior, em vez de no espaço de alta dimensão dos pixéis. Esta abordagem, descrita no documento original de investigação do modelo de difusão latente, reduz significativamente a potência computacional necessária para a formação e a inferência, permitindo que o modelo seja executado em GPUs de consumo. O modelo utiliza um codificador de texto, como o CLIP, para interpretar a mensagem de texto do utilizador e orientar o processo de redução de ruído para a imagem pretendida.

Difusão estável vs. outros modelos generativos

A Difusão Estável distingue-se de outros modelos generativos proeminentes pelas suas caraterísticas únicas:

  • Comparado com o DALL-E e o Midjourney: Embora modelos como o DALL-E 3 e o Midjourney da OpenAI produzam resultados impressionantes, eles são proprietários e oferecidos principalmente como serviços pagos. A principal vantagem do Stable Diffusion é o facto de ser de código aberto. Isto permite que qualquer pessoa descarregue o modelo, examine a sua arquitetura e o afine em conjuntos de dados personalizados para fins específicos sem necessitar de autorização.
  • Comparação com GANs: As Redes Adversariais Generativas (GAN) são outra classe de modelos generativos. Os modelos de difusão, como a difusão estável, oferecem geralmente uma formação mais estável e são frequentemente excelentes na geração de uma gama mais diversificada de imagens de alta fidelidade. No entanto, as GANs podem, por vezes, ser mais rápidas na geração de imagens, uma vez que normalmente requerem apenas uma única passagem para a frente.

Aplicações no mundo real

A flexibilidade e a acessibilidade da Difusão Estável levaram à sua adoção em numerosos domínios.

  • Artes criativas e entretenimento: Os artistas e designers utilizam o Stable Diffusion para concept art, storyboarding e criação de recursos visuais únicos. Por exemplo, um programador de jogos pode gerar dezenas de conceitos de personagens ou fundos ambientais em minutos, acelerando drasticamente o fluxo de trabalho criativo. Ferramentas como o Adobe Firefly integraram tecnologias generativas semelhantes para melhorar as suites de software criativo.
  • Geração de dados sintéticos: Na visão computacional, os dados de treino de alta qualidade são cruciais. O Stable Diffusion pode gerar grandes quantidades de dados sintéticos realistas para aumentar os conjuntos de dados do mundo real. Por exemplo, para melhorar um modelo de deteção de objectos como o Ultralytics YOLO, os programadores podem gerar imagens de objectos em várias condições de iluminação, orientações e definições, melhorando a robustez e a precisão do modelo, especialmente para classes de objectos raros.

Desenvolvimento e ecossistema

Trabalhar com o Stable Diffusion é facilitado por um rico ecossistema de ferramentas e bibliotecas. Estruturas como o PyTorch são fundamentais para o seu funcionamento. A biblioteca Hugging Face Diffusers tornou-se um padrão para descarregar, executar e experimentar facilmente o Stable Diffusion e outros modelos de difusão. Embora o Stable Diffusion se destaque na geração, plataformas como o Ultralytics HUB fornecem um ambiente abrangente para o ciclo de vida mais alargado da aprendizagem automática, incluindo a gestão de conjuntos de dados e a implementação de modelos de IA discriminativos para tarefas como a segmentação e classificação de imagens. O surgimento de ferramentas generativas tão poderosas também traz à tona discussões importantes sobre a ética da IA, incluindo o potencial para criar deepfakes e reforçar o viés algorítmico.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência