Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

O que são Modelos de Difusão? Um guia rápido e abrangente

Junta-te a nós enquanto exploramos como os modelos de difusão podem ser utilizados para criar conteúdos realistas e redefinir áreas como o design, a música e o cinema com várias aplicações.

ABAbirami Vina
5 min read
Um guia sobre modelos de difusão na IA generativa

Usar ferramentas de IA generativa como Midjourney e Sora para criar conteúdo está se tornando cada vez mais comum, e há um interesse crescente em entender como essas ferramentas funcionam. Na verdade, um estudo recente mostra que 94% das pessoas estão dispostas a aprender novas habilidades para trabalhar com IA generativa. Entender como funcionam os modelos de IA generativa pode te ajudar a usar essas ferramentas com mais eficácia e a tirar o máximo proveito delas.

No coração de ferramentas como Midjourney e Sora estão os modelos de difusão avançados - modelos de IA generativa que podem criar imagens, vídeos, texto e áudio para várias aplicações. Por exemplo, modelos de difusão são uma ótima opção para produzir vídeos de marketing curtos para plataformas de redes sociais como TikTok e YouTube Shorts. Neste artigo, vamos explorar como os modelos de difusão funcionam e onde podem ser usados. Vamos começar!

Link to this sectionA inspiração por trás dos modelos de difusão avançados#

Na física, a difusão é o processo pelo qual moléculas se espalham de áreas de maior concentração para áreas de menor concentração. O conceito de difusão está intimamente relacionado ao movimento browniano, onde partículas se movem aleatoriamente à medida que colidem com moléculas em um fluido e se espalham gradualmente ao longo do tempo.

Esses conceitos inspiraram o desenvolvimento de modelos de difusão na IA generativa. Os modelos de difusão funcionam adicionando ruído aos dados gradualmente e, então, aprendendo a reverter esse processo para gerar dados novos e de alta qualidade, como texto, imagens ou som. É semelhante à ideia de difusão reversa na física. Teoricamente, a difusão pode ser rastreada de trás para frente para retornar as partículas ao seu estado original. Da mesma forma, os modelos de difusão aprendem a reverter o ruído adicionado para criar novos dados realistas a partir de entradas ruidosas.

Um exemplo de uso de modelos de difusão para geração de imagens

Link to this sectionEntendendo o funcionamento dos modelos de difusão#

Geralmente, a arquitetura de um modelo de difusão envolve duas etapas principais. Primeiro, o modelo aprende a adicionar ruído ao dataset gradualmente. Depois, ele é treinado para reverter esse processo e trazer os dados de volta ao seu estado original. Vamos dar uma olhada mais de perto em como isso funciona.

Link to this sectionPré-processamento de dados#

Antes de mergulharmos no núcleo de um modelo de difusão, é importante lembrar que qualquer dado no qual o modelo é treinado deve ser pré-processado. Por exemplo, se você estiver treinando um modelo de difusão para gerar imagens, o dataset de treinamento de imagens precisa ser limpo primeiro. O pré-processamento de dados de imagem pode envolver a remoção de quaisquer outliers que possam afetar os resultados, a normalização dos valores dos pixels para que todas as imagens estejam na mesma escala e o uso de aumento de dados (data augmentation) para introduzir mais variedade. As etapas de pré-processamento de dados ajudam a garantir a qualidade dos dados de treinamento, e isso vale não apenas para modelos de difusão, mas para qualquer modelo de IA.

Exemplos de aumento de dados de imagem

Fig 2. Exemplos de Aumento de Dados de Imagem.

Link to this sectionProcesso de difusão direta#

Após o pré-processamento dos dados, a próxima etapa é o processo de difusão direta. Vamos focar no treinamento de um modelo de difusão para gerar imagens. O processo começa amostrando a partir de uma distribuição simples, como uma distribuição Gaussiana. Em outras palavras, algum ruído aleatório é selecionado. Como mostrado na imagem abaixo, o modelo transforma gradualmente a imagem em uma série de etapas. A imagem começa clara e torna-se cada vez mais ruidosa à medida que progride em cada etapa, acabando por se transformar em ruído quase completo no final.

Processo de difusão direta

Fig 3. Processo de Difusão Direta.

Cada etapa baseia-se na anterior, e o ruído é adicionado de forma controlada e incremental usando uma Cadeia de Markov. Uma cadeia de Markov é um modelo matemático onde a probabilidade do próximo estado depende apenas do estado atual. Ela é usada para prever resultados futuros com base nas condições presentes. Como cada etapa adiciona complexidade aos dados, podemos capturar os padrões e detalhes mais intrincados da distribuição original dos dados da imagem. A adição de ruído Gaussiano também gera amostras diversas e realistas à medida que a difusão se desenrola.

Link to this sectionProcesso de difusão reversa#

O processo de difusão reversa começa assim que o processo de difusão direta transforma uma amostra em um estado ruidoso e complexo. Ele mapeia gradualmente a amostra ruidosa de volta ao seu estado original usando uma série de transformações inversas. As etapas que revertem o processo de adição de ruído são guiadas por uma Cadeia de Markov reversa.

Processo de difusão reversa

Fig 4. Processo de Difusão Reversa.

Durante o processo reverso, os modelos de difusão aprendem a gerar novos dados começando com uma amostra de ruído aleatório e refinando-a gradualmente em uma saída clara e detalhada. Os dados gerados acabam se assemelhando muito ao dataset original. Essa capacidade é o que torna os modelos de difusão ótimos para tarefas como síntese de imagem, preenchimento de dados e redução de ruído (denoising). Na próxima seção, exploraremos mais aplicações de modelos de difusão.

Link to this sectionAs aplicações dos modelos de difusão#

O processo de difusão passo a passo torna possível para um modelo de difusão gerar eficientemente distribuições de dados complexas sem ser sobrecarregado pela alta dimensionalidade dos dados. Vamos dar uma olhada em algumas aplicações onde os modelos de difusão se destacam.

Link to this sectionDesign gráfico#

Os modelos de difusão podem ser usados para gerar conteúdo visual gráfico rapidamente. Designers e artistas humanos podem fornecer esboços, layouts ou até mesmo algumas ideias simples do que desejam, e os modelos podem dar vida a essas ideias. Isso pode acelerar todo o processo de design, oferecer uma ampla gama de novas possibilidades desde o conceito inicial até o produto final e economizar muito tempo valioso para os designers humanos.

Designs gráficos criados por modelos de difusão

Fig 5. Designs Gráficos Criados por Modelos de Difusão.

Link to this sectionDesign de música e som#

Os modelos de difusão também podem ser adaptados para gerar paisagens sonoras ou notas musicais únicas. Isso oferece novas maneiras para músicos e artistas visualizarem e criarem experiências auditivas. Aqui estão alguns dos casos de uso de modelos de difusão no campo da criação de som e música:

  • Transferência de voz: Modelos de difusão podem ser usados para transformar um som em outro, como converter uma amostra de bumbo em um som de caixa para combinações sonoras únicas.
  • Variabilidade sonora e humanização: A difusão de áudio pode trazer leves variações nos sons para adicionar um elemento humano ao áudio digital, simulando performances de instrumentos ao vivo.
  • Ajustes de design de som: Esses modelos podem ser usados para alterar sutilmente um som (como aprimorar uma amostra de porta batendo) para modificar suas características em um nível mais profundo do que a equalização ou filtragem tradicional.
  • Geração de melodia: Eles também podem ajudar a gerar novas melodias e inspirar artistas de forma semelhante à navegação em pacotes de samples.

Uma visualização de difusão de áudio

Fig 6. Uma Visualização da Difusão de Áudio.

Link to this sectionFilme e animação#

Outro caso de uso interessante dos modelos de difusão é na criação de clipes de filme e animação. Eles podem ser usados para gerar personagens, fundos realistas e até mesmo elementos dinâmicos dentro das cenas. Usar modelos de difusão pode ser uma grande vantagem para produtoras. Isso simplifica o fluxo de trabalho geral e abre caminho para mais experimentação e criatividade na narrativa visual. Alguns dos clipes feitos usando esses modelos são comparáveis a clipes reais de animação ou filme. É até possível usar esses modelos para criar filmes inteiros.

Uma cena do curta-metragem Seasons criado usando modelos de difusão

Fig 7. Uma cena do curta-metragem Seasons que foi criado usando modelos de difusão.

Link to this sectionModelos de difusão populares#

Agora que aprendemos sobre algumas das aplicações dos modelos de difusão, vamos ver alguns modelos populares que você pode experimentar.

  • Stable Diffusion: Criado pela Stability AI, o Stable Diffusion é um modelo eficiente conhecido por converter prompts de texto em imagens realistas. Ele tem uma forte reputação pela geração de imagens de alta qualidade. Também pode ser modificado para filmes e animações.
  • DALL-E 3: O DALL-E 3 é a versão mais recente do modelo de geração de imagens da OpenAI. Ele está integrado ao ChatGPT e oferece muitas melhorias na qualidade da geração de imagens em relação à versão anterior, o DALL-E 2.
  • Sora: O Sora é o modelo de texto para vídeo da OpenAI que pode gerar vídeos em 1080p altamente realistas com até um minuto de duração. Alguns dos clipes de vídeo feitos usando o Sora podem ser facilmente confundidos com filmagens reais.
  • Imagen: Desenvolvido pelo Google, o Imagen é um modelo de difusão de texto para imagem reconhecido pelo seu fotorrealismo e compreensão avançada de linguagem.

Link to this sectionDesafios e limitações relacionados aos modelos de difusão#

Embora os modelos de difusão ofereçam benefícios em muitos setores, também devemos ter em mente alguns dos desafios que os acompanham. Um desafio é que o processo de treinamento é muito intensivo em recursos. Embora os avanços em aceleração de hardware possam ajudar, eles podem ser caros. Outro problema é a capacidade limitada dos modelos de difusão de generalizar para dados não vistos. Adaptá-los a domínios específicos pode exigir muito ajuste fino (fine-tuning) ou retreinamento.

Integrar esses modelos em tarefas do mundo real traz seu próprio conjunto de desafios. É fundamental que o que a IA gera corresponda de fato ao que os humanos pretendem. Também existem preocupações éticas, como o risco de esses modelos captarem e refletirem preconceitos dos dados em que são treinados. Além disso, gerenciar as expectativas dos usuários e refinar constantemente os modelos com base no feedback pode se tornar um esforço contínuo para garantir que essas ferramentas sejam o mais eficazes e confiáveis possível.

Link to this sectionO futuro dos modelos de difusão#

Os modelos de difusão são um conceito fascinante na IA generativa que ajuda a criar imagens, vídeos e sons de alta qualidade em muitos campos diferentes. Embora possam apresentar alguns desafios de implementação, como demandas computacionais e preocupações éticas, a comunidade de IA trabalha constantemente para melhorar sua eficiência e impacto. Os modelos de difusão estão prontos para transformar setores como cinema, produção musical e criação de conteúdo digital à medida que continuam a evoluir.

Vamos aprender e explorar juntos! Confira nosso repositório no GitHub para ver nossas contribuições para a IA. Descubra como estamos redefinindo setores como manufatura e saúde com tecnologia de IA de ponta.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática