Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelos de Difusão

Descubra como os modelos de difusão revolucionam a IA generativa, criando imagens, vídeos e dados realistas com detalhes e estabilidade incomparáveis.

Os modelos de difusão são uma classe de algoritmos generativos de IA que aprendem a criar novas amostras de dados invertendo um processo gradual de adição de ruído. Inspirados nos princípios da termodinâmica de não-equilíbrio termodinâmica de não-equilíbrio, estes modelos surgiram como a tecnologia de ponta para gerar imagens, áudio e vídeo de alta fidelidade. Ao contrário dos métodos anteriores que que tentam produzir um resultado complexo num único passo, os modelos de difusão refinam iterativamente a estática aleatória conteúdo coerente, permitindo um controlo sem precedentes sobre o detalhe e a estrutura semântica em tarefas de visão computacional.

O Mecanismo de Difusão

O funcionamento dos modelos de difusão pode ser dividido em duas fases distintas: o processo de avanço e o processo de retrocesso. e o processo inverso.

  1. Processo de avanço (difusão): Esta fase envolve a destruição sistemática da estrutura dos dados. Começando com uma imagem clara dos dados de treino, o modelo adiciona pequenas quantidades de ruído gaussiano numa de passos de tempo. Eventualmente, os dados degradam-se em ruído aleatório puro e não estruturado. Este processo é normalmente fixo e segue uma regra de cadeia de Markov.
  2. Processo inverso (Denoising): A principal tarefa de tarefa de aprendizagem automática reside nesta fase. A rede neural - frequentementeuma arquitetura U-Net - é é treinada para prever e subtrair o ruído adicionado em cada passo. Ao aprender a inverter a corrupção, o modelo pode começar com ruído puro e, progressivamente, "denoisá-lo" para alucinar uma imagem totalmente nova e coerente.

Estudos como o documento fundamental Denoising Diffusion Probabilistic Models (DDPM) estabeleceram o quadro matemático quadro matemático que torna este refinamento iterativo estável e eficaz.

Difusão vs. GANs

Antes de os modelos de difusão se tornarem proeminentes, Redes Adversárias Generativas (GANs) eram a abordagem dominante para a síntese de imagens. Embora ambas sejam poderosas, diferem fundamentalmente:

  • Estabilidade de treino: Os modelos de difusão são geralmente mais fáceis de treinar. Os GANs dependem de um jogo adversária entre duas redes (geradora e discriminadora), o que frequentemente leva ao colapso ou instabilidade do modo. A difusão usa uma função de perda mais estável relacionada mais estável relacionada com a previsão de ruído.
  • Diversidade de resultados: Os modelos de difusão são excelentes na geração de amostras diversificadas e altamente detalhadas, enquanto os GANs podem ter dificuldade em cobrir toda a distribuição do conjunto de dados.
  • Velocidade de inferência: Existe um compromisso em que os GAN geram imagens numa única passagem, tornando-os mais rápidas. Os modelos de difusão requerem várias etapas para refinar uma imagem, levando a uma maior latência de inferência. No entanto, as técnicas mais recentes como a difusão latente (utilizada na difusão estável) executam o processo num espaço latente comprimido para aumentar significativamente a velocidade em GPUs de consumo.

Aplicações no Mundo Real

A versatilidade dos modelos de difusão estende-se a várias indústrias, alimentando ferramentas que melhoram a criatividade e fluxos de trabalho de engenharia.

  • Geração de dados sintéticos: A obtenção de dados rotulados do mundo real pode ser dispendiosa ou sensível à privacidade. Os modelos de difusão podem gerar grandes quantidades de dados sintéticos dados sintéticos realistas para treinar modelos modelos robustos de deteção de objectos. Por exemplo, um engenheiro pode gerar milhares de imagens sintéticas de defeitos industriais raros para treinar YOLO11 para garantir a qualidade.
  • Criação de imagens de alta fidelidade: Ferramentas como DALL-E 3, Midjourney e Adobe Firefly aproveitam a difusão para transformar prompts de texto em arte e recursos de nível profissional.
  • Imagiologia médica: Nos cuidados de saúde, os modelos de difusão ajudam na super-resolução, reconstruindo exames de de alta qualidade, reconstruindo exames de ressonância magnética ou de tomografia computorizada a partir de dados de baixa resolução, ajudando na análise precisa de imagens médicas.
  • Síntese de vídeo e áudio: O conceito estende-se para além das imagens estáticas aos dados temporais. Modelos como Sora da OpenAI e as ferramentas da Runway ML aplicam princípios de difusão para gerar sequências de vídeo coerentes e sequências de vídeo coerentes e paisagens sonoras realistas.

Implementação do processo prospetivo

Para compreender como os modelos de difusão preparam os dados para treino, é útil visualizar o processo de avanço. A seguinte PyTorch demonstra como o ruído Gaussiano é adicionado a um tensor, simulando um único passo de degradação.

import torch


def add_gaussian_noise(image_tensor, noise_level=0.1):
    """Simulates one step of the forward diffusion process by adding noise.

    Args:
        image_tensor (torch.Tensor): Input image tensor.
        noise_level (float): Standard deviation of the noise.
    """
    noise = torch.randn_like(image_tensor) * noise_level
    noisy_image = image_tensor + noise
    return noisy_image


# Create a dummy tensor representing a 640x640 image
clean_img = torch.zeros(1, 3, 640, 640)
noisy_output = add_gaussian_noise(clean_img, noise_level=0.2)

print(f"Output shape: {noisy_output.shape} | Noise added successfully.")

Ao inverter este processo, o modelo aprende a recuperar o sinal do ruído, permitindo a geração de imagens complexas visuais complexos que podem ser usados para aumentar os conjuntos de dados para tarefas como a segmentação ou classificação de imagens.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora