Glossário

Rede Adversária Generativa (GAN)

Descubra como os GANs revolucionam a IA, gerando imagens realistas, melhorando os dados e impulsionando inovações nos cuidados de saúde, jogos e muito mais.

Uma Rede Adversária Generativa (GAN) é uma classe poderosa de modelos de IA generativa que se destaca na criação de novos dados sintéticos que imitam uma determinada distribuição de dados reais. Introduzidas pela primeira vez por Ian Goodfellow e seus colegas em 2014, as GANs empregam um processo contraditório inteligente entre duas redes neurais concorrentes: um Gerador e um Discriminador. Esta dinâmica competitiva permite que as GANs produzam resultados altamente realistas, desde imagens e texto a música e modelos 3D, tornando-as numa pedra angular da aprendizagem profunda moderna.

Como funcionam os GANs

A ideia central de um GAN é treinar dois modelos simultaneamente num jogo de soma zero.

  1. O Gerador: O trabalho desta rede é criar dados falsos. Recebe ruído aleatório como entrada e tenta transformá-lo numa amostra que parece ter vindo dos dados de treino originais. Por exemplo, ela pode tentar gerar uma imagem realista de um rosto humano.
  2. O Discriminador: Esta rede actua como um crítico ou detetive. O seu objetivo é distinguir entre dados reais (do conjunto de treino) e os dados falsos produzidos pelo Gerador. O Discriminador emite uma probabilidade que indica a probabilidade de uma amostra de entrada ser real.

Durante o treino, o Gerador tenta continuamente melhorar a sua capacidade de enganar o Discriminador, enquanto o Discriminador trabalha para melhorar a sua capacidade de detetar as falsificações. Este processo contraditório, conduzido pela retropropagação, continua até que o Gerador produza amostras que são tão convincentes que o Discriminador já não as consegue distinguir dos dados reais, atingindo um estado conhecido como equilíbrio de Nash.

Aplicações no mundo real

Os GAN permitiram uma vasta gama de aplicações inovadoras em vários sectores.

  • Geração dedados sintéticos: Uma das utilizações mais significativas dos GAN é a criação de dados artificiais de alta qualidade para aumentar os conjuntos de dados reais. Por exemplo, no desenvolvimento de veículos autónomos, os GAN podem gerar cenas de estrada realistas, incluindo cenários raros e perigosos que são difíceis de captar no mundo real. Isto ajuda a melhorar a robustez dos modelos de deteção de objectos, como o Ultralytics YOLO11, sem a necessidade de uma extensa recolha de dados do mundo real.
  • Geração de imagens e arte: Os GANs são famosos pela sua capacidade de criar imagens novas e fotorrealistas. Projectos como o StyleGAN da NVIDIA podem gerar rostos humanos incrivelmente detalhados de pessoas inexistentes. Esta tecnologia também é utilizada na arte, permitindo que os artistas criem peças únicas, e na moda para conceber novos estilos de vestuário.
  • Tradução de imagem para imagem: Os GANs podem aprender mapeamentos entre diferentes domínios de imagens. Por exemplo, um modelo pode ser treinado para transformar uma imagem de satélite num mapa, converter um esboço numa imagem fotorrealista ou transformar fotografias diurnas em cenas nocturnas.
  • Envelhecimento e edição de rostos: As aplicações utilizam GANs para prever de forma realista como o rosto de uma pessoa pode envelhecer ao longo do tempo ou para efetuar edições como mudar a cor do cabelo, acrescentar um sorriso ou alterar expressões faciais, o que tem aplicações no entretenimento e na investigação forense.

GANs Vs. Outros Modelos Generativos

Os GAN fazem parte de uma família mais vasta de modelos generativos, mas têm caraterísticas distintas.

  • Modelos de difusão: Os modelos de difusão, como os que estão por trás do Stable Diffusion, normalmente oferecem um treinamento mais estável e podem produzir amostras mais diversificadas e de maior qualidade do que os GANs. No entanto, isso geralmente tem o custo de uma latência de inferência mais lenta.
  • Autoencodificadores: Os Autoencoders Variacionais (VAEs) são outro tipo de modelo generativo. Embora tanto os GAN como os VAE gerem dados, os GAN são conhecidos por produzirem resultados mais nítidos e realistas, enquanto os VAE são frequentemente melhores na criação de um espaço latente estruturado e interpretável.

Desafios e avanços

O treino de GANs pode ser notoriamente difícil devido a vários desafios:

  • Colapso do modo: Isto ocorre quando o Gerador encontra algumas saídas que são altamente eficazes para enganar o Discriminador e produz apenas essas variações limitadas, não conseguindo capturar toda a diversidade dos dados de treino. Os investigadores da Google exploraram esta questão em profundidade.
  • Instabilidade de treinamento: A natureza competitiva dos GANs pode levar a um treinamento instável, em que as duas redes não convergem suavemente. Isso pode ser causado por questões como o problema do gradiente de desaparecimento.
  • Dificuldades de avaliação: A quantificação da qualidade e da diversidade das amostras geradas não é trivial. São utilizadas métricas como o Inception Score (IS) e a Fréchet Inception Distance (FID), mas estas têm as suas limitações.

Para ultrapassar estes problemas, os investigadores desenvolveram muitas variantes de GAN, como as GAN de Wasserstein(WGAN) para uma melhor estabilidade e as GAN condicionais(cGAN), que permitem uma geração mais controlada. O desenvolvimento de GANs continua a ser uma área ativa da investigação em IA, com ferramentas poderosas em estruturas como o PyTorch e o TensorFlow a tornarem-nas mais acessíveis aos programadores. Para gerir o fluxo de trabalho de ML mais alargado, plataformas como o Ultralytics HUB podem ajudar a simplificar a gestão de dados e a implementação de modelos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência