Glossaire

Réseau adversarial génératif (GAN)

Découvrez comment les GAN révolutionnent l'IA en générant des images réalistes, en améliorant les données et en favorisant les innovations dans les domaines de la santé, des jeux, etc.

Un Generative Adversarial Network (GAN) est une classe puissante de modèles d'IA générative qui excelle dans la création de nouvelles données synthétiques imitant une distribution donnée de données réelles. Présentés pour la première fois par Ian Goodfellow et ses collègues en 2014, les GAN utilisent un processus contradictoire intelligent entre deux réseaux neuronaux concurrents : un générateur et un discriminateur. Cette dynamique compétitive permet aux GAN de produire des résultats très réalistes, des images et du texte à la musique et aux modèles 3D, ce qui en fait une pierre angulaire de l'apprentissage profond moderne.

Fonctionnement des GAN

L'idée de base d'un GAN est d'entraîner deux modèles simultanément dans un jeu à somme nulle.

  1. Le générateur : Ce réseau a pour mission de créer de fausses données. Il prend en entrée un bruit aléatoire et tente de le transformer en un échantillon qui semble provenir des données d'apprentissage d'origine. Par exemple, il peut essayer de générer une image réaliste d'un visage humain.
  2. Le Discriminateur : Ce réseau joue le rôle de critique ou de détective. Son objectif est de faire la distinction entre les données réelles (provenant de l'ensemble d'apprentissage) et les fausses données produites par le générateur. Le Discriminateur produit une probabilité indiquant dans quelle mesure il pense qu'un échantillon d'entrée est réel.

Au cours de l'entraînement, le générateur s'efforce continuellement de mieux tromper le discriminateur, tandis que ce dernier s'efforce d'améliorer sa capacité à repérer les faux. Ce processus contradictoire, piloté par la rétropropagation, se poursuit jusqu'à ce que le générateur produise des échantillons si convaincants que le discriminateur ne peut plus les distinguer des données réelles, atteignant ainsi un état connu sous le nom d'équilibre de Nash.

Applications dans le monde réel

Les GAN ont permis un large éventail d'applications innovantes dans divers secteurs d'activité.

  • Génération dedonnées synthétiques: L'une des utilisations les plus importantes des GAN est la création de données artificielles de haute qualité pour augmenter les ensembles de données réelles. Par exemple, dans le cadre du développement de véhicules autonomes, les GAN peuvent générer des scènes routières réalistes, y compris des scénarios rares et dangereux qui sont difficiles à capturer dans le monde réel. Cela permet d'améliorer la robustesse des modèles de détection d'objets tels qu'Ultralytics YOLO11 sans qu'il soit nécessaire de collecter de nombreuses données dans le monde réel.
  • Génération d'images et d'œuvres d'art : Les GAN sont réputés pour leur capacité à créer des images nouvelles et photoréalistes. Des projets comme StyleGAN de NVIDIA peuvent générer des visages incroyablement détaillés de personnes inexistantes. Cette technologie est également utilisée dans l'art, permettant aux artistes de créer des pièces uniques, et dans la mode pour concevoir de nouveaux styles de vêtements.
  • Traduction d'image à image : Les GAN peuvent apprendre à établir des correspondances entre différents domaines d'images. Par exemple, un modèle peut être entraîné à transformer une image satellite en carte, à convertir un croquis en une image photoréaliste ou à transformer des photos de jour en scènes de nuit.
  • Vieillissement et modification du visage : Les applications utilisent les GAN pour prédire de manière réaliste comment le visage d'une personne peut vieillir avec le temps ou pour effectuer des modifications telles que changer la couleur des cheveux, ajouter un sourire ou modifier les expressions faciales, ce qui a des applications dans les domaines du divertissement et de la criminalistique.

GANs et autres modèles génératifs

Les GAN font partie d'une famille plus large de modèles génératifs, mais ils présentent des caractéristiques distinctes.

  • Modèles de diffusion: Les modèles de diffusion, comme ceux qui sous-tendent la diffusion stable, offrent généralement une formation plus stable et peuvent produire des échantillons plus diversifiés et de meilleure qualité que les GAN. Cependant, cela se fait souvent au prix d'une latence d'inférence plus lente.
  • Autoencodeurs: Les autoencodeurs variationnels (VAE) sont un autre type de modèle génératif. Bien que les GAN et les VAE génèrent tous deux des données, les GAN sont connus pour produire des résultats plus nets et plus réalistes, tandis que les VAE sont souvent plus aptes à créer un espace latent structuré et interprétable.

Défis et progrès

La formation des GAN peut être notoirement difficile en raison de plusieurs défis :

  • Effondrement du mode : Ce phénomène se produit lorsque le générateur trouve quelques sorties très efficaces pour tromper le discriminateur et ne produit que ces variations limitées, ne parvenant pas à capturer toute la diversité des données d'apprentissage. Des chercheurs de Google ont étudié cette question en profondeur.
  • Instabilité de la formation : La nature compétitive des GAN peut conduire à une formation instable où les deux réseaux ne convergent pas en douceur. Cela peut être dû à des problèmes tels que le problème du gradient qui s'évanouit.
  • Difficultés d'évaluation : La quantification de la qualité et de la diversité des échantillons générés n'est pas triviale. Des mesures telles que le score de réception (IS) et la distance de réception de Fréchet (FID) sont utilisées, mais elles ont leurs limites.

Pour surmonter ces problèmes, les chercheurs ont développé de nombreuses variantes de GAN, telles que les GAN de Wasserstein(WGAN) pour une meilleure stabilité et les GAN conditionnels(cGAN), qui permettent une génération plus contrôlée. Le développement des GANs continue d'être un domaine actif de la recherche en IA, avec des outils puissants dans des frameworks comme PyTorch et TensorFlow qui les rendent plus accessibles aux développeurs. Pour gérer le flux de travail de ML au sens large, des plateformes comme Ultralytics HUB peuvent aider à rationaliser la gestion des données et le déploiement des modèles.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers