Glossar

Generatives Adversariales Netzwerk (GAN)

Entdecken Sie, wie GANs die KI revolutionieren, indem sie realistische Bilder erzeugen, Daten verbessern und Innovationen im Gesundheitswesen, bei Spielen und vielem mehr vorantreiben.

Generative Adversarial Networks (GANs) stellen eine leistungsstarke Klasse von maschinellen Lernverfahren dar, die erstmals von Ian Goodfellow und Kollegen im Jahr 2014 vorgestellt wurden. Sie gehören zum Bereich der generativen KI und konzentrieren sich auf die Erzeugung neuer Daten, die einem vorgegebenen Trainingsdatensatz ähneln. Die Kernidee hinter GANs besteht darin, dass zwei neuronale Netze (NNs), der Generator und der Discriminator, in einem Wettbewerbsspiel gegeneinander antreten. Dieser kontradiktorische Prozess treibt das System dazu an, äußerst realistische synthetische Ergebnisse wie Bilder, Musik oder Text zu erzeugen.

Wie GANS funktioniert

Eine GAN-Architektur besteht aus zwei Hauptkomponenten, die gleichzeitig trainiert werden:

  • Der Generator: Dieses Netz nimmt zufälliges Rauschen (einen Vektor von Zufallszahlen, oft aus einer Gaußschen Verteilung) als Eingabe und versucht, es in Daten umzuwandeln, die die reale Datenverteilung nachahmen. Es könnte zum Beispiel ein synthetisches Bild einer Katze erzeugen, das wie die Bilder aus dem Trainingsdatensatz aussieht. Ziel ist es, Ausgaben zu erzeugen, die von echten Daten nicht zu unterscheiden sind, und so den Discriminator zu täuschen.
  • Das Unterscheidungsmerkmal: Dieses Netzwerk fungiert als binärer Klassifikator. Es erhält sowohl echte Datenproben (aus dem tatsächlichen Datensatz) als auch gefälschte Datenproben (vom Generator erstellt). Seine Aufgabe ist es, zu bestimmen, ob jedes Eingabebeispiel echt oder gefälscht ist. Es lernt dies durch standardmäßige überwachte Lerntechniken mit dem Ziel, echte und generierte Proben korrekt zu klassifizieren.

Der kontradiktorische Ausbildungsprozess

Das Training eines GAN ist ein dynamischer Prozess, bei dem Generator und Discriminator miteinander konkurrieren und sich gemeinsam verbessern:

  1. Der Generator erzeugt einen Stapel synthetischer Daten.
  2. Der Diskriminator wird mit einem Stapel trainiert, der sowohl reale Daten als auch die synthetischen Daten des Generators enthält, und lernt, diese zu unterscheiden. Durch Backpropagation werden seine Gewichte auf der Grundlage seiner Klassifizierungsgenauigkeit aktualisiert.
  3. Der Generator wird dann auf der Grundlage der Ergebnisse des Diskriminators trainiert. Sein Ziel ist es, Daten zu erzeugen, die der Diskriminator fälschlicherweise als echt klassifiziert. Die Gradienten fließen durch den (vorübergehend festgelegten) Diskriminator zurück, um die Gewichte des Generators zu aktualisieren.

Dieser Zyklus setzt sich fort und führt im Idealfall zu einem Gleichgewicht, bei dem der Generator so realistische Daten produziert, dass der Diskriminator nur noch zufällig (mit 50 % Genauigkeit) erraten kann, ob eine Probe echt oder gefälscht ist. An diesem Punkt hat der Generator gelernt, die zugrunde liegende Datenverteilung des Trainingssatzes anzunähern.

Wichtige Anwendungen

GANs haben erhebliche Fortschritte in verschiedenen Bereichen ermöglicht:

  • Bilderzeugung: Erstellung fotorealistischer Bilder, wie z. B. menschliche Gesichter(StyleGAN von NVIDIA Research), Tiere oder Objekte, die nicht existieren. Dies findet Anwendung in Kunst, Design und Unterhaltung, wirft aber auch ethische Bedenken hinsichtlich Deepfakes auf.
  • Synthetische Datenerweiterung: Generierung realistischer synthetischer Daten zur Ergänzung realer Datensätze. Dies ist besonders nützlich in Bereichen wie der medizinischen Bildanalyse, wo reale Daten knapp sein können oder Datenschutzbeschränkungen bestehen. GANs können beispielsweise synthetische Röntgenbilder erstellen, die seltene Zustände zeigen, um die Robustheit von diagnostischen Computer-Vision-Modellen (CV) zu verbessern, die für Aufgaben wie Objekterkennung oder Segmentierung verwendet werden. Diese Erweiterung kann das Training von Modellen wie Ultralytics YOLO11 verbessern.
  • Bild-zu-Bild-Übersetzung: Umwandlung von Bildern aus einem Bereich in einen anderen (z. B. Umwandlung von Skizzen in Fotos, Änderung der Jahreszeiten in einer Landschaft oder Übertragung eines neuronalen Stils).
  • Super-Resolution: Verbessert die Auflösung von Bildern mit geringer Qualität.
  • Text-zu-Bild-Synthese: Generierung von Bildern auf der Grundlage von Textbeschreibungen (wird jedoch häufig von neueren Architekturen wie Diffusionsmodellen übertroffen).

GANS vs. andere Modelle

Es ist wichtig, GANs von anderen Modelltypen zu unterscheiden:

  • Diskriminierende Modelle: Die meisten Standard-Klassifizierungs- und Regressionsmodelle (wie die für die Bildklassifizierung oder die Standard-Objekterkennung verwendeten) sind diskriminativ. Sie lernen Entscheidungsgrenzen, um verschiedene Klassen zu trennen oder einen Wert auf der Grundlage von Eingangsmerkmalen vorherzusagen. Im Gegensatz dazu sind GANs generativ - sie lernen die zugrunde liegende Wahrscheinlichkeitsverteilung der Daten selbst, um neue Stichproben zu erstellen.
  • Diffusionsmodelle: Diffusionsmodelle sind eine weitere leistungsstarke Klasse von generativen Modellen, die in letzter Zeit an Bedeutung gewonnen haben und oft Spitzenergebnisse bei der Bilderzeugung erzielen. Sie arbeiten, indem sie den Daten schrittweise Rauschen hinzufügen und dann lernen, diesen Prozess umzukehren. Während sie manchmal Bilder mit höherer Genauigkeit erzeugen und ein stabileres Training als GANs bieten, können sie bei der Inferenz rechenintensiver sein.

Herausforderungen und Fortschritte

Das Training von GANs kann aus folgenden Gründen sehr schwierig sein:

Forscher haben zahlreiche GAN-Varianten entwickelt, um diese Herausforderungen zu bewältigen, z. B. Wasserstein-GANs(WGANs) für eine verbesserte Stabilität und bedingte GANs(cGANs), die die Erzeugung von Daten in Abhängigkeit von bestimmten Attributen ermöglichen (z. B. die Erzeugung eines Bildes einer bestimmten Ziffer). Frameworks wie PyTorch und TensorFlow bieten Werkzeuge und Bibliotheken, die die Implementierung und das Training von GANs erleichtern.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert