Diffusionsmodelle sind eine leistungsstarke Klasse generativer Modelle innerhalb des Deep Learning (DL), die vor allem bei der Erstellung hochwertiger Bilder, Audiodaten und anderer komplexer Datentypen große Bedeutung erlangt haben. Inspiriert von Konzepten aus der Thermodynamik fügen diese Modelle systematisch Rauschen zu den Daten hinzu und lernen dann, diesen Prozess umzukehren, um aus dem reinen Rauschen neue Datenmuster zu erzeugen. Ihre Fähigkeit, vielfältige und realistische Ergebnisse zu erzeugen, hat sie zu einem Eckpfeiler der modernen Künstlichen Intelligenz (KI) gemacht.
Wie Diffusionsmodelle funktionieren
Die Kernidee hinter Diffusionsmodellen umfasst zwei Prozesse: einen Vorwärtsprozess (Diffusion) und einen Rückwärtsprozess (Entrauschung).
- Vorwärtsprozess: In dieser Phase werden reale Daten (z. B. ein Bild aus den Trainingsdaten) verwendet und über viele Schritte hinweg kleine Mengen von Zufallsrauschen hinzugefügt. Nach genügend Schritten ist das ursprüngliche Bild schließlich nicht mehr von reinem Rauschen zu unterscheiden (wie Rauschen auf einem alten Fernsehbildschirm). Dieser Prozess ist festgelegt und hat nichts mit Lernen zu tun.
- Umgekehrter Prozess: Hier findet das Lernen statt. Das Modell, in der Regel ein neuronales Netz wie ein U-Netz, wird so trainiert, dass es das Hinzufügen von Rauschen Schritt für Schritt rückgängig macht. Ausgehend von zufälligem Rauschen entfernt das Modell iterativ das vorhergesagte Rauschen und verfeinert die Stichprobe schrittweise, bis sie den Daten aus der ursprünglichen Trainingsverteilung ähnelt. Dieser erlernte Entrauschungsprozess ermöglicht es dem Modell, völlig neue Daten zu erzeugen. Wichtige Forschungsarbeiten wie das Denoising Diffusion Probabilistic Models (DDPM) legten einen Großteil der Grundlagen für moderne Implementierungen.
Beim Training wird dem Modell beigebracht, das Rauschen, das bei jedem Schritt des Vorwärtsprozesses hinzugefügt wurde, genau vorherzusagen. Auf diese Weise lernt das Modell implizit die zugrunde liegende Struktur der Daten.
Schlüsselkonzepte und Konditionierung
Mehrere Konzepte sind für Diffusionsmodelle von zentraler Bedeutung:
- Zeitschritte: Die schrittweise Hinzufügung und Entfernung von Lärm erfolgt über eine Reihe von diskreten Zeitschritten. Das Modell muss oft wissen, welchen Zeitschritt es gerade bearbeitet.
- Rauschzeitplan: Hier wird festgelegt, wie viel Rauschen bei jedem Schritt im Vorwärtsprozess hinzugefügt wird. Unterschiedliche Zeitpläne können sich auf die Qualität der Ausbildung und der Erzeugung auswirken.
- Konditionierung: Diffusionsmodelle können so gesteuert werden, dass sie bestimmte Ergebnisse erzeugen. Bei der Text-Bild-Erzeugung zum Beispiel wird das Modell durch Textbeschreibungen (Prompts) dazu gebracht, entsprechende Bilder zu erzeugen. Dabei kommen oft Mechanismen wie Cross-Attention zum Einsatz.
Diffusionsmodelle im Vergleich zu anderen generativen Modellen
Diffusionsmodelle unterscheiden sich deutlich von anderen beliebten generativen Ansätzen wie Generative Adversarial Networks (GANs):
- Trainingsstabilität: Diffusionsmodelle bieten im Allgemeinen ein stabileres Training im Vergleich zu GANs, bei denen ein komplexes, gegnerisches Spiel zwischen einem Generator und einem Diskriminator stattfindet, das manchmal nicht konvergieren kann.
- Stichprobenqualität und -vielfalt: Diffusionsmodelle zeichnen sich oft durch eine hohe Qualität und Vielfalt der Stichproben aus und übertreffen GANs in bestimmten Benchmarks, allerdings oft auf Kosten einer höheren Inferenzlatenz.
- Schnelligkeit der Schlussfolgerungen: Traditionell erfordert die Erstellung einer Stichprobe mit einem Diffusionsmodell viele Entrauschungsschritte, was die Schlussfolgerungen langsamer macht als GANs. Die Forschung zu schnelleren Sampling-Techniken schließt diese Lücke jedoch schnell. Auch Techniken wie die Wissensdestillation werden erforscht.
Anwendungen in der realen Welt
Diffusionsmodelle treiben Innovationen in verschiedenen Bereichen voran:
- Realitätsnahe Bilderzeugung: Modelle wie Stable Diffusion, Midjourney und Google Imagen nutzen Diffusionstechniken, um erstaunlich realistische und künstlerische Bilder aus Textvorgaben zu erzeugen.
- Bildbearbeitung und Inpainting: Sie können auf intelligente Weise fehlende Teile von Bildern ausfüllen (Inpainting) oder bestehende Bilder auf der Grundlage von Anweisungen verändern (z. B. Stile ändern, Objekte hinzufügen), was leistungsstarke Kreativwerkzeuge wie Adobe Firefly ermöglicht.
- Audio-Synthese: Diffusionsmodelle werden verwendet, um realistische Sprache, Musik und Soundeffekte zu erzeugen, wie in Projekten wie AudioLDM zu sehen ist.
- Wissenschaftliche Entdeckungen: Anwendungen entstehen in Bereichen wie der Medikamentenentwicklung zur Generierung neuer Molekularstrukturen und in der Physik zur Simulation komplexer Systeme.
- Datenerweiterung: Die Generierung synthetischer Daten mit Hilfe von Diffusionsmodellen kann reale Trainingsdaten für Aufgaben wie Objekterkennung oder Bildsegmentierung ergänzen und so die Robustheit von Modellen wie Ultralytics YOLO.