Glossar

Zero-Shot Learning

Entdecke Zero-Shot Learning: ein innovativer KI-Ansatz, der es Modellen ermöglicht, ungesehene Daten zu klassifizieren und damit die Objekterkennung, NLP und vieles mehr zu revolutionieren.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Zero-Shot Learning (ZSL) ist ein faszinierender Bereich des maschinellen Lernens (ML), bei dem ein Modell darauf trainiert wird, Objekte oder Konzepte zu erkennen, die es während des Trainings noch nie explizit gesehen hat. Im Gegensatz zu herkömmlichen überwachten Lernmethoden, die zahlreiche markierte Beispiele für jede mögliche Kategorie erfordern, ermöglicht ZSL den Modellen, Vorhersagen über unbekannte Klassen zu treffen, indem sie Hilfsinformationen nutzen, die diese neuen Klassen beschreiben. Diese Fähigkeit ist entscheidend für den Aufbau anpassungsfähiger und skalierbarer Systeme der Künstlichen Intelligenz (KI), insbesondere in Bereichen, in denen es unpraktisch oder unmöglich ist, beschriftete Daten für alle denkbaren Kategorien zu erhalten.

Wie Zero-Shot Learning funktioniert

Die Kernidee hinter ZSL ist es, die Lücke zwischen gesehenen und ungesehenen Klassen mithilfe eines gemeinsamen semantischen Raums zu schließen. Dieser Raum basiert oft auf Beschreibungen, Attributen oder Einbettungen, die aus Texten oder Wissensdatenbanken stammen. Während des Trainings lernt das Modell eine Zuordnung zwischen den Eingabedaten (z. B. Bilder oder Texte) und diesem semantischen Raum, wobei es nur Beispiele aus den "gesehenen" Klassen verwendet. Ein Modell könnte zum Beispiel lernen, Bilder von Pferden und Tigern (gesehene Klassen) mit den entsprechenden Attributen zu verknüpfen (z. B. "hat Hufe", "hat Streifen", "ist ein Säugetier").

Wenn ein Beispiel einer unbekannten Klasse (z. B. ein Zebra) präsentiert wird, extrahiert das Modell die Merkmale und ordnet sie dem gelernten semantischen Raum zu. Anschließend vergleicht es diese Zuordnung mit den semantischen Beschreibungen der ungesehenen Klassen (z. B. die Attribute "hat Streifen", "hat Hufe" und "ist ein Säugetier", die ein Zebra beschreiben). Die Klasse, deren semantische Beschreibung in diesem Raum am nächsten liegt, wird als Vorhersage ausgewählt. Bei diesem Prozess werden häufig Techniken des Deep Learning (DL) eingesetzt, wobei Architekturen wie Convolutional Neural Networks (CNNs) für die Merkmalsextraktion und Mapping-Funktionen verwendet werden, um visuelle Merkmale mit semantischen Attributen zu verknüpfen, manchmal unter Verwendung von Konzepten aus Vision Transformers (ViT) oder Modellen wie CLIP.

Hauptunterschiede zu ähnlichen Konzepten

Es ist wichtig, ZSL von verwandten Lernparadigmen zu unterscheiden:

  • Few-Shot Learning (FSL): FSL zielt darauf ab, neue Konzepte aus einer sehr kleinen Anzahl von markierten Beispielen (z. B. 1 bis 5) pro Klasse zu lernen, während ZSL keine markierten Beispiele für die Zielklassen erfordert. Lies mehr über das Verständnis von Few-Shot, Zero-Shot und Transfer Learning.
  • One-Shot Learning (OSL): Ein spezieller Fall von FSL, bei dem für jede neue Klasse genau ein beschriftetes Beispiel bereitgestellt wird.
  • Transferlernen: Ein umfassenderes Konzept, bei dem das Wissen aus einer Aufgabe auf eine andere, aber verwandte Aufgabe übertragen wird. ZSL ist eine Form des Transferlernens, konzentriert sich aber speziell auf die Übertragung von Wissen (oft über semantische Attribute), um völlig unbekannte Klassen zu erkennen. Modelle wie Ultralytics YOLOv8 nutzen häufig das Transfer-Lernen aus großen Datensätzen wie COCO für das individuelle Training.
  • Selbstüberwachtes Lernen (SSL): SSL-Modelle lernen Repräsentationen aus unmarkierten Daten, indem sie Aufgaben vorgeben (z. B. die Vorhersage maskierter Teile einer Eingabe). SSL ist zwar nützlich für das Vortraining, kann aber ohne zusätzliche Mechanismen, wie sie in ZSL verwendet werden, keine ungesehenen Klassen verarbeiten.

Anwendungen in der realen Welt

ZSL hat ein großes Potenzial in verschiedenen Bereichen:

  1. Computer Vision (CV) - Feinkörnige Objekterkennung: Identifizierung seltener Tier- und Pflanzenarten oder spezifischer Produktmodelle in Bildern, für die es nur wenige Trainingsdaten gibt. Ein System, das auf gewöhnliche Vögel trainiert wurde, könnte zum Beispiel eine seltene Art anhand einer textlichen Beschreibung ihres Gefieders, ihrer Schnabelform und ihres Lebensraums identifizieren, auch ohne vorherige visuelle Beispiele. Dies erweitert die Möglichkeiten über die standardmäßige Objekterkennung oder Bildklassifizierung hinaus, die nur auf gesehene Klassen trainiert wurde. Modelle wie YOLO bauen auf ähnlichen Ideen zur Erkennung von offenem Vokabular auf.
  2. Natürliche Sprachverarbeitung (NLP) - Themenidentifizierung und Absichtserkennung: Klassifizierung von Dokumenten, E-Mails oder Benutzeranfragen in neue, aufkommende Themen oder Absichten, die im ursprünglichen Trainingsdatensatz nicht vorhanden sind. Ein Chatbot für den Kundendienst könnte zum Beispiel eine Anfrage zu einem neu eingeführten Produktmerkmal anhand der Beschreibung des Merkmals kategorisieren, ohne dass er explizite Trainingsbeispiele für solche Anfragen benötigt. Dies macht sich die Leistungsfähigkeit von Large Language Models (LLMs) wie GPT-4 zunutze.

Herausforderungen und zukünftige Wege

Trotz seiner vielversprechenden Möglichkeiten steht ZSL vor Herausforderungen wie dem Hubness-Problem (bei dem einige Punkte im semantischen Raum zu den nächsten Nachbarn vieler Punkte werden) und der Domänenverschiebung (bei der sich die Beziehung zwischen Merkmalen und Attributen zwischen gesehenen und ungesehenen Klassen unterscheidet). Die Forschung arbeitet an robusteren semantischen Einbettungen, besseren Mapping-Funktionen und Techniken wie Generalized Zero-Shot Learning (GZSL), das darauf abzielt, während der Inferenz sowohl gesehene als auch ungesehene Klassen zu erkennen. Die Entwicklung von Plattformen wie Ultralytics HUB könnte die Integration und den Einsatz von ZSL-Funktionen in praktischen KI-Anwendungen erleichtern. Weitere Fortschritte könnten sich von multimodalen Modellen inspirieren lassen, die Sehen und Sprache miteinander verbinden.

Alles lesen