Glossar

Zero-Shot Learning

Entdecken Sie Zero-Shot Learning: ein innovativer KI-Ansatz, der es Modellen ermöglicht, ungesehene Daten zu klassifizieren und damit die Objekterkennung, NLP und vieles mehr zu revolutionieren.

Zero-Shot Learning (ZSL) ist ein faszinierender Bereich des maschinellen Lernens (ML), bei dem ein Modell darauf trainiert wird, Objekte oder Konzepte zu erkennen, die es während des Trainings noch nie explizit gesehen hat. Im Gegensatz zu herkömmlichen überwachten Lernmethoden, die zahlreiche markierte Beispiele für jede mögliche Kategorie erfordern, ermöglicht ZSL den Modellen, Vorhersagen über ungesehene Klassen zu treffen, indem sie Hilfsinformationen nutzen, die diese neuen Klassen beschreiben. Diese Fähigkeit ist entscheidend für den Aufbau anpassungsfähiger und skalierbarer Systeme der Künstlichen Intelligenz (KI), insbesondere in Bereichen, in denen es unpraktisch oder unmöglich ist, markierte Daten für jede denkbare Kategorie zu erhalten.

Wie Zero-Shot Learning funktioniert

Die Kernidee hinter ZSL ist es, die Lücke zwischen gesehenen und ungesehenen Klassen mithilfe eines gemeinsamen semantischen Raums zu schließen. Dieser Raum stützt sich häufig auf Beschreibungen auf hoher Ebene, Attribute oder Einbettungen, die aus Texten oder Wissensdatenbanken stammen. Während des Trainings lernt das Modell eine Zuordnung zwischen den Eingabedaten (z. B. Bilder oder Text) und diesem semantischen Raum, wobei nur Beispiele aus den "gesehenen" Klassen verwendet werden. So könnte ein Modell beispielsweise lernen, Bilder von Pferden und Tigern (gesehene Klassen) mit den entsprechenden Attributen zu verknüpfen (z. B. "hat Hufe", "hat Streifen", "ist ein Säugetier").

Wird eine Instanz einer ungesehenen Klasse (z. B. ein Zebra) präsentiert, extrahiert das Modell deren Merkmale und ordnet sie dem gelernten semantischen Raum zu. Anschließend vergleicht es diese Zuordnung mit den semantischen Beschreibungen der ungesehenen Klassen (z. B. die Attribute "hat Streifen", "hat Hufe", "ist ein Säugetier", die ein Zebra beschreiben). Die Klasse, deren semantische Beschreibung in diesem Raum am nächsten liegt, wird als Vorhersage ausgewählt. Bei diesem Prozess kommen häufig Techniken des Deep Learning (DL) zum Einsatz, wobei Architekturen wie Convolutional Neural Networks (CNN) für die Merkmalsextraktion und Mapping-Funktionen verwendet werden, um visuelle Merkmale mit semantischen Attributen in Beziehung zu setzen, wobei manchmal Konzepte von Vision Transformers (ViT) oder Modelle wie CLIP genutzt werden.

Hauptunterschiede zu ähnlichen Konzepten

Es ist wichtig, ZSL von verwandten Lernparadigmen zu unterscheiden:

  • Few-Shot Learning (FSL): FSL zielt darauf ab, neue Konzepte aus einer sehr kleinen Anzahl von markierten Beispielen (z. B. 1 bis 5) pro Klasse zu lernen, während ZSL keine markierten Beispiele für die Zielklassen erfordert. Lesen Sie mehr über das Verständnis von Few-Shot, Zero-Shot und Transfer Learning.
  • One-Shot Learning (OSL): Ein spezieller Fall von FSL, bei dem für jede neue Klasse genau ein beschriftetes Beispiel bereitgestellt wird.
  • Transfer-Lernen: Ein umfassenderes Konzept, bei dem das bei einer Aufgabe erworbene Wissen auf eine andere, aber verwandte Aufgabe angewendet wird. ZSL ist eine Form des Transferlernens, konzentriert sich aber speziell auf die Übertragung von Wissen (oft über semantische Attribute), um völlig unbekannte Klassen zu erkennen. Modelle wie Ultralytics YOLOv8 nutzen häufig Transfer Learning aus großen Datensätzen wie COCO für das benutzerdefinierte Training.
  • Selbstüberwachtes Lernen (SSL): SSL-Modelle lernen Repräsentationen aus nicht beschrifteten Daten, indem sie Vorwandaufgaben erstellen (z. B. Vorhersage maskierter Teile einer Eingabe). SSL ist zwar für das Pre-Training nützlich, kann aber ohne zusätzliche Mechanismen, wie sie in ZSL verwendet werden, keine ungesehenen Klassen verarbeiten.

Anwendungen in der realen Welt

ZSL verfügt über ein erhebliches Potenzial in verschiedenen Bereichen:

  1. Computer Vision (CV) - Feinkörnige Objekterkennung: Identifizierung seltener Tier- und Pflanzenarten oder spezifischer Produktmodelle in Bildern, für die es nur wenige Trainingsdaten gibt. Ein System, das auf gewöhnliche Vögel trainiert wurde, könnte beispielsweise eine seltene Art auf der Grundlage einer textlichen Beschreibung ihres Gefieders, ihrer Schnabelform und ihres Lebensraums identifizieren, auch ohne vorherige visuelle Beispiele. Dies erweitert die Möglichkeiten über die standardmäßige Objekterkennung oder Bildklassifizierung hinaus, die nur auf gesehene Klassen trainiert wurde. Modelle wie YOLO-World bauen auf ähnlichen Ideen zur Erkennung von offenem Vokabular auf.
  2. Verarbeitung natürlicher Sprache (NLP) - Identifizierung von Themen und Erkennung von Absichten: Klassifizierung von Dokumenten, E-Mails oder Benutzeranfragen in neue, aufkommende Themen oder Absichten, die im ursprünglichen Trainingsdatensatz nicht vorhanden sind. Ein Chatbot für den Kundensupport könnte beispielsweise eine Anfrage zu einem neu eingeführten Produktmerkmal anhand der Beschreibung des Merkmals kategorisieren, ohne dass explizite Trainingsbeispiele für solche Anfragen benötigt werden. Dies macht sich die Leistungsfähigkeit von Large Language Models (LLMs) wie GPT-4 zunutze.

Herausforderungen und zukünftige Wege

Trotz seiner vielversprechenden Eigenschaften steht ZSL vor Herausforderungen wie dem Hubness-Problem (bei dem einige Punkte im semantischen Raum zu den nächsten Nachbarn vieler Punkte werden) und der Domänenverschiebung (bei der sich die Beziehung zwischen Merkmalen und Attributen zwischen gesehenen und ungesehenen Klassen unterscheidet). Die Forschung erforscht weiterhin robustere semantische Einbettungen, bessere Mapping-Funktionen und Techniken wie Generalized Zero-Shot Learning (GZSL), das darauf abzielt, während der Inferenz sowohl gesehene als auch ungesehene Klassen zu erkennen. Die Entwicklung von Plattformen wie Ultralytics HUB könnte die Integration und den Einsatz von ZSL-Funktionen in praktischen KI-Anwendungen erleichtern. Weitere Fortschritte könnten von multimodalen Modellen inspiriert werden, die Vision und Sprache miteinander verbinden.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert