Glossar

Zero-Shot Learning

Entdecken Sie Zero-Shot Learning: ein innovativer KI-Ansatz, der es Modellen ermöglicht, ungesehene Daten zu klassifizieren und damit die Objekterkennung, NLP und vieles mehr zu revolutionieren.

Zero-Shot Learning (ZSL) ist eine faszinierende Fähigkeit des maschinellen Lernens (ML), bei der ein Modell Objekte aus Kategorien erkennen und klassifizieren kann, die es während seiner Trainingsdatenphase noch nie gesehen hat. Im Gegensatz zum traditionellen überwachten Lernen, das explizite Beispiele für jede mögliche Klasse erfordert, ermöglicht ZSL einem Modell, sein Wissen auf neue, ungesehene Klassen zu verallgemeinern. Dies wird erreicht, indem beobachtete und unbeobachtete Klassen durch semantische Beschreibungen auf hoher Ebene, wie z. B. Attribute oder Texteinbettungen, verknüpft werden. Auf diese Weise wird ein KI-Modell flexibler und skalierbarer, insbesondere in realen Szenarien, in denen das Sammeln umfassender etikettierter Daten unpraktisch ist.

Wie funktioniert es?

Die Kernidee hinter ZSL ist die Schaffung eines gemeinsamen Einbettungsraums, in dem sowohl visuelle Merkmale aus Bildern als auch semantische Informationen aus Texten dargestellt werden können. Während des Trainings lernt das Modell, Bilder von gesehenen Klassen auf ihre entsprechenden semantischen Vektoren (Attribute oder Worteinbettungen) abzubilden. Zum Beispiel lernt das Modell die visuellen Merkmale eines "Pferdes" und verknüpft sie mit einer semantischen Beschreibung wie "hat vier Beine", "ist ein Säugetier" und "kann geritten werden".

Wird dem Modell ein Bild einer unbekannten Klasse, z. B. eines "Zebras", vorgelegt, extrahiert es dessen visuelle Merkmale. Gleichzeitig verwendet es die semantische Beschreibung eines "Zebras" - z. B. "ist pferdeähnlich", "hat Streifen" -, um es im Einbettungsraum zu lokalisieren. Indem es die semantische Beschreibung findet, die den extrahierten visuellen Merkmalen am nächsten kommt, kann das Modell das Bild korrekt als "Zebra" klassifizieren, auch ohne ein einziges Trainingsbild eines solchen. Dieser Prozess stützt sich häufig auf leistungsstarke, vorab trainierte multimodale Modelle wie CLIP von OpenAI, die sich durch die Verbindung von Sehen und Sprache auszeichnen.

Zero-Shot Learning im Vergleich. Andere Paradigmen

Es ist wichtig, ZSL von verwandten Lerntechniken zu unterscheiden:

  • Few-Shot Learning (FSL): Bei FSL wird das Modell mit einer sehr kleinen Anzahl von markierten Beispielen (z.B. 1 bis 5) für jede neue Klasse trainiert. Dies unterscheidet sich von ZSL, das mit null Beispielen für die Zielklasse arbeitet.
  • Einmaliges Lernen (OSL): Eine Unterart von FSL, bei der das Modell genau ein Beispiel für eine neue Klasse erhält. Es ist datenbeschränkter als allgemeines FSL, erfordert aber im Gegensatz zu ZSL immer noch mindestens eine Probe.
  • Lernen übertragen: ZSL ist eine Form des Transferlernens, aber es ist einzigartig. Während beim Standard-Transfer-Lernen in der Regel ein zuvor trainiertes Modell auf einem neuen (kleineren) markierten Datensatz feinabgestimmt wird, überträgt ZSL das Wissen auf neue Klassen, wobei nur semantische Zusatzinformationen verwendet werden und keine markierten Beispiele für diese Klassen erforderlich sind.

Anwendungen in der realen Welt

ZSL hat zahlreiche praktische Anwendungen und macht Computer-Vision-Systeme dynamischer und anpassungsfähiger.

  1. Objekt-Erkennung mit offenem Vokabular: Modelle wie YOLO-World nutzen ZSL, um jedes durch Text beschriebene Objekt zu erkennen. Ein Benutzer kann Texteingaben wie "Person mit blauem Hemd" oder "undichtes Rohr" machen, und das Modell kann diese Objekte in einem Bild oder Videostrom lokalisieren, ohne explizit auf diese spezifischen Kategorien trainiert zu sein. Dies ist ein wichtiger Schritt auf dem Weg zu wirklich universell einsetzbaren Bildverarbeitungssystemen.
  2. Autonome Identifizierung von Arten: Im Rahmen der künstlichen Intelligenz für den Schutz von Wildtieren kann ZSL seltene oder neu entdeckte Arten identifizieren. Ein Modell, das auf gewöhnliche Tiere trainiert wurde, kann beschreibende Attribute (z. B. "hat einen langen Hals", "ist gefleckt", "ist ein Pflanzenfresser") aus einer Wissensdatenbank wie Wikipedia verwenden, um eine Giraffe zu identifizieren, selbst wenn in der ursprünglichen Trainingsmenge keine Giraffenbilder enthalten waren.

Herausforderungen und zukünftige Wege

Trotz seines Potenzials steht ZSL vor Herausforderungen wie dem Hubness-Problem (bei dem einige Punkte im semantischen Raum die nächsten Nachbarn von zu vielen Punkten werden) und der Domänenverschiebung (bei der sich die Beziehungen zwischen Merkmalen und Attributen zwischen gesehenen und ungesehenen Klassen unterscheiden). Um diese Probleme zu lösen, entwickeln Forscher robustere Techniken wie Generalized Zero-Shot Learning (GZSL), bei dem das Modell während der Inferenz sowohl gesehene als auch ungesehene Klassen erkennen muss. Die Entwicklung von Basismodellen und Plattformen wie Ultralytics HUB wird die Integration und den Einsatz von ZSL weiter vereinfachen, so dass KI-Systeme weniger von einer umfangreichen Datenbeschriftung abhängig sind und sich stärker an der menschlichen Denkweise orientieren.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert