Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Zero-Shot-Lernen

Entdecken Sie Zero-Shot Learning (ZSL) zum detect classify ohne Trainingsdaten. Erfahren Sie, wie Ultralytics YOLO die Erkennung mit offenem Vokabular in Echtzeit ermöglicht.

Zero-Shot Learning (ZSL) ist ein Paradigma des maschinellen Lernens, das es Modellen der künstlichen Intelligenz ermöglicht, detect zu erkennen, classify oder detect , denen sie während ihrer Trainingsphase noch nie begegnet sind. Beim traditionellen überwachten Lernen benötigt ein Modell Tausende von beschrifteten Beispielen für jede spezifische Kategorie, die es identifizieren soll. ZSL beseitigt diese strenge Abhängigkeit, indem es Hilfsinformationen – in der Regel Textbeschreibungen, semantische Attribute oder Einbettungen– nutzt, um die Lücke zwischen gesehenen und ungesehenen Klassen zu schließen. Diese Fähigkeit ermöglicht es Systemen der künstlichen Intelligenz (KI), wesentlich flexibler und skalierbarer zu sein und dynamische Umgebungen zu bewältigen, in denen es unpraktisch ist, umfassende Daten für jedes mögliche Objekt zu sammeln.

Wie Zero-Shot Learning funktioniert

Der Kernmechanismus von ZSL besteht darin, Wissen von bekannten Konzepten auf unbekannte Konzepte zu übertragen, indem ein gemeinsamer semantischer Raum genutzt wird. Anstatt zu lernen, ein „Zebra” allein durch das Auswendiglernen von Pixelmustern aus schwarzen und weißen Streifen zu erkennen, lernt das Modell die Beziehung zwischen visuellen Merkmalen und semantischen Attributen (z. B. „pferdeähnliche Form”, „gestreiftes Muster”, „vier Beine”), die aus der natürlichen Sprachverarbeitung (NLP) abgeleitet werden.

Dieser Prozess stützt sich häufig auf multimodale Modelle, die Bild- und Textdarstellungen aufeinander abstimmen . Beispielsweise zeigt Grundlagenforschung wie CLIP von OpenAI, wie Modelle visuelle Konzepte aus natürlicher Sprachüberwachung lernen können. Wenn ein ZSL-Modell auf ein unbekanntes Objekt trifft, extrahiert es die visuellen Merkmale und vergleicht sie mit einem Wörterbuch semantischer Vektoren. Wenn die visuellen Merkmale mit der semantischen Beschreibung der neuen Klasse übereinstimmen, kann das Modell classify korrekt classify und so effektiv eine „Zero-Shot”-Vorhersage durchführen. Dieser Ansatz ist grundlegend für moderne Grundlagenmodelle, die sich auf eine Vielzahl von Aufgaben verallgemeinern lassen.

Anwendungsfälle in der Praxis

Zero-Shot Learning treibt Innovationen in verschiedenen Branchen voran, indem es Systemen ermöglicht, über ihre ursprünglichen Trainingsdaten hinaus zu generalisieren.

  1. Objekterkennung mit offenem Vokabular: Moderne Architekturen wie YOLO nutzen ZSL, um detect anhand von benutzerdefinierten Textbefehlen detect . Dies ermöglicht die Objekterkennung in Szenarien, in denen es unmöglich ist, vorab eine feste Liste von Klassen zu definieren, wie beispielsweise bei der Suche nach bestimmten Elementen in umfangreichen Videoarchiven. Forscher bei Google arbeiten weiterhin daran, die Grenzen dieser Fähigkeiten mit offenem Vokabular zu erweitern.
  2. Medizinische Diagnostik: Im Gesundheitswesen ist es oft schwierig und teuer, beschriftete Daten für seltene Krankheiten zu erhalten. ZSL-Modelle können anhand häufiger Erkrankungen und Beschreibungen seltener Symptome aus medizinischer Fachliteratur in Datenbanken wie PubMed trainiert werden, sodass das System potenzielle seltene Anomalien in medizinischen Bildern erkennen kann, ohne dass ein umfangreicher Datensatz mit positiven Fällen erforderlich ist.
  3. Naturschutz: Für die KI in Landwirtschaft und Ökologie ist es entscheidend, gefährdete Arten zu identifizieren, die selten fotografiert werden. Mit ZSL können Naturschützer detect Tiere anhand von attributbasierten Beschreibungen detect , die in biologischen Datenbanken wie der Encyclopedia of Life definiert sind.

Zero-Shot-Erkennung mit Ultralytics

Das Ultralytics YOLO veranschaulicht Zero-Shot Learning in der Praxis. Es ermöglicht Benutzern, benutzerdefinierte Klassen dynamisch zur Laufzeit zu definieren, ohne das Modell neu trainieren zu müssen. Dies wird durch die Verbindung eines robusten Erkennungs-Backbones mit einem Text-Encoder erreicht, der natürliche Sprache versteht.

Das folgende Python zeigt, wie man mit YOLO detect , die nicht explizit Teil eines Standard-Trainingssatzes waren, unter Verwendung der ultralytics Paket.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Abgrenzung zu verwandten Konzepten

Um ZSL vollständig zu verstehen, ist es hilfreich, es von ähnlichen Lernstrategien zu unterscheiden, die in Computer Vision (CV) verwendet werden:

  • Few-Shot Learning (FSL): Während ZSL keine Beispiele der Zielklasse benötigt, stellt FSL dem Modell einen sehr kleinen Support-Satz (in der Regel 1 bis 5 Beispiele) zur Anpassung zur Verfügung. ZSL wird im Allgemeinen als anspruchsvoller angesehen, da es sich vollständig auf semantische Inferenz statt auf visuelle Beispiele stützt.
  • Einmaliges Lernen: Eine Teilmenge von FSL, bei dem das Modell aus genau einem markierten Beispiel lernt. ZSL unterscheidet sich grundlegend, weil es ohne auch nur ein einziges Bild der neuen Kategorie.
  • Transfer-Lernen: Dieser weit gefasste Begriff Begriff bezieht sich auf die Übertragung von Wissen von einer Aufgabe auf eine andere. ZSL ist eine spezielle Art des Transferlernens, die semantische Attribute verwendet, um Wissen auf ungesehene Klassen zu übertragen, ohne dass eine Feinabstimmung auf neue Daten.

Herausforderungen und Zukunftsaussichten

ZSL bietet zwar ein immenses Potenzial, steht jedoch vor Herausforderungen wie dem Domain-Shift-Problem, bei dem die während des Trainings erlernten semantischen Attribute nicht perfekt auf das visuelle Erscheinungsbild unbekannter Klassen abgebildet werden können. Darüber hinaus können ZSL-Modelle unter Verzerrungen leiden, wobei die Vorhersagegenauigkeit für bekannte Klassen deutlich höher ist als für unbekannte.

Forschungsarbeiten von Organisationen wie dem AI Lab der Stanford University und der IEEE Computer Society befassen sich weiterhin mit diesen Einschränkungen. Da Computer-Vision-Tools immer robuster werden, wird erwartet, dass ZSL zu einer Standardfunktion wird, wodurch die Abhängigkeit von umfangreichen Datenkennzeichnungsmaßnahmen verringert wird. Für Teams, die Datensätze vor der Bereitstellung fortschrittlicher Modelle effizient verwalten möchten, bietet Ultralytics umfassende Tools für die Annotation und Datensatzverwaltung.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten