Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Zero-Shot-Lernen

Entdecken Sie Zero-Shot Learning: ein innovativer KI-Ansatz, der es Modellen ermöglicht, ungesehene Daten classify und damit die Objekterkennung, NLP und vieles mehr zu revolutionieren.

Zero-Shot Learning (ZSL) ist ein leistungsstarkes Paradigma des maschinellen Lernens, das es Modellen der künstlichen Intelligenz ermöglicht, detect zu erkennen, classify oder detect , denen sie während ihrer Trainingsphase noch nie begegnet sind. Beim traditionellen überwachten Lernen muss ein Modell mit Tausenden von beschrifteten Bildern für jede spezifische Kategorie, die es identifizieren soll, trainiert werden. ZSL beseitigt diese strenge Anforderung durch die Nutzung von Zusatzinformationen – in der Regel Textbeschreibungen, semantische Attribute oder Einbettungen–, um die Lücke zwischen gesehenen und ungesehenen Klassen zu schließen. Diese Fähigkeit ermöglicht es Systemen der künstlichen Intelligenz (KI), wesentlich flexibler und skalierbarer zu sein und dynamische Umgebungen zu bewältigen, in denen es unpraktisch oder unmöglich ist, umfassende Daten für jedes mögliche Objekt zu sammeln.

Wie Zero-Shot Learning funktioniert

Der Kernmechanismus von ZSL besteht darin, Wissen von bekannten Konzepten auf unbekannte Konzepte zu übertragen, wobei ein gemeinsamer semantischen Raum. Anstatt zu lernen, eine "Katze" allein durch das Auswendiglernen von Pixelmustern zu erkennen, lernt das Modell lernt das Modell die Beziehung zwischen visuellen Merkmalen und semantischen Attributen (z. B. "pelzig", "Schnurrhaare "Schnurrhaare", "vier Beine"), die aus der Verarbeitung natürlicher Sprache (NLP).

Dieser Prozess stützt sich häufig auf multimodale Modelle, die Bild- und Textdarstellungen aneinander Repräsentationen abgleichen. Grundlegende Forschungsarbeiten wie zum Beispiel OpenAI's CLIP zeigt, wie Modelle visuelle Konzepte aus der natürlichen natürlicher Sprache lernen können. Wenn ein ZSL-Modell auf ein ungesehenes Objekt stößt, wie z. B. eine seltene Vogelart, extrahiert es die visuellen Merkmale und vergleicht sie mit einem Wörterbuch semantischer Vektoren. Wenn die visuellen Merkmale mit der semantischen Beschreibung der neuen Klasse übereinstimmen, kann das Modell die Klasse korrekt classify und damit eine Vorhersage "zum Nulltarif".

Abgrenzung zu verwandten Konzepten

Um ZSL vollständig zu verstehen, ist es hilfreich, es von ähnlichen Lernstrategien zu unterscheiden, die in Computer Vision (CV) verwendet werden:

  • Few-Shot Learning (FSL): Während ZSL keine Beispiele der Zielklasse benötigt, stellt FSL dem Modell einen sehr kleinen Support-Satz (in der Regel 1 bis 5 Beispiele) zur Anpassung zur Verfügung. ZSL wird im Allgemeinen als anspruchsvoller angesehen, da es sich vollständig auf semantische Inferenz statt auf visuelle Beispiele stützt.
  • Einmaliges Lernen: Eine Teilmenge von FSL, bei dem das Modell aus genau einem markierten Beispiel lernt. ZSL unterscheidet sich grundlegend, weil es ohne auch nur ein einziges Bild der neuen Kategorie.
  • Transfer-Lernen: Dieser weit gefasste Begriff Begriff bezieht sich auf die Übertragung von Wissen von einer Aufgabe auf eine andere. ZSL ist eine spezielle Art des Transferlernens, die semantische Attribute verwendet, um Wissen auf ungesehene Klassen zu übertragen, ohne dass eine Feinabstimmung auf neue Daten.

Anwendungsfälle in der Praxis

Zero-Shot Learning treibt Innovationen in verschiedenen Branchen voran, indem es Systemen ermöglicht, über ihre ursprünglichen Trainingsdaten hinaus zu generalisieren.

  1. Erkennung von Objekten mit offenem Vokabular: Moderne Architekturen wie YOLO nutzen ZSL zur detect Objekten anhand von benutzerdefinierten Textaufforderungen. Dies ermöglicht die Objekterkennung in Szenarien, in denen die Definition einer in denen die vorherige Definition einer festen Klassenliste unmöglich ist, wie z. B. die Suche nach bestimmten Objekten in umfangreichen Videoarchiven. Forscher bei Google Research und anderen Einrichtungen sind aktiv dabei diese Fähigkeiten des offenen Vokabulars zu verbessern.
  2. Medizinische Diagnostik: Unter KI im Gesundheitswesen ist es schwierig, beschriftete Daten für seltene Krankheiten zu erhalten, ist schwierig und teuer. ZSL-Modelle können auf häufige Erkrankungen und Beschreibungen seltener Symptome aus medizinischen Lehrbüchern (z. B. PubMed-Artikel ) trainiert werden. System in die Lage versetzt, potenzielle seltene Anomalien in Röntgenbildern oder MRT-Scans zu erkennen, ohne dass ein riesiger Datensatz mit positiven Fälle.
  3. Naturschutz: Für die KI in Landwirtschaft und Ökologie ist es entscheidend, vom Aussterben bedrohte Arten zu identifizieren, die selten fotografiert werden. Mit ZSL können Naturschützer detect Tiere anhand von attributbasierten Beschreibungen (z. B. spezifische Fellmuster oder Hornformen) detect , die in biologischen Datenbanken wie der Encyclopedia of Life definiert sind.

Zero-Shot-Erkennung mit Ultralytics

Das Ultralytics YOLO veranschaulicht Zero-Shot Learning in der Praxis. Es ermöglicht Benutzern, benutzerdefinierte Klassen dynamisch zur Laufzeit zu definieren, ohne das Modell neu trainieren zu müssen. Dies wird durch die Verbindung eines robusten Erkennungs-Backbones mit einem Text-Encoder erreicht, der natürliche Sprache versteht.

Das folgende Python zeigt, wie man mit YOLO detect , die nicht explizit Teil eines Standard-Trainingssatzes waren, wie bestimmte Kleidungsfarben oder einzigartige Accessoires, unter Verwendung der ultralytics Paket.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions without retraining
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
# Ensure you have a valid image path or URL
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Herausforderungen und Zukunftsaussichten

ZSL bietet zwar ein immenses Potenzial, steht aber auch vor Herausforderungen wie dem Problem der Domänenverschiebung, bei dem die semantischen Attribute, die während des Trainings erlernt wurden, nicht perfekt auf das visuelle Erscheinungsbild der ungesehenen Klassen abgestimmt sind. Außerdem können ZSL-Modelle unter Verzerrungen leiden, bei denen die Vorhersagegenauigkeit für gesehenen Klassen deutlich höher ist als für ungesehene (Generalized Zero-Shot Learning).

Die Forschung von Organisationen wie dem AI Lab der Stanford University und der IEEE Computer Society befassen sich weiterhin mit diesen Einschränkungen. Da Grundlagenmodelle robuster werden, wird ZSL voraussichtlich zu einer Standardfunktion in Computer-Vision-Tools werden, wodurch die Abhängigkeit von massiven Datenbeschriftung reduzieren und den Zugang zu fortschrittlichen fortgeschrittenen KI-Fähigkeiten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten