Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Zero-Shot-Lernen

Entdecken Sie Zero-Shot Learning: ein innovativer KI-Ansatz, der es Modellen ermöglicht, ungesehene Daten classify und damit die Objekterkennung, NLP und vieles mehr zu revolutionieren.

Zero-Shot Learning (ZSL) ist ein leistungsstarkes Paradigma im maschinellen Lernens (ML), das es künstlichen Modelle der künstlichen Intelligenz in die Lage versetzt, Objekte zu erkennen, classify oder zu detect , denen sie in der Phase der Trainingsdaten. Beim traditionellen überwachtem Lernen muss ein Modell auf Tausenden von Tausende von beschrifteten Bildern für jede spezifische Kategorie trainiert werden, die es identifizieren muss. ZSL beseitigt diese Einschränkung durch Zusatzinformationen - in der Regel Textbeschreibungen, Attribute oder semantische Einbettungen - genutzt werden Einbettungen, umdie Lücke zwischen gesehenen und ungesehenen Klassen. Diese Fähigkeit ermöglicht es Künstliche Intelligenz (KI) Systeme können wesentlich flexibler, skalierbarer und in der Lage, mit dynamischen Umgebungen umzugehen, in denen eine umfassende Datenerfassung Daten für jedes mögliche Objekt unpraktisch ist.

Wie Zero-Shot Learning funktioniert

Der Kernmechanismus von ZSL besteht darin, Wissen von bekannten Konzepten auf unbekannte Konzepte zu übertragen, wobei ein gemeinsamer semantischen Raum. Anstatt zu lernen, eine "Katze" allein durch das Auswendiglernen von Pixelmustern zu erkennen, lernt das Modell lernt das Modell die Beziehung zwischen visuellen Merkmalen und semantischen Attributen (z. B. "pelzig", "Schnurrhaare "Schnurrhaare", "vier Beine"), die aus der Verarbeitung natürlicher Sprache (NLP).

Dieser Prozess stützt sich häufig auf multimodale Modelle, die Bild- und Textdarstellungen aneinander Repräsentationen abgleichen. Grundlegende Forschungsarbeiten wie zum Beispiel OpenAI's CLIP zeigt, wie Modelle visuelle Konzepte aus der natürlichen natürlicher Sprache lernen können. Wenn ein ZSL-Modell auf ein ungesehenes Objekt stößt, wie z. B. eine seltene Vogelart, extrahiert es die visuellen Merkmale und vergleicht sie mit einem Wörterbuch semantischer Vektoren. Wenn die visuellen Merkmale mit der semantischen Beschreibung der neuen Klasse übereinstimmen, kann das Modell die Klasse korrekt classify und damit eine Vorhersage "zum Nulltarif".

Abgrenzung zu verwandten Konzepten

Um ZSL vollständig zu verstehen, ist es hilfreich, es von ähnlichen Lernstrategien zu unterscheiden, die in Computer Vision (CV) verwendet werden:

  • Few-Shot Learning (FSL): Während ZSL keine Beispiele der Zielklasse benötigt, bietet FSL dem Modell eine sehr kleine Unterstützungsmenge (typischerweise 1 bis 5 Beispiele) zur Anpassung. ZSL ist eine größere Herausforderung, da es sich vollständig auf semantische Inferenz und nicht auf als auf visuelle Beispiele.
  • Einmaliges Lernen: Eine Teilmenge von FSL, bei dem das Modell aus genau einem markierten Beispiel lernt. ZSL unterscheidet sich grundlegend, weil es ohne auch nur ein einziges Bild der neuen Kategorie.
  • Transfer-Lernen: Dieser weit gefasste Begriff Begriff bezieht sich auf die Übertragung von Wissen von einer Aufgabe auf eine andere. ZSL ist eine spezielle Art des Transferlernens, die semantische Attribute verwendet, um Wissen auf ungesehene Klassen zu übertragen, ohne dass eine Feinabstimmung auf neue Daten.

Anwendungsfälle in der Praxis

Zero-Shot Learning treibt die Innovation in verschiedenen Branchen voran, indem es Systeme in die Lage versetzt, über ihre ursprüngliche Ausbildung hinaus zu verallgemeinern. Ausbildung hinaus.

  1. Erkennung von Objekten mit offenem Vokabular: Moderne Architekturen wie YOLO nutzen ZSL zur detect Objekten anhand von benutzerdefinierten Textaufforderungen. Dies ermöglicht die Objekterkennung in Szenarien, in denen die Definition einer in denen die vorherige Definition einer festen Klassenliste unmöglich ist, wie z. B. die Suche nach bestimmten Objekten in umfangreichen Videoarchiven. Forscher bei Google Research und anderen Einrichtungen sind aktiv dabei diese Fähigkeiten des offenen Vokabulars zu verbessern.
  2. Medizinische Diagnostik: Unter KI im Gesundheitswesen ist es schwierig, beschriftete Daten für seltene Krankheiten zu erhalten, ist schwierig und teuer. ZSL-Modelle können auf häufige Erkrankungen und Beschreibungen seltener Symptome aus medizinischen Lehrbüchern (z. B. PubMed-Artikel ) trainiert werden. System in die Lage versetzt, potenzielle seltene Anomalien in Röntgenbildern oder MRT-Scans zu erkennen, ohne dass ein riesiger Datensatz mit positiven Fälle.
  3. Schutz der Wildtiere: Für AI in Landwirtschaft und Ökologie ist die Identifizierung gefährdeter Arten, die selten fotografiert werden, von entscheidender Bedeutung. ZSL ermöglicht es Naturschützern, diese Tiere detect anhand attributbasierter Beschreibungen (z. B. bestimmte Fellmuster oder Hornformen), die in biologischen Datenbanken wie Enzyklopädie des Lebens.

Zero-Shot-Erkennung mit Ultralytics

Das Ultralytics YOLO ist ein Beispiel für Zero-Shot Lernen in Aktion. Es ermöglicht den Benutzern, benutzerdefinierte Klassen dynamisch zur Laufzeit zu definieren, ohne das Modell neu zu trainieren. Dieses wird erreicht durch die Verbindung der YOLO11 Erkennungs-Backbone mit einem einem CLIP-basierten Text-Encoder.

Das folgende Python zeigt, wie YOLO verwendet werden kann, um Objekte detect , die nicht Teil eines Standard COCO sind, wie z.B. bestimmte Farben von Kleidung, unter Verwendung der ultralytics Paket.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Herausforderungen und Zukunftsaussichten

ZSL bietet zwar ein immenses Potenzial, steht aber auch vor Herausforderungen wie dem Problem der Domänenverschiebung, bei dem die semantischen Attribute, die während des Trainings erlernt wurden, nicht perfekt auf das visuelle Erscheinungsbild der ungesehenen Klassen abgestimmt sind. Außerdem können ZSL-Modelle unter Verzerrungen leiden, bei denen die Vorhersagegenauigkeit für gesehenen Klassen deutlich höher ist als für ungesehene (Generalized Zero-Shot Learning).

Die Forschung von Organisationen wie dem AI Lab der Stanford University und der IEEE Computer Society befassen sich weiterhin mit diesen Einschränkungen. Da Grundlagenmodelle robuster werden, wird ZSL voraussichtlich zu einer Standardfunktion in Computer-Vision-Tools werden, wodurch die Abhängigkeit von massiven Datenbeschriftung reduzieren und den Zugang zu fortschrittlichen fortgeschrittenen KI-Fähigkeiten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten