Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Grounding

Explore how grounding connects natural language to visual data. Learn about open-vocabulary detection and how to implement it using [YOLO26](https://docs.ultralytics.com/models/yolo26/) and YOLO-World for real-time [multimodal AI](https://www.ultralytics.com/glossary/multimodal-ai) applications.

Grounding bezeichnet die Fähigkeit eines künstlichen Intelligenzsystems, abstrakte Konzepte – in der Regel aus der natürlichen Sprache abgeleitet – mit spezifischen, konkreten Darstellungen in der physischen Welt, wie visuellen Daten oder sensorischen Eingaben, zu verbinden. Im Zusammenhang mit Computer Vision bedeutet dies, dass ein Modell nicht einfach nur Text verarbeitet, sondern eine Phrase wie „eine Person, die mit einem Hund spazieren geht“ analysieren und diese Entitäten innerhalb eines Bildes oder Video-Feeds präzise lokalisieren kann. Dieser Prozess überbrückt die Kluft zwischen symbolischem Denken und Wahrnehmung auf Pixelebene und löst damit das grundlegende Problem der Symbol-Grounding in der Kognitionswissenschaft. Durch die Verknüpfung von linguistischen Tokens mit visuellen Merkmalen dient Grounding als Eckpfeiler der modernen multimodalen KI und ermöglicht Maschinen eine intuitivere Interaktion mit dynamischen menschlichen Umgebungen.

Die Mechanik der Erdung

Auf technischer Ebene umfasst die Grundierung die Ausrichtung von Daten aus verschiedenen Modalitäten in einem gemeinsamen hochdimensionalen Vektorraum . Fortschrittliche Architekturen, die häufig auf dem Transformer-Framework basieren, das in der natürlichen Sprachverarbeitung (NLP) verwendet wird, generieren numerische Darstellungen, die als Einbettungen sowohl für Textbeschreibungen als auch für visuelle Eingaben bekannt sind. Während des Trainings lernt das Modell, den Abstand zwischen der Einbettung einer Textanweisung (z. B. „blauer Rucksack”) und der Einbettung des entsprechenden visuellen Bereichs zu minimieren.

Diese Ausrichtung ermöglicht die Erkennung mit offenem Vokabular. Im Gegensatz zum traditionellen überwachten Lernen, bei dem ein Modell auf einen festen Satz von Kategorien beschränkt ist, ermöglicht Grounding das Zero-Shot-Lernen. Ein geerdetes Modell kann Objekte identifizieren, die es während des Trainings nie explizit gesehen hat, vorausgesetzt, es versteht die Sprache, die sie beschreibt. Diese Flexibilität wird durch Deep-Learning-Frameworks wie PyTorch, die die komplexen Matrixoperationen erleichtern, die für diese multimodalen Alignments erforderlich sind.

Anwendungsfälle in der Praxis

Die Grounding-Technologie verändert die Industrie, indem sie es Systemen ermöglicht, die Absichten der Nutzer zu interpretieren und sich effektiv in unstrukturierten Umgebungen zu bewegen.

  • KI in der Robotik: Die Verankerung ist für autonome Agenten, die verbale Anweisungen ausführen, unerlässlich. Wenn ein Lagerroboter die Anweisung erhält, „das Paket auf dem obersten Regal zu holen“, muss er die Begriffe „Paket“ und „oberstes Regal“ an bestimmte 3D-Koordinaten in seinem Sichtfeld verankern. Diese Fähigkeit ist ein Schwerpunkt der Roboterkforschung am MIT CSAIL, die es Robotern ermöglicht, sicher neben Menschen zu arbeiten.
  • Semantische Suche und Medienabruf: Grounding ermöglicht fortschrittliche Suchmaschinen, die über die Keyword-Suche hinausgehen. Benutzer können Videoarchive mit komplexen Beschreibungen wie „ein Radfahrer, der bei Sonnenuntergang nach links abbiegt” abfragen, und das System nutzt Grounding, um bestimmte Zeitstempel abzurufen. Dies verbessert das Verständnis von Videos für die Sicherheit und das Medienmanagement erheblich.
  • Assistive Technologie: Für sehbehinderte Nutzer ermöglicht Grounding Anwendungen, die Umgebung in Echtzeit zu beschreiben oder Fragen zur Umgebung zu beantworten, wobei sie sich auf eine robuste Bilderkennung in Verbindung mit Sprachgenerierung stützen.

Erdung mit Ultralytics YOLO

Das Ultralytics unterstützt die Verankerung durch spezialisierte Architekturen wie YOLO. Während Standardmodelle ein Training mit bestimmten Datensätzen erfordern, können Benutzer YOLO benutzerdefinierte Erkennungsklassen sofort mithilfe von Textprompts definieren. Dadurch wird die natürliche Spracheingabe effektiv auf dem Bild „verankert”, ohne dass ein erneutes Training erforderlich ist.

Das folgende Beispiel zeigt, wie man die ultralytics Paket zum detect anhand benutzerdefinierter Textbeschreibungen:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Unterscheidung zwischen Erdung und verwandten Konzepten

Um den Nutzen der Erdung voll und ganz zu verstehen, ist es hilfreich, sie von ähnlichen Aufgaben der Computervision zu unterscheiden:

  • vs. Objekterkennung: Herkömmliche Erkennungsmodelle, wie das hochmoderne YOLO26, identifizieren Objekte aus einer geschlossenen, vordefinierten Reihe von Kategorien (z. B. die 80 Klassen in COCO). Die Verankerung ist offen und identifiziert Objekte anhand von Freitext.
  • vs. Bildbeschriftung: Bei der Beschriftung wird ein beschreibender Satz für ein gesamtes Bild generiert (Bild $\to$ Text). Die Verankerung funktioniert in der Regel in umgekehrter Richtung oder bidirektional, wobei bestimmte visuelle Elemente auf der Grundlage von Texteingaben lokalisiert werden (Text $\to$ Bildbereich).
  • vs. Visuelle Beantwortung von Fragen (VQA): Bei VQA geht es darum, eine bestimmte Frage zu einem Bild zu beantworten (z. B. „Welche Farbe hat das Auto?“). Grounding konzentriert sich speziell auf den Lokalisierungsschritt – das Zeichnen eines Begrenzungsrahmens um das erwähnte Objekt.

Herausforderungen und Zukunftsaussichten

Trotz der Fortschritte bleibt die Erdung rechnerisch aufwendig. Die Ausrichtung massiver Sprachmodelle mit Vision-Encodern erfordert erhebliche GPU und ein effizientes Speichermanagement , eine Herausforderung, die häufig von Hardware-Innovatoren wie NVIDIAbewältigt wird. Darüber hinaus können Modelle mit sprachlicher Mehrdeutigkeit zu kämpfen haben und benötigen große Kontextfenster, um zu klären, ob sich das Wort „Fledermaus” auf ein Sportgerät oder ein Tier bezieht.

Zukünftige Entwicklungen gehen in Richtung einheitlicher Fundamentmodelle, die von Haus aus multimodal sind. Tools wie die Ultralytics werden weiterentwickelt, um Entwicklern bei der Verwaltung der für diese Aufgaben erforderlichen komplexen Datensätze zu helfen, und bieten optimierte Workflows für die Datenannotation und Modellbereitstellung. Mit der Weiterentwicklung dieser Technologien können wir eine nahtlose Integration der Grundierung in Edge-Geräte erwarten, was intelligentere und reaktionsschnellere KI-Anwendungen ermöglicht.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten