Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Grounding

Entdecken Sie, wie Grounding in KI abstrakte Konzepte mit realen Daten verbindet und so Kontext, Genauigkeit und Vertrauen in dynamischen Anwendungen verbessert.

Erdung ist der Prozess in der Künstliche Intelligenz (KI) der abstrakte Konzepte, typischerweise Wörter oder Phrasen aus der natürlichen Sprache, mit konkreten Repräsentationen in der physischen Welt, z. B. Pixel in einem Bild oder sensorische Daten eines Roboters. Vereinfacht ausgedrückt: Wenn ein Computer den Text Text "eine schlafende Katze" liest, ist die Erdung die Fähigkeit, ein Foto zu betrachten und die spezifische Region zu identifizieren wo sich die Katze befindet. Diese Fähigkeit überbrückt die semantische Lücke zwischen sprachlichen Symbolen und Wahrnehmungsinformationen Informationen, eine Herausforderung, die in der Kognitionswissenschaft als Symbol-Grounding-Problem in der Kognitionswissenschaft bekannt ist. Während während herkömmliche Systeme Text und Bilder getrennt verarbeiten können, ermöglicht die Erdung multimodale KI, die Beziehung zwischen beiden zu verstehen Beziehung zwischen den beiden zu verstehen, was eine intuitivere Mensch-Maschine-Interaktion ermöglicht.

Die Mechanik der Erdung

Auf technischer Ebene beruht die Erdung auf der Angleichung hochdimensionaler Vektorräume. Moderne Modelle nutzen Deep Learning (DL) Architekturen, insbesondere den Transformator, um sowohl Text als auch Bilder in numerische numerische Repräsentationen, sogenannte Einbettungen. Während des lernt das Modell, die Einbettung einer Textphrase (z. B. "rotes Auto") in der Nähe der Einbettung von der visuellen Merkmale, die diesem Objekt entsprechen.

Dieses Verfahren ermöglicht die Erkennung des offenen Vokabulars. Im Gegensatz zur Standard Objekterkennung, die sich auf eine feste Liste Klassen beschränkt ist (wie die 80 Klassen in COCO), können Grounding-Modelle jedes Objekt identifizieren, das durch einen Text Aufforderung beschreiben. Dies geschieht durch Zero-Shot-Lernen, bei dem das Modell Objekte identifiziert, die es während des Trainings noch nie explizit gesehen hat, indem es einfach die Sprache versteht die sie beschreibt. Die Forschung von Organisationen wie OpenAI zu CLIP legte den Grundstein für die Angleichung dieser visuellen und textuellen Darstellungen.

Anwendungsfälle in der Praxis

Die Erdung verändert die Art und Weise, wie Maschinen die Absicht des Benutzers interpretieren und mit ihrer Umgebung interagieren.

  • Robotik und autonome Agenten: Auf dem Gebiet der KI in der Robotik ist eine Grundausbildung für die die Ausführung von Befehlen in natürlicher Sprache. Wenn ein Benutzer einem Serviceroboter sagt, er solle "den Apfel neben der Tasse aufheben Becher" aufheben soll, muss der Roboter die Wörter "Apfel", "Becher" und die räumliche Beziehung "neben" auf bestimmte physische Koordinaten in seiner Kameraführung beziehen. Dies ermöglicht die dynamische Ausführung von Aufgaben in unstrukturierten Umgebungen, einem Schwerpunkt der Robotikforschung am IEEE.
  • Semantische Suche und Retrieval: Grundlegende Befugnisse für fortgeschrittene semantische Suchmaschinen. Anstatt nach Schlüsselwörtern kann ein System eine Videodatenbank nach komplexen Abfragen durchsuchen, z. B. "ein Radfahrer, der bei Sonnenuntergang links abbiegt Sonnenuntergang". Die Maschine bezieht die Abfrage in den visuellen Inhalt der Videodateien ein, um präzise Zeitstempel abzurufen. Zeitstempel. Diese Technologie verbessert die Werkzeuge für Videoverständnis und die Verwaltung digitaler Verwaltung.

Erdung mit Ultralytics YOLO

Die ultralytics Paket unterstützt die Erdung durch den YOLO Modell. Dieses Modell ermöglicht es den Nutzern, benutzerdefinierte Klassen mit Hilfe von Textaufforderungen zu definieren und den Text effektiv mit dem Bild zu Bild ohne erneutes Training.

Das folgende Beispiel zeigt, wie man ein vorab trainiertes Modell lädt und benutzerdefinierte Prompts zur detect bestimmter Objekte:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Unterscheidung zwischen Erdung und verwandten Konzepten

Um das Grounding zu verstehen, ist es hilfreich, es von ähnlichen Computer-Vision-Aufgaben abzugrenzen:

  • vs. Objekterkennung: Die Standard-Erkennung, wie sie zum Beispiel von YOLO11durchgeführt wird, identifiziert Objekte aus einer geschlossenen Gruppe von Kategorien (z. B. 'Person', 'Auto'). Grounding ist ergebnisoffen und kann Objekte auf der Grundlage von Freitextbeschreibungen detect , die nicht die in den Trainingsdaten nicht vorhanden sind.
  • vs. Bildbeschriftung: Bildbeschriftung erzeugt eine Textbeschreibung aus einem Bild (Bild $\zu$ Text). Grounding funktioniert in der Regel in umgekehrter oder bidirektionaler Richtung, wobei visuelle Elemente basierend auf einer Texteingabe (Text $\zu$ Bildbereich).
  • vs. Semantische Segmentierung: Während semantische Segmentierung jedes Pixel in eine Kategorie einordnet, verknüpft sie diese Pixel nicht von Natur aus mit bestimmten sprachlichen Ausdrücken oder eindeutigen Instanzen die durch komplexe Attribute definiert sind (z. B. "der glänzende rote Apfel" im Gegensatz zu "Apfel").

Aktuelle Herausforderungen

Trotz Fortschritten ist das Grounding nach wie vor sehr rechenintensiv. Der Abgleich von massiven Sprachmodellen mit Bildverarbeitungs Encodern erfordert erhebliche GPU . Außerdem haben Modelle mit Mehrdeutigkeit zu kämpfen; der Ausdruck "die Bank" könnte sich auf ein Flussufer oder ein Finanzinstitut beziehen, die KI muss sich auf Kontextfenster verlassen, um die um die richtige visuelle Zuordnung zu finden.

Die Gewährleistung eines effizienten Betriebs dieser Modelle für Echtzeit-Inferenz ist ein laufender Bereich der Entwicklung. Die Forscher befassen sich auch mit Datenverzerrungen, um sicherzustellen, dass die Grundmodelle über verschiedene Kulturen und Kontexte hinweg verallgemeinern, ein Thema, das häufig in der Ethik in der KI-Literatur diskutiert wird.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten