Entdecken Sie, wie Grounding in KI abstrakte Konzepte mit realen Daten verbindet und so Kontext, Genauigkeit und Vertrauen in dynamischen Anwendungen verbessert.
Erdung ist der Prozess in der Künstliche Intelligenz (KI) der abstrakte Konzepte, typischerweise Wörter oder Phrasen aus der natürlichen Sprache, mit konkreten Repräsentationen in der physischen Welt, z. B. Pixel in einem Bild oder sensorische Daten eines Roboters. Vereinfacht ausgedrückt: Wenn ein Computer den Text Text "eine schlafende Katze" liest, ist die Erdung die Fähigkeit, ein Foto zu betrachten und die spezifische Region zu identifizieren wo sich die Katze befindet. Diese Fähigkeit überbrückt die semantische Lücke zwischen sprachlichen Symbolen und Wahrnehmungsinformationen Informationen, eine Herausforderung, die in der Kognitionswissenschaft als Symbol-Grounding-Problem in der Kognitionswissenschaft bekannt ist. Während während herkömmliche Systeme Text und Bilder getrennt verarbeiten können, ermöglicht die Erdung multimodale KI, die Beziehung zwischen beiden zu verstehen Beziehung zwischen den beiden zu verstehen, was eine intuitivere Mensch-Maschine-Interaktion ermöglicht.
Auf technischer Ebene beruht die Erdung auf der Angleichung hochdimensionaler Vektorräume. Moderne Modelle nutzen Deep Learning (DL) Architekturen, insbesondere den Transformator, um sowohl Text als auch Bilder in numerische numerische Repräsentationen, sogenannte Einbettungen. Während des lernt das Modell, die Einbettung einer Textphrase (z. B. "rotes Auto") in der Nähe der Einbettung von der visuellen Merkmale, die diesem Objekt entsprechen.
Dieses Verfahren ermöglicht die Erkennung des offenen Vokabulars. Im Gegensatz zur Standard Objekterkennung, die sich auf eine feste Liste Klassen beschränkt ist (wie die 80 Klassen in COCO), können Grounding-Modelle jedes Objekt identifizieren, das durch einen Text Aufforderung beschreiben. Dies geschieht durch Zero-Shot-Lernen, bei dem das Modell Objekte identifiziert, die es während des Trainings noch nie explizit gesehen hat, indem es einfach die Sprache versteht die sie beschreibt. Die Forschung von Organisationen wie OpenAI zu CLIP legte den Grundstein für die Angleichung dieser visuellen und textuellen Darstellungen.
Die Erdung verändert die Art und Weise, wie Maschinen die Absicht des Benutzers interpretieren und mit ihrer Umgebung interagieren.
Die ultralytics Paket unterstützt die Erdung durch den YOLO Modell. Dieses Modell
ermöglicht es den Nutzern, benutzerdefinierte Klassen mit Hilfe von Textaufforderungen zu definieren und den Text effektiv mit dem Bild zu
Bild ohne erneutes Training.
Das folgende Beispiel zeigt, wie man ein vorab trainiertes Modell lädt und benutzerdefinierte Prompts zur detect bestimmter Objekte:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Um das Grounding zu verstehen, ist es hilfreich, es von ähnlichen Computer-Vision-Aufgaben abzugrenzen:
Trotz Fortschritten ist das Grounding nach wie vor sehr rechenintensiv. Der Abgleich von massiven Sprachmodellen mit Bildverarbeitungs Encodern erfordert erhebliche GPU . Außerdem haben Modelle mit Mehrdeutigkeit zu kämpfen; der Ausdruck "die Bank" könnte sich auf ein Flussufer oder ein Finanzinstitut beziehen, die KI muss sich auf Kontextfenster verlassen, um die um die richtige visuelle Zuordnung zu finden.
Die Gewährleistung eines effizienten Betriebs dieser Modelle für Echtzeit-Inferenz ist ein laufender Bereich der Entwicklung. Die Forscher befassen sich auch mit Datenverzerrungen, um sicherzustellen, dass die Grundmodelle über verschiedene Kulturen und Kontexte hinweg verallgemeinern, ein Thema, das häufig in der Ethik in der KI-Literatur diskutiert wird.