Entdecken Sie Multimodal RAG zur Verarbeitung von Text, Bildern und Videos. Erfahren Sie, wie Ultralytics KI-Retrieval-Pipelines für genauere, kontextbezogene Antworten verbessert.
Multimodal Retrieval Augmented Generation (Multimodal RAG) ist ein fortschrittliches Framework für künstliche Intelligenz (KI) , das herkömmliche RAG-Systeme erweitert, um verschiedene Datentypen wie Text, Bilder, Videos und Audio zu verarbeiten und zu analysieren. Während das standardmäßige Retrieval Augmented Generation (RAG) die Genauigkeit eines Large Language Model (LLM) durch das Abrufen relevanter Textdokumente verbessert, ermöglicht Multimodal RAG Modellen das „Sehen” und „Hören”, indem es Kontext aus einer gemischten Medien-Wissensbasis abruft. Dieser Ansatz stützt die Generierung des Modells auf konkrete visuelle oder auditive Beweise, wodurch Halluzinationen in LLMs deutlich reduziert und komplexe Aufgaben wie die visuelle Beantwortung von Fragen über private Datensätze ermöglicht. Durch die Nutzung multimodalen Lernens können diese Systeme Informationen aus der Anfrage eines Benutzers (z. B. Text) und den abgerufenen Assets (z. B. einem Diagramm oder einem Überwachungsbild) synthetisieren, um umfassende, kontextbezogene Antworten zu erstellen.
Die Architektur eines multimodalen RAG-Systems spiegelt in der Regel die Standard-Pipeline „Retrieve-then-Generate” wider, passt diese jedoch an nicht-textuelle Daten an. Dieser Prozess stützt sich in hohem Maße auf Vektordatenbanken und gemeinsame semantische Räume.
Multimodales RAG verändert Branchen, indem es KI-Agenten ermöglicht, über visuelle Daten mit der physischen Welt zu interagieren .
Um die spezifische Nische von Multimodal RAG zu verstehen, ist es hilfreich, sie von verwandten Konzepten zu unterscheiden:
Entwickler können die Abrufkomponente einer multimodalen RAG-Pipeline mithilfe von Ultralytics YOLO. Durch die Erkennung und Klassifizierung von Objekten in Bildern YOLO strukturierte Metadaten, die für die textbasierte Suche indiziert oder zum Ausschneiden relevanter Bildbereiche für ein VLM verwendet werden können. Die Ultralytics vereinfacht das Training dieser spezialisierten Bildverarbeitungsmodelle, um benutzerdefinierte Objekte zu erkennen, die für Ihren spezifischen Bereich entscheidend sind.
Das folgende Beispiel zeigt die Verwendung von YOLO26 zum Extrahieren von visuellem Kontext (erkannte Objekte) aus einem Bild, der dann als Teil eines RAG-Workflows an ein LLM übergeben werden könnte.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person