Glossar

Multimodales RAG

Entdecken Sie Multimodal RAG zur Verarbeitung von Text, Bildern und Videos. Erfahren Sie, wie Ultralytics KI-Retrieval-Pipelines für genauere, kontextbezogene Antworten verbessert.

Multimodal Retrieval Augmented Generation (Multimodal RAG) ist ein fortschrittliches Framework für künstliche Intelligenz (KI) , das herkömmliche RAG-Systeme erweitert, um verschiedene Datentypen wie Text, Bilder, Videos und Audio zu verarbeiten und zu analysieren. Während das standardmäßige Retrieval Augmented Generation (RAG) die Genauigkeit eines Large Language Model (LLM) durch das Abrufen relevanter Textdokumente verbessert, ermöglicht Multimodal RAG Modellen das „Sehen” und „Hören”, indem es Kontext aus einer gemischten Medien-Wissensbasis abruft. Dieser Ansatz stützt die Generierung des Modells auf konkrete visuelle oder auditive Beweise, wodurch Halluzinationen in LLMs deutlich reduziert und komplexe Aufgaben wie die visuelle Beantwortung von Fragen über private Datensätze ermöglicht. Durch die Nutzung multimodalen Lernens können diese Systeme Informationen aus der Anfrage eines Benutzers (z. B. Text) und den abgerufenen Assets (z. B. einem Diagramm oder einem Überwachungsbild) synthetisieren, um umfassende, kontextbezogene Antworten zu erstellen.

Wie Multimodal RAG funktioniert

Die Architektur eines multimodalen RAG-Systems spiegelt in der Regel die Standard-Pipeline „Retrieve-then-Generate” wider, passt diese jedoch an nicht-textuelle Daten an. Dieser Prozess stützt sich in hohem Maße auf Vektordatenbanken und gemeinsame semantische Räume.

Indizierung: Daten aus verschiedenen Quellen – PDFs, Videos, Folienpräsentationen – werden verarbeitet. Feature-Extraktionsmodelle wandeln diese unterschiedlichen Modalitäten in hochdimensionale numerische Vektoren um, die als Embeddings bezeichnet werden. Ein Modell wie CLIP von OpenAI gleicht beispielsweise Bild- und Text-Embeddings so an, dass ein Bild eines Hundes und das Wort „Hund” mathematisch nahe beieinander liegen.
Abruf: Wenn ein Benutzer eine Frage stellt (z. B. „Zeigen Sie mir den Defekt in dieser Leiterplatte “), führt das System eine semantische Suche in der Vektordatenbank durch, um die relevantesten Bilder oder Videoclips zu finden, die der Absicht der Anfrage entsprechen.
Generierung: Der abgerufene visuelle Kontext wird in ein Vision-Language-Modell (VLM) eingespeist. Das VLM verarbeitet sowohl die Textanweisung des Benutzers als auch die abgerufenen Bildmerkmale, um eine endgültige Antwort zu generieren, wodurch es effektiv mit den Daten „chattet”.

Anwendungsfälle in der Praxis

Multimodales RAG verändert Branchen, indem es KI-Agenten ermöglicht, über visuelle Daten mit der physischen Welt zu interagieren .

Industrielle Wartung und Fertigung: Im Bereich KI in der Fertigung können Techniker ein System mit einem Foto eines defekten Maschinenteils abfragen. Das multimodale RAG-System ruft ähnliche historische Wartungsprotokolle , technische Schemata und Video-Tutorials ab, um den Reparaturprozess zu begleiten. Dies reduziert Ausfallzeiten und demokratisiert Fachwissen.
Entdeckung im Einzelhandel und E-Commerce: Anwendungen, die KI im Einzelhandel nutzen, ermöglichen es Kunden, ein Bild eines Outfits hochzuladen, das ihnen gefällt. Das System ruft visuell ähnliche Artikel aus dem aktuellen Bestand ab und generiert Styling-Tipps oder Produktvergleiche, wodurch ein hochgradig personalisiertes Einkaufserlebnis entsteht.

Unterscheidung verwandter Begriffe

Um die spezifische Nische von Multimodal RAG zu verstehen, ist es hilfreich, sie von verwandten Konzepten zu unterscheiden:

Multimodales RAG vs. Multimodales Modell: Ein multimodales Modell (wie GPT-4o oder Gemini) erstellt die Antwort. Multimodales RAG ist die Architektur, die dieses Modell mit externen, privaten Daten (Bilder, Dokumente) füttert, mit denen es nicht trainiert wurde. Das Modell ist der Motor, RAG ist die Kraftstoffleitung.
Multimodales RAG vs. Feinabstimmung: Bei der Feinabstimmung werden die Modellgewichte permanent aktualisiert, um eine neue Aufgabe oder einen neuen Stil zu erlernen. RAG liefert temporäres Wissen zum Zeitpunkt der Inferenz. RAG wird für dynamische Daten (z. B. tägliche Bestände) bevorzugt, bei denen ein häufiges Nachschulen unpraktisch ist.

Implementierung mit Ultralytics

Entwickler können die Abrufkomponente einer multimodalen RAG-Pipeline mithilfe von Ultralytics YOLO. Durch die Erkennung und Klassifizierung von Objekten in Bildern YOLO strukturierte Metadaten, die für die textbasierte Suche indiziert oder zum Ausschneiden relevanter Bildbereiche für ein VLM verwendet werden können. Die Ultralytics vereinfacht das Training dieser spezialisierten Bildverarbeitungsmodelle, um benutzerdefinierte Objekte zu erkennen, die für Ihren spezifischen Bereich entscheidend sind.

Das folgende Beispiel zeigt die Verwendung von YOLO26 zum Extrahieren von visuellem Kontext (erkannte Objekte) aus einem Bild, der dann als Teil eines RAG-Workflows an ein LLM übergeben werden könnte.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Weitere Lektüre und Ressourcen

LangChain-Dokumentation: Ein umfassender Leitfaden zum Aufbau von Retrieval-Pipelines, einschließlich multimodaler Unterstützung.
LlamaIndex Multimodal Guide: Ausführliche Dokumentation zur Indizierung und zum Abruf komplexer Datentypen für LLMs.
Google Vertex AI Search: Vektorsuchfunktionen der Enterprise-Klasse zum Erstellen skalierbarer RAG-Anwendungen.
Ultralytics : Entdecken Sie, wie Computer Vision in verschiedenen Branchen in umfassendere KI-Systeme integriert wird.

Multimodales RAG

Trainieren Sie Ultralytics YOLO zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie Multimodal RAG funktioniert

Anwendungsfälle in der Praxis

Unterscheidung verwandter Begriffe

Implementierung mit Ultralytics

Weitere Lektüre und Ressourcen

Mehr in dieser Kategorie lesen

12 Anwendungsfälle für Luftbildaufnahmen, unterstützt durch Computer Vision

Was ist monokulare Tiefenschätzung? Ein Überblick

Ein Blick auf die Verwendung von Ultralytics YOLO für die KI-Bedrohungserkennung

Werden Sie Mitglied der Ultralytics