Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Multimodal RAG

Erkunde multimodales RAG zur Verarbeitung von Text, Bildern und Videos. Erfahre, wie Ultralytics YOLO26 KI-Retrieval-Pipelines für genauere, kontextbewusste Antworten verbessert.

Multimodal Retrieval Augmented Generation (Multimodale RAG) ist ein fortschrittliches Framework für künstliche Intelligenz (KI), das herkömmliche RAG-Systeme erweitert, um verschiedene Datentypen wie Text, Bilder, Videos und Audio zu verarbeiten und daraus Schlussfolgerungen zu ziehen. Während die standardmäßige Retrieval Augmented Generation (RAG) die Genauigkeit eines Large Language Model (LLM) durch das Abrufen relevanter Textdokumente verbessert, ermöglicht die multimodale RAG den Modellen das „Sehen“ und „Hören“, indem sie Kontext aus einer gemischten Wissensdatenbank abruft. Dieser Ansatz stützt die Generierung des Modells auf konkrete visuelle oder auditive Beweise, reduziert Halluzinationen in LLMs erheblich und ermöglicht komplexe Aufgaben wie die visuelle Beantwortung von Fragen zu privaten Datensätzen. Durch die Nutzung von multimodalem Lernen können diese Systeme Informationen aus einer Benutzeranfrage (z. B. Text) und abgerufenen Assets (z. B. einem Diagramm oder einem Überwachungsframe) synthetisieren, um umfassende, kontextbezogene Antworten zu generieren.

Link to this sectionSo funktioniert multimodale RAG#

Die Architektur eines multimodalen RAG-Systems spiegelt typischerweise die standardmäßige „Abrufen-dann-Generieren“-Pipeline wider, passt sie jedoch an nicht-textuelle Daten an. Dieser Prozess stützt sich stark auf Vektordatenbanken und gemeinsame semantische Räume.

  1. Indizierung: Daten aus verschiedenen Quellen – PDFs, Videos, Folienpräsentationen – werden verarbeitet. Merkmalsextraktionsmodelle konvertieren diese verschiedenen Modalitäten in hochdimensionale numerische Vektoren, die als Embeddings bekannt sind. Ein Modell wie OpenAIs CLIP gleicht beispielsweise Bild- und Text-Embeddings so ab, dass ein Bild eines Hundes und das Wort „Hund“ mathematisch nah beieinander liegen.

  2. Abruf: Wenn ein Benutzer eine Frage stellt (z. B. „Zeige mir den Defekt in dieser Leiterplatte“), führt das System eine semantische Suche in der Vektordatenbank durch, um die relevantesten Bilder oder Videoclips zu finden, die der Absicht der Anfrage entsprechen.

  3. Generierung: Der abgerufene visuelle Kontext wird in ein Vision-Language Model (VLM) eingespeist. Das VLM verarbeitet sowohl die Texteingabe des Benutzers als auch die abgerufenen Bildmerkmale, um eine endgültige Antwort zu generieren, wodurch es effektiv mit den Daten „chattet“.

Link to this sectionPraxisanwendungen#

Die multimodale RAG transformiert Industrien, indem sie KI-Agenten ermöglicht, über visuelle Daten mit der physischen Welt zu interagieren.

  • Industrielle Wartung und Fertigung: Bei KI in der Fertigung können Techniker ein System mit einem Foto eines defekten Maschinenteils abfragen. Das multimodale RAG-System ruft ähnliche historische Wartungsprotokolle, technische Schaltpläne und Video-Tutorials ab, um den Reparaturprozess zu unterstützen. Dies reduziert Ausfallzeiten und demokratisiert Expertenwissen.
  • Einzelhandel und E-Commerce-Entdeckung: Anwendungen, die KI im Einzelhandel nutzen, ermöglichen es Kunden, ein Bild eines Outfits hochzuladen, das ihnen gefällt. Das System ruft visuell ähnliche Artikel aus dem aktuellen Bestand ab und generiert Styling-Tipps oder Produktvergleiche, was ein hochgradig personalisiertes Einkaufserlebnis schafft.

Link to this sectionUnterscheidung verwandter Begriffe#

Um die spezifische Nische der multimodalen RAG zu verstehen, ist es hilfreich, sie von verwandten Konzepten zu unterscheiden:

  • Multimodale RAG vs. Multimodales Modell: Ein multimodales Modell (wie GPT-4o oder Gemini) erstellt die Antwort. Multimodale RAG ist die Architektur, die diesem Modell externe, private Daten (Bilder, Dokumente) zuführt, auf denen es nicht trainiert wurde. Das Modell ist der Motor; RAG ist die Treibstoffleitung.
  • Multimodale RAG vs. Feinabstimmung: Die Feinabstimmung aktualisiert dauerhaft die Modellgewichte, um eine neue Aufgabe oder einen neuen Stil zu erlernen. RAG bietet temporäres Wissen zum Zeitpunkt der Inferenz. RAG wird bei dynamischen Daten (z. B. täglichem Inventar) bevorzugt, wo ein häufiges Nachtrainieren unpraktisch ist.

Link to this sectionImplementierung mit Ultralytics#

Entwickler können die Abrufkomponente einer multimodalen RAG-Pipeline mit Ultralytics YOLO erstellen. Durch das Erkennen und Klassifizieren von Objekten in Bildern liefert YOLO strukturierte Metadaten, die für textbasiertes Abrufen indiziert oder zum Zuschneiden relevanter Bildbereiche für ein VLM verwendet werden können. Die Ultralytics Platform vereinfacht das Training dieser spezialisierten Vision-Modelle, um benutzerdefinierte Objekte zu erkennen, die für deinen spezifischen Bereich entscheidend sind.

Das folgende Beispiel demonstriert die Verwendung von YOLO26, um visuellen Kontext (erkannte Objekte) aus einem Bild zu extrahieren, der dann als Teil eines RAG-Workflows an ein LLM übergeben werden könnte.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this sectionWeiterführende Literatur und Ressourcen#

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens