Retrieval Augmented Generation (RAG)
Erforsche, wie Retrieval Augmented Generation (RAG) LLMs mit Echtzeitdaten optimiert. Lerne, multimodale Pipelines mit Ultralytics YOLO26 für visuelles RAG aufzubauen.
Retrieval Augmented Generation (RAG) ist eine fortschrittliche Technik im Bereich der künstlichen Intelligenz, die die Ausgabe eines Large Language Model (LLM) optimiert, indem sie auf eine maßgebliche Wissensdatenbank außerhalb der Trainingsdaten zugreift. Traditionelle generative Modelle verlassen sich ausschließlich auf statische Informationen, die während ihres ursprünglichen Trainings gelernt wurden, was zu veralteten Antworten oder überzeugend klingenden Ungenauigkeiten führen kann, die als Halluzinationen bekannt sind. RAG überbrückt diese Lücke, indem es relevante, aktuelle Informationen aus externen Quellen – wie Unternehmensdatenbanken, aktuellen Nachrichten oder technischen Handbüchern – abruft und dem Modell als Kontext zur Verfügung stellt, bevor eine Antwort generiert wird. Dieser Prozess stellt sicher, dass die KI-Ausgaben nicht nur sprachlich kohärent, sondern auch faktisch korrekt und in spezifischen Daten fundiert sind.
Link to this sectionWie RAG-Systeme funktionieren#
Die Architektur eines RAG-Systems umfasst typischerweise zwei Hauptphasen: Retrieval (Abruf) und Generation. Dieser Arbeitsablauf ermöglicht es Entwicklern, ein Foundation Model beizubehalten, ohne die kostspielige Notwendigkeit häufiger Nachtrainings.
-
Retrieval: Wenn ein Benutzer eine Anfrage stellt, führt das System zuerst eine semantische Suche über ein spezialisiertes Speichersystem durch, das als Vektordatenbank bezeichnet wird. Diese Datenbank enthält Daten, die in numerische Repräsentationen, sogenannte Embeddings, konvertiert wurden. Dadurch kann das System konzeptionell ähnliche Informationen finden, anstatt nur nach Schlüsselwörtern zu suchen.
-
Generation: Die relevanten Dokumente oder Datenschnipsel, die während des Retrievals gefunden wurden, werden mit der ursprünglichen Frage des Benutzers kombiniert. Dieser angereicherte Prompt wird dann an das generative Modell gesendet. Das Modell verwendet diesen bereitgestellten Kontext, um eine Antwort zu synthetisieren, wodurch sichergestellt wird, dass die Antwort auf den abgerufenen Fakten basiert. Für einen tieferen Einblick in die Mechanik bietet IBM einen umfassenden Leitfaden zu RAG-Workflows.
Link to this sectionVisual RAG: Integration von Computer Vision#
Während RAG traditionell textbasiert ist, hat der Aufstieg des Multi-modal Learning "Visual RAG" eingeführt. In diesem Szenario fungieren Computer Vision-Modelle als Retrieval-Mechanismus. Sie analysieren Bilder oder Videoströme, um strukturierte Textdaten zu extrahieren – wie Objektnamen, Anzahlen oder Aktivitäten –, die dann in ein LLM eingespeist werden, um Fragen zur visuellen Szene zu beantworten.
Zum Beispiel kann ein Entwickler YOLO26 verwenden, um Objekte in einem Bild zu erkennen und diese Objektliste an ein Textmodell weiterzugeben, um einen beschreibenden Bericht zu erstellen.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."Link to this sectionPraxisanwendungen#
RAG verändert Branchen, indem es AI Agents ermöglicht, sicher auf proprietäre oder Echtzeitdaten zuzugreifen.
- Unternehmenswissensdatenbanken: Unternehmen nutzen RAG, um interne Chatbots zu erstellen, die Mitarbeiterfragen zu HR-Richtlinien oder technischer Dokumentation beantworten. Durch die Verbindung eines LLM mit einem Live-Dokumenten-Repository vermeidet das System die Bereitstellung veralteter Richtlinieninformationen. Für weitere Informationen zu Unternehmensimplementierungen siehe Googles Cloud-Übersicht zu RAG in Vertex AI.
- Klinische Entscheidungsunterstützung: Im Bereich KI im Gesundheitswesen können RAG-Systeme Patientenhistorien und aktuelle medizinische Forschungsberichte abrufen, um Ärzte bei der Diagnose zu unterstützen und sicherzustellen, dass die Empfehlungen die neuesten klinischen Studien berücksichtigen.
- Intelligente Einzelhandelsassistenten: Anwendungen, die KI im Einzelhandel nutzen, setzen RAG ein, um Live-Bestandsdatenbanken zu prüfen. Wenn ein Kunde einen Chatbot fragt: "Haben Sie diese Laufschuhe in Größe 10?", ruft das Modell Echtzeit-Lagerbestände ab, bevor es antwortet, wodurch Frustration über nicht vorrätige Artikel vermieden wird.
Link to this sectionRAG vs. Fine-Tuning#
Es ist entscheidend, RAG von Fine-Tuning zu unterscheiden, da sie unterschiedliche Probleme lösen.
- RAG (Retrieval Augmented Generation): Am besten geeignet für den Zugriff auf dynamische, sich häufig ändernde Daten (z. B. Aktienkurse, Nachrichten) oder private Daten, die nicht im öffentlichen Trainingsset enthalten sind. Der Fokus liegt auf der Bereitstellung von neuen Informationen zur Laufzeit.
- Fine-Tuning: Am besten geeignet, um das Verhalten, den Stil oder die Terminologie des Modells anzupassen. Es beinhaltet die Aktualisierung der Modellgewichte auf einem spezifischen Datensatz. Während Fine-Tuning einem Modell hilft, ein bestimmtes Sprachmuster (wie medizinisches Fachchinesisch) zu lernen, gewährt es keinen Zugriff auf Echtzeit-Fakten. Siehe OpenAIs Leitfaden zu Fine-Tuning vs. RAG für Entscheidungsfindungs-Frameworks.
Link to this sectionVerwandte Konzepte#
- LangChain: Ein beliebtes Open-Source-Framework, das speziell entwickelt wurde, um die Erstellung von RAG-Anwendungen durch das Verknüpfen von Retrievern und LLMs zu vereinfachen.
- Knowledge Graph: Eine strukturierte Art der Datendarstellung, die als Retrieval-Quelle genutzt werden kann und kontextuell reichhaltigere Beziehungen bietet als eine einfache Vektorähnlichkeit.
- Prompt Engineering: Die Kunst, Eingaben so zu gestalten, dass sie das Modell lenken. RAG ist im Wesentlichen eine automatisierte Form des Prompt Engineering, bei der der "Prompt" programmatisch mit abgerufenen Daten angereichert wird.
- Ultralytics Platform: Während RAG die Textgenerierungsseite handhabt, sind Plattformen wie diese unerlässlich für die Verwaltung der Datenvorverarbeitung und das Training der Vision-Modelle, die visuelle Daten in multimodale RAG-Pipelines einspeisen.






