Retrieval Augmented Generation (RAG)
Entdecken Sie, wie Retrieval Augmented Generation (RAG) LLMs mit Echtzeitdaten optimiert. Lernen Sie, multimodale Pipelines mit Ultralytics für visuelles RAG zu erstellen.
Retrieval Augmented Generation (RAG) ist eine fortschrittliche Technik im Bereich der künstlichen Intelligenz, die
die Ausgabe eines
Large Language Model (LLM) optimiert, indem sie auf
eine maßgebliche Wissensdatenbank außerhalb ihrer Trainingsdaten zurückgreift. Herkömmliche generative Modelle stützen sich ausschließlich auf statische
Informationen, die sie während ihres ersten Trainings gelernt haben, was zu veralteten Antworten oder selbstbewussten Ungenauigkeiten führen kann, die als
Halluzinationen bekannt sind. RAG schließt diese Lücke, indem es
relevante, aktuelle Informationen aus externen Quellen – wie Unternehmensdatenbanken, aktuellen Nachrichten oder
technischen Handbüchern – abruft und diese dem Modell als Kontext zuführt, bevor eine Antwort generiert wird. Dieser Prozess stellt sicher, dass die
Ausgaben der KI nicht nur sprachlich kohärent, sondern auch sachlich korrekt und auf spezifischen Daten basierend sind.
Wie RAG-Systeme funktionieren
Die Architektur eines RAG-Systems umfasst in der Regel zwei Hauptphasen: Abruf und Generierung. Dieser Arbeitsablauf ermöglicht es
Entwicklern, ein Basismodell zu pflegen, ohne
es häufig neu trainieren zu müssen, was mit hohen Kosten verbunden wäre.
-
Abruf: Wenn ein Benutzer eine Anfrage stellt, führt das System zunächst eine
semantische Suche in einem speziellen Speichersystem
durch, das als Vektordatenbank bezeichnet wird. Diese Datenbank
enthält Daten, die in numerische Darstellungen umgewandelt wurden, die als
Einbettungen bezeichnet werden. Dadurch kann das System konzeptionell
ähnliche Informationen finden, anstatt nur übereinstimmende Schlüsselwörter.
-
Generierung: Die relevanten Dokumente oder Datenausschnitte, die während der Abfrage gefunden wurden, werden mit der
ursprünglichen Frage des Benutzers kombiniert. Diese angereicherte Eingabeaufforderung wird dann an das generative Modell gesendet. Das Modell verwendet diesen bereitgestellten
Kontext, um eine Antwort zu synthetisieren, und stellt so sicher, dass die Antwort auf den abgerufenen Fakten basiert. Für einen tieferen Einblick in die
Funktionsweise
bietet IBM einen umfassenden Leitfaden zu RAG-Workflows.
Visuelles RAG: Integration von Computer Vision
Während RAG traditionell textbasiert ist, hat der Aufstieg des
multimodalen Lernens das
„visuelle RAG” eingeführt. In diesem Szenario fungieren
Computervisionsmodelle als Abrufmechanismus
. Sie analysieren Bilder oder Videostreams, um strukturierte Textdaten – wie Objektnamen, Anzahlen oder
Aktivitäten – zu extrahieren, die dann in ein LLM eingespeist werden, um Fragen zur visuellen Szene zu beantworten.
Ein Entwickler kann beispielsweise YOLO26 verwenden, um detect in
einem Bild detect und diese Liste von Objekten an ein Textmodell weitergeben, um einen beschreibenden Bericht zu erstellen.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."
Anwendungsfälle in der Praxis
RAG verändert Branchen, indem es KI-Agenten den sicheren Zugriff auf proprietäre Daten oder Echtzeitdaten ermöglicht
.
-
Unternehmens-Wissensdatenbanken: Unternehmen nutzen RAG, um interne Chatbots zu entwickeln, die Fragen von Mitarbeitern
zu Personalrichtlinien oder technischen Dokumentationen beantworten. Durch die Verbindung eines LLM mit einem Live-Dokumentenarchiv vermeidet das
System die Bereitstellung veralteter Richtlinieninformationen. Weitere Informationen zu Unternehmensimplementierungen finden Sie in der
ÜbersichtGoogle zu RAG in Vertex AI.
-
Klinische Entscheidungsunterstützung: Im
Bereich der KI im Gesundheitswesen können RAG-Systeme
die Krankengeschichte von Patienten und aktuelle medizinische Forschungsarbeiten abrufen, um Ärzte bei der Diagnose zu unterstützen und sicherzustellen, dass die Beratung die
neuesten klinischen Studien berücksichtigt.
-
Intelligente Verkaufsassistenten: Anwendungen, die
KI im Einzelhandel nutzen, greifen auf RAG zurück, um Live-Bestandsdatenbanken zu überprüfen
. Wenn ein Kunde einen Chatbot fragt: „Haben Sie diese Laufschuhe in Größe 44?“, ruft das Modell
vor der Beantwortung die aktuellen Lagerbestände ab und verhindert so Frustrationen wegen ausverkaufter Artikel.
RAG vs. Feinabstimmung
Es ist entscheidend, RAG von Feinabstimmung zu unterscheiden, da
sie unterschiedliche Probleme lösen.
-
RAG (Retrieval Augmented Generation): Am besten geeignet für den Zugriff auf dynamische, sich häufig ändernde Daten (z. B.
Aktienkurse, Nachrichten) oder private Daten, die nicht im öffentlichen Trainingssatz vorhanden sind. Der Schwerpunkt liegt auf der Bereitstellung
neuer Informationen zur Laufzeit.
-
Feinabstimmung: Am besten geeignet, um das Verhalten, den Stil oder die Terminologie des Modells anzupassen. Dabei werden
die Modellgewichte für einen bestimmten Datensatz aktualisiert. Die
Feinabstimmung hilft einem Modell zwar, bestimmte Sprachmuster (wie medizinische Fachbegriffe) zu lernen, gewährt jedoch keinen Zugriff auf
Echtzeitdaten. Siehe
OpenAI-Leitfaden zu Feinabstimmung vs. RAG für
Entscheidungsfindungsrahmen.
Verwandte Konzepte
-
LangChain: Ein beliebtes Open-Source-Framework,
das speziell entwickelt wurde, um die Erstellung von RAG-Anwendungen durch die Verkettung von Retrievern und
LLMs zu vereinfachen.
-
Knowledge Graph: Eine strukturierte
Art der Darstellung von Daten, die als Abrufquelle verwendet werden kann und kontextreichere Beziehungen bietet als
eine einfache Vektorsimilarität.
-
Prompt Engineering: Die Kunst
der Erstellung von Eingaben zur Steuerung des Modells. RAG ist im Wesentlichen eine automatisierte Form des Prompt Engineering, bei der die
„Eingabeaufforderung” programmgesteuert mit abgerufenen Daten angereichert wird.
-
Ultralytics : Während RAG die Textgenerierung übernimmt
, sind Plattformen wie diese für die Verwaltung der
Datenvorverarbeitung und das Training der Bildverarbeitungsmodelle unerlässlich,
die visuelle Daten in multimodale RAG-Pipelines einspeisen.