Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Retrieval Augmented Generation (RAG)

Entdecken Sie, wie Retrieval Augmented Generation (RAG) LLMs mit Echtzeitdaten optimiert. Lernen Sie, multimodale Pipelines mit Ultralytics für visuelles RAG zu erstellen.

Retrieval Augmented Generation (RAG) ist eine fortschrittliche Technik im Bereich der künstlichen Intelligenz, die die Ausgabe eines Large Language Model (LLM) optimiert, indem sie auf eine maßgebliche Wissensdatenbank außerhalb ihrer Trainingsdaten zurückgreift. Herkömmliche generative Modelle stützen sich ausschließlich auf statische Informationen, die sie während ihres ersten Trainings gelernt haben, was zu veralteten Antworten oder selbstbewussten Ungenauigkeiten führen kann, die als Halluzinationen bekannt sind. RAG schließt diese Lücke, indem es relevante, aktuelle Informationen aus externen Quellen – wie Unternehmensdatenbanken, aktuellen Nachrichten oder technischen Handbüchern – abruft und diese dem Modell als Kontext zuführt, bevor eine Antwort generiert wird. Dieser Prozess stellt sicher, dass die Ausgaben der KI nicht nur sprachlich kohärent, sondern auch sachlich korrekt und auf spezifischen Daten basierend sind.

Wie RAG-Systeme funktionieren

Die Architektur eines RAG-Systems umfasst in der Regel zwei Hauptphasen: Abruf und Generierung. Dieser Arbeitsablauf ermöglicht es Entwicklern, ein Basismodell zu pflegen, ohne es häufig neu trainieren zu müssen, was mit hohen Kosten verbunden wäre.

  1. Abruf: Wenn ein Benutzer eine Anfrage stellt, führt das System zunächst eine semantische Suche in einem speziellen Speichersystem durch, das als Vektordatenbank bezeichnet wird. Diese Datenbank enthält Daten, die in numerische Darstellungen umgewandelt wurden, die als Einbettungen bezeichnet werden. Dadurch kann das System konzeptionell ähnliche Informationen finden, anstatt nur übereinstimmende Schlüsselwörter.
  2. Generierung: Die relevanten Dokumente oder Datenausschnitte, die während der Abfrage gefunden wurden, werden mit der ursprünglichen Frage des Benutzers kombiniert. Diese angereicherte Eingabeaufforderung wird dann an das generative Modell gesendet. Das Modell verwendet diesen bereitgestellten Kontext, um eine Antwort zu synthetisieren, und stellt so sicher, dass die Antwort auf den abgerufenen Fakten basiert. Für einen tieferen Einblick in die Funktionsweise bietet IBM einen umfassenden Leitfaden zu RAG-Workflows.

Visuelles RAG: Integration von Computer Vision

Während RAG traditionell textbasiert ist, hat der Aufstieg des multimodalen Lernens das „visuelle RAG” eingeführt. In diesem Szenario fungieren Computervisionsmodelle als Abrufmechanismus . Sie analysieren Bilder oder Videostreams, um strukturierte Textdaten – wie Objektnamen, Anzahlen oder Aktivitäten – zu extrahieren, die dann in ein LLM eingespeist werden, um Fragen zur visuellen Szene zu beantworten.

Ein Entwickler kann beispielsweise YOLO26 verwenden, um detect in einem Bild detect und diese Liste von Objekten an ein Textmodell weitergeben, um einen beschreibenden Bericht zu erstellen.

from ultralytics import YOLO

# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")

# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."

print(context_string)
# Output example: "The scene contains: bus, person, person, person."

Anwendungsfälle in der Praxis

RAG verändert Branchen, indem es KI-Agenten den sicheren Zugriff auf proprietäre Daten oder Echtzeitdaten ermöglicht .

  • Unternehmens-Wissensdatenbanken: Unternehmen nutzen RAG, um interne Chatbots zu entwickeln, die Fragen von Mitarbeitern zu Personalrichtlinien oder technischen Dokumentationen beantworten. Durch die Verbindung eines LLM mit einem Live-Dokumentenarchiv vermeidet das System die Bereitstellung veralteter Richtlinieninformationen. Weitere Informationen zu Unternehmensimplementierungen finden Sie in der ÜbersichtGoogle zu RAG in Vertex AI.
  • Klinische Entscheidungsunterstützung: Im Bereich der KI im Gesundheitswesen können RAG-Systeme die Krankengeschichte von Patienten und aktuelle medizinische Forschungsarbeiten abrufen, um Ärzte bei der Diagnose zu unterstützen und sicherzustellen, dass die Beratung die neuesten klinischen Studien berücksichtigt.
  • Intelligente Verkaufsassistenten: Anwendungen, die KI im Einzelhandel nutzen, greifen auf RAG zurück, um Live-Bestandsdatenbanken zu überprüfen . Wenn ein Kunde einen Chatbot fragt: „Haben Sie diese Laufschuhe in Größe 44?“, ruft das Modell vor der Beantwortung die aktuellen Lagerbestände ab und verhindert so Frustrationen wegen ausverkaufter Artikel.

RAG vs. Feinabstimmung

Es ist entscheidend, RAG von Feinabstimmung zu unterscheiden, da sie unterschiedliche Probleme lösen.

  • RAG (Retrieval Augmented Generation): Am besten geeignet für den Zugriff auf dynamische, sich häufig ändernde Daten (z. B. Aktienkurse, Nachrichten) oder private Daten, die nicht im öffentlichen Trainingssatz vorhanden sind. Der Schwerpunkt liegt auf der Bereitstellung neuer Informationen zur Laufzeit.
  • Feinabstimmung: Am besten geeignet, um das Verhalten, den Stil oder die Terminologie des Modells anzupassen. Dabei werden die Modellgewichte für einen bestimmten Datensatz aktualisiert. Die Feinabstimmung hilft einem Modell zwar, bestimmte Sprachmuster (wie medizinische Fachbegriffe) zu lernen, gewährt jedoch keinen Zugriff auf Echtzeitdaten. Siehe OpenAI-Leitfaden zu Feinabstimmung vs. RAG für Entscheidungsfindungsrahmen.

Verwandte Konzepte

  • LangChain: Ein beliebtes Open-Source-Framework, das speziell entwickelt wurde, um die Erstellung von RAG-Anwendungen durch die Verkettung von Retrievern und LLMs zu vereinfachen.
  • Knowledge Graph: Eine strukturierte Art der Darstellung von Daten, die als Abrufquelle verwendet werden kann und kontextreichere Beziehungen bietet als eine einfache Vektorsimilarität.
  • Prompt Engineering: Die Kunst der Erstellung von Eingaben zur Steuerung des Modells. RAG ist im Wesentlichen eine automatisierte Form des Prompt Engineering, bei der die „Eingabeaufforderung” programmgesteuert mit abgerufenen Daten angereichert wird.
  • Ultralytics : Während RAG die Textgenerierung übernimmt , sind Plattformen wie diese für die Verwaltung der Datenvorverarbeitung und das Training der Bildverarbeitungsmodelle unerlässlich, die visuelle Daten in multimodale RAG-Pipelines einspeisen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten