Glossar

Retrieval Augmented Generation (RAG)

Entdecken Sie, wie Retrieval Augmented Generation (RAG) KI-Modelle verbessert, indem es zuverlässige externe Echtzeitdaten für genaue und aktuelle Antworten integriert.

Retrieval-Augmented Generation (RAG) ist ein fortschrittliches KI-Framework, das entwickelt wurde, um die Qualität, Genauigkeit und Relevanz der von Large Language Models (LLMs) generierten Antworten zu verbessern. Es funktioniert, indem es ein generatives Modell mit einer externen, aktuellen Wissensdatenbank verbindet. Dies ermöglicht es dem Modell, relevante Informationen zu "extrahieren", bevor es eine Antwort generiert, wodurch seine Ausgabe effektiv in überprüfbaren Fakten verankert und die Wahrscheinlichkeit von Halluzinationen oder veralteten Antworten reduziert wird. RAG macht LLMs für wissensintensive Aufgaben zuverlässiger, indem es ihnen Zugang zu spezialisierten oder proprietären Informationen gibt, auf die sie nicht trainiert wurden.

Wie Retrieval-Augmented Generation funktioniert

Der RAG-Prozess lässt sich in zwei Hauptphasen unterteilen: Retrieval und Generierung. Dieser zweistufige Ansatz kombiniert die Stärken von Information-Retrieval-Systemen und generativen Modellen.

Retrieval: Wenn ein Benutzer eine Eingabeaufforderung gibt oder eine Frage stellt, verwendet das RAG-System zuerst die Eingabeaufforderung, um eine Wissensquelle nach relevanten Informationen zu durchsuchen. Diese Quelle ist typischerweise eine Vektordatenbank, die Einbettungen von Dokumenten, Artikeln oder anderen Daten enthält. Die Retriever-Komponente identifiziert und zieht die relevantesten Textausschnitte oder Daten basierend auf der Anfrage des Benutzers heraus. Ein optionaler, aber leistungsstarker Schritt ist die Verwendung eines Rerankers, um diese abgerufenen Ergebnisse zu verfeinern und sicherzustellen, dass nur die kontextuell wichtigsten Informationen weitergegeben werden.
Augmented Generation: Die abgerufenen Informationen werden dann mit der ursprünglichen Benutzeranfrage kombiniert. Diese neue, angereicherte Anfrage wird in das generative KI-Modell (das LLM) eingespeist. Das Modell verwendet diesen zusätzlichen Kontext, um eine umfassende, genaue und relevante Antwort zu formulieren. Frameworks wie LangChain und LlamaIndex werden häufig verwendet, um diese komplexen RAG-Pipelines zu erstellen und zu verwalten.

Anwendungen und Beispiele

RAG ist besonders nützlich in Szenarien, die faktische Genauigkeit und den Zugriff auf dynamische oder spezialisierte Daten erfordern.

Fortschrittliche Frage-Antwort-Systeme: Ein Kundensupport-Chatbot kann RAG nutzen, um auf die gesamte Wissensdatenbank eines Unternehmens mit Produkthandbüchern, Anleitungen zur Fehlerbehebung und Richtliniendokumenten zuzugreifen. Wenn ein Kunde fragt: "Was sind die Garantiebestimmungen für mein Produkt?", ruft das System das neueste Garantiedokument ab und verwendet es, um eine präzise, aktuelle Antwort zu geben, was eine deutliche Verbesserung gegenüber generischen Antworten darstellt.
Erstellung und Recherche von Inhalten: Ein Finanzanalyst könnte ein RAG-gestütztes Tool verwenden, um eine Marktübersicht zu schreiben. Das Tool könnte die neuesten Finanzberichte, Marktnachrichten und Aktienkursdaten aus vertrauenswürdigen Quellen wie Bloomberg oder Reuters abrufen. Das LLM fasst diese Informationen dann in einem kohärenten Bericht zusammen, komplett mit Zitaten, was den Rechercheprozess erheblich beschleunigt.

RAG vs. verwandte Konzepte

Es ist hilfreich, RAG von anderen Methoden zu unterscheiden, die zur Verbesserung der LLM-Leistung verwendet werden:

Fine-tuning (Feinabstimmung): Durch Fine-tuning wird ein vortrainiertes Modell angepasst, indem das Training auf einem kleineren, spezialisierten Datensatz fortgesetzt wird, wodurch die internen Gewichte des Modells verändert werden. Im Gegensatz zu RAG werden während der Inferenz keine externen Daten konsultiert. Fine-tuning ist ideal, um einem Modell einen neuen Stil oder eine neue Fähigkeit beizubringen, während RAG besser für die Einbeziehung von Faktenwissen geeignet ist. Diese Ansätze können sich auch ergänzen.
Prompt Engineering: Dies ist der manuelle Prozess der sorgfältigen Gestaltung von Prompts, um die gewünschte Ausgabe von einem LLM zu erhalten. RAG automatisiert einen Teil davon, indem es den Prompt programmatisch mit abgerufenen Daten ergänzt (engl. "augmenting"), anstatt sich darauf zu verlassen, dass ein Mensch den gesamten Kontext manuell bereitstellt.
Prompt Enrichment: Prompt Enrichment ist zwar ähnlich wie RAG, aber ein umfassenderer Begriff. Es kann das Hinzufügen von Kontext aus dem Benutzerverlauf oder dem Konversationsfluss beinhalten. RAG ist eine spezielle Art der Anreicherung, die sich auf das Abrufen von Fakteninformationen aus einer externen Wissensdatenbank konzentriert, um die Antwort des Modells zu fundieren.

RAG in Computer Vision

Obwohl RAG hauptsächlich in der Natural Language Processing (NLP) verwendet wird, wird sein Kernkonzept für Computer Vision (CV)-Aufgaben untersucht. Beispielsweise könnte ein System relevante visuelle Informationen abrufen, um die Bilderzeugung oder -analyse zu steuern. Dies könnte das Auffinden ähnlicher Bilder aus einem großen Datensatz beinhalten, um die Leistung eines Objekterkennungs-Modells wie Ultralytics YOLO zu verbessern. Die Verwaltung dieser komplexen Modelle und Datensätze wird mit Plattformen wie Ultralytics HUB optimiert, die als Grundlage für zukünftige Multi-Modal-Modell-Anwendungen dienen könnten, die RAG verwenden. Sie können eine verwandte Implementierung in unserem Blog zur Verbesserung von KI mit RAG und Computer Vision erkunden.

Retrieval Augmented Generation (RAG)

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie Retrieval-Augmented Generation funktioniert

Anwendungen und Beispiele

RAG vs. verwandte Konzepte

RAG in Computer Vision

Mehr in dieser Kategorie lesen

Einsatz von Ultralytics YOLO-Modellen unter Verwendung der ExecuTorch-Integration

Die wichtigsten Highlights von Ultralytics auf der PyTorch Conference 2025

Selbstüberwachtes Lernen zur Entrauschung von Bildern

Treten Sie der Ultralytics-Community bei