Glossar

Retrieval Augmented Generation (RAG)

Entdecken Sie, wie Retrieval Augmented Generation (RAG) die KI-Modelle durch die Integration zuverlässiger externer Daten in Echtzeit verbessert, um präzise und aktuelle Antworten zu erhalten.

Retrieval Augmented Generation (RAG) ist eine fortgeschrittene Technik der künstlichen Intelligenz (AI), die die Qualität und Zuverlässigkeit der von Large Language Models (LLMs) generierten Antworten verbessern soll. Sie funktioniert durch die Kombination der generativen Fähigkeiten eines LLM mit einem Informationsabfragesystem. Vor der Generierung einer Antwort ruft das RAG-System zunächst relevante Informationsschnipsel aus einer vordefinierten Wissensquelle ab (z. B. aus unternehmensinternen Dokumenten, einer bestimmten Datenbank oder dem Internet). Dieser ermittelte Kontext wird dann zusammen mit der ursprünglichen Benutzeranfrage an das LLM weitergeleitet, wodurch das Modell in der Lage ist, Antworten zu generieren, die genauer, aktueller und auf faktischen Daten beruhen, wodurch Probleme wie Halluzinationen gemildert werden. Dieser Ansatz verbessert die Standard-LLMs, indem er ihnen ermöglicht, über ihre ursprünglichen Trainingsdaten hinaus auf externe, aktuelle Informationen zuzugreifen und diese zu nutzen.

Wie Retrieval Augmented Generation funktioniert

Der RAG-Prozess umfasst in der Regel zwei Hauptphasen:

  1. Abruf: Wenn ein Benutzer eine Eingabeaufforderung oder eine Anfrage stellt, durchsucht das System zunächst eine bestimmte Wissensbasis nach relevanten Informationen. Diese Wissensbasis kann eine Sammlung von Dokumenten, Webseiten oder Einträgen in einer Vektordatenbank sein. Der Abrufmechanismus verwendet häufig Techniken wie die semantische Suche, um Textabschnitte zu finden, die mit der Anfrage in Zusammenhang stehen und nicht nur mit Schlüsselwörtern übereinstimmen. Diese gefundenen Ausschnitte dienen als kontextuelle Grundlage für die nächste Phase. Bei diesem Prozess werden häufig Einbettungen verwendet, um die Bedeutung der Anfrage und der Dokumente darzustellen.
  2. Erzeugung: Die ursprüngliche Anfrage und die abgerufenen kontextuellen Ausschnitte werden zu einem erweiterten Prompt kombiniert. Dieser erweiterte Prompt wird dann in den LLM eingespeist. Das LLM verwendet sowohl die Anfrage als auch den bereitgestellten Kontext, um eine Antwort zu generieren. Dadurch wird sichergestellt, dass die Antwort nicht nur für die Anfrage relevant ist, sondern auch durch die abgerufenen, oft aktuelleren oder spezifischeren Informationen informiert wird. Die grundlegenden Arbeiten zu RAG wurden in dem Papier"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" ausführlich beschrieben.

Vorteile und Anwendungen

Die RAG bietet mehrere Vorteile gegenüber der Verwendung von Standard-LLMs allein:

  • Verbesserte Genauigkeit und Verlässlichkeit: Da die Antworten auf abgerufenen Sachdaten beruhen, verringert RAG die Wahrscheinlichkeit, dass das LLM falsche oder erfundene Informationen(Halluzinationen) generiert, erheblich. Dies erhöht das Vertrauen der Nutzer und die Genauigkeit des Systems insgesamt.
  • Zugang zu aktuellen Informationen: LLMs werden typischerweise auf statischen Datensätzen trainiert, was bedeutet, dass sie aufgrund ihrer Wissensabgrenzung keine Kenntnis von Ereignissen oder Daten haben, die nach ihrem Training auftauchen. RAG ermöglicht es den Modellen, auf die neuesten Informationen aus externen Quellen zuzugreifen und diese einzubeziehen, ohne dass sie ständig neu trainiert werden müssen.
  • Domänenspezifität: RAG kann so konfiguriert werden, dass es Informationen aus spezifischen, kuratierten Wissensdatenbanken abruft (z.B. unternehmensinterne Wikis, technische Dokumentation, spezifische Datensätze). Dies ermöglicht es LLMs, Antworten auf Expertenebene in spezialisierten Bereichen zu geben.
  • Erhöhte Transparenz: Da die generierte Antwort auf abgerufenen Dokumenten basiert, ist es oft möglich, die Quellen zu zitieren, was den Nutzern Transparenz und die Möglichkeit bietet, die Informationen zu überprüfen. Dies steht im Einklang mit den Grundsätzen der erklärbaren KI (XAI) und der KI-Ethik.
  • Kosten-Nutzen-Verhältnis: Die Aktualisierung der Wissensbasis für RAG ist in der Regel viel billiger und schneller als die Nachschulung oder Feinabstimmung eines großen Sprachmodells.

Beispiele aus der Praxis:

  1. Chatbots für den Kundensupport: Ein Unternehmen kann RAG nutzen, um einen Support-Chatbot zu betreiben. Wenn ein Kunde eine Frage stellt, ruft das System relevante Informationen aus den Produkthandbüchern, FAQs und Wissensdatenbankartikeln des Unternehmens ab. Das LLM nutzt dann diesen Kontext, um eine präzise und hilfreiche Antwort zu generieren, wobei eine Integration mit Plattformen wie Zendesk möglich ist.
  2. Unternehmensweite Suche und Wissensmanagement: Mitarbeiter können interne Unternehmensdokumente abfragen, die in Systemen wie SharePoint oder anderen Datenbanken gespeichert sind. RAG ruft relevante Abschnitte aus potenziell riesigen Dokumentenbeständen ab und fasst die Antworten zusammen, damit die Mitarbeiter schnell Informationen finden, ohne Dokumente manuell durchsuchen zu müssen.

RAG vs. Verwandte Konzepte

Es ist hilfreich, RAG von anderen Methoden zu unterscheiden, die zur Verbesserung der LLM-Leistung eingesetzt werden:

  • Feinabstimmung: Bei der Feinabstimmung wird ein vortrainiertes LLM an eine bestimmte Aufgabe oder einen bestimmten Bereich angepasst, indem der Trainingsprozess auf einem kleineren, spezialisierten Datensatz fortgesetzt wird. Anders als bei RAG werden bei der Feinabstimmung die internen Gewichte des Modells verändert. Die Feinabstimmung eignet sich gut für die Anpassung des Stils oder das Erlernen spezifischer Aufgaben, während die RAG besser geeignet ist, um faktisches, aktuelles Wissen einzubeziehen. Techniken wie Parameter-Efficient Fine-Tuning (PEFT) bieten Variationen dieses Ansatzes.
  • Eingabeaufforderungstechnik: Hierbei geht es um die sorgfältige Gestaltung der Eingabeaufforderung an einen LLM, um die gewünschte Antwort zu erhalten. Während RAG den abgerufenen Kontext in die Eingabeaufforderung einbezieht, konzentriert sich das Prompt-Engineering auf die manuelle Strukturierung der Anfrage und der Anweisungen des Benutzers.
  • Anreicherung von Prompts: Ähnlich wie RAG bei der Anreicherung des Prompts, kann Prompt Enrichment Kontext aus der Benutzerhistorie oder dem Konversationsfluss hinzufügen, aber RAG konzentriert sich speziell auf den Abruf von externen faktischen Daten aus einer Wissensbasis, um den Generierungsprozess zu begründen.

Frameworks wie LangChain und LlamaIndex bieten Werkzeuge zum Aufbau von RAG-Pipelines und anderen komplexen LLM-Anwendungen.

RAG stellt einen bedeutenden Schritt in Richtung der Schaffung von sachkundigeren und zuverlässigeren KI-Systemen dar, indem es die Kluft zwischen der enormen generativen Leistung von LLMs und dem Bedarf an sachlicher Genauigkeit und Zugang zu dynamischen Informationen überbrückt. Der Kerngedanke, die Generierung mit abgerufenen Informationen zu ergänzen, wird zwar in erster Linie für Texte verwendet, ist aber konzeptionell auch auf andere Bereiche anwendbar. In der Computer Vision (CV) könnte man sich beispielsweise vorstellen, relevante visuelle Beispiele oder Metadaten abzurufen, um die Bilderzeugung oder -analyse anzuleiten, auch wenn dies noch ein neues Forschungsgebiet ist. Plattformen wie Ultralytics HUB helfen bei der Verwaltung von Modellen und Datensätzen. Dies sind entscheidende Komponenten, die in künftigen multimodalen RAG-Anwendungen, die Modelle wie Ultralytics YOLO verwenden, als Wissensquellen dienen könnten. Die Erkundung verfügbarer Computer-Vision-Datensätze kann Einblicke in die Art von strukturierten Informationen geben, die für solche Systeme nützlich sein könnten.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert