Verbesserung von KI-Anwendungen mit RAG und Computer Vision

Abirami Vina

4 Minuten lesen

Mai 28, 2025

Erfahren Sie, wie die Kombination von Retrieval-Augmented Generation (RAG) und Computer Vision KI-Systemen bei der Interpretation von Dokumenten, Bildmaterial und komplexen realen Inhalten hilft.

Die Verwendung von KI-Tools wie ChatGPT oder Gemini wird schnell zu einer gängigen Methode, um Informationen zu finden. Egal, ob Sie eine Nachricht verfassen, ein Dokument zusammenfassen oder eine Frage beantworten wollen, diese Tools bieten oft eine schnellere und einfachere Lösung. 

Aber wenn Sie schon ein paar Mal mit großen Sprachmodellen (LLMs) gearbeitet haben, sind Ihnen wahrscheinlich ihre Grenzen aufgefallen. Bei hochspezifischen oder zeitkritischen Abfragen können sie falsche Antworten geben, und das oft selbstbewusst.

Dies liegt daran, dass eigenständige LLMs sich ausschließlich auf die Daten stützen, mit denen sie trainiert wurden. Sie haben keinen Zugang zu den neuesten Aktualisierungen oder Spezialwissen, das über diesen Datensatz hinausgeht. Infolgedessen können ihre Antworten veraltet oder ungenau sein.

Um dieses Problem zu lösen, haben Forscher eine Methode entwickelt, die als Retrieval-augmented Generation (RAG) bezeichnet wird. RAG verbessert Sprachmodelle, indem es ihnen ermöglicht, bei der Beantwortung von Anfragen frische, relevante Informationen aus vertrauenswürdigen Quellen heranzuziehen.

In diesem Artikel werden wir untersuchen, wie RAG funktioniert und wie es KI-Tools durch das Abrufen relevanter, aktueller Informationen verbessert. Wir werden uns auch ansehen, wie es zusammen mit Computer Vision funktioniert, einem Bereich der künstlichen Intelligenz, der sich auf die Interpretation visueller Daten konzentriert, um Systemen zu helfen, nicht nur Text, sondern auch Bilder, Layouts und visuell komplexe Dokumente zu verstehen.

Verständnis der Retrieval-augmented Generation (RAG)

Wenn wir einem KI-Chatbot eine Frage stellen, erwarten wir in der Regel mehr als nur eine Antwort, die gut klingt. Im Idealfall sollte eine gute Antwort klar, präzise und wirklich hilfreich sein. Dafür braucht das KI-Modell nicht nur Sprachkenntnisse, sondern auch Zugang zu den richtigen Informationen, insbesondere bei spezifischen oder zeitkritischen Themen.

RAG ist eine Technik, die hilft, diese Lücke zu schließen. Sie kombiniert die Fähigkeit des Sprachmodells, Text zu verstehen und zu generieren, mit der Fähigkeit, relevante Informationen aus externen Quellen abzurufen. Anstatt sich ausschließlich auf seine Trainingsdaten zu verlassen, zieht das Modell aktiv unterstützende Inhalte aus vertrauenswürdigen Wissensdatenbanken heran, während es seine Antwort formt.

Abbildung 1. Wichtige Anwendungsfälle der RAG. Bild vom Autor.

Sie können sich das so vorstellen, als ob Sie jemandem eine Frage stellen und ihn vor der Antwort eine zuverlässige Referenz zu Rate ziehen lassen. Die Antwort ist immer noch in ihren eigenen Worten, aber sie basiert auf den wichtigsten und aktuellsten Informationen.

Dieser Ansatz hilft LLMs, Antworten zu geben, die vollständiger, genauer und auf die Anfrage des Benutzers zugeschnitten sind, was sie in realen Anwendungen, bei denen es auf Genauigkeit ankommt, viel zuverlässiger macht.

Ein Blick auf die Funktionsweise der RAG

RAG verbessert die Reaktionsfähigkeit eines großen Sprachmodells durch die Einführung von zwei Schlüsselschritten: Abruf und Erzeugung. Zunächst werden relevante Informationen aus einer externen Wissensbasis abgerufen. Dann verwendet es diese Informationen, um eine wohlgeformte, kontextbezogene Antwort zu erzeugen.

Schauen wir uns ein einfaches Beispiel an, um zu sehen, wie dieser Prozess funktioniert. Stellen Sie sich vor, Sie verwenden einen KI-Assistenten für die Verwaltung Ihrer persönlichen Finanzen und möchten überprüfen, ob Sie Ihr Ausgabenziel für den Monat eingehalten haben.

Der Prozess beginnt, wenn Sie dem Assistenten eine Frage wie "Habe ich mich diesen Monat an mein Budget gehalten?" stellen. Anstatt sich nur auf das zu verlassen, was es in der Schulung gelernt hat, nutzt das System einen Retriever, um Ihre jüngsten Finanzunterlagen (z. B. Kontoauszüge oder Transaktionsübersichten) zu durchsuchen. Es konzentriert sich darauf, die Absicht hinter Ihrer Frage zu verstehen und sammelt die relevantesten Informationen.

Sobald diese Informationen abgerufen sind, übernimmt das Sprachmodell die Arbeit. Es verarbeitet sowohl Ihre Frage als auch die Daten aus Ihren Aufzeichnungen, um eine klare, hilfreiche Antwort zu geben. Die Antwort listet keine groben Details auf, sondern fasst Ihre Ausgaben zusammen und gibt Ihnen einen direkten, aussagekräftigen Einblick - z. B. bestätigt sie, ob Sie Ihr Ziel erreicht haben, und weist auf wichtige Ausgabenbereiche hin.

Dieser Ansatz hilft dem LLM, Antworten zu geben, die nicht nur genau sind, sondern auch auf Ihren realen, aktuellen Informationen beruhen, wodurch die Erfahrung weitaus nützlicher ist als bei einem Modell, das nur mit statischen Trainingsdaten arbeitet.

Abbildung 2. Verstehen, wie die RAG funktioniert.

Der Bedarf an multimodalen RAG-Systemen

Normalerweise werden Informationen nicht immer im Klartext weitergegeben. Von medizinischen Scans und Diagrammen bis hin zu Präsentationsfolien und eingescannten Dokumenten enthalten visuelle Darstellungen oft wichtige Details. Herkömmliche LLMs, die hauptsächlich für das Lesen und Verstehen von Text ausgelegt sind, können mit dieser Art von Inhalten Schwierigkeiten haben.

RAG kann jedoch zusammen mit Computer Vision eingesetzt werden, um diese Lücke zu schließen. Wenn die beiden zusammengebracht werden, bilden sie ein sogenanntes multimodales RAG-System - eine Einrichtung, die sowohl Text als auch Bildmaterial verarbeiten kann und KI-Chatbots dabei hilft, genauere und vollständigere Antworten zu geben.

Das Herzstück dieses Ansatzes sind Vision-Language-Modelle (VLM), die so konzipiert sind, dass sie beide Arten von Eingaben verarbeiten und interpretieren können. In diesem Aufbau ruft RAG die relevantesten Informationen aus großen Datenquellen ab, während das VLM, das durch Computer Vision ermöglicht wird, Bilder, Layouts und Diagramme interpretiert.

Dies ist besonders nützlich für reale Dokumente wie gescannte Formulare, medizinische Berichte oder Präsentationsfolien, bei denen wichtige Details sowohl im Text als auch im Bildmaterial enthalten sein können. Bei der Analyse eines Dokuments, das neben Tabellen und Absätzen auch Bilder enthält, kann ein multimodales System beispielsweise visuelle Elemente extrahieren, eine Zusammenfassung ihrer Inhalte erstellen und diese mit dem umgebenden Text kombinieren, um eine vollständigere und hilfreichere Antwort zu geben.

Abbildung 3. Multimodale RAG verwendet Bilder und Text, um bessere Antworten zu geben.

Anwendungen von RAG für visuelle Daten 

Nachdem wir nun erörtert haben, was RAG ist und wie es mit Computer Vision funktioniert, wollen wir uns einige Beispiele aus der Praxis und Forschungsprojekte ansehen, die zeigen, wie dieser Ansatz eingesetzt wird.

Visuelle Dokumente mit VisRAG verstehen

Nehmen wir an, Sie versuchen, Erkenntnisse aus einem Finanzbericht oder einem gescannten juristischen Dokument zu gewinnen. Solche Dateien enthalten oft nicht nur Text, sondern auch Tabellen, Diagramme und Layouts, die zur Erklärung der Informationen beitragen. Ein einfaches Sprachmodell könnte diese visuellen Elemente übersehen oder falsch interpretieren, was zu unvollständigen oder ungenauen Antworten führt.

VisRAG wurde von Forschern entwickelt, um diese Herausforderung zu meistern. Es handelt sich um eine VLM-basierte RAG-Pipeline, die jede Seite als Bild behandelt, anstatt nur den Text zu verarbeiten. Dadurch kann das System sowohl den Inhalt als auch dessen visuelle Struktur verstehen. Infolgedessen kann es die relevantesten Teile finden und Antworten geben, die klarer und genauer sind und auf dem gesamten Kontext des Dokuments basieren.

Abbildung 4. VisRAG kann Dokumente als Bilder lesen, um den textlichen Inhalt und das Layout zu erfassen.

Visuelle Fragenbeantwortung mit RAG

Visuelle Fragenbeantwortung (VQA) ist eine Aufgabe, bei der ein KI-System Fragen zu Bildern beantwortet. Viele bestehende VQA-Systeme konzentrieren sich auf die Beantwortung von Fragen zu einem einzelnen Dokument, ohne dass nach zusätzlichen Informationen gesucht werden muss - dies wird als geschlossene Umgebung bezeichnet.

VDocRAG ist ein RAG-Rahmen, der einen realistischeren Ansatz verfolgt. Es integriert VQA mit der Fähigkeit, zuerst relevante Dokumente abzurufen. Dies ist in realen Situationen nützlich, in denen die Frage eines Benutzers auf eines von vielen Dokumenten zutreffen könnte und das System das richtige finden muss, bevor es antwortet. Zu diesem Zweck verwendet VDocRAG VLMs, um Dokumente als Bilder zu analysieren, wobei sowohl ihr Text als auch ihre visuelle Struktur erhalten bleiben.

Das macht VDocRAG besonders wirkungsvoll in Anwendungen wie Unternehmenssuche, Dokumentenautomatisierung und Kundensupport. Es kann Teams dabei helfen, schnell Antworten aus komplexen, visuell formatierten Dokumenten zu extrahieren, wie z. B. Handbüchern oder Richtliniendateien, bei denen das Verständnis des Layouts genauso wichtig ist wie das Lesen der Wörter.

Abb. 5. Der Unterschied zwischen VDocRAG und LLM-basierten Lösungen.

Verbesserung der Bildbeschriftung mit RAG

Bei der Bildbeschriftung wird eine schriftliche Beschreibung des Geschehens auf einem Bild erstellt. Sie werden in einer Vielzahl von Anwendungen eingesetzt - von der Erleichterung des Zugangs zu Online-Inhalten über die Unterstützung der Bildersuche bis hin zur Unterstützung von Inhaltsmoderations- und Empfehlungssystemen.

Allerdings ist es für KI-Modelle nicht immer einfach, genaue Beschriftungen zu erstellen. Besonders schwierig ist es, wenn das Bild etwas anderes zeigt als das, worauf das Modell trainiert wurde. Viele Untertitelungssysteme sind stark auf Trainingsdaten angewiesen. Wenn sie also mit unbekannten Szenen konfrontiert werden, können ihre Untertitel vage oder ungenau ausfallen.

Um dieses Problem zu lösen, haben die Forscher Re-ViLM entwickelt, eine Methode, die RAG (retrieval-augmented generation) in die Bildbeschriftung einbringt. Anstatt eine Bildunterschrift von Grund auf neu zu generieren, ruft Re-ViLM ähnliche Bild-Text-Paare aus einer Datenbank ab und verwendet sie, um die Ausgabe der Bildunterschrift zu steuern. 

Dieser abrufbasierte Ansatz hilft dem Modell, seine Beschreibungen auf relevante Beispiele zu stützen, was sowohl die Genauigkeit als auch den Sprachfluss verbessert. Erste Ergebnisse zeigen, dass Re-ViLM durch die Verwendung von realen Beispielen natürlichere, kontextbezogene Beschriftungen erzeugt und so dazu beiträgt, vage oder ungenaue Beschreibungen zu reduzieren.

Abb. 6. Re-ViLM verbessert Bildunterschriften durch das Abrufen von Bild-Text-Beispielen.

Vor- und Nachteile der Verwendung von RAG zum Verständnis visueller Daten

Hier ein kurzer Überblick über die Vorteile der Anwendung von Retrieval-Augmented-Generation-Techniken zum Abrufen und Verwenden visueller Informationen: 

  • Erweitert Verdichtung Fähigkeiten: Zusammenfassungen können Erkenntnisse aus visuellen Darstellungen (wie Diagrammtrends oder infografische Elemente) enthalten, nicht nur Text.
  • Robustere Suche und Abfrage: Abrufschritte können relevante visuelle Seiten identifizieren, selbst wenn die Schlüsselwörter nicht im Text vorhanden sind, indem sie bildbasiertes Verständnis nutzen.
  • Unterstützung für gescannte, handschriftliche oder bildbasierte Dokumente: RAG-Pipelines, die durch VLMs aktiviert werden, können Inhalte verarbeiten, die für reine Textmodelle unlesbar wären.

Trotz dieser Vorteile gibt es bei der Verwendung von RAG für die Arbeit mit visuellen Daten noch einige Einschränkungen zu beachten. Hier sind ein paar der wichtigsten davon:

  • Hohe Anforderungen an die Rechenleistung: Die Analyse sowohl von Bildern als auch von Text erfordert mehr Speicher und Rechenleistung, was die Leistung verlangsamen oder die Kosten erhöhen kann.
  • Datenschutz und Sicherheitsbedenken: Visuelle Dokumente, insbesondere in Sektoren wie dem Gesundheitswesen oder dem Finanzwesen, können sensible Informationen enthalten, die das Abrufen und Verarbeiten von Arbeitsabläufen erschweren.
  • Längere Inferenzzeiten: Da die visuelle Verarbeitung die Komplexität erhöht, kann die Generierung von Antworten mehr Zeit in Anspruch nehmen als bei reinen Textsystemen.

Die wichtigsten Erkenntnisse

Retrieval-augmented Generation verbessert die Art und Weise, wie große Sprachmodelle Fragen beantworten, indem sie relevante, aktuelle Informationen aus externen Quellen abrufen können. In Verbindung mit Computer Vision können diese Systeme nicht nur Text, sondern auch visuelle Inhalte wie Diagramme, Tabellen, Bilder und gescannte Dokumente verarbeiten, was zu genaueren und umfassenderen Antworten führt.

Dieser Ansatz macht LLMs besser geeignet für reale Aufgaben, die komplexe Dokumente beinhalten. Durch die Verbindung von Abfrage und visuellem Verständnis können diese Modelle verschiedene Formate effektiver interpretieren und Erkenntnisse liefern, die in praktischen, alltäglichen Kontexten nützlicher sind.

Werden Sie Teil unserer wachsenden Gemeinschaft! Erkunden Sie unser GitHub-Repository, um tiefer in die KI einzutauchen. Sind Sie bereit, Ihre eigenen Computer Vision Projekte zu starten? Informieren Sie sich über unsere Lizenzierungsoptionen. Entdecken Sie mehr über KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert