Grüner Scheck
Link in die Zwischenablage kopiert

Verbesserung von KI-Anwendungen mit RAG und Computer Vision

Erfahren Sie, wie die Kombination von Retrieval-Augmented Generation (RAG) und Computer Vision KI-Systemen dabei hilft, Dokumente, Bilder und komplexe reale Inhalte zu interpretieren.

Durch den Einsatz von KI-Tools wie ChatGPT oder Gemini entwickelt sich schnell zu einer gängigen Methode zur Informationssuche. Ob Sie eine Nachricht verfassen, ein Dokument zusammenfassen oder eine Frage beantworten – diese Tools bieten oft eine schnellere und einfachere Lösung. 

Wenn Sie jedoch schon einige Male mit großen Sprachmodellen (LLMs) gearbeitet haben, sind Ihnen wahrscheinlich deren Einschränkungen aufgefallen. Bei hochspezifischen oder zeitkritischen Abfragen können sie falsche Antworten liefern, oft sogar mit Selbstbewusstsein.

Dies liegt daran, dass eigenständige LLMs ausschließlich auf den Daten basieren, mit denen sie trainiert wurden. Sie haben keinen Zugriff auf die neuesten Updates oder Fachwissen, das über diesen Datensatz hinausgeht. Daher können ihre Antworten veraltet oder ungenau sein.

Um dieses Problem zu lösen, haben Forscher eine Methode namens Retrieval-Augmented Generation (RAG) entwickelt. RAG verbessert Sprachmodelle, indem es ihnen ermöglicht, bei der Beantwortung von Abfragen aktuelle, relevante Informationen aus vertrauenswürdigen Quellen abzurufen.

In diesem Artikel untersuchen wir die Funktionsweise von RAG und wie es KI-Tools durch den Abruf relevanter, aktueller Informationen verbessert. Wir betrachten außerdem, wie es mit Computer Vision zusammenarbeitet, einem Bereich der künstlichen Intelligenz, der sich auf die Interpretation visueller Daten konzentriert. So können Systeme nicht nur Texte, sondern auch Bilder, Layouts und visuell komplexe Dokumente verstehen.

Retrieval-Augmented Generation (RAG) verstehen

Wenn wir einem KI-Chatbot eine Frage stellen, erwarten wir in der Regel mehr als nur eine gut klingende Antwort. Idealerweise sollte eine gute Antwort klar, präzise und wirklich hilfreich sein. Um dies zu gewährleisten, benötigt das KI-Modell mehr als nur Sprachkenntnisse; es benötigt auch Zugriff auf die richtigen Informationen, insbesondere bei spezifischen oder zeitkritischen Themen.

RAG ist eine Technik, die hilft, diese Lücke zu schließen. Sie verbindet die Fähigkeit des Sprachmodells, Text zu verstehen und zu generieren, mit der Fähigkeit, relevante Informationen aus externen Quellen abzurufen. Anstatt sich ausschließlich auf seine Trainingsdaten zu verlassen, bezieht das Modell bei der Formulierung seiner Antwort aktiv unterstützende Inhalte aus vertrauenswürdigen Wissensdatenbanken ein.

Abb. 1. Wichtige RAG-Anwendungsfälle. Bild vom Autor.

Stellen Sie sich das so vor, als würden Sie jemandem eine Frage stellen und ihn bitten, eine zuverlässige Quelle zu konsultieren, bevor er antwortet. Die Antwort ist zwar immer noch in seinen eigenen Worten, basiert aber auf den relevantesten und aktuellsten Informationen.

Dieser Ansatz hilft LLMs dabei, vollständigere, genauere und auf die Anfrage des Benutzers zugeschnittene Antworten zu liefern. Dadurch sind sie in realen Anwendungen, in denen es wirklich auf Genauigkeit ankommt, wesentlich zuverlässiger.

Ein Blick auf die Funktionsweise von RAG

RAG verbessert die Reaktionsfähigkeit eines großen Sprachmodells durch die Einführung zweier Schlüsselschritte: Abfrage und Generierung. Zunächst werden relevante Informationen aus einer externen Wissensdatenbank abgerufen. Anschließend werden diese Informationen genutzt, um eine wohlgeformte, kontextbezogene Antwort zu generieren.

Schauen wir uns ein einfaches Beispiel an, um zu verdeutlichen, wie dieser Prozess funktioniert. Stellen Sie sich vor, Sie nutzen einen KI-Assistenten zur Verwaltung Ihrer persönlichen Finanzen und möchten überprüfen, ob Sie Ihr Ausgabenziel für den Monat eingehalten haben.

Der Prozess beginnt, wenn Sie dem Assistenten eine Frage stellen wie: „Habe ich diesen Monat mein Budget eingehalten?“ Anstatt sich nur auf das zu verlassen, was es im Training gelernt hat, durchsucht das System mithilfe eines Retrievers Ihre aktuellsten Finanzunterlagen (wie Kontoauszüge oder Transaktionsübersichten). Es konzentriert sich darauf, die Absicht hinter Ihrer Frage zu verstehen und die relevantesten Informationen zu sammeln.

Sobald diese Informationen abgerufen sind, übernimmt das Sprachmodell. Es verarbeitet sowohl Ihre Frage als auch die aus Ihren Aufzeichnungen extrahierten Daten, um eine klare und hilfreiche Antwort zu generieren. Anstatt reine Details aufzulisten, fasst die Antwort Ihre Ausgaben zusammen und gibt Ihnen einen direkten, aussagekräftigen Einblick – beispielsweise die Bestätigung, ob Sie Ihr Ziel erreicht haben, und die Aufzeigung wichtiger Ausgabenbereiche.

Dieser Ansatz hilft dem LLM dabei, Antworten bereitzustellen, die nicht nur genau sind, sondern auch auf Ihren tatsächlichen, aktuellen Informationen basieren. Dadurch ist die Erfahrung weitaus nützlicher als bei einem Modell, das nur mit statischen Trainingsdaten arbeitet.

Abb. 2. Funktionsweise von RAG verstehen.

Der Bedarf an multimodalen RAG-Systemen

Informationen werden in der Regel nicht immer im Klartext vermittelt. Von medizinischen Scans und Diagrammen bis hin zu Präsentationsfolien und gescannten Dokumenten enthalten visuelle Elemente oft wichtige Details. Traditionelle LLMs, die hauptsächlich auf das Lesen und Verstehen von Texten ausgelegt sind, können mit solchen Inhalten Schwierigkeiten haben.

RAG kann jedoch zusammen mit Computer Vision eingesetzt werden, um diese Lücke zu schließen. Die Kombination beider Systeme bildet ein sogenanntes multimodales RAG-System – ein Setup, das sowohl Text als auch visuelle Elemente verarbeiten kann und KI-Chatbots hilft, präzisere und vollständigere Antworten zu liefern.

Kernstück dieses Ansatzes sind Vision-Language-Modelle (VLMs) , die beide Eingabetypen verarbeiten und analysieren. Dabei ruft RAG die relevantesten Informationen aus großen Datenquellen ab, während das VLM, unterstützt durch Computer Vision, Bilder, Layouts und Diagramme interpretiert.

Dies ist besonders nützlich für reale Dokumente wie gescannte Formulare, medizinische Berichte oder Präsentationsfolien, bei denen wichtige Details sowohl im Text als auch in den Bildern enthalten sein können. Bei der Analyse eines Dokuments, das neben Tabellen und Absätzen auch Bilder enthält, kann ein multimodales System beispielsweise visuelle Elemente extrahieren, eine Zusammenfassung der dargestellten Elemente erstellen und diese mit dem umgebenden Text kombinieren, um eine umfassendere und hilfreichere Antwort zu liefern.

Abb. 3. Multimodal RAG verwendet Bilder und Text, um bessere Antworten zu liefern.

Anwendungen von RAG für visuelle Daten 

Nachdem wir nun besprochen haben, was RAG ist und wie es mit Computer Vision funktioniert, schauen wir uns einige Beispiele aus der Praxis und Forschungsprojekte an, die zeigen, wie dieser Ansatz verwendet wird.

Visuelle Dokumente verstehen mit VisRAG

Angenommen, Sie möchten Erkenntnisse aus einem Finanzbericht oder einem gescannten Rechtsdokument gewinnen. Diese Dateitypen enthalten oft nicht nur Text, sondern auch Tabellen, Diagramme und Layouts zur Erläuterung der Informationen. Ein einfaches Sprachmodell könnte diese visuellen Elemente übersehen oder falsch interpretieren, was zu unvollständigen oder ungenauen Antworten führt.

VisRAG wurde von Forschern entwickelt, um diese Herausforderung zu meistern. Es handelt sich um eine VLM-basierte RAG-Pipeline, die jede Seite als Bild behandelt, anstatt nur den Text zu verarbeiten. Dadurch kann das System sowohl den Inhalt als auch seine visuelle Struktur verstehen. Dadurch kann es die relevantesten Teile finden und Antworten liefern, die klarer, präziser und auf dem gesamten Kontext des Dokuments basieren.

Abb. 4. VisRAG kann Dokumente als Bilder lesen, um Textinhalte und das Layout zu erfassen.

Visuelle Fragebeantwortung mit RAG

Visual Question Answering (VQA) ist eine Aufgabe, bei der ein KI-System Fragen zu Bildern beantwortet. Viele bestehende VQA-Systeme konzentrieren sich auf die Beantwortung von Fragen zu einem einzelnen Dokument, ohne nach zusätzlichen Informationen suchen zu müssen – dies wird als geschlossene Umgebung bezeichnet.

VDocRAG ist ein RAG-Framework mit einem realistischeren Ansatz. Es integriert VQA mit der Fähigkeit, zuerst relevante Dokumente abzurufen. Dies ist in realen Situationen nützlich, in denen sich die Frage eines Benutzers möglicherweise auf eines von vielen Dokumenten bezieht und das System das richtige finden muss, bevor es antwortet. Zu diesem Zweck verwendet VDocRAG VLMs, um Dokumente als Bilder zu analysieren und dabei sowohl deren Text- als auch ihre visuelle Struktur zu erhalten.

Dies macht VDocRAG besonders wirkungsvoll in Anwendungen wie der Unternehmenssuche, der Dokumentenautomatisierung und dem Kundensupport . Es kann Teams dabei helfen, schnell Antworten aus komplexen, visuell formatierten Dokumenten wie Handbüchern oder Richtliniendateien zu extrahieren, bei denen das Verständnis des Layouts genauso wichtig ist wie das Lesen des Textes.

Abb. 5. Der Unterschied zwischen VDocRAG- und LLM-basierten Lösungen.

Bildbeschriftung mit RAG verbessern

Bei der Bildbeschriftung handelt es sich um eine schriftliche Beschreibung des Bildgeschehens. Sie wird in verschiedenen Bereichen eingesetzt – von der Verbesserung der Zugänglichkeit von Online-Inhalten über die Bildsuche bis hin zur Unterstützung von Inhaltsmoderations- und Empfehlungssystemen.

Die Erstellung präziser Untertitel ist für KI-Modelle jedoch nicht immer einfach. Besonders schwierig ist es, wenn das Bild etwas anderes zeigt als das, womit das Modell trainiert wurde. Viele Untertitelungssysteme sind stark auf Trainingsdaten angewiesen, sodass ihre Untertitel bei unbekannten Szenen vage oder ungenau ausfallen können.

Um dieses Problem zu lösen, entwickelten Forscher Re-ViLM , eine Methode, die die Retrieval-Augmented Generation (RAG) in die Bildunterschrift integriert. Anstatt eine Bildunterschrift von Grund auf neu zu generieren, ruft Re-ViLM ähnliche Bild-Text-Paare aus einer Datenbank ab und verwendet sie zur Steuerung der Bildunterschrift-Ausgabe. 

Dieser auf Abfragen basierende Ansatz hilft dem Modell, seine Beschreibungen auf relevante Beispiele zu stützen, was sowohl die Genauigkeit als auch die Sprachverständlichkeit verbessert. Erste Ergebnisse zeigen, dass Re-ViLM durch die Verwendung realer Beispiele natürlichere, kontextbezogenere Untertitel generiert und so vage oder ungenaue Beschreibungen reduziert.

Abb. 6. Re-ViLM verbessert Bildunterschriften durch Abrufen von Bild-Text-Beispielen.

Vor- und Nachteile der Verwendung von RAG zum Verständnis visueller Daten

Hier ein kurzer Überblick über die Vorteile der Anwendung von Retrieval-Augmented-Generation-Techniken zum Abrufen und Verwenden visueller Informationen: 

  • Verbesserte Zusammenfassungsfunktionen : Zusammenfassungen können Erkenntnisse aus visuellen Elementen (wie Diagrammtrends oder Infografikelementen) und nicht nur aus Text enthalten.
  • Robustere Suche und Abfrage : Mithilfe bildbasierter Analyse können mithilfe der Abfrageschritte relevante visuelle Seiten identifiziert werden, selbst wenn im Text keine Schlüsselwörter vorhanden sind.
  • Unterstützung für gescannte, handschriftliche oder bildbasierte Dokumente: Durch VLMs aktivierte RAG-Pipelines können Inhalte verarbeiten, die für Nur-Text-Modelle unlesbar wären.

Trotz dieser Vorteile gibt es bei der Verwendung von RAG zur Arbeit mit visuellen Daten einige Einschränkungen zu beachten. Hier sind einige der wichtigsten:

  • Hoher Rechenleistungsbedarf: Sowohl die Analyse von Bildern als auch von Texten erfordert mehr Speicher und Rechenleistung, was die Leistung beeinträchtigen oder die Kosten erhöhen kann.
  • Bedenken hinsichtlich Datenschutz und Sicherheit: Visuelle Dokumente können, insbesondere in Bereichen wie dem Gesundheitswesen oder dem Finanzwesen, vertrauliche Informationen enthalten, die den Abruf und die Verarbeitung der Arbeitsabläufe erschweren.
  • Längere Inferenzzeiten: Da die visuelle Verarbeitung die Komplexität erhöht, kann das Generieren von Antworten im Vergleich zu Nur-Text-Systemen mehr Zeit in Anspruch nehmen.

Die wichtigsten Erkenntnisse

Retrieval-Augmented Generation verbessert die Beantwortung von Fragen durch große Sprachmodelle, indem sie relevante, aktuelle Informationen aus externen Quellen abrufen können. In Kombination mit Computer Vision können diese Systeme nicht nur Text, sondern auch visuelle Inhalte wie Diagramme, Tabellen, Bilder und gescannte Dokumente verarbeiten, was zu präziseren und umfassenderen Antworten führt.

Dieser Ansatz macht LLMs besser geeignet für reale Aufgaben mit komplexen Dokumenten. Durch die Kombination von Abfrage und visuellem Verständnis können diese Modelle unterschiedliche Formate effektiver interpretieren und Erkenntnisse liefern, die im praktischen Alltag nützlicher sind.

Werden Sie Teil unserer wachsenden Community ! Entdecken Sie unser GitHub-Repository und tauchen Sie tiefer in die KI-Welt ein. Sind Sie bereit für Ihre eigenen Computer-Vision-Projekte? Entdecken Sie unsere Lizenzoptionen . Erfahren Sie mehr über KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten!

LinkedIn-LogoTwitter-LogoFacebook-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens