Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Verbesserung von KI-Anwendungen mit RAG und Computer Vision

Abirami Vina

4 Min. Lesezeit

28. Mai 2025

Erfahren Sie, wie die Kombination von Retrieval-Augmented Generation (RAG) mit Computer Vision KI-Systemen hilft, Dokumente, Bilder und komplexe Inhalte der realen Welt zu interpretieren.

Die Verwendung von KI-Tools wie ChatGPT oder Gemini wird schnell zu einer gängigen Methode, um Informationen zu finden. Egal, ob Sie eine Nachricht entwerfen, ein Dokument zusammenfassen oder eine Frage beantworten, diese Tools bieten oft eine schnellere und einfachere Lösung. 

Aber wenn Sie große Sprachmodelle (LLMs) ein paar Mal verwendet haben, haben Sie wahrscheinlich ihre Grenzen bemerkt. Bei sehr spezifischen oder zeitkritischen Anfragen können sie mit falschen Antworten reagieren, oft mit Überzeugung.

Dies geschieht, weil eigenständige LLMs sich ausschließlich auf die Daten verlassen, mit denen sie trainiert wurden. Sie haben keinen Zugriff auf die neuesten Updates oder Fachkenntnisse, die über diesen Datensatz hinausgehen. Infolgedessen können ihre Antworten veraltet oder ungenau sein.

Um dies zu lösen, haben Forscher eine Methode namens Retrieval-Augmented Generation (RAG) entwickelt. RAG verbessert Sprachmodelle, indem es ihnen ermöglicht, bei der Beantwortung von Fragen aktuelle, relevante Informationen aus vertrauenswürdigen Quellen abzurufen.

In diesem Artikel werden wir untersuchen, wie RAG funktioniert und wie es KI-Tools verbessert, indem es relevante, aktuelle Informationen abruft. Wir werden uns auch ansehen, wie es zusammen mit Computer Vision funktioniert, einem Bereich der künstlichen Intelligenz, der sich auf die Interpretation visueller Daten konzentriert, um Systemen zu helfen, nicht nur Text, sondern auch Bilder, Layouts und visuell komplexe Dokumente zu verstehen.

Das Verständnis von Retrieval-Augmented Generation (RAG)

Wenn wir einem KI-Chatbot eine Frage stellen, erwarten wir im Allgemeinen mehr als nur eine Antwort, die gut klingt. Idealerweise sollte eine gute Antwort klar, genau und wirklich hilfreich sein. Um dies zu gewährleisten, benötigt das KI-Modell mehr als nur Sprachkenntnisse; es benötigt auch Zugriff auf die richtigen Informationen, insbesondere bei spezifischen oder zeitkritischen Themen.

RAG ist eine Technik, die hilft, diese Lücke zu schließen. Sie kombiniert die Fähigkeit des Sprachmodells, Text zu verstehen und zu generieren, mit der Möglichkeit, relevante Informationen aus externen Quellen abzurufen. Anstatt sich ausschließlich auf seine Trainingsdaten zu verlassen, bezieht das Modell aktiv unterstützende Inhalte aus vertrauenswürdigen Wissensdatenbanken ein, während es seine Antwort formuliert.

Abb. 1. Wichtige Anwendungsfälle für RAG. Bild vom Autor.

Sie können es sich so vorstellen, als würden Sie jemandem eine Frage stellen und ihn bitten, eine zuverlässige Referenz zu konsultieren, bevor er antwortet. Seine Antwort ist immer noch in seinen eigenen Worten, aber sie basiert auf den relevantesten und aktuellsten Informationen.

Dieser Ansatz hilft LLMs, Antworten zu geben, die vollständiger, genauer und auf die Anfrage des Benutzers zugeschnitten sind, wodurch sie in realen Anwendungen, in denen Genauigkeit wirklich wichtig ist, weitaus zuverlässiger werden.

Ein Blick darauf, wie RAG funktioniert

RAG verbessert die Reaktion eines großen Sprachmodells, indem es zwei wichtige Schritte einführt: Abruf und Generierung. Zuerst ruft es relevante Informationen aus einer externen Wissensdatenbank ab. Dann verwendet es diese Informationen, um eine gut formulierte, kontextbezogene Antwort zu generieren.

Schauen wir uns ein einfaches Beispiel an, um zu sehen, wie dieser Prozess funktioniert. Stellen Sie sich vor, Sie verwenden einen KI-Assistenten, um Ihre persönlichen Finanzen zu verwalten, und möchten überprüfen, ob Sie Ihr Ausgabenziel für den Monat eingehalten haben.

Der Prozess beginnt, wenn Sie dem Assistenten eine Frage stellen wie: "Habe ich mein Budget diesen Monat eingehalten?" Anstatt sich nur auf das zu verlassen, was er während des Trainings gelernt hat, verwendet das System einen Retriever, um Ihre neuesten Finanzunterlagen zu durchsuchen (z. B. Kontoauszüge oder Transaktionsübersichten). Es konzentriert sich darauf, die Absicht hinter Ihrer Frage zu verstehen und sammelt die relevantesten Informationen.

Sobald diese Informationen abgerufen wurden, übernimmt das Sprachmodell. Es verarbeitet sowohl Ihre Frage als auch die aus Ihren Aufzeichnungen abgerufenen Daten, um eine klare, hilfreiche Antwort zu generieren. Anstatt rohe Details aufzulisten, fasst die Antwort Ihre Ausgaben zusammen und gibt Ihnen einen direkten, aussagekräftigen Einblick – z. B. die Bestätigung, ob Sie Ihr Ziel erreicht haben, und die Aufdeckung wichtiger Ausgabenbereiche.

Dieser Ansatz hilft dem LLM, Antworten zu geben, die nicht nur genau sind, sondern auch auf Ihren realen, aktuellen Informationen basieren, was die Erfahrung weitaus nützlicher macht als ein Modell, das nur mit statischen Trainingsdaten arbeitet.

Abb. 2. Funktionsweise von RAG.

Der Bedarf an multimodalen RAG-Systemen

In der Regel werden Informationen nicht immer als Klartext weitergegeben. Von medizinischen Scans und Diagrammen bis hin zu Präsentationsfolien und gescannten Dokumenten enthalten Visualisierungen oft wichtige Details. Traditionelle LLMs, die hauptsächlich für das Lesen und Verstehen von Texten entwickelt wurden, können mit dieser Art von Inhalten Schwierigkeiten haben.

RAG kann jedoch zusammen mit Computer Vision verwendet werden, um diese Lücke zu schließen. Wenn die beiden zusammengeführt werden, bilden sie ein sogenanntes multimodales RAG-System - ein Setup, das sowohl Text als auch visuelle Elemente verarbeiten kann und KI-Chatbots hilft, genauere und vollständigere Antworten zu geben.

Im Kern dieses Ansatzes stehen Vision-Language-Modelle (VLMs), die darauf ausgelegt sind, beide Arten von Eingaben zu verarbeiten und zu interpretieren. In diesem Setup ruft RAG die relevantesten Informationen aus großen Datenquellen ab, während das VLM, unterstützt durch Computer Vision, Bilder, Layouts und Diagramme interpretiert.

Dies ist besonders nützlich für reale Dokumente wie gescannte Formulare, medizinische Berichte oder Präsentationsfolien, in denen wichtige Details sowohl im Text als auch in den Bildern zu finden sein können. Wenn man beispielsweise ein Dokument analysiert, das Bilder neben Tabellen und Absätzen enthält, kann ein multimodales System visuelle Elemente extrahieren, eine Zusammenfassung dessen erstellen, was sie zeigen, und diese mit dem umgebenden Text kombinieren, um eine vollständigere und hilfreichere Antwort zu liefern.

Abb. 3. Multimodales RAG verwendet Bilder und Text, um bessere Antworten zu liefern.

Anwendungen von RAG für visuelle Daten 

Nachdem wir nun erörtert haben, was RAG ist und wie es mit Computer Vision funktioniert, wollen wir uns einige Beispiele aus der Praxis und Forschungsprojekte ansehen, die zeigen, wie dieser Ansatz eingesetzt wird.

Visuelle Dokumente mit VisRAG verstehen

Nehmen wir an, Sie versuchen, Erkenntnisse aus einem Finanzbericht oder einem gescannten juristischen Dokument zu gewinnen. Diese Dateitypen enthalten oft nicht nur Text, sondern auch Tabellen, Diagramme und Layouts, die die Informationen erläutern. Ein einfaches Sprachmodell könnte diese visuellen Elemente übersehen oder falsch interpretieren, was zu unvollständigen oder ungenauen Antworten führt.

VisRAG wurde von Forschern entwickelt, um diese Herausforderung anzugehen. Es handelt sich um eine VLM-basierte RAG-Pipeline, die jede Seite als Bild behandelt und nicht nur den Text verarbeitet. Dadurch kann das System sowohl den Inhalt als auch seine visuelle Struktur verstehen. Infolgedessen kann es die relevantesten Teile finden und Antworten geben, die klarer, genauer und auf dem vollständigen Kontext des Dokuments basieren.

Abb. 4. VisRAG kann Dokumente als Bilder lesen, um textuelle Inhalte und das Layout zu erfassen.

Visual Question Answering mit RAG

Visual Question Answering (VQA) ist eine Aufgabe, bei der ein KI-System Fragen zu Bildern beantwortet. Viele bestehende VQA-Systeme konzentrieren sich auf die Beantwortung von Fragen zu einem einzelnen Dokument, ohne dass zusätzliche Informationen gesucht werden müssen – dies wird als Closed Setting bezeichnet.

VDocRAG ist ein RAG-Framework, das einen realistischeren Ansatz verfolgt. Es integriert VQA mit der Fähigkeit, zuerst relevante Dokumente abzurufen. Dies ist nützlich in realen Situationen, in denen die Frage eines Benutzers sich auf eines von vielen Dokumenten beziehen könnte und das System das richtige Dokument finden muss, bevor es antwortet. Dazu verwendet VDocRAG VLMs, um Dokumente als Bilder zu analysieren, wobei sowohl der Text als auch die visuelle Struktur erhalten bleiben.

Dies macht VDocRAG besonders wirkungsvoll in Anwendungen wie Enterprise Search, Dokumentenautomatisierung und Kundensupport. Es kann Teams helfen, schnell Antworten aus komplexen, visuell formatierten Dokumenten wie Handbüchern oder Richtliniendateien zu extrahieren, wobei das Verständnis des Layouts genauso wichtig ist wie das Lesen der Wörter.

Abb. 5. Der Unterschied zwischen VDocRAG- und LLM-basierten Lösungen.

Verbesserung der Bildunterschriftung mit RAG

Image Captioning umfasst die Generierung einer schriftlichen Beschreibung dessen, was in einem Bild passiert. Es wird in einer Vielzahl von Anwendungen eingesetzt - von der Verbesserung der Zugänglichkeit von Online-Inhalten über die Unterstützung der Bildersuche bis hin zur Unterstützung von Content-Moderations- und Empfehlungssystemen.

Das Generieren genauer Bildunterschriften ist jedoch nicht immer einfach für KI-Modelle. Besonders schwierig ist es, wenn das Bild etwas anderes zeigt als das, womit das Modell trainiert wurde. Viele Bildunterschriftensysteme sind stark auf Trainingsdaten angewiesen. Wenn sie also mit unbekannten Szenen konfrontiert werden, können ihre Bildunterschriften vage oder ungenau sein.

Um dies anzugehen, entwickelten Forscher Re-ViLM, eine Methode, die Retrieval-Augmented Generation (RAG) in die Bildunterschrift einbringt. Anstatt eine Bildunterschrift von Grund auf neu zu erstellen, ruft Re-ViLM ähnliche Bild-Text-Paare aus einer Datenbank ab und verwendet sie, um die Bildunterschrift zu steuern. 

Dieser Retrieval-basierte Ansatz hilft dem Modell, seine Beschreibungen in relevanten Beispielen zu verankern, wodurch sowohl die Genauigkeit als auch die Flüssigkeit verbessert werden. Erste Ergebnisse zeigen, dass Re-ViLM natürlichere, kontextbezogene Bildunterschriften generiert, indem es reale Beispiele verwendet, was dazu beiträgt, vage oder ungenaue Beschreibungen zu reduzieren.

Abb. 6. Re-ViLM verbessert Bildunterschriften durch das Abrufen von Bild-Text-Beispielen.

Vor- und Nachteile des Einsatzes von RAG zum Verständnis visueller Daten

Hier ist ein kurzer Überblick über die Vorteile der Anwendung von Retrieval-Augmented-Generation-Techniken zum Abrufen und Verwenden visueller Informationen: 

  • Verbesserte Zusammenfassungs-funktionen: Zusammenfassungen können Erkenntnisse aus visuellen Elementen (wie Diagrammtrends oder Infografikelementen) einbeziehen, nicht nur aus Text.
  • Robustere Suche und Abruf: Abrufschritte können relevante visuelle Seiten identifizieren, auch wenn keine Schlüsselwörter im Text vorhanden sind, indem bildbasiertes Verständnis verwendet wird.
  • Unterstützung für gescannte, handschriftliche oder bildbasierte Dokumente: RAG-Pipelines, die durch VLMs ermöglicht werden, können Inhalte verarbeiten, die für reine Textmodelle unlesbar wären.

Trotz dieser Vorteile gibt es noch einige Einschränkungen, die bei der Verwendung von RAG für die Arbeit mit visuellen Daten zu beachten sind. Hier sind einige der wichtigsten:

  • Hoher Rechenaufwand: Die Analyse von Bildern und Texten erfordert mehr Speicher und Rechenleistung, was die Performance verlangsamen oder die Kosten erhöhen kann.
  • Datenschutz und Sicherheitsbedenken: Visuelle Dokumente, insbesondere in Sektoren wie dem Gesundheitswesen oder dem Finanzwesen, können sensible Informationen enthalten, die den Abruf und die Verarbeitung von Arbeitsabläufen erschweren.
  • Längere Inferenzzeiten: Da die visuelle Verarbeitung die Komplexität erhöht, kann die Generierung von Antworten mehr Zeit in Anspruch nehmen als bei reinen Textsystemen.

Wesentliche Erkenntnisse

Retrieval-Augmented Generation verbessert die Art und Weise, wie große Sprachmodelle Fragen beantworten, indem sie es ihnen ermöglicht, relevante, aktuelle Informationen aus externen Quellen abzurufen. In Kombination mit Computer Vision können diese Systeme nicht nur Text, sondern auch visuelle Inhalte wie Diagramme, Tabellen, Bilder und gescannte Dokumente verarbeiten, was zu genaueren und fundierteren Antworten führt.

Dieser Ansatz macht LLMs besser geeignet für reale Aufgaben, die komplexe Dokumente beinhalten. Durch die Zusammenführung von Retrieval und visuellem Verständnis können diese Modelle verschiedene Formate effektiver interpretieren und Erkenntnisse liefern, die im praktischen Alltag nützlicher sind.

Treten Sie unserer wachsenden Community bei! Erkunden Sie unser GitHub-Repository, um tiefer in die KI einzutauchen. Sind Sie bereit, Ihre eigenen Computer-Vision-Projekte zu starten? Sehen Sie sich unsere Lizenzoptionen an. Entdecken Sie mehr über KI im Gesundheitswesen und Computer Vision im Einzelhandel auf unseren Lösungsseiten!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert